Bueno, rápido y barato: cómo hacer ciencia de datos sin datos

Traducción al español del artículo sobre ciencia de datos escrito por Matt Brems

bueno rápido baratocienciaTraducción Español
15 junio, 2020 Traducción del inglés a español "Bueno, rápido y barato" , artículo de Matt Brems
15 junio, 2020 Traducción del inglés a español "Bueno, rápido y barato" , artículo de Matt Brems

No es sencillo encontrar un traductor bueno, rápido y barato. Tampoco es sencillo para los científicos realizar investigaciones buenas, rápidas y baratas cuando faltan datos. De eso, de los retos para hacer ciencia cuando faltan datos, va este artículo sobre ciencia titulado «Good, Fast, Cheap: How to do Data Science with Missing Data» que uno de nuestros traductores en prácticas ha traducido gratis con carácter divulgativo. Puedes leer el artículo original publicado por Matt Brems en
https://medium.com/@matthew.w.brems/good-fast-cheap-how-to-do-data-science-with-missing-data-8ada4b0268b5

* * *

Al hacer cualquier tipo de problema de ciencia de datos, inevitablemente nos encontraremos con datos faltantes.

Digamos que estamos entrevistando a 100 personas y registramos sus respuestas en un papel. Una de nuestras preguntas, en concreto, es sobre los ingresos de la persona. Consideremos algunos ejemplos de datos que faltan:

Cada “NA” representa un valor faltante, pero no sabemos cómo lo hemos obtenido

  • Alguien se niega a responder a nuestra pregunta sobre los ingresos. Podría darse el caso que los ingresos de esta persona sean bajos, por lo que no se sienten cómodos compartiéndolos.
  • Alguien más se niega a responder a la misma pregunta. Se trata de alguien más joven, por lo que quizás son menos propensos a responder a ciertas preguntas.
  • Uno de los sujetos no se presentó a la entrevista, por lo que no pudimos obtener sus datos.
  • Después de las entrevistas, derramo mi café sin querer, haciendo que se desdibuje la parte superior de la página, haciendo ilegibles las primeras filas de nuestros datos.

Podemos pensar que estamos a salvo si recogemos datos en un ordenador… pero eso no es del todo cierto. ¿Y si recogemos información de un sensor que cuenta los coches que pasan por una autopista de peaje cada hora, y el sensor se rompe? ¿Qué pasa si un ordenador está recogiendo datos de temperatura, pero la temperatura cae por debajo del valor mínimo que el ordenador puede medir?

En un conjunto de datos, veríamos cada uno de estos valores perdidos como un NA. Sin embargo, estos NA los han causado cosas muy diferentes. Como resultado, la manera en que analizamos los datos que contienen estos valores perdidos debe ser diferente.

Entonces, ¿cómo hacemos ciencia de datos si nos faltan datos?

Bueno, como siempre le digo a mis estudiantes de General Assembly: depende.

Para ayudarnos a tomar una decisión, podemos usar el diagrama «bueno, rápido y barato» de la gestión de proyectos. Aunque no lo conocieras, la idea es bastante sencilla.

Triángulo de gestión de proyectos

  • Puedes hacer un proyecto que se haga rápido y barato… pero no será bueno.
  • Puedes hacer un proyecto que sea bueno y barato… pero no se hará rápido.
  • Puedes hacer un proyecto que sea bueno y se haga rápido… pero no será barato.
  • Es básicamente imposible tener un proyecto que se pueda hacer rápido y barato y que además sea bueno.

Esa misma idea se aplica a la forma en que tratamos con los datos que faltan.

Estrategia 1: Podemos encargarnos de los datos faltantes obviando toda observación que contenga un valor faltante.

  • Nuestro análisis es rápido: En Python, es solo una línea de código.
  • Nuestro análisis es barato: No necesitamos dinero adicional para hacerlo.
  • Pero no es muy bueno: Al obviar todas nuestras observaciones que contienen un valor faltante, estamos perdiendo datos y también haciendo suposiciones peligrosas. Técnicas aún más sofisticadas como la sustitución de los datos que faltan por la media o la moda tendrán resultados drásticos y negativos en nuestro análisis.

Estrategia 2: Podemos encargarnos de los datos que faltan evitando perder esos datos por adelantado.

  • Nuestro análisis es rápido: En el momento de analizar nuestros datos, no tenemos que hacer nada especial porque ya están completos. Esto equivale a, efectivamente, cero líneas de código.
  • Nuestro análisis es bueno: No tenemos ninguna incertidumbre en nuestros resultados si realmente contamos con el 100 % de los datos previstos.
  • Pero no es muy barato: Invertir dinero para recopilar todos nuestros datos puede ser muy, muy caro.

Estrategia 3: Podemos encargarnos de los datos que faltan utilizando técnicas sofisticadas, como el enfoque de submodelos de patrones o la imputación múltiple.

  • Nuestro análisis es barato: No necesitamos gastar dinero adicional.
  • Nuestro análisis es bueno: Estamos estimando adecuadamente la incertidumbre de nuestros resultados o estamos renunciando por completo a las técnicas de imputación.
  • Pero no es muy rápido: Nuestro análisis será más elaborado, por lo que probablemente tardemos mucho más.

¿Qué enfoque es el adecuado para tu organización?

Bueno… ¡depende!

  • ¿Cuánto tiempo tienes para hacer tu análisis?
  • ¿De cuánto dinero dispones?
  • ¿Cuáles son las ventajas y desventajas de comparar la calidad, el tiempo y el dinero?

 

 

 

[Nota del Traductor]

Traducción de «Bueno, rápido y barato»

Un buen análisis científico requiere de datos de calidad para que su resultado sea fiable y se ajuste a la realidad estudiada. Tanto en ciencias sociales como en ciencias naturales, es complejo obtener siempre todos los datos necesarios para conseguir que un proyecto sea 100% riguroso, no se demore en el tiempo y no sea caro. El artículo desarrolla esa idea, cómo conciliar que un proyecto científico reúna la condiciones de calidad, rapidez y económico, Para traducir Bueno, rápido y barato hemos contado con Mario Rodríguez, estudiante de traducción que forma parte del programa de prácticas de Ibidem Group en Madrid. Si necesitas una traducción no dudes en consultar nuestros precios de traducción más baratos.

Bueno, rápido y barato: cómo hacer ciencia de datos sin datos
3 (60%) 1 vote

Articulos relacionados


Traducción de Inglés a Español de un artículo sobre filosofía y teología: teoremas sobre la existencia de Dios

Traducción de Inglés a Español de un artículo sobre el Covid-19, publicado en marzo 2020, antes de que la pandemia explotara ...

Traducción de un artículo sobre riesgos laborales que ofrece consejos sobre la ergonomia de tu puesto de trabajo