Ciencia de Datos

limpiar-datos-codigo

7 elementos a tener en cuenta al limpiar datos

Introducción

Limpiar datos es uno de las fases más largas e importantes que un científico de datos o analista de datos realiza en su día a día. Algunos afirman que esta fase junto al preprocesamiento de los datos puede ser entre el 60%-80% del tiempo de un proyecto de analítica. Y es tan importante porque sabemos que si introducimos a un modelo estadístico o de machine learning datos basura, obtenemos basura, y lo mismo aplica si aplicamos analítica descriptiva. Por lo tanto, conocer qué debemos buscar al momento de limpiar los datos es clave para hacer una buena tarea, en este post te contamos 7 elementos a tener en cuenta al limpiar tus datos.

Elemento No. 1 Revisar errores de digitación

Este tipo de error sucede normalmente cuando trabajamos con raw data que se ha capturado mediante encuestas o información que se ha transcrito. Veamos unos ejemplos:

Convenciones de denominaciónNYC vs New York vs Nueva York
Representaciones diferentesSi, si, Sí, sí
Espacios vacíos“Mujer” vs “Mujer ” vs “ Mujer” vs “ Mujer ”
Tabla 1. Ejemplos de problemas de digitación

Este error generalmente lo podemos visualizar cuando tabulamos cada uno de los campos. Frecuentemente se resuelve utilizando expresiones regulares y reemplazando valores por los correctos donde aplique.

Elemento No. 2 Identificar si hay valores perdidos

Este problema en la limpieza de datos es uno de los más frecuentes. No hay una solución estándar. Lo recomendable es identificar los valores perdidos (ejemplo de estos pueden ser 99, “”, NA, depende de la organización como los codifica y es por eso que es importante tener el diccionario de datos disponible).

Posterior a eso, busca entender por qué hay valores perdidos. Hay decenas de motivos para que esto suceda, uno de ellos puede ser que es resultado de un patrón de salto en una encuesta. Por ejemplo, la persona respondió que no tiene hijos y por lo tanto no respondió cuántos hijos tiene. En este ejemplo, lo correcto sería poner cero en este caso para dicha persona en vez de un valor perdido.

Finalmente, decida el tratamiento que va a recibir los valores perdidos de cada campo. En algunos casos, lo mejor será reconocer que existe y no hacer nada al respecto, en otros puede ser no tener en cuenta dichas observaciones o imputar los valores perdidos.

Elemento No. 3 Encontrar si hay observaciones duplicadas

Este problema es importante identificarlo porque de esta forma evitamos la doble contabilización. Las observaciones duplicadas pueden ser a nivel de la fila, es decir una fila es exactamente igual a otra y en este caso lo mejor es eliminarla. Normalmente todas las herramientas de análisis de datos tienen una función específica para detectar este tipo de duplicidad.

En otros casos puede ser que sea un conjunto de campos idénticos. Por ejemplo, en una base de datos de facturas médicas es frecuente encontrar el número de factura e identificación del paciente duplicado varias veces, una vez por cada ítem (medicamento, procedimiento, ayuda diagnóstica) que ha recibido, lo que no es común es que le hayan hecho dos apendicectomías el mismo día porque solo tenemos un apéndice. Por lo tanto en el primer ejemplo, no eliminamos observaciones pero en el segundo debemos revisar con mayor detalle qué es lo que sucedió.  

Elemento No. 4 Revisar si el formato coincide el tipo de variables

Este es un problema de limpieza fácil de identificar porque cuando intentemos utilizar estadísticas descriptivas se presentarán errores si no tenemos el formato correcto. Es importante corregir este problema para poder implementar modelos e interpretar correctamente los resultados. Para poder identificar este problema es importante saber la diferencia entre una variable cualitativa y cuantitativa, los niveles de medición de estas, y los formatos que utiliza la herramienta que estás utilizando para almacenar los datos.

Elemento No. 5 Encontrar valores inconsistentes

Al igual que los valores perdidos, no hay una receta exacta para encontrar valores inconsistentes, depende del conocimiento y el razonamiento lógico del analista. La mejor forma para encontrar los valores inconsistentes es haciéndose preguntas sobre las relaciones entre los campos y explorando la base de datos.

Por ejemplo, suponga que usted tiene el campo edad y el campo fecha de nacimiento, una forma de ver si hay valores inconsistentes es calcular la edad a partir de la fecha de nacimiento y comparar con la edad reportada.

EdadFecha de nacimientoEdad calculada
271990/01/1727
211995/05/1421
6011/11/195660
477/04/194077
3712/08/198037
Tabla 2. Ejemplo de identificación de valores inconsistentes

Frecuentemente se resuelve reemplazando el valor inconsistente con un valor perdido o a partir de información de otros campos. Por ejemplo, e el caso de la tabla, si otra de las columnas indicara si la persona está recibiendo pensión y este individuo respondió que sí, podría intuirse que la edad correcta es 77.

Elemento No. 6 Revisar si hay valores inválidos

Los valores inválidos o fuera del rango los encontramos utilizando estadísticas descriptivas como las medidas de tendencia central, mínimo y el máximo en el caso de variables cuantitativas, y para las variables cualitativas las hallamos tabulando los datos. Los identificamos fácilmente revisando los rangos expuestos en el diccionario de datos, y en caso de no existir debemos utilizar nuestro razonamiento lógico. Por ejemplo, si obtenemos las estadísticas descriptivas de la edad y encontramos una edad negativa, sabemos que hay un valor inválido. Lo más probable es que debamos reemplazarlos con un valor perdido.

Elemento No. 7 Validar si hay valores sin referencia en el diccionario de variables

El diccionario de variables es una guía para entender y explorar los datos. No todas las organizaciones lo tienen y es recomendable empezar a trabajar en este aspecto cuando antes. Lo anterior puesto que muchas veces los campos cualitativos se codifican con números para facilitar su almacenamiento. Luego solo cuando tenemos el diccionario de variable es que podemos identificar si habido un error.

Por ejemplo, si el diccionario de variables indica que el estado civil solo puede tomar valores del 1 al 5, y encontramos un 8 entonces hemos encontrado un valor sin referencia. Lo mejor que podemos hacer es revisar con quienes hayan trabajado previamente con la base de datos, ellos nos pueden indicar si ha habido un cambio de recodificación y este fue un elemento que se quedó con la codificación anterior. Tal vez no encontremos una respuesta y en ese caso esto se convertirá en un valor perdido.

Conclusiones sobre limpiar datos

La limpieza de datos es un proceso que es una ciencia y un arte, especialmente cuando tienes que encontrar valores inconsistentes, definir qué hacer con los valores perdidos o hallar observaciones duplicadas. En muchos casos no hay una respuesta única a qué hacer cuando se presentan estos problemas, con la experiencia y un buen conocimiento del negocio verás que cada vez es más fácil hacer una buena limpieza.

Científico de Datos

¿Qué es Data Analytics, Big Data o Data Science, y por qué un científico de datos tiene el trabajo más sexy del mundo en el siglo XXI?

Probablemente en los últimos años has oído o leído en algún medio de comunicación el término Ciencia de Datos (Data Science), Analítica de Datos (Data Analytics) o Big Data. Forbes por ejemplo ha publicado que el científico de datos ha sido catalogado como el mejor trabajo en Estados Unidos por tres años seguidos, cuya mediana de salario es 110.000 dólares al año (con una tasa de cambio de $2851 pesos/dólar) eso es alrededor de 313.61 millones de pesos al año o 26 millones de pesos mensuales (Davenport & Patil, 2012).

Si vives en Colombia de pronto has leído que Colombia es el noveno país del mundo con una política de Big Data, después de Estados Unidos (2012); Australia (2013); Reino Unido (2013); Corea del Sur (2013), Japón (2013); Unión Europea (2014), Francia (2014) y China en 2014 (Departamento Nacional de Planeación (DNP), 2017. [note] Algo que notarás en todas nuestras entradas es que constantemente referenciamos nuestros escritos a fuentes oficiales, artículos indexados, libros y medios de comunicación. Espero que te sirvan para complementar la información que buscas, también es para que sepas que no nos sacamos la información que compartimos del sombrero, y que de éstas surjan nuevas inquietudes o sugerencias que puedas compartir con nosotros ?.

O has leído sobre que el Ministerio de Tecnologías de Información y Comunicaciones (MinTIC) de Colombia abrió una convocatoria a principios de 2018 para formar a 200 personas en analítica de datos y TI (MinTIC, 2017).

Ahora si eres como yo (yo hace unos años), todo lo que te acabo de decir carece de sentido para ti. Eso y nada es casi que es lo mismo. Y te entiendo, si escribes en Google: Data Analytics, ¡te aparecen 666,000,000 de resultados!

Bueno el propósito de este blog es intentar responder preguntas como la del título de esta primera entrada y muchas otras que están relacionadas con este tema. Y tal vez te preguntes, ¿por qué abrimos este blog? La respuesta es que nos apasiona este tema y creemos que es importante socializarlo de una forma sencilla y agradable que les permita a otras personas (estudiantes, profesionales, empresarios, jubilados, realmente puede ser cualquier persona puesto que hay datos en todas partes) entusiasmarse por él.

Así que iniciemos una breve conceptualización de varios términos.

Campos de la Ciencia de Datos
Fuente: Dahl Winters (2015)

Ciencia de datos

Primero, qué es la Ciencia de Datos. ¿Es algo 100% nuevo? No. Se asocia con analítica de los negocios, inteligencia de negocios, analítica de datos, entre otros términos (pronto tendremos entradas para estos términos también).

La ciencia de datos se aplica hace mucho tiempo, pero solo recientemente se le acuño ese nombre  En 2008 D.J. Patil y Jeff Hammerarcacher acuñaron el término. En ese momento, el primero lideraba el área de datos y análisis en LinkedIn y el segundo en Facebook. ¿A qué? Bueno Foreman (2014) la define como la ciencia que transformar los datos, mediante matemáticas y estadística, en revelaciones valiosas, decisiones y productos. Yo le agregaría otros mediante· a esa definición tales como: ingeniería de datos, reconocimiento de patrones y aprendizaje avanzado de computación, visualización, modelado de incertidumbre, almacenamiento de datos, y computación de alto rendimiento (HPC). Y cómo se relaciona la analítica de datos con la ciencia de datos, pues ésta es la encargada de extraer esas valiosas intuiciones o revelaciones de los datos, mediante el uso muchas herramientas, sobre las cuales te contaremos más adelante.

¿Y Big Data?

De acuerdo, a las Naciones Unidas en 2012 el Big Data se refiere al volumen masivo de datos, tanto estructurados (ej.: bases de datos) como no estructurados (ej.: redes sociales, tweets, videos), que son demasiado grandes y difíciles de procesar con las bases de datos y el ‘software’ tradicional (UN Global Pulse, 2012). Doug Laney articuló tres palabras claves para definir Big Data: volumen, velocidad y variedad (SAS, s.f.). Lo del volumen masivo es complicado entenderlo en el lenguaje de los ingenieros de sistemas (volumen masivo = muchos terabytes o exabytes de información) pero lo podemos convertir en objetos tangibles que conocemos; por ejemplo, el volumen total de los datos de los 16 ministerios de Colombia (1000 terabytes = Big Data) cabe en 222,000 DVD (DNP, 2016).

El Big Data trae varios retos en términos de almacenamiento, procesamiento, seguridad, entre otros aspectos, y eso se da especialmente porque crece de manera exponencial y es sumamente variado (bases de datos, grabaciones de video o voz, imágenes, redes sociales, entre otras). Se estima que cada minuto se suben 48 horas de video en YouTube, 527 páginas web se crean, 204,166,667 emails son enviados, 3,600 fotos se compartes en Instagram, y 684,478 individuos comparten contenido en Facebook (Simon, 2013).

¿El trabajo máx sexy del mundo?

Para finalizar, de acuerdo a la edición de octubre de 2012 de la revista Harvard Business Review  el científico de datos tenía (y sigue teniendo) el trabajo más sexy del mundo en el siglo XXI porque la demanda por estos profesionales sobrepasa la oferta actual, eso los hace valiosos y por eso en este momento son de los profesionales mejor pagados en el mundo. Por ejemplo, en Estados Unidos se estimaba que para este año (2018) habría un déficit entre 140 y 190 mil profesionales de esta rama (Simon, 2013). Y qué hace este profesional, de acuerdo con la definición de IBM:

“Lo que distingue a los científicos de datos es la perspicacia en los negocios, junto con su capacidad para comunicar los hallazgos encontrados tanto a las personas administrativas como a las de TI, de tal forma que pueden influir cómo una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas de negocios. Escogerán los problemas correctos que tienen más valor para la organización”. (Traducción propia)

Es decir, un científico de datos debe reunir habilidades y conocimiento del negocio (como un administrador de empresas o gerente de la organización), de un ingeniero de sistemas y de un estadístico.

La realidad es que es poco probable que una sola persona sepa a profundidad de las últimas dos áreas, y más difícil aún que tenga conozca sobre varios sectores productivos. Es por eso por lo que hoy en día, los científicos de datos son grupos de individuos de varias disciplinas que forman una sinergia para cumplir con el papel del científico de datos, aplicando la ciencia de datos y ofreciéndole a las organizaciones el valor de los datos mediante la analítica de datos.

Referencias

  1. Davenport, T.H. & Patil D.J.(2012, octubre). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. Recuperado de https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
  2. Departamento Nacional de Planeación (2016, marzo). “Colombia entra a las grandes ligas del Big Data”: Simón Gaviria Muñoz. Recuperado de https://www.dnp.gov.co/Paginas/%E2%80%9CColombia-entra-a-las-grandes-ligas-del-Big-Data%E2%80%9D–Sim%C3%B3n-Gaviria-Mu%C3%B1oz-.aspx
  3. Departamento Nacional de Planeación (2017, octubre). Colombia será el noveno país del mundo en tener una política de Big Data: DNP. Recuperado de https://www.dnp.gov.co/Paginas/Colombia-ser%C3%A1-el-noveno-pa%C3%ADs-del-mundo-en-tener-una-pol%C3%ADtica-de-Big-Data-DNP-.aspx
  4. Foreman, J. W. (2014). Data smart: Using data science to transform information into insight. John Wiley & Sons.
  5. Ministerio de Tecnologías de Información y Comunicaciones (2017, diciembre). 200 ciudadanos podrán formarse en analítica de datos y TI con la convocatoria de Científicos de Datos. Recuperado de http://www.mintic.gov.co/portal/604/w3-article-62098.html
  6.  SAS. (s.f.). Big Data: what is it and why it matters. Recuperado de https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
  7. Simon, P. (2013). Too big to ignore: the business case for big data. John Wiley & Sons.
  8. UN Global Pulse (2012). Big Data for Development: Challenges and Opportunities. Recuperado de http://www.unglobalpulse.org/projects/BigDataforDevelopmet