destrada@danalyticspro.co

Alfabetización de datos: la clave del éxito en la era digital

En la economía actual, la alfabetización de datos (conocida en inglés como data literacy) es cada vez más importante. Con tanta información disponible a nuestro alcance, es crucial que nuestros empleados puedan comprender y utilizar los datos de manera efectiva para que la compañía logre mantenerse competitiva. En este artículo te compartimos 3 consejos para ayudar a sus empleados a desarrollar sus habilidades de alfabetización de datos.

Fomentar la discusión de temas relacionados con los datos

Hacer preguntas a los empleados sobre los datos que ven y usan a diario puede ayudarlos a aprender más sobre cómo los están analizando e interpretando. También puede traer expertos (externos o del equipo de ciencia de datos) para que den charlas sobre temas relacionados con datos (desde conceptos básicos, como la diferencia entre la media y la mediana, hasta temas avanzando como técnicas de clustering y su utilidad para las empresas).

Esto también permite que haya una discusión abierta sobre cómo se podrían utilizar los datos para generar más valor para la compañía, y conocer si hay alguna deficiencia que requiera una capacitación más profunda en algunos temas.

Aprender a usar el análisis visual

Es importante que los empleados puedan visualizar los datos para darle sentido de manera rápida y eficiente. Para esto, se necesita que los empleados sepan previamente qué gráficas hay y cuáles son las adecuadas dependiendo del tipo de datos. También deben tener a su disposición herramientas que sean fáciles de usar y de entender. Las buenas visualizaciones permiten identificar patrones y tendencias, resumir la información para verla con mayor claridad, y transformar los datos en información inteligente para la toma de decisiones. .

Hay varias herramientas de análisis visual diferentes disponibles. Se recomienda encontrar una que se ajuste a su presupuesto y a las competencias de su equipo. Algunas opciones populares incluyen Tableau Desktop, Microsoft Excel, Power BI, Qlik, y Hojas de cálculo de Google.

Embajadores de alfabetización de datos

Seleccionar a unos embajadores que enganche a los empleados de la organización es importante para motivar al resto a hacer las cosas diferentes. A familiarizarse con nuevos conceptos y una dinámica diferente para la toma de decisiones. Este paso es el más lento de todos, pero resulta crítico para garantizar el éxito de cualquier inversión en alfabetización de datos.

Descriptiva

Analítica de datos para la toma de decisiones

La analítica es una parte esencial de la empresa moderna, y puede resultar un poco abrumador empezar a pensar qué significa exactamente. Lo primero que debes saber es que la analítica es una herramienta que ayuda a las organizaciones a tomar mejores decisiones porque se basa en datos y hechos. Lo segundo que debe saber sobre la analítica es que no se trata de una sola cosa, sino de muchas. Existen tres tipos principales de análisis: descriptivo, predictivo y prescriptivo.

Analítica descriptiva

El análisis descriptivo proporciona un resumen de los datos pasados. Se asocia con la inteligencia de negocios o BI y nos ayuda a responder a preguntas como “¿cuántos clientes tuvimos el mes pasado?” o “¿cuáles son fueron nuestras ventas por canal y por región el último semestre?”. Estas preguntas son imposibles de responder para los humanos sin tener acceso a todos estos datos y sin realizar operaciones como agregaciones, filtros, entre otros. El objetivo de esta analítica es ofrecer a los ejecutivos una imagen clara de la situación de su empresa en cada momento para que puedan tomar decisiones inteligentes sobre cómo debe avanzar y, con suerte, crecer a partir de ahí.

Analítica predictiva

El análisis predictivo predice los resultados futuros basándose en los valores y tendencias actuales. Es decir, utiliza los datos históricos para predecir lo que ocurrirá en el futuro. Por ejemplo, si dispone de datos de ventas de los últimos 36 meses y desea saber cuántos productos se venderán el próximo mes, puede utilizar el análisis predictivo para determinar esa cifra basándose en las tendencias históricas.

Analítica prescriptiva

El análisis prescriptivo determina el mejor curso de acción en función de la información disponible y el resultado deseado. Es decir, utiliza los datos históricos para recomendar las acciones que deben llevarse a cabo para que ocurra (o no ocurra) algo en específico. Por ejemplo, si quiere vender más productos de lo habitual pero no quiere que los beneficios de las ventas de disminuyan con respecto a los días anteriores (o viceversa), puede utilizar el análisis prescriptivo para recomendar qué precio es más probable que produzca los mejores márgenes de beneficios sin sacrificar demasiado volumen de ventas en general. Dado lo anterior, se entiende que este nivel de analítica es el más complejo de los tres por la gran cantidad de variables que debe tener en cuenta.

¿Por qué es importante la analítica para las organizaciones?

La analítica les ayuda a tomar mejores decisiones proporcionando información relevante que puede utilizarse para mejorar productos y servicios, aumentar las ventas, reducir costes, mejorar la eficiencia, etc.

analitica

Analítica de datos para la transformación digital

La transformación digital es el proceso de reimaginar el modelo de negocio de una empresa, utilizando las nuevas tecnologías para dar forma a una organización preparada para el futuro y capaz de competir en la economía actual. Una de esas tecnologías es la analítica de datos, la cual es una de las herramientas más importantes para la transformación digital. Ayuda a comprender mejor los negocios, tomar mejores decisiones e impulsar la productividad.

En este artículo veremos cómo la analítica de datos puede ayudarle a tomar mejores decisiones, así como su valor para mejorar la productividad y la tecnología dentro de su organización.

Identificación de las fuentes de datos

Los datos son una parte fundamental de su transformación digital. Sin embargo, identificar las fuentes de datos y comprender lo que contienen puede resultar complicado. El primer paso para ello es comprender la importancia de saber dónde buscar los datos y qué tipo de información necesita.

También tendrá que saber cómo encontrar la fuente de datos adecuada para sus necesidades. Para ello, hay que saber cómo se recopilan y almacenan los distintos tipos de datos y qué tipo de herramientas existen para extraerlos de su fuente y convertirlos en algo utilizable por los sistemas o aplicaciones de su organización.

Explorar las tecnologías emergentes y las mejores prácticas

Las tecnologías emergentes cambian constantemente, y es especialmente importante no perderlas de vista en el contexto de la transformación digital. Las tecnologías emergentes pueden utilizarse para resolver problemas, crear nuevas oportunidades e impulsar la innovación.

Por ejemplo, el aprendizaje automático (machine learning) es una de esas tecnologías emergentes cuya popularidad ha aumentado drásticamente en los últimos años. De hecho, el aprendizaje automático se ha vuelto tan popular que las encuestas muestran que muchas organizaciones lo están utilizando o planean utilizarlo dentro de sus organizaciones en el próximo año o dos (Gartner). Esto significa que debe mantenerse al día sobre lo que estas tecnologías pueden hacer por su organización y cómo las mejores prácticas le ayudarán a maximizar su impacto.

Medición del rendimiento

La medición es fundamental para la transformación digital. Es una parte crítica del proceso, y puede lograrse disponiendo de datos y de un marco tecnológico.

El análisis de datos le proporciona información sobre su negocio que le ayuda a identificar oportunidades de crecimiento. Esto significa saber qué clientes le compran, cuánto gastan, con qué frecuencia lo hacen y dónde viven o trabajan, y utilizar esta información para dirigirse a ellos de forma más eficaz con campañas publicitarias que respondan directamente a sus necesidades.

Utilizar la tecnología para impulsar la transformación digital

Si quiere impulsar la transformación digital, la tecnología puede ser un factor clave. Puede ayudarle a tomar mejores decisiones, ser más productivo y eficiente y hacer que su organización sea más eficaz.

La tecnología no es el único elemento de la transformación digital, pero es uno importante que debe tenerse en cuenta como parte de cualquier estrategia de cambio.

Conclusión

El análisis de datos es una poderosa herramienta para la transformación digital y debería estar en el centro de cualquier estrategia empresarial. La capacidad de analizar datos puede ayudar a las empresas a comprender mejor a sus clientes, tomar mejores decisiones, mejorar sus servicios y productos y, en última instancia, aumentar los ingresos.

limpiar-datos-codigo

7 elements to consider when cleaning data

Introducción

Limpiar datos es uno de las fases más largas e importantes que un científico de datos o analista de datos realiza en su día a día. Algunos afirman que esta fase junto al preprocesamiento de los datos puede ser entre el 60%-80% del tiempo de un proyecto de analítica. Y es tan importante porque sabemos que si introducimos a un modelo estadístico o de machine learning datos basura, obtenemos basura, y lo mismo aplica si aplicamos analítica descriptiva. Por lo tanto, conocer qué debemos buscar al momento de limpiar los datos es clave para hacer una buena tarea, en este post te contamos 7 elementos a tener en cuenta al limpiar tus datos.

Elemento No. 1 Revisar errores de digitación

Este tipo de error sucede normalmente cuando trabajamos con raw data que se ha capturado mediante encuestas o información que se ha transcrito. Veamos unos ejemplos:

Convenciones de denominaciónNYC vs New York vs Nueva York
Representaciones diferentesSi, si, Sí, sí
Espacios vacíos“Mujer” vs “Mujer ” vs “ Mujer” vs “ Mujer ”
Tabla 1. Ejemplos de problemas de digitación

Este error generalmente lo podemos visualizar cuando tabulamos cada uno de los campos. Frecuentemente se resuelve utilizando expresiones regulares y reemplazando valores por los correctos donde aplique.

Elemento No. 2 Identificar si hay valores perdidos

Este problema en la limpieza de datos es uno de los más frecuentes. No hay una solución estándar. Lo recomendable es identificar los valores perdidos (ejemplo de estos pueden ser 99, “”, NA, depende de la organización como los codifica y es por eso que es importante tener el diccionario de datos disponible).

Posterior a eso, busca entender por qué hay valores perdidos. Hay decenas de motivos para que esto suceda, uno de ellos puede ser que es resultado de un patrón de salto en una encuesta. Por ejemplo, la persona respondió que no tiene hijos y por lo tanto no respondió cuántos hijos tiene. En este ejemplo, lo correcto sería poner cero en este caso para dicha persona en vez de un valor perdido.

Finalmente, decida el tratamiento que va a recibir los valores perdidos de cada campo. En algunos casos, lo mejor será reconocer que existe y no hacer nada al respecto, en otros puede ser no tener en cuenta dichas observaciones o imputar los valores perdidos.

Elemento No. 3 Encontrar si hay observaciones duplicadas

Este problema es importante identificarlo porque de esta forma evitamos la doble contabilización. Las observaciones duplicadas pueden ser a nivel de la fila, es decir una fila es exactamente igual a otra y en este caso lo mejor es eliminarla. Normalmente todas las herramientas de análisis de datos tienen una función específica para detectar este tipo de duplicidad.

En otros casos puede ser que sea un conjunto de campos idénticos. Por ejemplo, en una base de datos de facturas médicas es frecuente encontrar el número de factura e identificación del paciente duplicado varias veces, una vez por cada ítem (medicamento, procedimiento, ayuda diagnóstica) que ha recibido, lo que no es común es que le hayan hecho dos apendicectomías el mismo día porque solo tenemos un apéndice. Por lo tanto en el primer ejemplo, no eliminamos observaciones pero en el segundo debemos revisar con mayor detalle qué es lo que sucedió.  

Elemento No. 4 Revisar si el formato coincide el tipo de variables

Este es un problema de limpieza fácil de identificar porque cuando intentemos utilizar estadísticas descriptivas se presentarán errores si no tenemos el formato correcto. Es importante corregir este problema para poder implementar modelos e interpretar correctamente los resultados. Para poder identificar este problema es importante saber la diferencia entre una variable cualitativa y cuantitativa, los niveles de medición de estas, y los formatos que utiliza la herramienta que estás utilizando para almacenar los datos.

Elemento No. 5 Encontrar valores inconsistentes

Al igual que los valores perdidos, no hay una receta exacta para encontrar valores inconsistentes, depende del conocimiento y el razonamiento lógico del analista. La mejor forma para encontrar los valores inconsistentes es haciéndose preguntas sobre las relaciones entre los campos y explorando la base de datos.

Por ejemplo, suponga que usted tiene el campo edad y el campo fecha de nacimiento, una forma de ver si hay valores inconsistentes es calcular la edad a partir de la fecha de nacimiento y comparar con la edad reportada.

EdadFecha de nacimientoEdad calculada
271990/01/1727
211995/05/1421
6011/11/195660
477/04/194077
3712/08/198037
Tabla 2. Ejemplo de identificación de valores inconsistentes

Frecuentemente se resuelve reemplazando el valor inconsistente con un valor perdido o a partir de información de otros campos. Por ejemplo, e el caso de la tabla, si otra de las columnas indicara si la persona está recibiendo pensión y este individuo respondió que sí, podría intuirse que la edad correcta es 77.

Elemento No. 6 Revisar si hay valores inválidos

Los valores inválidos o fuera del rango los encontramos utilizando estadísticas descriptivas como las medidas de tendencia central, mínimo y el máximo en el caso de variables cuantitativas, y para las variables cualitativas las hallamos tabulando los datos. Los identificamos fácilmente revisando los rangos expuestos en el diccionario de datos, y en caso de no existir debemos utilizar nuestro razonamiento lógico. Por ejemplo, si obtenemos las estadísticas descriptivas de la edad y encontramos una edad negativa, sabemos que hay un valor inválido. Lo más probable es que debamos reemplazarlos con un valor perdido.

Elemento No. 7 Validar si hay valores sin referencia en el diccionario de variables

El diccionario de variables es una guía para entender y explorar los datos. No todas las organizaciones lo tienen y es recomendable empezar a trabajar en este aspecto cuando antes. Lo anterior puesto que muchas veces los campos cualitativos se codifican con números para facilitar su almacenamiento. Luego solo cuando tenemos el diccionario de variable es que podemos identificar si habido un error.

Por ejemplo, si el diccionario de variables indica que el estado civil solo puede tomar valores del 1 al 5, y encontramos un 8 entonces hemos encontrado un valor sin referencia. Lo mejor que podemos hacer es revisar con quienes hayan trabajado previamente con la base de datos, ellos nos pueden indicar si ha habido un cambio de recodificación y este fue un elemento que se quedó con la codificación anterior. Tal vez no encontremos una respuesta y en ese caso esto se convertirá en un valor perdido.

Conclusiones sobre limpiar datos

La limpieza de datos es un proceso que es una ciencia y un arte, especialmente cuando tienes que encontrar valores inconsistentes, definir qué hacer con los valores perdidos o hallar observaciones duplicadas. En muchos casos no hay una respuesta única a qué hacer cuando se presentan estos problemas, con la experiencia y un buen conocimiento del negocio verás que cada vez es más fácil hacer una buena limpieza.