Data Analytics

limpiar-datos-codigo

7 elementos a tener en cuenta al limpiar datos

Introducción

Limpiar datos es uno de las fases más largas e importantes que un científico de datos o analista de datos realiza en su día a día. Algunos afirman que esta fase junto al preprocesamiento de los datos puede ser entre el 60%-80% del tiempo de un proyecto de analítica. Y es tan importante porque sabemos que si introducimos a un modelo estadístico o de machine learning datos basura, obtenemos basura, y lo mismo aplica si aplicamos analítica descriptiva. Por lo tanto, conocer qué debemos buscar al momento de limpiar los datos es clave para hacer una buena tarea, en este post te contamos 7 elementos a tener en cuenta al limpiar tus datos.

Elemento No. 1 Revisar errores de digitación

Este tipo de error sucede normalmente cuando trabajamos con raw data que se ha capturado mediante encuestas o información que se ha transcrito. Veamos unos ejemplos:

Convenciones de denominaciónNYC vs New York vs Nueva York
Representaciones diferentesSi, si, Sí, sí
Espacios vacíos“Mujer” vs “Mujer ” vs “ Mujer” vs “ Mujer ”
Tabla 1. Ejemplos de problemas de digitación

Este error generalmente lo podemos visualizar cuando tabulamos cada uno de los campos. Frecuentemente se resuelve utilizando expresiones regulares y reemplazando valores por los correctos donde aplique.

Elemento No. 2 Identificar si hay valores perdidos

Este problema en la limpieza de datos es uno de los más frecuentes. No hay una solución estándar. Lo recomendable es identificar los valores perdidos (ejemplo de estos pueden ser 99, “”, NA, depende de la organización como los codifica y es por eso que es importante tener el diccionario de datos disponible).

Posterior a eso, busca entender por qué hay valores perdidos. Hay decenas de motivos para que esto suceda, uno de ellos puede ser que es resultado de un patrón de salto en una encuesta. Por ejemplo, la persona respondió que no tiene hijos y por lo tanto no respondió cuántos hijos tiene. En este ejemplo, lo correcto sería poner cero en este caso para dicha persona en vez de un valor perdido.

Finalmente, decida el tratamiento que va a recibir los valores perdidos de cada campo. En algunos casos, lo mejor será reconocer que existe y no hacer nada al respecto, en otros puede ser no tener en cuenta dichas observaciones o imputar los valores perdidos.

Elemento No. 3 Encontrar si hay observaciones duplicadas

Este problema es importante identificarlo porque de esta forma evitamos la doble contabilización. Las observaciones duplicadas pueden ser a nivel de la fila, es decir una fila es exactamente igual a otra y en este caso lo mejor es eliminarla. Normalmente todas las herramientas de análisis de datos tienen una función específica para detectar este tipo de duplicidad.

En otros casos puede ser que sea un conjunto de campos idénticos. Por ejemplo, en una base de datos de facturas médicas es frecuente encontrar el número de factura e identificación del paciente duplicado varias veces, una vez por cada ítem (medicamento, procedimiento, ayuda diagnóstica) que ha recibido, lo que no es común es que le hayan hecho dos apendicectomías el mismo día porque solo tenemos un apéndice. Por lo tanto en el primer ejemplo, no eliminamos observaciones pero en el segundo debemos revisar con mayor detalle qué es lo que sucedió.  

Elemento No. 4 Revisar si el formato coincide el tipo de variables

Este es un problema de limpieza fácil de identificar porque cuando intentemos utilizar estadísticas descriptivas se presentarán errores si no tenemos el formato correcto. Es importante corregir este problema para poder implementar modelos e interpretar correctamente los resultados. Para poder identificar este problema es importante saber la diferencia entre una variable cualitativa y cuantitativa, los niveles de medición de estas, y los formatos que utiliza la herramienta que estás utilizando para almacenar los datos.

Elemento No. 5 Encontrar valores inconsistentes

Al igual que los valores perdidos, no hay una receta exacta para encontrar valores inconsistentes, depende del conocimiento y el razonamiento lógico del analista. La mejor forma para encontrar los valores inconsistentes es haciéndose preguntas sobre las relaciones entre los campos y explorando la base de datos.

Por ejemplo, suponga que usted tiene el campo edad y el campo fecha de nacimiento, una forma de ver si hay valores inconsistentes es calcular la edad a partir de la fecha de nacimiento y comparar con la edad reportada.

EdadFecha de nacimientoEdad calculada
271990/01/1727
211995/05/1421
6011/11/195660
477/04/194077
3712/08/198037
Tabla 2. Ejemplo de identificación de valores inconsistentes

Frecuentemente se resuelve reemplazando el valor inconsistente con un valor perdido o a partir de información de otros campos. Por ejemplo, e el caso de la tabla, si otra de las columnas indicara si la persona está recibiendo pensión y este individuo respondió que sí, podría intuirse que la edad correcta es 77.

Elemento No. 6 Revisar si hay valores inválidos

Los valores inválidos o fuera del rango los encontramos utilizando estadísticas descriptivas como las medidas de tendencia central, mínimo y el máximo en el caso de variables cuantitativas, y para las variables cualitativas las hallamos tabulando los datos. Los identificamos fácilmente revisando los rangos expuestos en el diccionario de datos, y en caso de no existir debemos utilizar nuestro razonamiento lógico. Por ejemplo, si obtenemos las estadísticas descriptivas de la edad y encontramos una edad negativa, sabemos que hay un valor inválido. Lo más probable es que debamos reemplazarlos con un valor perdido.

Elemento No. 7 Validar si hay valores sin referencia en el diccionario de variables

El diccionario de variables es una guía para entender y explorar los datos. No todas las organizaciones lo tienen y es recomendable empezar a trabajar en este aspecto cuando antes. Lo anterior puesto que muchas veces los campos cualitativos se codifican con números para facilitar su almacenamiento. Luego solo cuando tenemos el diccionario de variable es que podemos identificar si habido un error.

Por ejemplo, si el diccionario de variables indica que el estado civil solo puede tomar valores del 1 al 5, y encontramos un 8 entonces hemos encontrado un valor sin referencia. Lo mejor que podemos hacer es revisar con quienes hayan trabajado previamente con la base de datos, ellos nos pueden indicar si ha habido un cambio de recodificación y este fue un elemento que se quedó con la codificación anterior. Tal vez no encontremos una respuesta y en ese caso esto se convertirá en un valor perdido.

Conclusiones sobre limpiar datos

La limpieza de datos es un proceso que es una ciencia y un arte, especialmente cuando tienes que encontrar valores inconsistentes, definir qué hacer con los valores perdidos o hallar observaciones duplicadas. En muchos casos no hay una respuesta única a qué hacer cuando se presentan estos problemas, con la experiencia y un buen conocimiento del negocio verás que cada vez es más fácil hacer una buena limpieza.

Tributos Preatentivos

7 oportunidades para el e-commerce en Colombia

Colombia experimentó un crecimiento del 53,1% entre 2019-2020 en E-commerce y ocupó el quinto lugar en términos de crecimiento en Latinoamérica, después de Perú, Guatemala, México y Brasil según la República. Este crecimiento se explica en parte por las medidas tomadas durante la pandemia puesto que las personas vieron una oportunidad en este canal para minimizar el contacto y limitar los riesgos de contraer covid-19. Lo anterior ayudó a aumentar la confianza del consumidor en este medio de compra.

 Esta cifra es importante para Gerentes Comerciales o de Ventas, Gerentes de Investigación de Mercado, Gerentes de comercio electrónico, entre otros cargos, de sectores económicos diversos como turismo, moda, gastronomía,  cuidado personal, juguetería, videojuegos, productos de consumo masivo y mobiliario y decoración.

A continuación, te presentamos 7 oportunidades del comercio electrónico para Colombia y por qué creemos que debes aprovecharlas.

Oportunidad No. 1 Crecimiento a dos dígitos

De acuerdo con Euromonitor, en 2019 en Colombia se movió US$2039,8 millones y en 2020 US$3221,8 millones por compras realizadas empleando tarjeta de crédito a través de teléfonos móviles, tabletas, o de computador.  Por lo que Colombia representó el 4.8% del total de ventas realizadas en ecommerce realizadas en América Latina.

Los expertos como Paula Goñi, analista senior de Euromonitor International, creen que el crecimiento seguirá a dos dígitos entre 2021-2022, y hay algunos que consideran que hasta el 2024 se podrían seguir experimentando estas tasas. De hecho, se cree que podríamos alcanzar tasas más altas si de manera simultánea mejorar mejor las plataformas tecnológicas y la cadena logística de distribución de las compras.

Oportunidad No. 2 Los colombianos amamos internet

En Colombia, en enero de 2021 se reportaron 33.2 millones de usuarios de internet (65% de la población), y se ha estimado que pasamos (personas entre 16 y 64 años) en promedio 10 horas aproximadamente en internet. De hecho, de las personas que usan internet 9 de cada 10 reportó buscar productos o servicios para realizar una compra empleando internet, el 9 de cada 10 visitó una tienda online o supermercado con el interés de comprar, y 7 de cada ha realizado una compra online en el último mes (enero 2021).

Oportunidad No. 3 Somos el tercer país de la región con más fintechs

En Colombia solo el 45.8% de la población mayor de 15 años reporta tener una cuenta con una institución financiera, y el porcentaje que tiene acceso a una cuenta de crédito es menor, el 13.9%. Lo anterior es importante porque muchas veces se requiere de una tarjeta de crédito para participar del comercio electrónico.

Es por eso que las FinTech abren un espacio para que aumente el número de personas con acceso al sector financiero y probablemente a que se aumente el número de personas que pueden realizar compras por medios electrónicos, pues algunas de ellas ofrecen métodos de pago online.

Oportunidad No. 4 Llegar más allá del establecimiento de venta físico

El comercio electrónico permite que el mercado objetivo ya no solo este restringido a los puntos de venta físicos, ni siquiera a una misma ciudad, o incluso a un país. Claramente dependerá del producto, de la capacidad instalada y logística de cada vendedor, pero lo que sí es cierto es que el comercio electrónico amplia el mercado potencial.

Oportunidad No. 5 Es una prioridad para el Gobierno Nacional

A finales del año pasado se aprobó la Política Nacional de Comercio Electrónico , una iniciativa del Ministerio de Tecnologías de la Información y Comunicaciones (MinTic). Con esta se busca, entre muchas otras, beneficiar con capacitación a más de 3.900 mipyme y cerca de 20.000 empresarios y emprendedores en comercio electrónico, puesto que lo ve como un medio que puede apoyar la reactivación de la economía. De igual forma, se espera educar al ciudadano en el uso de estas herramientas, fortaleciendo la confianza que tiene en pagos digitales.

Esta política tiene un presupuesto de $88.339 millones de pesos para ser ejecutado entre 2021 y 2025. Si quieres conocer el documento CONPES da click aquí.

Oportunidad No. 6 Posibilidad de obtener datos comportamiento del consumidor

Muchas cosas de las que quisiste saber del consumidor lo puedes hacer a través de métricas del comportamiento del consumidor en internet. Por ejemplo, empleando Google Analytics puedes perfilar mejor el segmento que está interesado en tus productos, a través de plataformas de A/B testing puedes encontrar la combinación de imágenes, contenido y call to action que más atrape al usuario, con los mapas de calor de las páginas web donde están los productos pueden identificar qué es lo que más le llama la atención de tu página web a tu usuario, entre muchas otras funcionalidades que ofrecen diferentes plataformas tecnológicas.

Todos esos datos los pueden utilizar para optimizar tu tasa de conversión y tus campañas de mercadeo digital, aumentado las ventas y la utilidad recibida, y entregando mayor valor a tus clientes.

Oportunidad No.7 Posibilidad de hacer seguimiento a precios

Los precios están disponibles al público, sabes a qué valor están los precios de tus productos y los precios de los productos de tu competencia en supermercados, tiendas especializadas, marketplaces o droguerías online. Puedes saber cuándo hay una activación de marca por precio, cuando se aplica un descuento y la magnitud de este, y si se está cumpliendo con tu estrategia de precios. Lo engorroso es el trabajo manual y operativo de hacer este seguimiento, por eso existe plataformas como DAnalytics Prices, que te ahorra ese trabaja y te brinda los datos para que los analices.

Dentro del comercio electrónico en Colombia hay oportunidades desde varios puntos de vista para que sigamos creciendo a dos dígitos, los colombianos han empezado a cambiar sus medios de compra, lo anterior viéndose apalancado no solo por la pandemia sino también por el ya consolidado uso de internet. Adicionalmente, brinda la oportunidad de obtener datos que en ventas mediante establecimientos físicos es más difícil o costoso. Esto facilita que se tengan información para construir mejores estrategias de posicionamiento, conversión y de entrega de valor para los clientes finales.

analitica de precios

¿Qué es analítica de precios?

Analítica de precios o pricing analytics es un término que cada vez toma más fuerza en un mercado cada vez más complejo, donde las compañías se enfrentan a múltiples canales y a mayor competencia, y a consumidores más informados. Los gerentes generales, comerciales y de mercadeo, entre otros, quieren poder responder preguntas como quiénes son mis clientes, o los canales o los productos más rentables y cómo estos elementos se interrelacionan entre sí. En muchos casos, nos basamos en nuestro instinto y experiencia para tomar decisiones relacionadas con el precio, si bien en algunos casos esto puede funcionar de manera exitosa, a veces no sabemos por qué funcionó, y si no funciona nos exponemos a que diferentes riesgos se materialicen, perdiendo dinero, tiempo y consumidores.

En este artículo, definiremos el término de analítica de precios, veremos algunos beneficios para los negocios de emplear analítica, y proveeremos 3 elementos que debes tener en cuenta antes de empezar a aplicar analítica de precios.

¿Qué es analítica de precios?

Analítica de precios son todas las métricas, técnicas y herramientas que te ayuda a analizar los datos de precios y de su contexto para entender cómo la estrategia de precios afecta el desempeño de la empresa,   cómo diferentes precios pueden afectar la ganancia y cómo se puede optimizar la estrategia de precios para maximizar el ingreso.

¿Por qué la analítica de precios es importante?

La analítica de precios tiene muchos beneficios cuando se utiliza de la manera correcta, hoy te compartimos 5. El primero es que permite descubrir cuál canal de distribución físico o digital es el más rentable.

También te permite calcular la elasticidad precio de la demanda, o en otras palabras, qué tan sensibles son tus consumidores a cambios pequeños en el precio. Es decir, si son muy sensibles, bastará hacer un pequeño descuento para que la demanda aumente más que proporcional a esa disminución en el precio. Lo anterior facilita ajustar tus precios y determinar los máximos descuentos que están dispuesta a ofertar.

Un tercer beneficio consiste en ayudarte a identificar productos que están sobrevalorados o subvalorados.

Un cuarto beneficio es que te permite obtener “insights” del comportamiento de tus clientes, de tal forma que puedes segmentar a tus clientes identificando los diferentes retornos que te brindan, personalizar tu estrategia de precios a estos segmentos.

El quinto beneficio es que te ayuda a mejorar la rentabilidad de tu negocio. De acuerdo con Larry Montan, Teery Kuester y Julie Meehan “Investigaciones demuestran que iniciativas para optimizar el precio pueden incrementar el margen de ganancia de la compañía entre un 2 y un 7 por ciento en 12 meses” (Fuente: Deloitte)

3 elementos que debes tener en cuenta antes aplicar analítica de precios

El primer elemento corresponde a los datos. Sin datos, no podemos aplicar analítica. Además los datos deben ser de calidad y ricos en información para que se pueda obtener algo útil de su análisis. No solo es importante tener  fecha y precio, también el canal, el cliente, a nivel de producto o SKU, y preferiblemente con una granularidad diaria.  ¿Qué pasa si no tienes los datos? ¡Empezar a recolectar los datos! Puedes hacerlo de manera manual pero hoy existen soluciones que te ahorran tiempo y recursos empleando tecnología.

El segundo está relacionado con las competencias del recurso humano. ¿Tienes un equipo de estadísticos, científico de datos o analistas preparado para realizar un análisis profundo de los datos? Si aún no lo tienes, no importa. Lo importante es reconocerlo e incluirlo en la planeación estratégica de la organización. Recuerda que puedes comenzar por analizar los datos de manera descriptiva con estadísticas y visualizaciones, es mejor empezar que no realizar nada.  Si ya aplicas analítica descriptiva, pero aún no  están las competencias para hacer algo más avanzado, puedes encontrar nuevas formas de analizar los datos de manera descriptiva, buscar herramientas tecnológicas que realicen el análisis avanzado y te capaciten, o contratar a un externo que te apoye en el proceso.

El tercero y no menos importante, ¿tienes el presupuesto y el tiempo? Cuando hablo de tiempo me refiero a que en el mundo ideal el análisis es continuo porque el mercado está continuamente cambiando y para responder de manera proactiva el análisis no debe parar. Sin embargo, todo (incluso el presupuesto) depende de la etapa de vida de la empresa, el tamaño y sus objetivos estratégicos.

Conclusión

El implementar las estrategias mencionadas de manera efectiva puede llevar a mejorar la eficiencia de nuestra operación, entender a fondo nuestro negocio y aumentar nuestra rentabilidad, sin embargo, en ocasiones no sabemos por donde empezar (si tenemos los datos) o simplemente no los tenemos, para ambos casos nosotros podemos apoyarte a través de DAnalytics Prices, la cual es una herramienta para el monitoreo inteligente de precios de productos por canales tanto físicos como virtuales, el cual te ahorra tiempo de recolección de datos, evita errores y presenta la información de manera que puedes tomar las decisiones con la información adecuada en el momento adecuado.

Descriptiva

Descriptiva, predictiva, prescriptiva: los tipos de analítica

En una entrada pasada del blog les habíamos contado qué era la Analítica de Datos (Data Analytics). Hoy vamos a contarles un poco más sobre cuáles son los tipos de analítica de datos y para qué sirven. Pero antes de eso es necesario hablar un poco de los tipos de datos que existen. Como ven en la imagen hay datos que son estructurados, semiestructurados y no estructurados. Los datos estructurados son aquellos que almacenan en sus hojas de excel o en una base de datos, y se caracterizan porque tienen un orden predeterminado, casi siempre organizamos los datos en filas y columnas. Por el contrario, los datos no estructurados no tienen una forma predefinida, por ejemplo son las fotos que cuelgas en Instagram, los videos que grabas en tu smartphone, los mensajes de voz que envías por Whatsapp, lo que cuelgas en tu muro de Facebook, entre otros. Los datos semiestructurados tienen algo de ambos tipos..

Ahora así, como les decíamos hay varios tipos de analítica. El nivel al que se puede llegar dentro de una organización depende de la madurez de ésta. Vamos a ver los tres más conocidos y en entradas futuras les daremos más detalle de los otros tipos y qué es eso de inteligencia de negocio (business intelligence).

Subcampos de la analítica
Fuente: Rapidminer (s.f.)

Analítica descriptiva

Generalmente, uno comienza haciendo analítica descriptiva. ¿Y qué es eso? Piense cuando su jefe le dice “quiero las estadísticas descriptivas (tablas de frecuencia, histogramas, gráficas de barras, media, la moda, mediana) de esos datos”. Sí señor o señora, ahí usted empezó a aplicar analítica de datos. Claro está que la analítica descriptiva va un poco más allá de eso. Como su nombre lo indica con este tipo se describen una situación, evento o producto de la mejor forma posible con el objetivo de responder qué ha pasado.

Analítica predictiva

Según Kelleher Mac Namee y D’Arcy (2015) la analítica predictiva consiste en el arte de construir y usar modelos para hacer predicciones basadas en los patrones que se extraen de los datos históricos de interés. Ahora vamos a responder la pregunta que seguramente le surgió: Y este tipo de analítica, ¿para qué me sirve?

La respuesta es sencilla porque básicamente lo que responde este tipo de analítica es que es lo más probable que suceda. El espacio que tenemos no es suficiente largo para todo lo que podemos hacer con este tipo de analítica, así que en esta entrada les contaremos sólo sobre dos usos que tomamos y complementamos de Kelleher Mac Namee y D’Arcy (2015):

Es importante tener en cuenta que, para cualquiera de esas aplicaciones, además de contar con un recurso humano o un proveedor experto en soluciones en analítica, necesita una base de datos histórica. Y eso no significa un año o dos de datos, eso significa mínimo más de tres años si estamos hablando de una periodicidad mensual y recuerde que entre más periodos tenga mejor será la precisión que podrá tener el modelo, la cual nunca será del 100%. Si no tiene los datos, pero usted reconoce que su organización presenta problemas que se podrían solventar u oportunidades que se podrían aprovechar utilizando la analítica predictiva, entonces es hora de empezar a pensar de manera estratégica sobre la captura y almacenamiento de esos datos que usted necesita.

Analítica prescriptiva

La analítica prescriptiva va un paso más allá. De acuerdo con Bull, Centurion, Kearns, Kelso y Viswanathan (2015), el interés por ésta hizo boom en 2013 (aún no he encontrado el motivo para que esto sea así) aunque los métodos que se emplean existen hace mucho tiempo. La analítica prescriptiva se apoya en técnicas de investigación de operaciones, machine learning, estadística aplicada y procesamiento del lenguaje natural para responder interrogantes como:

  • ¿Cómo optimizar la estrategia de trade?
  • ¿Cómo optimizar el portafolio de servicios financieros de mi compañía?
  • ¿Cómo optimizar el mix de productos que ofrece mi compañía?
  • ¿Qué es lo mejor o lo peor que puede pasar?

Referencias

  1. Bull, P., Centurion, C., Kearns, S., Kelso, E., y Viswanathan, N. (2015). Prescriptive analytics for business leader. River Logic.
  2. Chartered Global Management Accountant. (2016). Business analytics and decision making: The human dimension.
  3. Kelleher, J. D., Mac Namee, B., & D’Arcy, A. (2015). Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies. MIT Press.
  4. Rapidminer. (s.f). An Introduction to Advanced Analytics. Disponible en: https://rapidminer.com/resource/introduction-advanced-analytics/
Retención de clientes

“Tengo problemas para retener a mis clientes”: ¿Le suena conocido?

Hoy vamos a hablar del proceso de toma de decisiones basadas en los datos (data driven decision making) con un ejemplo, o mejor con un problema que vivimos o por lo menos hemos oído a un conocido mencionar: cómo retengo a mis clientes. Uno pensaría que lo más obvio es intentar retener a los clientes más rentables, pero hoy en día la tarea parece titánica porque los clientes van y vienen ya que hay muchas ofertas, es retador diferenciarse y los programas de retención perdieron su utilidad puesto que muchas empresas los manejan, entre otros factores.

Aun así, eso no significa que todo esté perdido. En la web hay muchos tips sobre qué hacer para vencer estos obstáculos. Por ejemplo, “7 tips para retener clientes” (Betech, 2013) da 7 consejos que consisten en:

Frente a esos tips podemos hacer dos cosas. Por un lado, podemos guiarnos solamente por nuestra intuición para fijarnos metas y estrategias para implementar uno o todos los consejos. Tal vez obtengamos buenos resultados o tal vez no, lo cierto es que la incertidumbre en este caso es bastante grande. Por otro lado, podemos analizar nuestros datos (fuentes internas y externas), y tomar decisiones con base a los resultados que extraigamos (eso es Toma de decisiones basada en los datos) para fijarnos metas y diseñar estrategias [note] Aquí quiero hacer dos paréntesis: i) con la analítica no tienes una certeza del 100% de que lo diseñes e implementes va a funcionar con éxito pero si incrementa las probabilidades de que así sea; ii) la aplicación de la analítica y la toma de decisiones basada en datos (DDD en inglés) dentro de tu organización no va a reemplazar tu intuición, tú eres el que tiene el conocimiento del sector empresarial en el que se encuentra tu negocio, la analítica es una herramienta que va a complementar tu análisis, va a validar tus hipótesis o por el contrario va a rechazarlas, así que empléala y obtén una ventaja diferenciadora.

Sí, para cada uno de esos tips puedes aplicar alguna técnica de análisis de datos. Por ejemplo, para el tip 1 necesitas estudiar tu tasa de retención actual e histórica para definir una meta. Para el tipo 2 podrías analizar cómo tus clientes han reaccionado a diferentes promociones en el pasado para predecir cómo estos van a reaccionar a diferentes promociones que tengas en mente y puedas escoger la que tenga más probabilidades de éxito. O para el tipo 4 puedes estudiar a tus clientes para identificar aquellos que son más sensibles a reaccionar antes novedades y enfocar tus estrategias de mercadeo en justo ellos.  Imagínate con miles de clientes, una estrategia de mercadeo para cubrirlos a todos resulta costosa en términos financieros y humanos, y hoy en día hay mejores opciones para atender ese problema, pero sobre eso hablaremos en otra entrada del blog. O para el tip 6 podrías emplear una técnica de clustering para agrupar a tus clientes basándote en su comportamiento de compra y las características sociodemográficas que tengas disponibles.

Y es que son varios estudios los que muestran los beneficios de tomar decisiones basadas en los datos. Hoy te traigo un estudio del Instituto Tecnológico de Massachusetts (MIT), una de las universidades más importantes de Estados Unidos, en el que se encontró que entre más decisiones se tomen basadas en los datos, más productiva es la empresa. Una desviación estándar por encima en el índice de decisiones basadas en datos (DDD) está asociada con un incremento en la productividad del 4 al 6%. Además, la DDD tiene una relación positiva y estadísticamente significativa con indicadores de rentabilidad del capital (ROE) Indicador mide la capacidad que tiene el negocio para generar rentabilidad con el recurso invertido por los socios. Se mide dividiendo el beneficio neto después de impuestos (Estado de Resultados) por Capital propio o Patrimonio aportado por los socios (Balance General). [/note] rentabilidad sobre activos (ROA) Indicador mide qué tan rentable es una compañía con relación al tamaño de sus activos, es decir que brinda una idea de que tan eficientemente se están administrando los activos para generar ingresos. Se mide dividiendo el beneficio neto después de impuestos (Estado de Resultados) por Activos Totales (Balance General). [/note], valor del mercado de la compañía, entre otros (Provost & Fawcett, 2013).

¡¡¡En conclusión, la toma de DDD está recomendadísima!!! Si ya la estás implementando, en próximas entradas te daremos consejos sobre cómo hacer un diagnóstico básico del DDD en tu organización y algunas recomendaciones generales. Si aún no lo estás haciendo, tranquilo lo importante es reconocer su importancia y empezar a hacer una planeación estratégica de ésta para que puedas implementar y alinear a la estructura y cultura de tu organización. Aunque te he mencionado muchas veces la palabra datos como un activo indispensable para la toma de DDD, es importante recordar que debe existir un talento humano que tenga las capacidades para extraer conocimiento de los datos. Este talento puede ser interno a tu organización o puede ser externo. Es decir, datos + talento humano = DDD exitosa.

Referencias

  1. Betech, E. (2013, junio 25) 7 tips para retener clientes. Disponible en https://www.entrepreneur.com/article/266062
  2. Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. O’Reilly Media, Inc.
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte I

Explorar los datos es tal vez uno de los pasos más importantes en la analítica de datos y generalmente utilizamos la estadística descriptiva para hacerlo.. También es uno de los pasos que más toma tiempo, se estima que en un proyecto de analítica esta fase puede tomar 60% tiempo (es decir que, si usted establece que ese proyecto le va a tomar 10 meses, 6 meses se van a ir limpiando y explorando la base de datos) (Forbes, 2016). Además, es una fase que muchos evitan o tratan de minimizar. O bueno, al menos eso es lo que yo percibo, que los analistas, los gerentes, los directores de proyectos, y cargos similares, quieren llegar rápidamente a formular los modelos, correrlos y obtener resultados. Sin embargo, ¿usted se casaría con alguien sin conocerlo primero?

Probablemente no, y si sobre los resultados de los modelos usted va a tomar decisiones estratégicas y cruciales para el éxito de su organización (por ejemplo, si lanza o no un producto, si compra más o menos insumos de acuerdo con los pronósticos que haya realizado, o si contrata o no a un individuo), entonces sí debería dedicarse a conocer los datos por un tiempo antes de “casarse” con ellos a través de un modelo.  Lo anterior es aún más crucial si va a utilizar métodos y modelos complejos; la exploración, mediante el uso de estadística descriptiva, le da alguna certeza de que los modelos seleccionados están capturando la esencia de sus datos.

A mí personalmente, me encanta esta fase, porque cuando exploramos los datos encontramos patrones, tendencias, outliers, anomalías y esto resulta ser un paso fundamental durante la limpieza de los datos, y nos da ideas de qué modelos podemos podríamos aplicar.

Debido a su importancia, vamos a dedicarle varios posts a este tema. Hoy, en particular, hablaremos de los tipos de datos. Todavía no hablaremos de la exploración en sí porque primero identificamos el tipo de datos que tenemos y posteriormente buscamos la herramienta adecuada para explorarlos. Piense que, si el dato es un candado, entonces no cualquier llave puede abrirlo y revelarnos la información que hay detrás; primero, tenemos que descubrir qué tipo de candado es.

Tipos de Datos

La división básica divide los datos en numéricos vs categóricos. Los primeros se guardan de manera “natural” como números y pueden ser “medidos”; mientras que los categóricos son clases o categorías y no se pueden “medir”.

Los datos numéricos se dividen a su vez en datos continuos o discretos. Si ve un decimal, entonces es un dato numérico continuo; mientras que, si ve un numero entero, entonces es discreto. A lo anterior, agregaría que las cosas pueden tornarse un poco más complejas porque siempre debemos tener en cuenta el contexto de los datos. Por ejemplo, suponga que usted fabrica y vende ropa para niños menores de 12 años, y del área de ventas le informan que de acuerdo con el pronóstico (empleando un modelo ARIMA), se espera que el próximo mes se vendan 200.5 camisas para niños de 6 años. La variable número de camisas es de naturaleza discreta, aunque el pronóstico tenga decimales, usted no puede dejar media camisa por hacer.

Niveles de medición de las variables

Las variables cualitativas se pueden “medir” de manera nominal u ordinal. Nominal se refiere a que los datos los podemos clasificar en categorías que no siguen un orden lógico. Por ejemplo, el color del cabello es una variable nominal, cuyas categorías pueden ser: rubio, castaño, negro, blanco, rojo y otro. ¿Qué quiere decir que no sigan un orden lógico? Que uno no puede ordenar las categorías en una escala y decir que el cabello rubio es mejor que el cabello castaño, y que éste es mejor que el cabello negro, el cual a su vez es mejor que el cabello rojo, y que por último se encuentra el cabello blanco.

Además, las categorías tienen que cumplir dos condiciones: deben ser mutuamente excluyentes y colectivamente exhaustivas. Lo anterior quiere decir que los individuos solo deben aparecer en una categoría, por ejemplo, no es posible que una mujer tenga el cabello simultáneamente negro y rubio. O es negro o es rubio, pero no los dos al mismo tiempo (eso es mutuamente excluyente). Y bueno yo sé que hay mujeres que tiene el pelo negro y se tinturan las puntas de color rubio o se hacen rayitos, entonces ¿qué debe hacer? Todo depende del objetivo de su investigación, es decir, de qué busca responder con los datos que está recolectado. Después de tener claro eso, usted puede decidir si precisa más su pregunta (¿de qué color es su cabello natural?), amplia las categorías de respuesta a su pregunta original, o incluso puede dejar la pregunta y las categorías de respuesta sin cambios.

Ahora, colectivamente exhaustivo se refiere a que por lo menos uno de los eventos, o de las categorías, debe ocurrir. Por ese motivo muchas veces usted ve la opción otro, seguida de la pregunta cuál. A veces, aunque realicemos pilotos de las encuestas, no podemos estar seguros de que estamos incluyendo absolutamente todos los posibles casos y la categoría “otro” es la que nos salva. Por ejemplo, suponga que usted pregunta a un hombre que es 100% calvo: ¿de qué color es su cabello?, y las posibles respuestas son: rubio, castaño, negro, blanco, rojo. La respuesta otro con la posibilidad de escribir ¿cuál? es su salvación.

Las variables ordinales también tienen esa característica de ser mutuamente excluyentes y colectivamente exhaustivas, pero se diferencian de las nominales porque sí hay un orden lógico. Por ejemplo, una variable que sea satisfacción con el servicio al cliente y cuyas categorías de respuesta sean: muy satisfecho, satisfecho, indiferente, insatisfecho, muy insatisfecho. En ese caso, las categorías están ordenadas de acuerdo con el nivel de satisfacción, del más satisfecho al menos satisfecho. Pero OJO ese orden no corresponde a una magnitud, es decir, uno no puede afirmar que el individuo que respondió que está muy satisfecho está el doble de satisfecho que el que respondió que está satisfecho, o 4 veces más satisfecho que el que respondió muy insatisfecho. Solo podemos saber que el que está muy satisfecho está por encima del que respondió muy insatisfecho en la escala de nivel de satisfacción, pero no sabemos cuántas veces más.

Comentarios finales

En el próximo post hablaremos de los niveles de medición de las variables cuantitativas: de intervalo y de razón. Y les dejare un caso de estudio para que afiancemos estos conceptos antes de presentarles algunas herramientas de exploración.

Referencias

  1. Forbes (2016). Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Disponible en https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#57e6bbe76f63
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte II

En el post pasado hablamos de los tipos de variables (cualitativas vs cuantitativas) y de los niveles de medición de las variables cualitativas: nominal y ordinal. En este post les hablaré sobre los niveles de medición de las variables cuantitativas y les dejaré un breve ejercicio para que afiancemos estos conceptos antes de presentarles las herramientas de exploración.

De intervalo

Las variables de intervalo son aquellas en donde se clasifica a los datos en una escala (arbitraria) y donde cada valor de la escala corresponde a una categoría. Esas categorías se caracterizan, al igual que las categorías de las variables ordinales, por ser mutuamente excluyentes y colectivamente exhaustivas; sin embargo, a diferencia de las variables ordinales siguen un orden lógico que corresponde a la magnitud de la escala asociada a la característica. Además, el cero no implica la carencia de la característica.

Veamos un ejemplo con la variable “temperatura del cuerpo humano en grados centígrados”. Primero, sería muy extraño encontrar a un individuo que tiene una temperatura de 37 grados centígrados y simultáneamente de 40 grados centígrados. Es decir, el individuo tiene fiebre o no tiene fiebre (mutuamente excluyente).

Segundo, sabemos que 40 grados centígrados es mayor que 37 grados centígrados (similar al orden lógico de las variables ordinales). Tercero, la diferencia de 3 grados entre las temperaturas de dos individuos (40 °C sujeto A menos 37 °C sujeto B) tiene el mismo significado que la diferencia entre 37 °C del sujeto D y 34 °C del sujeto E, es decir que tanto el sujeto A como el sujeto D están 3 grados más calientes que sujeto B y sujeto E, respectivamente. Es otras palabras, la diferencia entre dos magnitudes tiene la misma interpretación en cualquier parte de la escala.

Para que eso quede más claro, veamos como esta propiedad no aplica a las variables cualitativas. Por ejemplo, no podemos decir que la diferencia entre un individuo con un nivel de satisfacción con el servicio de 10 y uno con 5, es la misma diferencia que entre un individuo que respondió 5 y otro que respondió 0. Una de las implicaciones de esto es que con las variables de intervalo (al igual que con las de razón) podemos realizar operaciones matemáticas básicas como sumar o restar y el resultado lo podemos interpretar. Por último, el cero no implica que el objeto carezca de temperatura. De hecho, el cero en la escala de temperatura Fahrenheit es 32 °F. Lo anterior implica que no podemos realizar operaciones matemáticas como multiplicar o dividir. Por ejemplo, no podemos decir que la temperatura en Cali del medio día (suponiendo que sea de 30 °C) es el doble de caliente que la temperatura de Bogotá a las 3 de la tarde (suponiendo que sea de 15 °C).

De razón

Las variables de razón son muy similares a las variables de intervalo excepto porque la escala en que se clasifican los datos no es arbitraria y porque el cero sí implica la carencia de la característica. Veamos un ejemplo, supongamos que la variable de interés es el ingreso laboral promedio mensual. En ese caso, una persona no puede responder que se gana 4 millones de pesos y 2 millones de pesos en promedio cada mes, o 4 o 2, pero no los dos al mismo tiempo. De pronto, el individuo dice se gana 4 millones por prestación de servicios y 2 por su trabajo a término fijo. Es ahí cuando la labor del encuestador es fundamental, y éste debería realizarle al individuo preguntas como si el ingreso que recibe por prestación de servicios es constante (es decir todos los meses), si la magnitud que recibe es siempre la misma o si es variable. Por ejemplo, supongamos que responde que sí es constante tanto el valor y que recibe ese valor todos los meses del año, en ese caso el individuo debería responde que son 6 millones de pesos en promedio al mes. Por el contrario, si esos 4 millones de pesos fueron algo extraordinario del último mes, pero casi nunca sucede, entonces el individuo debería anotar que son 2 millones de pesos en promedio al mes.

Las variables de razón siguen un orden lógico, y podemos realizar operaciones matemáticas con los valores como sumar, restar, multiplicar y dividir. Es decir, sabemos que una persona que perciben 10 millones de pesos al mes, recibes 5 veces más una persona que percibe 2 millones de pesos al mes. Además, el cero implica la carencia de la característica, es decir responder 0, en nuestro ejemplo, significa no recibir ingresos laborales.

Ejercicio práctico

Suponga que trabaja en un restaurante de comida china en el área de compras. Usted tiene información en un archivo de Excel sobre 100 proveedores a los cuales la empresa le ha comprado en los últimos 10 años (algunos de manera permanente, otros son proveedores recientes y a otros ya no les compra). En una hoja de Excel tiene información sobre el nombre del proveedor, la razón social de la empresa, el NIT de la empresa, la fecha en que iniciaron la relación comercial, el número de teléfono móvil, y la dirección de ubicación de la sede principal de la empresa del proveedor, medio de pago aceptado por el proveedor y el estado del proveedor (Activo e Inactivo).

El archivo también incluye una hoja que contiene información diaria sobre el número de transacciones de compra por proveedor y el monto de cada transacción en pesos, el valor pagado y el valor adeudado. Además, cada transacción está asociada a un número de factura e incluye el valor del descuento (si aplica), y el valor correspondiente al IVA.

La empresa también cuenta con la valoración semestral de los proveedores dado el servicio recibido. Esa valoración se hace por medio de una pregunta en una encuesta vía Web obligatoria para todos los compradores. En ella se pregunta que califiquen el servicio prestado por el proveedor empleando una escala de números enteros de 1 a 5 (escala Likert), donde 1 es totalmente insatisfecho y 5 es totalmente satisfecho.

Identifique las variables que se encuentran presentes en la base de datos descrita (asígneles un nombre) y clasifíquelas de acuerdo con el tipo de variable (Cualitativa o Cuantitativa) y señale su nivel medición. La solución en la próxima entrada.

Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte III

En los últimos 2 posts hemos hablado sobre los tipos de variables (cuantitativas vs cualitativas) y los niveles de medición (nominal, ordinal, de intervalo y de ratio), además les dejamos un ejercicio práctico. Hoy les vamos a presentar la solución y empezaremos hablar de las medidas descriptivas más utilizadas para las variables cualitativas.

Nombre de la variable Tipo de variable Nivel de medición
Nombre del proveedor Cualitativa Nominal
Razón social de la empresa Cualitativa Nominal
NIT de la empresa Cualitativa Nominal
Fecha en que inició la relación comercial Cuantitativa De intervalo
Número de teléfono móvil Cualitativa Nominal
Dirección de la sede principal Cualitativa Nominal
Medio de pago aceptado por el proveedor Cualitativa Nominal
Estado del proveedor Cualitativa Nominal
Número de transacciones de compra por proveedor Cuantitativa Ratio
Valor total de la compra (pesos colombianos) Cuantitativa Ratio
Valor de la compra pagado (pesos colombianos) Cuantitativa Ratio
Valor de la compra por pagar (pesos colombianos) Cuantitativa Ratio
Número de la factura de compra Cualitativa Ordinal
Porcentaje de descuento Cuantitativa Ratio
Valor del IVA (pesos colombianos) Cuantitativa Ratio
Calificación del servicio prestado por el proveedor Cualitativa Ordinal

Medidas descriptivas para variables cualitativas

Para contarles un poco el tipo de tablas y gráficos que utilizamos con variables cualitativas me voy a apoyar en la base de datos que tiene información de clientes que tienen tarjetas de crédito. Estos datos se utilizaron en Yeh, I. C., & Lien, C. H. (2009). The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients. Expert Systems with Applications, 36(2), 2473-2480. Este conjunto de datos tiene 30.000 observaciones y 25 variables:

  1. Valor del crédito (dólares): el valor dado en crédito, incluye el crédito individual y el dado a la famila
  2. Género: (1 = hombre; 2 = mujer).
  3. Nivel educativo (1 = primaria; 2 = bachillerato; 3 = universidad; 4 = ninguno).
  4. Estado civil: (1 = casado; 2 = soltero; 3 = otro).
  5. Edad: años.
  6. Variable sexta a la onceva corresponde al estado del pago de la factura, X6 corresponde al estado de la factura en septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X11.
  7. entre abril de 2005 y septiembre de 2005. 1. La escala de medición para el estado de devolución es: -1 = pago a tiempo; 1 = retraso de pago por un mes; 2 = retraso de pago por dos meses; . . .; 8 = retraso de pago por ocho meses; 9 = retraso de pago por nueve meses o más.
  8. Variable 12 a 17: es el valor en dólares de la factura de la tarjeta de crédito, X12 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable X17.
  9. Variable 18 a 23 corresponde al valor de la facture pagado, X18 corresponde al valor de septiembre de 2005, y así sucesivamente hasta llegar abril de 2005 en la variable 23.

Categorice las variables anteriores en los tipos de variables y los niveles de medición que hemos visto, la respuesta en el siguiente párrafo. Como el post de hoy trata sobre las variables cualitativas vamos a trabajar con el nivel educativo (ordinal), estado civil (nominal), estado del pago de la factura (ordinal) y el género (nominal). Generalmente lo que hacemos es trabajar con tablas de frecuencia. Estas nos presentan las categorías de la variable de interés y cuántas observaciones hay en cada categoría y es lo que llamamos frecuencia absoluta. También podemos calcular la frecuencia relativa que nos indica del total de observaciones que porcentaje corresponde a cada categoría de la variable de interés. Si vemos la tabla de frecuencia del género encontramos que el 60% de los clientes de la tarjeta de crédito son mujeres y el resto son hombres (40%).

Los resultados de la tabla de frecuencia del Estado Civil lo podemos interpretar de la siguiente forma “encontramos que 5 de cada 10 clientes son solteros, 4 de cada 10 clientes está casado, y 1 de cada 10 respondió otra categoría”. ¿Por qué obvio la categoría de no responde? Porque estoy llevando las proporciones a una escala de 10 y la proporción de 0.02 es imperceptible. Algo más interesante puede ser hacer una tabla cruzada que nos permita ver cómo se relaciona la variable género con la variable estado civil. Vamos a presentarles la tabla cruzada de tres formas para mostrarles la diferencia. La primera tabla solo contiene las frecuencias en cada categoría. Por ejemplo, hay 14 hombres que no respondieron el estado civil. O hay 9411 mujeres que son solteras. La segunda tabla muestra el porcentaje de hombres y mujeres que hay en cada categoría de respuesta de la variable de estado civil, por eso observan que el total de cada fila es 100%. Por ejemplo, podemos decir que el 26% de las personas que no respondieron la variable de estado civil (54) son hombres y el resto son mujeres (74%). La tercera tabla muestra el porcentaje en cada estado civil en cada categoría de la variable género. Por ejemplo, para el caso de las mujeres se observa que el 47% son casadas, el 52% son solteras y el 1% tienen otro tipo de estado civil. Las tablas son una buena forma de resumir la información, pero no podemos dejar de lado los gráficos. De hecho, las visualizaciones que realicemos de los datos son vitales. El 90% de la información que absorbe nuestro cerebro es visual, nuestro cerebro procesa 60000 veces más rápido las visualizaciones que los textos, es tanto así que 2/3 de los impulsos eléctricos de nuestro cerebro se originan como respuesta a la información visual (Olivares, 2013). Este tema merece su propio post por eso seguiremos con él en nuestra siguiente entrada de la próxima semana y después retomaremos el tema de las estadísticas descriptivas de las variables cuantitativas.

Referencias

  1. Olivero, Ernesto (2013). We are 90% visual beings. Disponible en https://ernestoolivares.com/we-are-90-visuals-beings
Tributos Preatentivos

Atributos preatentivos la clave para mejores visualizaciones

Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y en el post pasado empezamos a hablar sobre las estadísticas descriptivas que podemos utilizar para explorar datos del tipo cualitativo. Además de las estadísticas como la moda y las tablas de frecuencia, algo con lo que siempre debemos contar es con las visualizaciones, tanto de datos cualitativos como de datos cuantitativos, incluso podemos mezclar ambos tipos de visualización en una misma gráfica. Hoy nos vamos a centrar en los atributos preatentivos o preattentive atributes por su nombre en inglés. Les contaremos qué son, les daremos ejemplos y  por qué son importantes que los tengan en cuenta cuando están haciendo visualizaciones de la información.

Definición

Los atributos preatentivos de las visualizaciones son aquellos que se procesan en nuestra memoria sensorial sin nuestro pensamiento consciente. Es decir que son muy útiles porque transmitimos ideas de la forma correcta al aprovechar las propiedades de la percepción visual humana, la cual es la más desarrollada entre todos nuestros sentidos.

Colin Ware, en su libro “Information Visualization: Perception for Design” define cuatro propiedades visuales preatentivas:

  • Color
  • Forma
  • Movimiento
  • Posicionamiento espacial

Veamos cada una de ellas:

Color

El color se puede expresar de muchas maneras diferentes. Desde la escala RGB (Rojo, Verde, Azul) hasta la escala CMYK (Cian, Magenta, Amarillo y Clave) a la escala HSL (Tono, Saturación y Luminosidad) Esta semana de hecho aprendí que CMYK se necesita cuando vas a hacer impresiones, por ejemplo, unas tarjetas de presentación o material promocional; mientras que, el RBK está bien que lo utilices en las aplicaciones web, cuando vas a hacer presentaciones en prezi o power point.  Para hoy nos es útil la escala HSL (ver Imagen 1). El tono es lo que normalmente llamamos color, por ejemplo, rojo, zapote, verde, morado, azul, entre otros. Mientras que saturación y luminosidad son una medida de la intensidad del color. Para mí a veces es difícil diferenciar visualmente entre ambas propiedades de los colores. Básicamente la saturación de un color cambia a medida que ese color tiene más o menos cantidad de gris, mientras que, el brillo lo que representa es qué tan claro u oscuro es un color respecto a su color patrón (Artes visuales, 2016).

El color sirve para llamar la atención sobre algo de los datos, eso lo que hace es que el usuario no tenga realizar una búsqueda visual, en otras palabras utilice para su observador vaya directamente al grano de lo que usted quiere que él observe.

Fuente: Armonía y contraste de colores (2010)  

Forma

La forma tiene muchos sub atributos con los cuales podemos llamar la atención o por el contrario para reducir su atención en ese objetivo (ver Imagen 2). Por ejemplo, podemos aumentar el tamaño de un objeto como una señal de que ese objeto es importante. Mientras que lo podemos hacer pequeño si queremos reducir su importancia.

Movimiento

Movimiento tiene dos subatributos: dirección del movimiento y la frecuencia del movimiento o parpadeo como diríamos algunos. Mucho ojo con este atributo, si lo usas efectivamente será un éxito y lograras llamar la atención, de lo contrario puede convertirse en algo que distraiga al observador del resto de elementos que estés presentado, o incluso se puede volver molesto o mareador.

Posicionamiento espacial

Tres sub atributos tienes que tener en cuenta según la Interaction Design Foundation (2018):

  • Posicionamiento 2D: esta es a menudo la mejor forma de entregar datos que puedan reconocerse y procesarse visualmente fácilmente. Es particularmente efectivo para representaciones de datos cuantitativos. Tiene que ver no solo con la posición también con el agrupamiento que se genera partir de las posiciones que toman los datos.
  • Profundidad estereoscópica: percibimos la profundidad al combinar las imágenes generadas por los ojos izquierdo y derecho en el cerebro. Esta profundidad es procesada de forma preatentiva. Es posible recrear la profundidad estereoscópica utilizando dos cámaras separadas configuradas en diferentes ángulos para un sujeto e imponiendo las imágenes una sobre la otra.
  • Posicionamiento cóncavo y convexo: esto se puede crear mediante el uso de sombreado (ver imagen del eclipse de luna).

Fuente: Pixabay.

Para finalizar

Ya sabemos cuáles son esos atributos, y sabemos que son poderosos porque nuestro cerebro los procesa rápidamente sin hacer mucho esfuerzo. Lo anterior no quiere decir que vamos a hacer un sancocho con esos atributos en nuestra visualizaciones. Tenemos que pensar quién es nuestro público, qué mensaje queremos transmitir, y probar con varias visualizaciones hasta que logremos llegar a la mejor visualización para el contexto y el público al que le estamos presentando. Un ejemplo de esto lo ven en la próxima imágenes, por un lado una gráfica que combina color (tono) y largo para mostrar lo que aparenta ser la satisfacción con el trabajo dependiendo de ciertas cualidades del gerente. En la primera imagen, espero que les pase a ustedes también, fue difícil encontrar algo, me quede observando intentando ver si había algún patrón pero el uso de esos colores dificultó la tarea. En la segunda imagen el color facilita entender el mensaje.

Fuente: Cole Nussbaumer

Referencias

  1. Artes Visuales. (Noviembre 8, 2016). ¿Qué Es El Color? | Teoría Del Color Y Sus Propiedades. Disponible en: https://artesvisuales.mx/2016/11/08/que-es-el-color-teoria-del-color-y-sus-propiedades/
  2. Colin Ware. (2004). Information Visualization: Perception for Design. Morgan Kaufmann, San Francisco, CA, 2nd edition.
  3. Interaction Design Foundation (Abril, 2018). Preattentive Visual Properties and How to Use Them in Information Visualization Disponible en https://www.interaction-design.org/literature/article/preattentive-visual-properties-and-how-to-use-them-in-information-visualization
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte 4

Venimos de una serie de post donde les contamos sobre los tipos de variables, los niveles de medición, y las estadísticas descriptivas que podemos utilizar para explorar los datos del tipo cualitativo. Este es el último post de esta serie Eso no quiere decir que no tendremos más post sobre exploración y limpieza de datos porque de este tema hay para cientos de post, de hecho, hay libros enteros que sólo se dedican a este tema, el motivo de esa decisión es que queremos que el contenido de nuestro blog sea variado, cuando retomemos este tema pondremos los hipervínculos respectivos y en éste les contaremos sobre las herramientas que disponemos para explorar las variables del tipo cuantitativo: medidas de tendencia central, medidas de dispersión y los gráficos más utilizados.

Medidas de tendencia central

Una medida de tendencia central describe un conjunto de datos al identificar la posición central con un único valor numérico. Las tres medidas más utilizadas son: la media (también conocida como el promedio o la media aritmética), la mediana (también conocida como el segundo cuartil) y la moda. En la siguiente figura vemos un ejemplo de cómo calcular estas tres medidas para una serie de números.

La media resulta ser la suma de los valores divido por el número de observaciones y es tal vez la medida de tendencia central más utilizada. La media tiende a no ser útil cuando los datos presentan valores extremos porque se produce un sesgo en la media ya que con esta medida todos los valores tienen la misma ponderación o importancia.

La mediana es aquel valor por el que la mitad (50%) de los datos está por debajo y la otra mitad (50%) está por encima. Para poder calcular la mediana debemos organizar los datos de menor a mayor. Si observa la figura en este caso la mediana es 6, al lado izquierdo hay 5 números y al lado derecho hay otros 5 números. Si el número de valores no es impar como el caso del ejemplo, debemos sumar y dividir por dos los números que estarían al lado de la mediana. Por ejemplo, suponga que la serie es: 3,4,5,5,5,5, 6,6,7,8,8,9. Esta serie tiene 12 números, la mediana estaría entre 5 y 6 por lo tanto la mediana sería 5.5 ((5+6) / 2)

La moda es el valor que más se repite en una serie, en la figura es el número 5 (se repite 3 veces). Puede haber una sola moda, como en la figura, o puede haber 2 o más modas, o incluso puede ser que la serie no tenga moda porque no hay algún número que se repita más de 1 vez.

Medidas de dispersión

Las medidas de dispersión nos muestran qué tan esparcidos están los datos. Puede haber medidas absolutas o relativas. Dentro de las absolutas las más utilizadas son el rango y la desviación estándar; mientras que, el coeficiente de variación es el más utilizado dentro de las relativas.

El rango como la muestra la Figura 2 es la diferencia entre el valor más grande y el menor valor. Es decir es una medida de la dispersión total que hay en los datos, y por lo tanto no tiene en cuenta cómo los datos se distribuyen entre el menor y el mayor valor. Es por eso por lo que utilizamos otras medidas de dispersión como la desviación estándar.

La desviación estándar muestral es en “promedio” qué tan dispersos están los valores alrededor de la media. Para calcularla debemos obtener la diferencia entre cada valor y la media (por eso a cada valor de nuestro ejemplo le restamos el 6).  Cada diferencia es elevada al cuadrado y sumamos los resultados. Finalmente dividimos por n-1 (obteniendo la varianza muestral) y a ese resultado le sacamos la raíz cuadrada. Vean que el hecho de que elevemos al cuadrado la diferencia nos lleva a obtener que siempre la varianza y la desviación estándar sean positivas. Entre mayor sea la desviación estándar más dispersos estarán los datos.

Por último, el coeficiente de variación es la desviación estándar divida por la media y se expresa en términos porcentuales. Este indicador se utiliza mucho cuando estamos comparando dos o más conjuntos de datos que se encuentran medidos en diferentes escalas.

Visualizaciones

En la figura 3 y 4 vemos unos datos cuantitativos y sus respectivas estadísticas descriptivas. A primera vista parece que no hay mucha diferencia. Sin embargo, cuando los gráficos (figura 5) observamos que cada conjunto de datos tiene un comportamiento diferente. Lo anterior refuerza la importancia de acompañar nuestras tablas y estadísticos numéricos con visualizaciones. ¿Cuáles son las más utilizadas? Los histogramas, las líneas, las cajas de bigotes, y los diagramas de dispersión. Los histogramas los utilizamos para variables individuales; mientras que, los diagramas de dispersión nos sirven para ver si hay algún tipo de relación entre dos variables.

Fuente: Frank Anscombe (1973).