admin

Tributos Preatentivos

7 oportunidades para el e-commerce en Colombia

Colombia experimentó un crecimiento del 53,1% entre 2019-2020 en E-commerce y ocupó el quinto lugar en términos de crecimiento en Latinoamérica, después de Perú, Guatemala, México y Brasil según la República. Este crecimiento se explica en parte por las medidas tomadas durante la pandemia puesto que las personas vieron una oportunidad en este canal para minimizar el contacto y limitar los riesgos de contraer covid-19. Lo anterior ayudó a aumentar la confianza del consumidor en este medio de compra.

 Esta cifra es importante para Gerentes Comerciales o de Ventas, Gerentes de Investigación de Mercado, Gerentes de comercio electrónico, entre otros cargos, de sectores económicos diversos como turismo, moda, gastronomía,  cuidado personal, juguetería, videojuegos, productos de consumo masivo y mobiliario y decoración.

A continuación, te presentamos 7 oportunidades del comercio electrónico para Colombia y por qué creemos que debes aprovecharlas.

Oportunidad No. 1 Crecimiento a dos dígitos

De acuerdo con Euromonitor, en 2019 en Colombia se movió US$2039,8 millones y en 2020 US$3221,8 millones por compras realizadas empleando tarjeta de crédito a través de teléfonos móviles, tabletas, o de computador.  Por lo que Colombia representó el 4.8% del total de ventas realizadas en ecommerce realizadas en América Latina.

Los expertos como Paula Goñi, analista senior de Euromonitor International, creen que el crecimiento seguirá a dos dígitos entre 2021-2022, y hay algunos que consideran que hasta el 2024 se podrían seguir experimentando estas tasas. De hecho, se cree que podríamos alcanzar tasas más altas si de manera simultánea mejorar mejor las plataformas tecnológicas y la cadena logística de distribución de las compras.

Oportunidad No. 2 Los colombianos amamos internet

En Colombia, en enero de 2021 se reportaron 33.2 millones de usuarios de internet (65% de la población), y se ha estimado que pasamos (personas entre 16 y 64 años) en promedio 10 horas aproximadamente en internet. De hecho, de las personas que usan internet 9 de cada 10 reportó buscar productos o servicios para realizar una compra empleando internet, el 9 de cada 10 visitó una tienda online o supermercado con el interés de comprar, y 7 de cada ha realizado una compra online en el último mes (enero 2021).

Oportunidad No. 3 Somos el tercer país de la región con más fintechs

En Colombia solo el 45.8% de la población mayor de 15 años reporta tener una cuenta con una institución financiera, y el porcentaje que tiene acceso a una cuenta de crédito es menor, el 13.9%. Lo anterior es importante porque muchas veces se requiere de una tarjeta de crédito para participar del comercio electrónico.

Es por eso que las FinTech abren un espacio para que aumente el número de personas con acceso al sector financiero y probablemente a que se aumente el número de personas que pueden realizar compras por medios electrónicos, pues algunas de ellas ofrecen métodos de pago online.

Oportunidad No. 4 Llegar más allá del establecimiento de venta físico

El comercio electrónico permite que el mercado objetivo ya no solo este restringido a los puntos de venta físicos, ni siquiera a una misma ciudad, o incluso a un país. Claramente dependerá del producto, de la capacidad instalada y logística de cada vendedor, pero lo que sí es cierto es que el comercio electrónico amplia el mercado potencial.

Oportunidad No. 5 Es una prioridad para el Gobierno Nacional

A finales del año pasado se aprobó la Política Nacional de Comercio Electrónico , una iniciativa del Ministerio de Tecnologías de la Información y Comunicaciones (MinTic). Con esta se busca, entre muchas otras, beneficiar con capacitación a más de 3.900 mipyme y cerca de 20.000 empresarios y emprendedores en comercio electrónico, puesto que lo ve como un medio que puede apoyar la reactivación de la economía. De igual forma, se espera educar al ciudadano en el uso de estas herramientas, fortaleciendo la confianza que tiene en pagos digitales.

Esta política tiene un presupuesto de $88.339 millones de pesos para ser ejecutado entre 2021 y 2025. Si quieres conocer el documento CONPES da click aquí.

Oportunidad No. 6 Posibilidad de obtener datos comportamiento del consumidor

Muchas cosas de las que quisiste saber del consumidor lo puedes hacer a través de métricas del comportamiento del consumidor en internet. Por ejemplo, empleando Google Analytics puedes perfilar mejor el segmento que está interesado en tus productos, a través de plataformas de A/B testing puedes encontrar la combinación de imágenes, contenido y call to action que más atrape al usuario, con los mapas de calor de las páginas web donde están los productos pueden identificar qué es lo que más le llama la atención de tu página web a tu usuario, entre muchas otras funcionalidades que ofrecen diferentes plataformas tecnológicas.

Todos esos datos los pueden utilizar para optimizar tu tasa de conversión y tus campañas de mercadeo digital, aumentado las ventas y la utilidad recibida, y entregando mayor valor a tus clientes.

Oportunidad No.7 Posibilidad de hacer seguimiento a precios

Los precios están disponibles al público, sabes a qué valor están los precios de tus productos y los precios de los productos de tu competencia en supermercados, tiendas especializadas, marketplaces o droguerías online. Puedes saber cuándo hay una activación de marca por precio, cuando se aplica un descuento y la magnitud de este, y si se está cumpliendo con tu estrategia de precios. Lo engorroso es el trabajo manual y operativo de hacer este seguimiento, por eso existe plataformas como DAnalytics Prices, que te ahorra ese trabaja y te brinda los datos para que los analices.

Dentro del comercio electrónico en Colombia hay oportunidades desde varios puntos de vista para que sigamos creciendo a dos dígitos, los colombianos han empezado a cambiar sus medios de compra, lo anterior viéndose apalancado no solo por la pandemia sino también por el ya consolidado uso de internet. Adicionalmente, brinda la oportunidad de obtener datos que en ventas mediante establecimientos físicos es más difícil o costoso. Esto facilita que se tengan información para construir mejores estrategias de posicionamiento, conversión y de entrega de valor para los clientes finales.

analitica de precios

¿Qué es analítica de precios?

Analítica de precios o pricing analytics es un término que cada vez toma más fuerza en un mercado cada vez más complejo, donde las compañías se enfrentan a múltiples canales y a mayor competencia, y a consumidores más informados. Los gerentes generales, comerciales y de mercadeo, entre otros, quieren poder responder preguntas como quiénes son mis clientes, o los canales o los productos más rentables y cómo estos elementos se interrelacionan entre sí. En muchos casos, nos basamos en nuestro instinto y experiencia para tomar decisiones relacionadas con el precio, si bien en algunos casos esto puede funcionar de manera exitosa, a veces no sabemos por qué funcionó, y si no funciona nos exponemos a que diferentes riesgos se materialicen, perdiendo dinero, tiempo y consumidores.

En este artículo, definiremos el término de analítica de precios, veremos algunos beneficios para los negocios de emplear analítica, y proveeremos 3 elementos que debes tener en cuenta antes de empezar a aplicar analítica de precios.

¿Qué es analítica de precios?

Analítica de precios son todas las métricas, técnicas y herramientas que te ayuda a analizar los datos de precios y de su contexto para entender cómo la estrategia de precios afecta el desempeño de la empresa,   cómo diferentes precios pueden afectar la ganancia y cómo se puede optimizar la estrategia de precios para maximizar el ingreso.

¿Por qué la analítica de precios es importante?

La analítica de precios tiene muchos beneficios cuando se utiliza de la manera correcta, hoy te compartimos 5. El primero es que permite descubrir cuál canal de distribución físico o digital es el más rentable.

También te permite calcular la elasticidad precio de la demanda, o en otras palabras, qué tan sensibles son tus consumidores a cambios pequeños en el precio. Es decir, si son muy sensibles, bastará hacer un pequeño descuento para que la demanda aumente más que proporcional a esa disminución en el precio. Lo anterior facilita ajustar tus precios y determinar los máximos descuentos que están dispuesta a ofertar.

Un tercer beneficio consiste en ayudarte a identificar productos que están sobrevalorados o subvalorados.

Un cuarto beneficio es que te permite obtener “insights” del comportamiento de tus clientes, de tal forma que puedes segmentar a tus clientes identificando los diferentes retornos que te brindan, personalizar tu estrategia de precios a estos segmentos.

El quinto beneficio es que te ayuda a mejorar la rentabilidad de tu negocio. De acuerdo con Larry Montan, Teery Kuester y Julie Meehan “Investigaciones demuestran que iniciativas para optimizar el precio pueden incrementar el margen de ganancia de la compañía entre un 2 y un 7 por ciento en 12 meses” (Fuente: Deloitte)

3 elementos que debes tener en cuenta antes aplicar analítica de precios

El primer elemento corresponde a los datos. Sin datos, no podemos aplicar analítica. Además los datos deben ser de calidad y ricos en información para que se pueda obtener algo útil de su análisis. No solo es importante tener  fecha y precio, también el canal, el cliente, a nivel de producto o SKU, y preferiblemente con una granularidad diaria.  ¿Qué pasa si no tienes los datos? ¡Empezar a recolectar los datos! Puedes hacerlo de manera manual pero hoy existen soluciones que te ahorran tiempo y recursos empleando tecnología.

El segundo está relacionado con las competencias del recurso humano. ¿Tienes un equipo de estadísticos, científico de datos o analistas preparado para realizar un análisis profundo de los datos? Si aún no lo tienes, no importa. Lo importante es reconocerlo e incluirlo en la planeación estratégica de la organización. Recuerda que puedes comenzar por analizar los datos de manera descriptiva con estadísticas y visualizaciones, es mejor empezar que no realizar nada.  Si ya aplicas analítica descriptiva, pero aún no  están las competencias para hacer algo más avanzado, puedes encontrar nuevas formas de analizar los datos de manera descriptiva, buscar herramientas tecnológicas que realicen el análisis avanzado y te capaciten, o contratar a un externo que te apoye en el proceso.

El tercero y no menos importante, ¿tienes el presupuesto y el tiempo? Cuando hablo de tiempo me refiero a que en el mundo ideal el análisis es continuo porque el mercado está continuamente cambiando y para responder de manera proactiva el análisis no debe parar. Sin embargo, todo (incluso el presupuesto) depende de la etapa de vida de la empresa, el tamaño y sus objetivos estratégicos.

Conclusión

El implementar las estrategias mencionadas de manera efectiva puede llevar a mejorar la eficiencia de nuestra operación, entender a fondo nuestro negocio y aumentar nuestra rentabilidad, sin embargo, en ocasiones no sabemos por donde empezar (si tenemos los datos) o simplemente no los tenemos, para ambos casos nosotros podemos apoyarte a través de DAnalytics Prices, la cual es una herramienta para el monitoreo inteligente de precios de productos por canales tanto físicos como virtuales, el cual te ahorra tiempo de recolección de datos, evita errores y presenta la información de manera que puedes tomar las decisiones con la información adecuada en el momento adecuado.

Científico de Datos

¿Qué es Data Analytics, Big Data o Data Science, y por qué un científico de datos tiene el trabajo más sexy del mundo en el siglo XXI?

Probablemente en los últimos años has oído o leído en algún medio de comunicación el término Ciencia de Datos (Data Science), Analítica de Datos (Data Analytics) o Big Data. Forbes por ejemplo ha publicado que el científico de datos ha sido catalogado como el mejor trabajo en Estados Unidos por tres años seguidos, cuya mediana de salario es 110.000 dólares al año (con una tasa de cambio de $2851 pesos/dólar) eso es alrededor de 313.61 millones de pesos al año o 26 millones de pesos mensuales (Davenport & Patil, 2012).

Si vives en Colombia de pronto has leído que Colombia es el noveno país del mundo con una política de Big Data, después de Estados Unidos (2012); Australia (2013); Reino Unido (2013); Corea del Sur (2013), Japón (2013); Unión Europea (2014), Francia (2014) y China en 2014 (Departamento Nacional de Planeación (DNP), 2017. [note] Algo que notarás en todas nuestras entradas es que constantemente referenciamos nuestros escritos a fuentes oficiales, artículos indexados, libros y medios de comunicación. Espero que te sirvan para complementar la información que buscas, también es para que sepas que no nos sacamos la información que compartimos del sombrero, y que de éstas surjan nuevas inquietudes o sugerencias que puedas compartir con nosotros ?.

O has leído sobre que el Ministerio de Tecnologías de Información y Comunicaciones (MinTIC) de Colombia abrió una convocatoria a principios de 2018 para formar a 200 personas en analítica de datos y TI (MinTIC, 2017).

Ahora si eres como yo (yo hace unos años), todo lo que te acabo de decir carece de sentido para ti. Eso y nada es casi que es lo mismo. Y te entiendo, si escribes en Google: Data Analytics, ¡te aparecen 666,000,000 de resultados!

Bueno el propósito de este blog es intentar responder preguntas como la del título de esta primera entrada y muchas otras que están relacionadas con este tema. Y tal vez te preguntes, ¿por qué abrimos este blog? La respuesta es que nos apasiona este tema y creemos que es importante socializarlo de una forma sencilla y agradable que les permita a otras personas (estudiantes, profesionales, empresarios, jubilados, realmente puede ser cualquier persona puesto que hay datos en todas partes) entusiasmarse por él.

Así que iniciemos una breve conceptualización de varios términos.

Campos de la Ciencia de Datos
Fuente: Dahl Winters (2015)

Ciencia de datos

Primero, qué es la Ciencia de Datos. ¿Es algo 100% nuevo? No. Se asocia con analítica de los negocios, inteligencia de negocios, analítica de datos, entre otros términos (pronto tendremos entradas para estos términos también).

La ciencia de datos se aplica hace mucho tiempo, pero solo recientemente se le acuño ese nombre  En 2008 D.J. Patil y Jeff Hammerarcacher acuñaron el término. En ese momento, el primero lideraba el área de datos y análisis en LinkedIn y el segundo en Facebook. ¿A qué? Bueno Foreman (2014) la define como la ciencia que transformar los datos, mediante matemáticas y estadística, en revelaciones valiosas, decisiones y productos. Yo le agregaría otros mediante· a esa definición tales como: ingeniería de datos, reconocimiento de patrones y aprendizaje avanzado de computación, visualización, modelado de incertidumbre, almacenamiento de datos, y computación de alto rendimiento (HPC). Y cómo se relaciona la analítica de datos con la ciencia de datos, pues ésta es la encargada de extraer esas valiosas intuiciones o revelaciones de los datos, mediante el uso muchas herramientas, sobre las cuales te contaremos más adelante.

¿Y Big Data?

De acuerdo, a las Naciones Unidas en 2012 el Big Data se refiere al volumen masivo de datos, tanto estructurados (ej.: bases de datos) como no estructurados (ej.: redes sociales, tweets, videos), que son demasiado grandes y difíciles de procesar con las bases de datos y el ‘software’ tradicional (UN Global Pulse, 2012). Doug Laney articuló tres palabras claves para definir Big Data: volumen, velocidad y variedad (SAS, s.f.). Lo del volumen masivo es complicado entenderlo en el lenguaje de los ingenieros de sistemas (volumen masivo = muchos terabytes o exabytes de información) pero lo podemos convertir en objetos tangibles que conocemos; por ejemplo, el volumen total de los datos de los 16 ministerios de Colombia (1000 terabytes = Big Data) cabe en 222,000 DVD (DNP, 2016).

El Big Data trae varios retos en términos de almacenamiento, procesamiento, seguridad, entre otros aspectos, y eso se da especialmente porque crece de manera exponencial y es sumamente variado (bases de datos, grabaciones de video o voz, imágenes, redes sociales, entre otras). Se estima que cada minuto se suben 48 horas de video en YouTube, 527 páginas web se crean, 204,166,667 emails son enviados, 3,600 fotos se compartes en Instagram, y 684,478 individuos comparten contenido en Facebook (Simon, 2013).

¿El trabajo máx sexy del mundo?

Para finalizar, de acuerdo a la edición de octubre de 2012 de la revista Harvard Business Review  el científico de datos tenía (y sigue teniendo) el trabajo más sexy del mundo en el siglo XXI porque la demanda por estos profesionales sobrepasa la oferta actual, eso los hace valiosos y por eso en este momento son de los profesionales mejor pagados en el mundo. Por ejemplo, en Estados Unidos se estimaba que para este año (2018) habría un déficit entre 140 y 190 mil profesionales de esta rama (Simon, 2013). Y qué hace este profesional, de acuerdo con la definición de IBM:

“Lo que distingue a los científicos de datos es la perspicacia en los negocios, junto con su capacidad para comunicar los hallazgos encontrados tanto a las personas administrativas como a las de TI, de tal forma que pueden influir cómo una organización aborda un desafío empresarial. Los buenos científicos de datos no solo abordarán los problemas de negocios. Escogerán los problemas correctos que tienen más valor para la organización”. (Traducción propia)

Es decir, un científico de datos debe reunir habilidades y conocimiento del negocio (como un administrador de empresas o gerente de la organización), de un ingeniero de sistemas y de un estadístico.

La realidad es que es poco probable que una sola persona sepa a profundidad de las últimas dos áreas, y más difícil aún que tenga conozca sobre varios sectores productivos. Es por eso por lo que hoy en día, los científicos de datos son grupos de individuos de varias disciplinas que forman una sinergia para cumplir con el papel del científico de datos, aplicando la ciencia de datos y ofreciéndole a las organizaciones el valor de los datos mediante la analítica de datos.

Referencias

  1. Davenport, T.H. & Patil D.J.(2012, octubre). Data Scientist: The Sexiest Job of the 21st Century. Harvard Business Review. Recuperado de https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century
  2. Departamento Nacional de Planeación (2016, marzo). “Colombia entra a las grandes ligas del Big Data”: Simón Gaviria Muñoz. Recuperado de https://www.dnp.gov.co/Paginas/%E2%80%9CColombia-entra-a-las-grandes-ligas-del-Big-Data%E2%80%9D–Sim%C3%B3n-Gaviria-Mu%C3%B1oz-.aspx
  3. Departamento Nacional de Planeación (2017, octubre). Colombia será el noveno país del mundo en tener una política de Big Data: DNP. Recuperado de https://www.dnp.gov.co/Paginas/Colombia-ser%C3%A1-el-noveno-pa%C3%ADs-del-mundo-en-tener-una-pol%C3%ADtica-de-Big-Data-DNP-.aspx
  4. Foreman, J. W. (2014). Data smart: Using data science to transform information into insight. John Wiley & Sons.
  5. Ministerio de Tecnologías de Información y Comunicaciones (2017, diciembre). 200 ciudadanos podrán formarse en analítica de datos y TI con la convocatoria de Científicos de Datos. Recuperado de http://www.mintic.gov.co/portal/604/w3-article-62098.html
  6.  SAS. (s.f.). Big Data: what is it and why it matters. Recuperado de https://www.sas.com/en_us/insights/big-data/what-is-big-data.html
  7. Simon, P. (2013). Too big to ignore: the business case for big data. John Wiley & Sons.
  8. UN Global Pulse (2012). Big Data for Development: Challenges and Opportunities. Recuperado de http://www.unglobalpulse.org/projects/BigDataforDevelopmet
Descriptiva

Descriptiva, predictiva, prescriptiva: los tipos de analítica

En una entrada pasada del blog les habíamos contado qué era la Analítica de Datos (Data Analytics). Hoy vamos a contarles un poco más sobre cuáles son los tipos de analítica de datos y para qué sirven. Pero antes de eso es necesario hablar un poco de los tipos de datos que existen. Como ven en la imagen hay datos que son estructurados, semiestructurados y no estructurados. Los datos estructurados son aquellos que almacenan en sus hojas de excel o en una base de datos, y se caracterizan porque tienen un orden predeterminado, casi siempre organizamos los datos en filas y columnas. Por el contrario, los datos no estructurados no tienen una forma predefinida, por ejemplo son las fotos que cuelgas en Instagram, los videos que grabas en tu smartphone, los mensajes de voz que envías por Whatsapp, lo que cuelgas en tu muro de Facebook, entre otros. Los datos semiestructurados tienen algo de ambos tipos..

Ahora así, como les decíamos hay varios tipos de analítica. El nivel al que se puede llegar dentro de una organización depende de la madurez de ésta. Vamos a ver los tres más conocidos y en entradas futuras les daremos más detalle de los otros tipos y qué es eso de inteligencia de negocio (business intelligence).

Subcampos de la analítica
Fuente: Rapidminer (s.f.)

Analítica descriptiva

Generalmente, uno comienza haciendo analítica descriptiva. ¿Y qué es eso? Piense cuando su jefe le dice “quiero las estadísticas descriptivas (tablas de frecuencia, histogramas, gráficas de barras, media, la moda, mediana) de esos datos”. Sí señor o señora, ahí usted empezó a aplicar analítica de datos. Claro está que la analítica descriptiva va un poco más allá de eso. Como su nombre lo indica con este tipo se describen una situación, evento o producto de la mejor forma posible con el objetivo de responder qué ha pasado.

Analítica predictiva

Según Kelleher Mac Namee y D’Arcy (2015) la analítica predictiva consiste en el arte de construir y usar modelos para hacer predicciones basadas en los patrones que se extraen de los datos históricos de interés. Ahora vamos a responder la pregunta que seguramente le surgió: Y este tipo de analítica, ¿para qué me sirve?

La respuesta es sencilla porque básicamente lo que responde este tipo de analítica es que es lo más probable que suceda. El espacio que tenemos no es suficiente largo para todo lo que podemos hacer con este tipo de analítica, así que en esta entrada les contaremos sólo sobre dos usos que tomamos y complementamos de Kelleher Mac Namee y D’Arcy (2015):

Es importante tener en cuenta que, para cualquiera de esas aplicaciones, además de contar con un recurso humano o un proveedor experto en soluciones en analítica, necesita una base de datos histórica. Y eso no significa un año o dos de datos, eso significa mínimo más de tres años si estamos hablando de una periodicidad mensual y recuerde que entre más periodos tenga mejor será la precisión que podrá tener el modelo, la cual nunca será del 100%. Si no tiene los datos, pero usted reconoce que su organización presenta problemas que se podrían solventar u oportunidades que se podrían aprovechar utilizando la analítica predictiva, entonces es hora de empezar a pensar de manera estratégica sobre la captura y almacenamiento de esos datos que usted necesita.

Analítica prescriptiva

La analítica prescriptiva va un paso más allá. De acuerdo con Bull, Centurion, Kearns, Kelso y Viswanathan (2015), el interés por ésta hizo boom en 2013 (aún no he encontrado el motivo para que esto sea así) aunque los métodos que se emplean existen hace mucho tiempo. La analítica prescriptiva se apoya en técnicas de investigación de operaciones, machine learning, estadística aplicada y procesamiento del lenguaje natural para responder interrogantes como:

  • ¿Cómo optimizar la estrategia de trade?
  • ¿Cómo optimizar el portafolio de servicios financieros de mi compañía?
  • ¿Cómo optimizar el mix de productos que ofrece mi compañía?
  • ¿Qué es lo mejor o lo peor que puede pasar?

Referencias

  1. Bull, P., Centurion, C., Kearns, S., Kelso, E., y Viswanathan, N. (2015). Prescriptive analytics for business leader. River Logic.
  2. Chartered Global Management Accountant. (2016). Business analytics and decision making: The human dimension.
  3. Kelleher, J. D., Mac Namee, B., & D’Arcy, A. (2015). Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies. MIT Press.
  4. Rapidminer. (s.f). An Introduction to Advanced Analytics. Disponible en: https://rapidminer.com/resource/introduction-advanced-analytics/
Retención de clientes

“Tengo problemas para retener a mis clientes”: ¿Le suena conocido?

Hoy vamos a hablar del proceso de toma de decisiones basadas en los datos (data driven decision making) con un ejemplo, o mejor con un problema que vivimos o por lo menos hemos oído a un conocido mencionar: cómo retengo a mis clientes. Uno pensaría que lo más obvio es intentar retener a los clientes más rentables, pero hoy en día la tarea parece titánica porque los clientes van y vienen ya que hay muchas ofertas, es retador diferenciarse y los programas de retención perdieron su utilidad puesto que muchas empresas los manejan, entre otros factores.

Aun así, eso no significa que todo esté perdido. En la web hay muchos tips sobre qué hacer para vencer estos obstáculos. Por ejemplo, “7 tips para retener clientes” (Betech, 2013) da 7 consejos que consisten en:

Frente a esos tips podemos hacer dos cosas. Por un lado, podemos guiarnos solamente por nuestra intuición para fijarnos metas y estrategias para implementar uno o todos los consejos. Tal vez obtengamos buenos resultados o tal vez no, lo cierto es que la incertidumbre en este caso es bastante grande. Por otro lado, podemos analizar nuestros datos (fuentes internas y externas), y tomar decisiones con base a los resultados que extraigamos (eso es Toma de decisiones basada en los datos) para fijarnos metas y diseñar estrategias [note] Aquí quiero hacer dos paréntesis: i) con la analítica no tienes una certeza del 100% de que lo diseñes e implementes va a funcionar con éxito pero si incrementa las probabilidades de que así sea; ii) la aplicación de la analítica y la toma de decisiones basada en datos (DDD en inglés) dentro de tu organización no va a reemplazar tu intuición, tú eres el que tiene el conocimiento del sector empresarial en el que se encuentra tu negocio, la analítica es una herramienta que va a complementar tu análisis, va a validar tus hipótesis o por el contrario va a rechazarlas, así que empléala y obtén una ventaja diferenciadora.

Sí, para cada uno de esos tips puedes aplicar alguna técnica de análisis de datos. Por ejemplo, para el tip 1 necesitas estudiar tu tasa de retención actual e histórica para definir una meta. Para el tipo 2 podrías analizar cómo tus clientes han reaccionado a diferentes promociones en el pasado para predecir cómo estos van a reaccionar a diferentes promociones que tengas en mente y puedas escoger la que tenga más probabilidades de éxito. O para el tipo 4 puedes estudiar a tus clientes para identificar aquellos que son más sensibles a reaccionar antes novedades y enfocar tus estrategias de mercadeo en justo ellos.  Imagínate con miles de clientes, una estrategia de mercadeo para cubrirlos a todos resulta costosa en términos financieros y humanos, y hoy en día hay mejores opciones para atender ese problema, pero sobre eso hablaremos en otra entrada del blog. O para el tip 6 podrías emplear una técnica de clustering para agrupar a tus clientes basándote en su comportamiento de compra y las características sociodemográficas que tengas disponibles.

Y es que son varios estudios los que muestran los beneficios de tomar decisiones basadas en los datos. Hoy te traigo un estudio del Instituto Tecnológico de Massachusetts (MIT), una de las universidades más importantes de Estados Unidos, en el que se encontró que entre más decisiones se tomen basadas en los datos, más productiva es la empresa. Una desviación estándar por encima en el índice de decisiones basadas en datos (DDD) está asociada con un incremento en la productividad del 4 al 6%. Además, la DDD tiene una relación positiva y estadísticamente significativa con indicadores de rentabilidad del capital (ROE) Indicador mide la capacidad que tiene el negocio para generar rentabilidad con el recurso invertido por los socios. Se mide dividiendo el beneficio neto después de impuestos (Estado de Resultados) por Capital propio o Patrimonio aportado por los socios (Balance General). [/note] rentabilidad sobre activos (ROA) Indicador mide qué tan rentable es una compañía con relación al tamaño de sus activos, es decir que brinda una idea de que tan eficientemente se están administrando los activos para generar ingresos. Se mide dividiendo el beneficio neto después de impuestos (Estado de Resultados) por Activos Totales (Balance General). [/note], valor del mercado de la compañía, entre otros (Provost & Fawcett, 2013).

¡¡¡En conclusión, la toma de DDD está recomendadísima!!! Si ya la estás implementando, en próximas entradas te daremos consejos sobre cómo hacer un diagnóstico básico del DDD en tu organización y algunas recomendaciones generales. Si aún no lo estás haciendo, tranquilo lo importante es reconocer su importancia y empezar a hacer una planeación estratégica de ésta para que puedas implementar y alinear a la estructura y cultura de tu organización. Aunque te he mencionado muchas veces la palabra datos como un activo indispensable para la toma de DDD, es importante recordar que debe existir un talento humano que tenga las capacidades para extraer conocimiento de los datos. Este talento puede ser interno a tu organización o puede ser externo. Es decir, datos + talento humano = DDD exitosa.

Referencias

  1. Betech, E. (2013, junio 25) 7 tips para retener clientes. Disponible en https://www.entrepreneur.com/article/266062
  2. Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know about data mining and data-analytic thinking. O’Reilly Media, Inc.
analitica

BIG DATA: No es una tendencia ni una moda tecnológica, es una realidad que vino para quedarse.

Los grandes conjuntos de información o big data (aunque creo que el adjetivo grande ya le está quedando pequeño) están aquí desde hace ya un tiempo y están creciendo a pasos gigantes. Se espera que en 2020 haya 40 zettabytes almacenados digitalmente, esto es alrededor de 6080 millones de años de ponerse a ver videos en HD (NVTC, 2017). Es decir, si suponemos que usted es colombiano entonces debería vivir 78 años

Si usted nació en Colombia en 2016 y es hombre entonces tiene una esperanza de vida al nacer de 75,4 años y si es mujer su esperanza de vida es 81,1 años (Fernández, 2017), entonces para no complicarnos sacamos el promedio.

En promedio, luego usted necesitaría casi 78 millones de vidas para ver todos esos videos. En esta entrada voy a contarles de cómo se mide el Big Data y por qué está creciendo de manera exponencial.

Infografía de Big Data de IBM
Fuente: IBM (s.f.)

Volumen

Empecemos entonces por la medición del volumen. Para eso hay que hablar de bytes. ¿Qué es un byte? Un byte es una unidad de medida para almacenaje y procesamiento de información. Un byte es lo que se requiere para almacenar una letra. Yo creo que usted está familiarizado con algunas medidas de volumen que le siguen al byte; por ejemplo, un Kilobyte (KB) son 1024 bytes, imagínese que una hoja escrita en Word es equivalente más o menos a 30 KB. Después viene el Megabyte (1 MB son 1024 KB), y eso es un libro de texto. Le sigue un GB que son 1024 MB, eso es en lo típico en lo que nos fijamos cuando vamos a comprar una memoria USB o un celular.

Uno más reciente es el Terabyte (1 TB son 1024 GB), y ese volumen es lo que ahora ofrecen la mayoría de los computadores portátiles hoy en día. Mi portátil tiene una TB de almacenamiento y aunque guardo y guardo información parece que eso nunca se va a acabar.  Después siguen los Petabytes (1PB son 1024 TB), los Exabytes (1 EB son 1024 TB), los Zettabytes (1 ZB 1024 EB), los Yottabytes (1 YB son 1024 ZB), los Brontobyte (1 BB son 1024 YB) y los Geopbyte (1 GB son 1024 BB).

Veamos algunos ejemplos de esas unidades de medidas. En 2008, Google procesaba 20 Pentabytes de información cada día (Dontha, 2017).  Un Exabyte es equivalente a 250 millones de DVD’s, si comparamos todas las películas que se han creado en toda la historia del cine (500.000 películas aproximadamente), entonces qué haríamos con los 249.5 millones de DVD’s restantes, suponiendo que tenemos acceso a todas las películas y DVD’s que queramos (Säisä, 2013). Entonces, ¿en términos de volumen a qué nos referimos cuando hablamos de Big Data? Cuando hablamos de docenas de Terabytes y de ahí en adelante podemos decir que ya estamos hablando de Big Data.

Variedad

Y, ¿por qué crece tan rápido? Por un lado, los desarrollos tecnológicos han generado una gran variedad de datos; por otro lado, cada vez más personas en el mundo tienen acceso a ellos. Imagínese que en 1998 (hace 20 años) las búsquedas que se hacían en el Google por día eran de 9800 en promedio y en 2012, fueron 5134 millones en promedio (SAP es una multinacional alemana que se dedica a diseñar software para todo tipo de organizaciones, 2014). En otras palabras, ¡Aproximadamente 524000 veces más búsquedas en 2012 que en 1998, y eso sólo ocurrió en 14 años!

¿Qué tipo de desarrollos tecnológicos? Por ejemplo, el celular, el internet o el ipod. Si usted es un centennial (nació en 1995 o después) probablemente no tenga idea que es un beeper o un fax, tenga un celular y casi todos los que conoce también tienen uno. De hecho, se estima que en el mundo hay 6 .8 de billones de líneas de celulares, y si somos más o menos 7.6 billones de personas, entonces tenemos que de cada 100 personas hay 78 que tienen celular.

¿Qué almacenamos en el celular? Todo tipo de datos: imágenes, videos, sonidos (música), mensajes de texto, y si además tenemos datos o acceso a wifi, podemos ver videos en Youtube, agregar contenido a Facebook o enviar Tweets [note] No es que antes de estos desarrollos no tuviéramos fotografías, o videos, o “mensajes de texto”, solo que los almacenamos, interactuamos y las compartíamos de una forma diferente. Por ejemplo, las fotos las tomamos con una cámara fotografía, quedaban almacenadas en un rollo que teníamos que revelar y las guardábamos físicamente en un álbum.[/note].  Resulta que 30 billones de piezas de contenido se comparten mensualmente en Facebook, 400 millones de Tweets se mandan todos los días, o 4 billones de horas de video se ven en YouTube cada mes (IBM, s.f), yo no sé ustedes, pero a mí esas cifras no me caben en la cabeza.

Velocidad

Hay otra característica que es importante: la velocidad. Es decir que tanto tiempo se necesita para almacenar y analizar la información De nuevo los desarrollos tecnologías nos permiten tener más información en tiempo real. De hecho, existen alrededor de 2.5 conexiones de red por cada persona en la tierra (IBM, s.f.).  Un ejemplo de la velocidad está a unos cuantos pasos de usted si posee un carro moderno, estos tienen alrededor de 100 sensores y eso significa que en tiempo real usted puede saber con exactitud el nivel de gasolina, la presión de sus llantas, entre muchas cosas, y toda esa información la almacenan y procesan en milésimas de segundo.

Si notaron, subrayé tres palabras: variedad, volumen y velocidad. Esas son las 3 V básicas que caracterizan al Big Data. Sobre las otras características (valor y veracidad) y las oportunidades y retos que ha traído el Big Data les hablaré en la próxima entrada.

Referencias

  1. Dontha, R. (2017, 13 enero). Who came up with the name Big Data? Disponible en https://www.datasciencecentral.com/profiles/blogs/who-came-up-with-the-name-big-data
  2. Fernández, C.F (2017, 14 septiembre). Los hombres colombianos vivirán 75,4 años y las mujeres 81,1 años. El Tiempo. Disponible en: http://www.eltiempo.com/vida/salud/esperanza-de-vida-en-los-hombres-y-mujeres-de-colombia-130840
  3. IBM (s.f). The Four V’s of Big Data. Disponible en: http://www.ibmbigdatahub.com/infographic/four-vs-big-data
  4. NTCV – Northern Virginia Tecnology Council (2017). Data Analytics. Disponible en: http://blog.nvtc.org/index.php/nvtc-publishes-2017-data-analytics-infographic/
  5. Säisä, L. (2013, 9 agosto). Big Data and privacy aspects. Disponible en: http://saisa.eu/blogs/Guidance/?p=1274
  6. SAP (2013). Big Data is affecting people everywhere. Disponible en: https://visual.ly/community/infographic/technology/big-data-affecting-people-everywhere
Big data

BIG DATA: Veracidad, valor y retos

En la entrada pasada les conté que el Big Data se caracteriza por: Velocidad, Variedad y Volumen. Ahora hay otras dos V que se tienden a utilizar: Veracidad y Valor. Hoy les contaré sobre el significado de ellas y cuáles son algunos de los retos que enfrentan las organizaciones con el Big Data.

Veracidad

¿De dónde salió esta V? De IBM. ¿Y qué quiere decir? Según la RAE, veracidad significa que tiene la propiedad de ser veraz, es decir “Que dice, usa o profesa siempre la verdad”. La verdad se puede explorar desde varias ópticas: objetivo/subjetivo, verdadero/engaño, creíble/implausible (Lukoianova & Rubin, 2014). ¿Por qué esta propiedad podría ser importante? Bueno porque muchos datos son generados por los seres humanos directamente o indirectamente. Seamos sinceros, los seremos humanos a veces expresamos en las redes sociales una cosa y terminamos haciendo lo contrario; ejemplos de ello lo encuentra en el Plesbicito por la Paz o el Brexit (directo). O hay avances tecnológicos que son creados con el fin mismo de crear desinformación (dar click aquí para leer el artículo “La información falsa llega más lejos, más rápido y a más gente que la verdadera”) (indirecto).  ¿Entonces cómo sabemos si los datos que capturamos son o no veraces? No hay una fórmula mágica para clasificar un dato como confiable o no, mi recomendación es que no pierda su sentido común y pensamiento crítico cuando vea los resultados de los análisis de los datos. Y eso aplica tanto si es Big Data como no.

Valor

Entre más datos tienes, más valor tiene tu compañía. Por ejemplo, en el top 10 de las empresas más valiosas en el mundo (Fortune 500 2016) se encontraban: Walmart, Apple, Amazon, Alphabet (Google), Microsoft y Facebook (Marr, 2017). Cada una en un sector de la economía diferente, con un modelo de negocio distinto, sin embargo, tienen un elemento en común: su habilidad para recolectar datos y aprovecharlos para generar ventajas competitivas.

¿Cómo monetizar los datos? Los datos incrementan el valor de mercado de la compañía o a través de la generación de capacidades para crear un valor extra con los datos que puedan vendérselo a tus clientes o a terceros. Ya vimos un ejemplo del primer caso. Veamos un ejemplo del segundo. ¿Tienes una tarjeta de crédito? Si es así, ya sea Visa, Mastercard o American Express, entonces es cierto lo que estás pensando ellos ganan por todos lados. Por un lado, por el cobro que te realizan por el servicio que prestan. Pero resulta que ese servicio que usted utiliza le da información de sus hábitos de compra: dónde, qué, cuánto, cada cuánto, a cuántas cuotas, etc. Eso es información valiosa para muchas otras empresas. Por ejemplo, los retailers pueden estar dispuestos a comprar esa información porque les es útil para segmentar a los clientes o para identificar tendencias de compra de ciertos nichos de mercado (Marr, 2017).

5Vs y muchos retos

¿Qué retos enfrentan las organizaciones? Muchos. Todo depende del sector en que se encuentre su organización, el tamaño de ésta, de los objetivos estratégicos de largo plazo que se hayan, es decir los retos de una organización son específicos a las características de la empresa y a su entorno. Lo que sí puedo es darle algunas preguntas que se debería responder si va a empezar a acumular muchos datos o si ya está lleno de datos, cada vez creciendo más y no tiene ni idea de qué hacer con ellos.

Empecemos con la V de Volumen. ¿Cuál es la información que es valiosa para tu negocio? A menos que seas Google, Facebook o Amazon, no puedes darte el lujo de almacenar todos los datos que generas porque resulta muy costoso, Después, puedes responder ¿Dónde vas a almacenar los datos y quién se va a encargar de hacer eso? Si no tienes la capacidad propia de almacenaje, hay muchos servidores en la nube donde puedes guardar tu información como los que provee Amazon, Google, Microsoft, Atlantic.net, entre otros. También tienes que pensar en cuál es la infraestructura tecnológica que necesitas para procesar esos datos y evaluar si tu recurso humano tiene las capacidades técnicas para manipular esa información.

La V de Velocidad: procesamiento de la información en tiempo real. Probablemente, en Colombia estemos un poco lejos de esta característica, al menos en la mayoría de las empresas, pero para las que sí lo están, mi recomendación es analice qué es lo realmente importante y procese eso. De nuevo hay que analizar los costos y beneficios, y no perder de vista la visión estratégica que queremos alcanzar.

Por último, la V de Variedad. Los datos provienen de tantas fuentes diferentes y terminan almacenados en diferentes computadores. Aquí podrías responderte: ¿Qué tipo de datos colectas? ¿Qué tipo de procesamiento necesitan? ¿Para qué me podrían servir? Y ¿Cómo los puedo integrar? Mejor dicho, haz el inventario de los datos a los que tienes acceso, dónde están y quién tiene acceso a ellos. Puedes tener infinita cantidad de datos, pero si no conoces qué tienes y cómo se pueden integrar, de poco te sirven para tomar decisiones y mejorar la eficiencia operacional de tu compañía.

Después de que captures y almacenes los datos tendrás otros retos: ¿cómo visualizarlos?, ¿cómo reducir la dimensionalidad?, ¿cómo manejar la dispersión y regularizar los datos? Como ya te mencionamos las respuestas particulares a estas preguntas son dependientes de tu organización y características. Nosotros te contaremos los últimos avances tecnológicos que  existen en el mercado para resolver retos y aprovechar oportunidades, te daremos en qué pensar, y especialmente queremos que entiendas los conceptos para que puedas hablar un mismo lenguaje con los ingenieros de sistemas y comunicar la importancia de los datos a tus proveedores y clientes (internos y externos).

Referencias

  1. Lukoianova, T., & Rubin, V. L. (2014). Veracity roadmap: Is big data objective, truthful and credible?.
  2. Marr, B. (2017). Data Strategy: How to Profit from a World of Big Data, Analytics and the Internet of Things. Kogan Page Publishers.
Tres casos de Big Data

Tres casos de éxito de aplicar BIG DATA

Es Volumen, es Variedad, es Velocidad, es Veracidad y sobre todo es VALOR cuando aplicamos analítica al BIG DATA (Big Data Analytics). Ya hablamos de sus características y de sus retos, hoy es el día para presentarles algunos casos de éxito, y mostrarles para qué le puede servir a una organización aplicar Big Data Analytics.

Caso No. 1 Global Pulse

Generalmente asociado el tema de Big Data al sector empresarial pero este no es exclusivo de ese sector. Organizaciones gubernamentales, o intergubernamental como es el caso de las Naciones Unidas, buscan aprovechar el big data, la inteligencia artificial y otras tecnologías emergentes para cumplir con los objetivos que se han propuesto. Por ese motivo, las Naciones Unidas (UN)  Esta organización nació después del fin de la Segunda Guerra Mundial, el 24 de octubre de 1945 y hoy tiene 193 Estados miembros, dentro de sus objetivos promover la paz, proteger los derechos humanos, establecer el marco de la justicia internacional y promover el progreso económico y social. crearon la iniciativa Global Pulse, con la que esperan apoyarse en las nuevas herramientas tecnológicas para ayudar a distribuir ayuda humanitaria, y promover el desarrollo sostenible.

UN no está sola, en cada uno de los proyectos, Global Pulse se une con otras empresas que poseen las capacidades analíticas para manipular grandes volúmenes de información. Por ejemplo, para Irlanda, el grupo de Global Pulse se unió a SAS para responder a la pregunta de ¿si pueden las redes sociales profundizar el desempleo?

Para eso capturaron información digital (redes sociales, blogs, foros, noticias que estuvieran relacionados con el desempleo), después realizaron un análisis exploratorio, y por último realizaron un análisis de sentimientos (sentiment analysis) [note] Análisis de sentimientos, también llamado minería de opinión , es el campo de estudio que analiza las opiniones, sentimientos, evaluaciones, valoraciones, actitudes de las personas, y emociones hacia entidades tales como productos, servicios, organizaciones, individuos, problemas, eventos, temas y sus atributos. y etiquetaron cada conversación. Por último, realizaron una correlación entre el estado de ánimo de la conversación y las estadísticas oficiales de desempleo. Descubrieron que mayores conversaciones en las redes sociales sobre temas relacionados con confusión y ansiedad ocasionada por el trabajo es un buen indicador que alerta un pico de desempleo en Irlanda y este indicador funciona con tres meses de anticipación.

Caso No. 2 OPower

Big Data y computación en la nube generalmente van de la mano. Ese es el caso de la compañía OPower, subsidiaria de Oracle Corporation, que funciona como una plataforma que asiste a empresas de servicios públicos a reducir el consumo de energía y a mejorar las relaciones que tienen con sus clientes. Empleando datos de termostatos y otros dispositivos de Pacific Gas and Electric, OPower captura alrededor de 7 millones de datos cada día y con eso genera reportes que se adjuntan a la factura de servicios públicos como una forma de incentivar al cliente a racionar su consumo de energía al comparar su comportamiento con el comportamiento de sus vecinos.

A medida que el volumen de datos aumentaba, el tiempo requerido para almacenar y procesarlos aumentaba. Su infraestructura de datos basada en MySQL no estaba dando abasto y muchos datos quedaban sin analizarse. ¿Cómo entregar a los clientes una propuesta de valor en un tiempo corto? La respuesta fue empezar a utilizar Hadoop Apache Hadoop es un software de código abierto que admite el procesamiento distribuido de grandes conjuntos de datos en clústeres de computadoras y es muy adecuado para ejecutar aplicaciones en forma paralela.  y Datameer, herramientas tecnológicas que le permitieron acceder y analizar los datos tanto a sus científicos de datos como a sus gerentes de productos. Con ese cambio OPower ha reducido drásticamente el tiempo requerido para acceder a datos para el análisis y a empoderado a los gerentes de producto con ideas para ayudar a los clientes a reducir consumo de energía en $500 millones y se ha reducido la producción de CO2 en 7 mil millones de libras.

Caso No. 3 Netflix

¿Quién no se ha visto una película o serie en Netflix? Personalmente, amante de los 100 y 3%, esperando las nuevas temporadas en este momento.  Netflix tiene más de 100 millones de suscriptores en el mundo, ya se imaginarán el gran volumen de datos que capturan, y eso con un solo objetivo: mejorar la experiencia del usuario.

Antes de ser lo que es hoy, Netflix era una compañía que alquilaba y vendía DVD’s vía correo, las suscripciones a Netflix eran económicas y no cobraban multas si el cliente se retrasaba en la entrega. Ese modelo de negocio revolucionó a la industria y llevó a otras empresas, que no se lograron adaptar a los cambios del entorno como Blockbuster, a la quiebra. Los fundadores de Netflix se dieron cuenta de la importancia de los datos y en 2006 lanzaron el premio Netflix, que ofrecía un $ 1 millón de dólares al grupo ofreciera el mejor algoritmo para predecir cómo calificarían sus clientes una película en función de sus calificaciones anteriores. De ahí en adelante el uso de Big Data ayuda a Netflix a decidir qué programas le interesarán al usuario, generar contenido (la serie House Cards se diseñó a partir de resultados de Big Data Analytics), entre otras; es más, el sistema de recomendaciones influye en el 80% del contenido que vemos en Netflix. Los algoritmos detrás del sistema de recomendación ayudan a Netflix a ahorrar $ 1 mil millones de dólares al año a partir de la retención de clientes (InsideBIGDATA,2018)

Comentarios finales

Me gustaría resaltar dos aspectos de los casos presentados. El primero es la importancia de empezar por definir una pregunta de interés para la organización, antes de hacer un inventario de los datos disponibles o aplicar técnicas de analítica para ver qué se podría encontrar. En otras palabras, primero establecer cuál es el norte que quiere alcanzar la organización y cuáles son las preguntas debería estar en capacidad de responder para alcanzar esa meta, después sí salir a buscar los datos y los métodos apropiados.

En segundo lugar, la organización no se las tiene que saber todas. UN buscó a SAS para que este se encargara de capturar, almacenar y procesar los datos. OPower migró a Hadoop y buscó a Datameer para empoderara a los gerentes de productos a analizar los datos. Por último, Netflix abrió un concurso para que un equipo externo desarrollara un algoritmo.

Referencias

  1. (s.f). Top Five High-Impact Use Cases for Big Data Analytics. Disponible en https://www.datameer.com/pdf/eBook-Top-Five-High-Impact-UseCases-for-Big-Data-Analytics.pdf
  2. Global Pulse (2013). Big Data For Development: A Primer. Disponible en http://www.unglobalpulse.org/sites/default/files/Primer%202013_FINAL%20FOR%20PRINT.pdf
  3. InsideBIGDATA (2018, enero 20). How Netflix Uses Big Data to Drive Success. Disponible en https://insidebigdata.com/2018/01/20/netflix-uses-big-data-drive-success/
  4. Objetivos de Desarrollo Sostenible. (s.f). Naciones Unidas. Disponible en https://www.un.org/sustainabledevelopment/es/objetivos-de-desarrollo-sostenible/
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte I

Explorar los datos es tal vez uno de los pasos más importantes en la analítica de datos y generalmente utilizamos la estadística descriptiva para hacerlo.. También es uno de los pasos que más toma tiempo, se estima que en un proyecto de analítica esta fase puede tomar 60% tiempo (es decir que, si usted establece que ese proyecto le va a tomar 10 meses, 6 meses se van a ir limpiando y explorando la base de datos) (Forbes, 2016). Además, es una fase que muchos evitan o tratan de minimizar. O bueno, al menos eso es lo que yo percibo, que los analistas, los gerentes, los directores de proyectos, y cargos similares, quieren llegar rápidamente a formular los modelos, correrlos y obtener resultados. Sin embargo, ¿usted se casaría con alguien sin conocerlo primero?

Probablemente no, y si sobre los resultados de los modelos usted va a tomar decisiones estratégicas y cruciales para el éxito de su organización (por ejemplo, si lanza o no un producto, si compra más o menos insumos de acuerdo con los pronósticos que haya realizado, o si contrata o no a un individuo), entonces sí debería dedicarse a conocer los datos por un tiempo antes de “casarse” con ellos a través de un modelo.  Lo anterior es aún más crucial si va a utilizar métodos y modelos complejos; la exploración, mediante el uso de estadística descriptiva, le da alguna certeza de que los modelos seleccionados están capturando la esencia de sus datos.

A mí personalmente, me encanta esta fase, porque cuando exploramos los datos encontramos patrones, tendencias, outliers, anomalías y esto resulta ser un paso fundamental durante la limpieza de los datos, y nos da ideas de qué modelos podemos podríamos aplicar.

Debido a su importancia, vamos a dedicarle varios posts a este tema. Hoy, en particular, hablaremos de los tipos de datos. Todavía no hablaremos de la exploración en sí porque primero identificamos el tipo de datos que tenemos y posteriormente buscamos la herramienta adecuada para explorarlos. Piense que, si el dato es un candado, entonces no cualquier llave puede abrirlo y revelarnos la información que hay detrás; primero, tenemos que descubrir qué tipo de candado es.

Tipos de Datos

La división básica divide los datos en numéricos vs categóricos. Los primeros se guardan de manera “natural” como números y pueden ser “medidos”; mientras que los categóricos son clases o categorías y no se pueden “medir”.

Los datos numéricos se dividen a su vez en datos continuos o discretos. Si ve un decimal, entonces es un dato numérico continuo; mientras que, si ve un numero entero, entonces es discreto. A lo anterior, agregaría que las cosas pueden tornarse un poco más complejas porque siempre debemos tener en cuenta el contexto de los datos. Por ejemplo, suponga que usted fabrica y vende ropa para niños menores de 12 años, y del área de ventas le informan que de acuerdo con el pronóstico (empleando un modelo ARIMA), se espera que el próximo mes se vendan 200.5 camisas para niños de 6 años. La variable número de camisas es de naturaleza discreta, aunque el pronóstico tenga decimales, usted no puede dejar media camisa por hacer.

Niveles de medición de las variables

Las variables cualitativas se pueden “medir” de manera nominal u ordinal. Nominal se refiere a que los datos los podemos clasificar en categorías que no siguen un orden lógico. Por ejemplo, el color del cabello es una variable nominal, cuyas categorías pueden ser: rubio, castaño, negro, blanco, rojo y otro. ¿Qué quiere decir que no sigan un orden lógico? Que uno no puede ordenar las categorías en una escala y decir que el cabello rubio es mejor que el cabello castaño, y que éste es mejor que el cabello negro, el cual a su vez es mejor que el cabello rojo, y que por último se encuentra el cabello blanco.

Además, las categorías tienen que cumplir dos condiciones: deben ser mutuamente excluyentes y colectivamente exhaustivas. Lo anterior quiere decir que los individuos solo deben aparecer en una categoría, por ejemplo, no es posible que una mujer tenga el cabello simultáneamente negro y rubio. O es negro o es rubio, pero no los dos al mismo tiempo (eso es mutuamente excluyente). Y bueno yo sé que hay mujeres que tiene el pelo negro y se tinturan las puntas de color rubio o se hacen rayitos, entonces ¿qué debe hacer? Todo depende del objetivo de su investigación, es decir, de qué busca responder con los datos que está recolectado. Después de tener claro eso, usted puede decidir si precisa más su pregunta (¿de qué color es su cabello natural?), amplia las categorías de respuesta a su pregunta original, o incluso puede dejar la pregunta y las categorías de respuesta sin cambios.

Ahora, colectivamente exhaustivo se refiere a que por lo menos uno de los eventos, o de las categorías, debe ocurrir. Por ese motivo muchas veces usted ve la opción otro, seguida de la pregunta cuál. A veces, aunque realicemos pilotos de las encuestas, no podemos estar seguros de que estamos incluyendo absolutamente todos los posibles casos y la categoría “otro” es la que nos salva. Por ejemplo, suponga que usted pregunta a un hombre que es 100% calvo: ¿de qué color es su cabello?, y las posibles respuestas son: rubio, castaño, negro, blanco, rojo. La respuesta otro con la posibilidad de escribir ¿cuál? es su salvación.

Las variables ordinales también tienen esa característica de ser mutuamente excluyentes y colectivamente exhaustivas, pero se diferencian de las nominales porque sí hay un orden lógico. Por ejemplo, una variable que sea satisfacción con el servicio al cliente y cuyas categorías de respuesta sean: muy satisfecho, satisfecho, indiferente, insatisfecho, muy insatisfecho. En ese caso, las categorías están ordenadas de acuerdo con el nivel de satisfacción, del más satisfecho al menos satisfecho. Pero OJO ese orden no corresponde a una magnitud, es decir, uno no puede afirmar que el individuo que respondió que está muy satisfecho está el doble de satisfecho que el que respondió que está satisfecho, o 4 veces más satisfecho que el que respondió muy insatisfecho. Solo podemos saber que el que está muy satisfecho está por encima del que respondió muy insatisfecho en la escala de nivel de satisfacción, pero no sabemos cuántas veces más.

Comentarios finales

En el próximo post hablaremos de los niveles de medición de las variables cuantitativas: de intervalo y de razón. Y les dejare un caso de estudio para que afiancemos estos conceptos antes de presentarles algunas herramientas de exploración.

Referencias

  1. Forbes (2016). Cleaning Big Data: Most Time-Consuming, Least Enjoyable Data Science Task, Survey Says. Disponible en https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/#57e6bbe76f63
Tres casos de Big Data

Estadística descriptiva: del arte de explorar y otras cuestiones Parte II

En el post pasado hablamos de los tipos de variables (cualitativas vs cuantitativas) y de los niveles de medición de las variables cualitativas: nominal y ordinal. En este post les hablaré sobre los niveles de medición de las variables cuantitativas y les dejaré un breve ejercicio para que afiancemos estos conceptos antes de presentarles las herramientas de exploración.

De intervalo

Las variables de intervalo son aquellas en donde se clasifica a los datos en una escala (arbitraria) y donde cada valor de la escala corresponde a una categoría. Esas categorías se caracterizan, al igual que las categorías de las variables ordinales, por ser mutuamente excluyentes y colectivamente exhaustivas; sin embargo, a diferencia de las variables ordinales siguen un orden lógico que corresponde a la magnitud de la escala asociada a la característica. Además, el cero no implica la carencia de la característica.

Veamos un ejemplo con la variable “temperatura del cuerpo humano en grados centígrados”. Primero, sería muy extraño encontrar a un individuo que tiene una temperatura de 37 grados centígrados y simultáneamente de 40 grados centígrados. Es decir, el individuo tiene fiebre o no tiene fiebre (mutuamente excluyente).

Segundo, sabemos que 40 grados centígrados es mayor que 37 grados centígrados (similar al orden lógico de las variables ordinales). Tercero, la diferencia de 3 grados entre las temperaturas de dos individuos (40 °C sujeto A menos 37 °C sujeto B) tiene el mismo significado que la diferencia entre 37 °C del sujeto D y 34 °C del sujeto E, es decir que tanto el sujeto A como el sujeto D están 3 grados más calientes que sujeto B y sujeto E, respectivamente. Es otras palabras, la diferencia entre dos magnitudes tiene la misma interpretación en cualquier parte de la escala.

Para que eso quede más claro, veamos como esta propiedad no aplica a las variables cualitativas. Por ejemplo, no podemos decir que la diferencia entre un individuo con un nivel de satisfacción con el servicio de 10 y uno con 5, es la misma diferencia que entre un individuo que respondió 5 y otro que respondió 0. Una de las implicaciones de esto es que con las variables de intervalo (al igual que con las de razón) podemos realizar operaciones matemáticas básicas como sumar o restar y el resultado lo podemos interpretar. Por último, el cero no implica que el objeto carezca de temperatura. De hecho, el cero en la escala de temperatura Fahrenheit es 32 °F. Lo anterior implica que no podemos realizar operaciones matemáticas como multiplicar o dividir. Por ejemplo, no podemos decir que la temperatura en Cali del medio día (suponiendo que sea de 30 °C) es el doble de caliente que la temperatura de Bogotá a las 3 de la tarde (suponiendo que sea de 15 °C).

De razón

Las variables de razón son muy similares a las variables de intervalo excepto porque la escala en que se clasifican los datos no es arbitraria y porque el cero sí implica la carencia de la característica. Veamos un ejemplo, supongamos que la variable de interés es el ingreso laboral promedio mensual. En ese caso, una persona no puede responder que se gana 4 millones de pesos y 2 millones de pesos en promedio cada mes, o 4 o 2, pero no los dos al mismo tiempo. De pronto, el individuo dice se gana 4 millones por prestación de servicios y 2 por su trabajo a término fijo. Es ahí cuando la labor del encuestador es fundamental, y éste debería realizarle al individuo preguntas como si el ingreso que recibe por prestación de servicios es constante (es decir todos los meses), si la magnitud que recibe es siempre la misma o si es variable. Por ejemplo, supongamos que responde que sí es constante tanto el valor y que recibe ese valor todos los meses del año, en ese caso el individuo debería responde que son 6 millones de pesos en promedio al mes. Por el contrario, si esos 4 millones de pesos fueron algo extraordinario del último mes, pero casi nunca sucede, entonces el individuo debería anotar que son 2 millones de pesos en promedio al mes.

Las variables de razón siguen un orden lógico, y podemos realizar operaciones matemáticas con los valores como sumar, restar, multiplicar y dividir. Es decir, sabemos que una persona que perciben 10 millones de pesos al mes, recibes 5 veces más una persona que percibe 2 millones de pesos al mes. Además, el cero implica la carencia de la característica, es decir responder 0, en nuestro ejemplo, significa no recibir ingresos laborales.

Ejercicio práctico

Suponga que trabaja en un restaurante de comida china en el área de compras. Usted tiene información en un archivo de Excel sobre 100 proveedores a los cuales la empresa le ha comprado en los últimos 10 años (algunos de manera permanente, otros son proveedores recientes y a otros ya no les compra). En una hoja de Excel tiene información sobre el nombre del proveedor, la razón social de la empresa, el NIT de la empresa, la fecha en que iniciaron la relación comercial, el número de teléfono móvil, y la dirección de ubicación de la sede principal de la empresa del proveedor, medio de pago aceptado por el proveedor y el estado del proveedor (Activo e Inactivo).

El archivo también incluye una hoja que contiene información diaria sobre el número de transacciones de compra por proveedor y el monto de cada transacción en pesos, el valor pagado y el valor adeudado. Además, cada transacción está asociada a un número de factura e incluye el valor del descuento (si aplica), y el valor correspondiente al IVA.

La empresa también cuenta con la valoración semestral de los proveedores dado el servicio recibido. Esa valoración se hace por medio de una pregunta en una encuesta vía Web obligatoria para todos los compradores. En ella se pregunta que califiquen el servicio prestado por el proveedor empleando una escala de números enteros de 1 a 5 (escala Likert), donde 1 es totalmente insatisfecho y 5 es totalmente satisfecho.

Identifique las variables que se encuentran presentes en la base de datos descrita (asígneles un nombre) y clasifíquelas de acuerdo con el tipo de variable (Cualitativa o Cuantitativa) y señale su nivel medición. La solución en la próxima entrada.