Data Lake: Beneficios y Usos

Es común que las empresas, durante la búsqueda de una solución de negocios que resuelva una problemática o permita crear procesos más eficientes se encuentre con preguntas como: ¿Qué solución implementar? ¿Cuál es mejor? ¿Cuánto cuesta? ¿Y por qué se justifica?

Recientemente una de las tendencias más comunes para las organizaciones en materia de Business Intelligence es la implementación de un Data Warehouse y/o Data Lakes. Siendo esta última una solución que no está tan clara en concepto para algunos, sus beneficios, cuando es ideal o qué escenarios son donde mejor se aprovecha.

¿Qué es un Data Lake?

En términos simples, un Data Lake es un almacén para grandes cantidades de datos sin ningún tipo de tratamiento previo, es decir, sin procesar. También puede haber datos sin aplicar ningún tipo de jerarquía. El Data Lake puede servir para ejecutar diferentes tipos de análisis, dashboards y visualizaciones, además de generar procesos de Big Data, análisis en tiempo real y de Machine Learning.

Cuando ponemos modo aleatorio el reproductor streaming de Netflix, usamos Google Maps, pedimos un Uber o cuando Amazon nos presenta las recomendaciones de compra en base a nuestros gustos. Aunque no veamos la cantidad y velocidad de datos en esa pantalla tan simple y con un interfaz tan amigable. Detrás se están utilizando tecnologías de machine learning, en sistemas in-memory y actuando en Data Lakes.

¿Por qué usar Data Lakes?

  • Gracias a los Data Lakes es posible almacenar datos de navegación que permitirá implementar métodos más eficaces de publicidad web.
  • Facilita obtener una imagen más completa del perfil de cada cliente para los análisis de interacciones y comportamientos de clientes en diferentes canales.
  • Permite hacer un almacenamiento de datos rentable, por su enfoque cloud. 
  • Permite ubicar con cierto grado de certeza y en un solo lugar, datos almacenados de diversas fuentes para una posterior consulta o explotación de la información almacenada que al momento quizá no se están aprovechando (bajo demanda).
  • Se recomienda para volúmenes de datos en donde su generación crece a un ritmo muy superior al de otros campos profesionales, regularmente para el campo científico.

Beneficios de los Data Lake

Algunos de los principales beneficios del uso de un Data Lake pueden ser:

  1. Permiten a las empresas un acceso inmediato a todos los datos recopilados, además de que no se limitan a datos relacionales o transaccionales.
  2. Al no ser información estructurada, no es necesario su análisis, ya que se realizará posteriormente bajo demanda.
  3. Sirve para procesos de Machine learning, análisis predictivo, detección de datos y creación de perfiles.

Data Lake y Data Warehouse no son lo mismo

Si bien los Data Lake y Data Warehouse comparten algunas similitudes y pueden llegar a confundirse. Tienen objetivos diferentes y hay escenarios donde uno es mejor opción que el otro, se deben considerar su objetivo, tratamiento, almacenamiento, uso y alcances.

 

Data Lake

Data Warehouse

Tipo de datos

Datos no estructurados y estructurados de diversas fuentes de datos de la empresaDatos históricos que se han estructurado para adaptarse a un esquema de base de datos relacional

Propósito

Almacenamiento rentable de big dataAnálisis para decisiones empresariales

Usuarios

Científicos e ingenieros de datosAnalistas de datos y analistas de negocios

Tareas

Almacenamiento de datos y análisis de Big Data, como el aprendizaje profundo y el análisis en tiempo realNormalmente consultas de solo lectura para agregar y resumir datos

Tamaño

Almacena todos los datos que se pueden utilizar: ¡puede ocupar petabytes!Solo almacena datos relevantes para el análisis

Más información sobre las diferencias entre Data Warehouse y Data Lakes aquí

Data Lake y Big Data

Un tema estrechamente relacionado con Data Lakes es Big Data. Y no se puede hablar del segundo sin el primero.

El concepto de Big Data es muy amplio y puede ser, desde: la combinación de datos (estructurados, semiestructurados y no estructurados) de las empresas para fines y proyectos de machine learning, predicción de modelo y analítica avanzada.  Los volúmenes de datos masivos que se gestionan para fines de negocios. O el conjunto diverso de información con ritmo de crecimiento acelerado que, a la misma velocidad que se crea, se pueden almacenar para fines diversos.

Y si los Data Lakes es en donde se almacena la información, es el Big Data en donde se aprovecha, y se puede llevar a procesos mucho más complejos.

 

 

Empresas que usan Data Lakes y su aplicación en Big Data: 

Amazon

El gran gigante de retail es capaz de analizar una cantidad brutal de datos de clientes. Sus algoritmos le permiten recolectar, analizar y utilizar una cantidad masiva de datos procedentes del historial de búsqueda y compra. Por eso, son capaces de ofrecer recomendaciones con altas probabilidades de generar una compra, optimizar los precios y la cadena de suministro y detectar los fraudes.

El secreto de su éxito está en sus herramientas avanzadas de análisis de Big Data, como los algoritmos publicitarios y el “Amazon Elastic MapReduce platform for machine learning”.


PepsiCo

La plataforma de big data y análisis en la nube empleada por PepsiCo, Pep Worx, ayuda a la empresa a aconsejar a las tiendas sobre qué productos comprar, dónde colocarlos y qué promociones lanzar.

En preparación para el lanzamiento de Quaker Overnight Oats, PepsiCo fue capaz de identificar 24 millones de hogares a los que dirigir su producto. Después, identificaron los lugares de compra que esos hogares tenían más probabilidades de usar y crearon promociones específicas para estas audiencias. Gracias a este uso de los datos para centrarse en un mercado muy específico, consiguieron un 80% de crecimiento de ventas del producto en los primeros 12 meses tras el lanzamiento.


Apple

Apple emplea el Big Data aplicado a la economía conductual, a fin de extraer conclusiones sobre su base de usuarios y utilizarlas en su favor. Estos son los 6 principios de economía conductual que le han ayudado a construir su marca:

  • Tribalismo: las tribus son grupos sociales con intereses y creencias similares, que comparten una misma identidad. En ese sentido, los usuarios de productos de Apple son una tribu que comparte una misma estética y estilo de vida.
  • Efecto dotación: tendemos a valorar más los objetos que ya poseemos, y el big data muestra que estamos dispuestos a pagar más por ellos. Apple implementa este principio permitiéndote probar los productos en sus tiendas.
  • Prueba social: este principio se basa en aprovechar los testimonios de usuarios y las recomendaciones de familiares y amigos.
  • Heurística: las personas usamos “atajos mentales” para hacer juicios rápidos. Apple exprime al máximo este principio en su packaging, ya que se considera que si un embalaje está bien diseñado, el producto también lo estará.
  • Efecto halo: este sesgo cognitivo juzga la calidad de un producto basándose en impresiones de productos previos. Así, Apple ha ido creando un largo historial de lanzamientos exitosos que hacen que se compre su marca poco menos que a ciegas.
  • Precio: el análisis del big data de Apple revela que su estrategia de precios funciona, a pesar de ser poco intuitiva: sus productos siempre tienen un precio alto y nunca hacen rebajas.

 

Ejemplos de aplicación de Big Data

Mejoramiento de la Salud Pública

Las técnicas de Big Data ya se están empleando en el sector salud, por ejemplo para monitorizar bebés en la unidad de neonatos de un hospital en Toronto. Grabando y analizando latidos y el patrón de respiración de cada bebé, la unidad ha desarrollado unos algoritmos que pueden predecir infecciones 24 horas antes de que los primeros síntomas aparezcan. De esta manera, el equipo médico puede intervenir y salvar vidas en un entorno en el que cada hora cuenta.

El análisis de datos masivos también se utiliza a la hora de controlar y predecir la evolución de las epidemias y brotes de enfermedades.  Integrando datos de historiales clínicos con análisis de datos de redes sociales pueden detectar brotes de gripe en tiempo real simplemente escuchando lo que la gente publica en sus perfiles públicos.

Optimizando el rendimiento de máquinas y dispositivos

El análisis de Big Data está ayudando a máquinas y dispositivos a ser más inteligentes y autónomos. Un ejemplo que ya es una realidad, el coche auto pilotado de Google. Los coches que usan para el proyecto están equipados con cámaras, GPS, conexión a internet, y un abanico de computadoras y sensores que permiten al vehículo circular de forma segura por la vía pública sin necesidad de intervención humana.

También se usan herramientas de análisis de big data para optimizar las redes de energía a partir de datos de los medidores inteligentes. podemos también aprovechar estas tecnologías para optimizar el rendimiento de servidores y data warehouses.

 

Retroalimentación inmediata a los estudiantes.

Así como en las empresas, en las escuelas y universidades se genera mucha información todos los días. Por ejemplo cada alumno genera miles de datos únicos y este registro de datos puede analizarse en tiempo real para proporcionar un aprendizaje óptimo para el estudiantes. Esta recopilación de datos además engloba desde cuánto tiempo tardan en responder una pregunta. ¿Qué fuentes utilizan? ¿Qué preguntas omiten? Y hasta cuánta investigación realizan. Los datos obtenidos se pueden comprobar de forma instantánea y automática para dar retroalimentación inmediata a los estudiantes. Y es solo un ejemplo de un área aún no explorada y aprovechada.

 

Conclusiones

Está por demás decir, que aun no se logra explotar toda la información que generan las empresas, pero si se empiezan a poder almacenar en algún grado. Diferentes problemas normalmente requieren diferentes soluciones y existe un abanico importante de ellas. Que en mayor o menor medida sean mejores. Se recomienda que a la hora de tomar decisiones sobre qué solución implementar (Data Lake, Data Warehouse o una solución diferente). La empresas deben responder a las preguntas del principio, considerar su giro de negocio, dimensionar sus alcances y la expectativa actual y futura.

Otros temas de interés

Data Warehouse VS Data Lake

¿Cómo NO seleccionar una herramienta de Business Intelligence?

Tipos de Data Warehouse

Visto: 47 veces

Deja un comentario