Las soluciones de Data Warehouse y Data Lake son utilizadas por las organizaciones para almacenar, administrar y analizar datos. DW tienen una larga historia como tecnología empresarial utilizada para almacenar datos estructurados, limpiar y organizar para fines empresariales específicos y servirlos a herramientas de informes o bi. Data Lake es una tecnología más reciente, popular por Hadoop y su ecosistema de código abierto. Un lago de datos permite almacenar datos estructurados y no estructurados en su forma original y procesarlos más adelante cuando se necesite el análisis.
Data Warehouse
Sus soluciones están diseñadas para contener datos resumidos de muchas aplicaciones y orígenes de datos, organizados por una función empresarial. Dichos datos por lo regular provienen de Online Transaction Processing (OLTP)los cuales almacenan datos de transacciones, Customer Relationship Management (CRM) y Enterprise Resources Planning (ERP).
El Data Warehouse tradicional utiliza un proceso denominado ETL (Extract, Transform and Load) donde los datos son asignados meticulosamente desde los orígenes de datos originales a las tablas de almacenamiento de datos, sometiéndolos a transformaciones para lograr un formato estructurado el cual permite la generación de informes y Análisis de BI.
Data Lake
Es un sistema de almacenamiento altamente escalable que contiene datos estructurados y sin estructurar en su forma y formato originales. No requiere planificación o conocimiento previo del análisis de datos necesario puesto que se asume que el análisis se realizará más adelante, bajo demanda.
Comparativa
Data Lake | Data Warehouse | |
Tipo de datos | Datos no estructurados y estructurados de diversas fuentes de datos de la empresa | Datos históricos que se han estructurado para adaptarse a un esquema de base de datos relacional |
Propósito | Almacenamiento rentable de big data | Análisis para decisiones empresariales |
Usuarios | Científicos e ingenieros de datos | Analistas de datos y analistas de negocios |
Tareas | Almacenamiento de datos y análisis de big data, como el aprendizaje profundo y el análisis en tiempo real | Normalmente consultas de solo lectura para agregar y resumir datos |
Tamaño | Almacena todos los datos que se pueden utilizar: ¡puede ocupar petabytes! | Solo almacena datos relevantes para el análisis |
Tratamiento
En Data Warehouse, los datos son organizados, definidos y se les aplican metadatos antes de ser escritos y almacenados. Ese proceso es conocido como “esquema de escritura”.
Mientras que Data Lake consume todo, incluyendo los tipos de datos que se consideran inapropiados para DW. Los datos son almacenados en forma sin ser procesados; la información es almacenada en el esquema a medida que los datos se extraen del origen de datos, no al ser escritos en el almacenamiento. Este proceso es conocido como “esquema de lectura”.
Almacenamiento
Antes de que los datos se puedan cargar al DW, los ingenieros de datos trabajan duro para analizar los datos y ven como pueden ser utilizados para el análisis empresarial. Diseñan transformaciones para resumir y transformar los datos para permitir la extracción de información relevante. Con el fin de reducir el espacio los datos que no responden a preguntas empresariales concretas no son incluidos, esto mejora el rendimiento.
En un Data Lake, la retención de datos es menos complicada, ya que conserva todos los datos, sin procesar, estructurados y no estructurados. Los datos nunca se eliminan, lo que permite el análisis de información antigua, actual y futura.
Uso
Data Warehouse ha existido durante dos décadas siendo una tecnología segura y preparada para las empresas, mientras que Data Lake es más reciente por lo que tienen un historial empresarial más corto. Una gran empresa no puede comprar e implementar un Data Lake como lo haría con un DW: se debe tener en cuenta qué herramientas usar, de código abierto o comercial, y cómo unirlas para cumplir con los requisitos.
Data Warehouse y Data Lake
Para la selección de la herramienta observe las necesidades de su empresa de tal forma que seleccione la que mejor se ajuste a ellas, en varias ocasiones es necesario el uso de ambas soluciones de almacenamiento. Esto especialmente cuando se busca crear canalizaciones de datos.
12 comentarios en “Data Warehouse VS Data Lake”