Data Warehouse VS Data Lake

Las soluciones de Data Warehouse y Data Lake son utilizadas por las organizaciones para almacenar, administrar y analizar datos. DW tienen una larga historia como tecnología empresarial utilizada para almacenar datos estructurados, limpiar y organizar para fines empresariales específicos y servirlos a herramientas de informes o bi. Data Lake es una tecnología más reciente, popular por Hadoop y su ecosistema de código abierto. Un lago de datos permite almacenar datos estructurados y no estructurados en su forma original y procesarlos más adelante cuando se necesite el análisis.

Data Warehouse

Sus soluciones están diseñadas para contener datos resumidos de muchas aplicaciones y orígenes de datos, organizados por una función empresarial. Dichos datos por lo regular provienen de Online Transaction Processing (OLTP)los cuales almacenan datos de transacciones, Customer Relationship Management (CRM) y Enterprise Resources Planning (ERP).

El Data Warehouse tradicional utiliza un proceso denominado ETL (Extract, Transform and Load) donde los datos son asignados meticulosamente desde los orígenes de datos originales a las tablas de almacenamiento de datos, sometiéndolos a transformaciones para lograr un formato estructurado el cual permite la generación de informes y Análisis de BI.

Data Lake

Es un sistema de almacenamiento altamente escalable que contiene datos estructurados y sin estructurar en su forma y formato originales. No requiere planificación o conocimiento previo del análisis de datos necesario puesto que se asume que el análisis se realizará más adelante, bajo demanda.

 

Comparativa

 

Data Lake

Data Warehouse

Tipo de datos

Datos no estructurados y estructurados de diversas fuentes de datos de la empresaDatos históricos que se han estructurado para adaptarse a un esquema de base de datos relacional

Propósito

Almacenamiento rentable de big dataAnálisis para decisiones empresariales

Usuarios

Científicos e ingenieros de datosAnalistas de datos y analistas de negocios

Tareas

Almacenamiento de datos y análisis de big data, como el aprendizaje profundo y el análisis en tiempo realNormalmente consultas de solo lectura para agregar y resumir datos

Tamaño

Almacena todos los datos que se pueden utilizar: ¡puede ocupar petabytes!Solo almacena datos relevantes para el análisis

 

Tratamiento

En Data Warehouse, los datos son organizados, definidos y se les aplican metadatos antes de ser escritos y almacenados. Ese proceso es conocido como “esquema de escritura”.

Mientras que Data Lake consume todo, incluyendo los tipos de datos que se consideran inapropiados para DW. Los datos son almacenados en forma sin ser procesados; la información es almacenada en el esquema a medida que los datos se extraen del origen de datos, no al ser escritos en el almacenamiento. Este proceso es conocido como “esquema de lectura”.

 

Almacenamiento

Antes de que los datos se puedan cargar al DW, los ingenieros de datos trabajan duro para analizar los datos y ven como pueden ser utilizados para el análisis empresarial. Diseñan transformaciones para resumir y transformar los datos para permitir la extracción de información relevante. Con el fin de reducir el espacio los datos que no responden a preguntas empresariales concretas no son incluidos, esto mejora el rendimiento.

En un Data Lake, la retención de datos es menos complicada, ya que conserva todos los datos, sin procesar, estructurados y no estructurados. Los datos nunca se eliminan, lo que permite el análisis de información antigua, actual y futura.

Uso

Data Warehouse ha existido durante dos décadas siendo una tecnología segura y preparada para las empresas, mientras que Data Lake es más reciente por lo que tienen un historial empresarial más corto. Una gran empresa no puede comprar e implementar un Data Lake como lo haría con un DW: se debe tener en cuenta qué herramientas usar, de código abierto o comercial, y cómo unirlas para cumplir con los requisitos.

 

 

Data Warehouse y Data Lake

Para la selección de la herramienta observe las necesidades de su empresa de tal forma que seleccione la que mejor se ajuste a ellas, en varias ocasiones es necesario el uso de ambas soluciones de almacenamiento. Esto especialmente cuando se busca crear canalizaciones de datos.

Visto: 3,250 veces