¿ETL o E-LT?

ETL

Entendemos ETL como el proceso extracción, transformación y carga de los datos, que es parte del ciclo de vida de una implementación de Business Intelligence.

Partiendo de esa premisa, nos damos cuenta que existen ciertas variaciones conceptuales al mismo proceso de ETL, en el cual deriva principalmente el rendimiento de los procesos de manejo de los datos que analizaremos más adelante.

Para entender el concepto de ETL, es considerar las tecnologías aplicadas en cada parte del proceso:

  • Origen de los Datos
    • Base de datos, archivos de texto, etc.
  • Herramienta de ETL
    • DTS, Integration Services, Transformer, Programas a la medida, etc.
  • Destino de los Datos
    • Base de datos

La forma en que funciona es usando la herramienta de ETL, nos conectamos a la fuente de los datos, hacemos la transformación dentro de la misma herramienta y cargamos los datos a la base de datos destino.

Entendiendo el concepto E-LT

E-LT lo definiremos en el orden de las iniciales que consiste en Extracción, carga y transformación de datos.

De manera resumida, ejemplificada y en un lenguaje técnico consiste en lo siguiente.

  1. Primero, extraer y cargar los datos de manera “BULK” directamente a una Base de Datos o tablas especialmente creadas para los datos de paso (conocido tambien como staging), esto quiere decir, que este medio servirá solo temporalmente, y puede ser limpiado en cada proceso de carga. Se recomienda hacer transformaciones simples y limpieza básica de información en este proceso.
  2. Segundo, teniendo la información en staging proseguimos a elaborar el proceso de transformación de los datos que posteriormente pasaran a nuestra base de datos del datawarehouse. La transformación se hará con el lenguaje propio de la base de datos por ejemplo T-SQL, PL/SQL.
  3. Tercero, con los datos transformados en nuestros procesos propios de la base de datos, seguimos al proceso de inserción a nuestro datawarehouse, finalmente podemos limpiar nuestros datos de paso si es conveniente.

De esta manera tenemos nuestro proceso de transformación integrado a nuestro motor de la Base de Datos, para lo cual veremos en la siguiente sección las ventajas de hacerlo de esta manera.

Ventajas de E-LT sobre ETL

Entendemos que ambos conceptos tienen el mismo resultado, la diferencia está en el rendimiento del proceso de carga de cada caso.

Identificamos las siguientes ventajas de E-LT sobre ETL

  • Velocidad de proceso y transformación, la principal ventaja de E-LT es la forma en que trabaja cada herramienta implicada, en el caso de ETL las herramientas de transformación evaluan registro por registro y en E-LT la transformación se hace en la base de datos que evalua los registros en lotes.
  • Uso de recursos, otra ventaja de E-LT es que una base de datos está preparada para la optimización de recursos ya sea de disco, memoria y proceso, lo cual hace que el rendimiento del proceso sea administrado por la configuración de la base de datos, en los casos de las herramientas de ETL, no toman ventaja de la configuración del disco(RAID) ni de la distribución de la memoria y procesador, esto debido a que hacen transformaciones temporales y en muchos casos redundantes.

De esta manera nos damos cuenta que no aprovechamos las ventajas que cada herramienta nos provee, algunas nos dan mayor facilidad para desarrollar una transformación pero no el mejor rendimiento.

Como conclusión, en una implementación de E-LT se puede hacer inclusive sin usar ninguna herramienta de ETL, ya que las principales bases de datos actuales permiten conectar directamente a la fuente.




Tags: ,


Fecha: 2007-10-07

Visto: 25.291 veces

2 responde a “¿ETL o E-LT?”

  1. MasterCracker3D dice:

    Excelente definición, saludos.

  2. jsMyLib dice:

    El orden depende entre otras cosas de cómo sean los sistemas origen y destino. Como normalmente el sistema destino es el mas nuevo y potente, nos interesa extraer del viejo, cargar en el nuevo y procesar en el nuevo, simplemente porque el nuevo es mejor, más cómodo, más potente. Hay además otro motivo similar, que es que el acceso al sistema viejo puede ser complejo a nivel organizativo, y limitado en el tiempo, y en cambio en los nuevos sistemas habitualmente se tiene un mejor y mayor control.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

%d bloggers like this:
Asesor En Línea

Ver más