Vamos a ver algo de terminología. Empezaremos con algunas cuestiones básicas e iremos ampliando en posteriores entregas.
Modelo Entidad Relación
Constituye una forma de representar conceptualmente la realidad basada en la representación de esta mediante su abstracción en entidades y relaciones. De esta forma intentamos representar el mundo que nos rodea, los datos de nuestro problema mediante una serie de entidades que representan objetos o conceptos así como las relaciones que se dan entre ellos tales como su uso, composición, etc.
Normalización
La normalización es el proceso de organizar los datos en una base de datos. Esto incluye la creación de tablas y que establece relaciones entre aquellas tablas según reglas diseñadas para proteger los datos y hacer la base de datos que es más flexible al eliminar dos factores redundancia y Dependencia incoherente.
Por lo general se utilizan las 3 primeras reglas de normalización
Primera forma normal
- Eliminar grupos repetidos en tablas individuales.
- Crear una tabla diferente para cada conjunto de datos relacionados.
- Identificar cada conjunto de datos relacionados mediante una clave principal.
Segunda forma normal
- Crear tablas independientes para conjuntos de valores que se apliquen a varios registros.
- Relacionar dichas tablas mediante una clave externa.
Tercera forma normal
- Eliminar los campos que no dependan de la clave.
Existen otras formas normales, pero raras veces son requeridas, por no ser practicas. Por ejemplo existe una cuarta forma normal, llamada también Forma normal de Boyce Codd (BCNF), y una quinta forma normal.
OLTP
( On-Line Transactional Processing)
Es un tipo de proceso especialmente rápido en el que las solicitudes de los usuarios son resueltas de inmediato; naturalmente, ello implica la concurrencia de un «mecanismo» que permite el procesamiento de varias transacciones a la vez.
OLAP
(On Line Analytical Processing)
Los sistemas de soporte a la decisión usando tecnologías de Data Warehouse, se llaman sistemas OLAP . En general, estos sistemas deben:
- Soportar requerimientos complejos de análisis
- Analizar datos desde diferentes perspectivas
- Soportar análisis complejos contra un volumen ingente de datos
La funcionalidad de los sistemas OLAP se caracteriza por ser un análisis multidimensional de datos corporativos, que soportan los análisis del usuario y unas posibilidades de navegación, seleccionando la información a obtener.
OLAP vs OLTP
OLAP o procesamiento analítico en línea, es el paradigma de análisis multidimensional de un Data Warehouse. Este concepto se contrapone al de OLTP o procesamiento transaccional en línea, que es el empleado por los sistemas fuentes para optimizar la recogida de información. En pocas palabras, mientras OLTP se encarga de procesar óptimamente multitud de pequeñas transacciones de captura de información (su entrada, modificación o eliminación), OLAP se dedica al análisis de enormes cantidades de información; por ende realizará pocas transacciones, pero éstas procesaran un volumen muy superior (cientos de miles de registros).
Arquitecturas ROLAP.MOLAP.HOLAP
Implementaciónes comunes de OLAP y ROLAP
MOLAP
La arquitectura MOLAP usa unas bases de datos multidimensionales para proporcionar el análisis, su principal premisa es que el OLAP está mejor implantado almacenando los datos multidimensionalmente.
Ventajas
- Excelente performance: los cubos MOLAP son construidos para tener una rápida recuperación de datos y esta optimizado para operaciones de slicing y dicing.
- Puede realizar cálculos complejos: ya que todos los cálculos han sido pre generados cuando el cubo se crea. Por lo tanto los cálculos complejos se almacenan y regresan su resultado rápidamente.
Desventajas
- Limitado en el monto de datos a ser manejados. Porque todos los cálculos son construidos cuando se genera el cubo, no es posible incluir grandes cantidades de datos en el cubo en si mismo. Esto no quiere decir que los datos del cubo no deriven de una gran cantidad de datos. Si es posible, pero en este caso, solo la información de alto nivel puede ser incluida en este.
ROLAP
La arquitectura ROLAP cree que las capacidades OLAP están perfectamente implantadas sobre bases de datos relacionales la arquitectura ROLAP es capaz de usar datos precalculados si estos están disponibles, o de generar dinámicamente los resultados desde los datos elementales si es preciso. Esta arquitectura accede directamente a los datos del Data Warehouse, y soporta técnicas de optimización de accesos para acelerar las consultas.
Ventajas
- Puede almacenar Grandes cantidades de datos. La limitante de tamaño en la tecnología ROLAP es la limitante de la base de datos relacional. En otras palabras ROLAP en si misma no esta limitada.
Puede cubrir funcionalidad inherente a las bd relacionales. Las bases de datos relacionales ya vienen con un set de funciones. Ya que esta tecnología se monta sobre esta bd, hereda todas estras funcionalidades.
Desventajas
- Performance bajo. Ya que ROLAP es esecncialmente multiples Querys de sql en la base de datos relacional, el tiempo de respuesta se alarga entre el tamaño de la bd sea mayor.
- Limitada funcionalidad Sql. Ya que la tecnología ROLAP utiliza básicamente sentencias sql o querys de la bd relacional, y sql no aporta todas las necesidades de consultas multidimensionales, ROLAP son limitadas a lo que el lenguaje sql soporte. Se ha desarrollado últimamente herramientas externas que permiten utilizar formulación mas compleja que pueda cubrir parte de estas deficiencias.
HOLAP
La tecnología HOLAP permite manejar lo mejor de ambos mundos. Para información sumarizada, HOLAP utiliza teconlogia multidimensional para un mejor desempeño. Cuando se necesita llegar ala información detallada, HOLAP utiliza técnicas de datos relacionales para llegar a esta.
DATAWAREHOUSE (DWH)
Estructura Básica de un DWH
Los sistemas de Data Warehousing son el centro de la arquitectura de los Sistemas de Información de los 90’s. Han surgido como respuesta a la problemática de extraer información sintética a partir de datos atómicos almacenados en bases de datos de producción. Uno de los objetivos principales de este tipo de sistemas es servir como base de información para la toma de decisiones.
Los beneficios obtenidos por la utilización de este tipo de sistemas se basan en el acceso interactivo e inmediato a información estratégica de un área de negocios.
DATAMARTS
Los Datamart son un conjunto de modelos de negocio relacionados entre si. Los Data Marts son diseñados para satisfacer las necesidades específicas de grupos comunes de usuarios (divisiones geográficas, divisiones organizacionales, etc.). Los Data Marts son generalmente, subconjuntos del Data Warehouse, pero pueden también integrar un número de fuentes heterogéneas, e inclusive ser más grandes, en volumen de datos, que el propio Warehouse central.
El concepto DataMart es una extensión natural del Data Warehouse, y está enfocado a un departamento o área especifica, como por ejemplo los departamentos de Finanzas o Marketing. Permitiendo así un mejor control de la información que se está abarcando.