Bases de Datos Columnares

Las Bases de Datos Columnares se introdujeron por primera vez en 1970 en productos como Model 204 y ABABAS, este enfoque ha resurgido recientemente en Vertica y en cierta medida en QD Technology.

Como su nombre lo indica, las bases de datos están organizados de columna por columna en lugar de la fila: es decir, todos los casos de un solo elemento de datos (por ejemplo, Nombre de cliente) se almacenan de modo que se puede acceder como una unidad. Esto los hace especialmente eficaz en las consultas analíticas, como la lista de selecciones, que a menudo lee unos pocos elementos de datos, pero necesitamos ver todas las instancias de estos elementos. En contraste, una convencional base de datos relacional almacena los datos por filas, por lo que toda la información de un registro (fila) es inmediatamente accesible. Esto tiene sentido para las consultas transaccionales, que suelen referirse a un registro a la vez.

Hoy los sistemas columnares combinan su estructura columnar con técnicas que incluyen la indexación, compresión y paralelización.

  • Tiempo de carga: ¿Cuánto tiempo se necesita para convertir datos de origen en el formato de columna? Esta es la pregunta más básica de todas. Tiempos de carga son a menudo medidos en gigabytes por hora, que puede ser extremadamente lento, cuando de decenas o cientos de gigabytes de datos se trata. La cuestión a menudo carece de una respuesta sencilla, porque la velocidad de carga puede variar en función de la naturaleza de los datos y las elecciones realizadas por el usuario. Por ejemplo, algunos sistemas pueden almacenar varias versiones de los mismos datos, ordenados en diferentes secuencias o en los diferentes niveles de agregación. Los usuarios pueden construir un menor número de versiones a cambio de una carga rápida, pero puede pagar un precio más adelante con consultas  más lentas. Pruebas realistas basadas en sus propios datos son el mejor camino para una respuesta clara.

 

  • Carga Incremental: Una vez que un conjunto de datos se ha cargado, todo debe ser recargado cada vez que hay una actualización. Muchos sistemas columnares permiten carga incremental, teniendo sólo los registros nuevos o modificados y la fusión de los datos anteriores. Pero la atención al detalle es fundamental, ya que las funciones de carga incremental varían ampliamente. Algunas cargas incrementales tardan hasta una completa reconstrucción y algunos resultados son el rendimiento más lento, algunos pueden agregar registros, pero no cambiar o suprimirlos. Las Cargas incrementales a menudo deben completarse periódicamente con una reconstrucción completa.

 

  • Compresión de datos: Algunos sistemas columnares pueden comprimir mucho la fuente de datos y archivos resultantes a fin de tomar una fracción de espacio en el disco original. Puede ocasionar en estos casos un impacto negativo en el rendimiento por la descompresión de datos a realizar la lectura. Otros sistemas utilizan menos compresión o almacenan varias versiones de los datos comprimidos, teniendo más espacio en disco, pero cobrando otros beneficios a cambio. El enfoque más adecuado dependerá de sus circunstancias. Tenga en cuenta que la diferencia de los requisitos de hardware pueden ser sustanciales.

 

  • Limitaciones estructurales: Las bases de datos columnares utilizan diferentes técnicas para imitar una estructura relacional. Algunos requieren la misma clave principal en todas las tablas, es decir, la jerarquía de la base de datos está limitada a dos niveles. Los límites impuestos por un sistema en particular no parece tener importancia, pero recuerde que sus necesidades pueden cambiar mañana. Limitaciones que parece aceptable ahora podría evitar que la ampliación del sistema en el futuro.

 

  • Técnicas de acceso: Algunas bases de datos de columnares sólo se pueden acceder utilizando su propio proveedor de lenguaje de consultas y herramientas. Estos pueden ser muy poderosos, incluyendo capacidades que son difíciles o imposibles usando el estándar SQL. Pero a veces faltan funciones especiales, tales como las consultas que comparan valores con o en los registros. Si necesita acceder al sistema con herramientas basadas en SQL, determine exactamente qué funciones SQL y dialectos son compatibles. Es casi siempre un subconjunto completo de SQL y, en particular, rara vez se dispone de las actualizaciones. También asegúrese de encontrar si el rendimiento de las consultas SQL es comparable a los resultados con el sistema de la propia herramienta de consulta. A veces, el ejecutar consultas SQL mucho más lento.

 

  • Rendimiento: Los sistemas columnares por lo general superan a los sistemas de relaciones en casi todas las circunstancias, pero el margen puede variar ampliamente.  Las consultas que incluyen cálculos o acceso individual a los registros puede ser tan lento o más que un sistema relacional adecuadamente indexado.

 

  • Escalabilidad: El punto de las bases de datos columnares es obtener buenos resultados en grandes bases de datos. Pero no puede asumir todos los sistemas pueden escalar a decenas o centenares de terabytes. Por ejemplo, el rendimiento puede depender de determinados índices de carga en la memoria, de modo que su equipo debe tener memoria suficiente para hacer esto. Como siempre, en primer lugar preguntar si el vendedor tiene en ejecución los sistemas existentes a una escala similar a la suya y hablar con las referencias para obtener los detalles. Si el suyo sería más grande que cualquiera de las instalaciones existentes, asegúrese de probar antes de comprar.

 

Principales Bases de Datos Columnares

 

PROJECT GEMINI

logomicrosoft

 http://www.microsoft.com/sqlserver/2008/en/us/r2.aspx (Incluido Version Beta en SQL Server 2008 R2)

Ese es el nombre que recibe la interesante propuesta que nos hacen desde Microsoft, para renovar su base de datos OLAP. Se trata de un almacenamiento en memoria y orientado a columnas de Analysis Services para ser explotado desde Excel, entre otras opciones. Se trata de empezar a jugar fuerte en el campo del BI, aprovechando la herramienta basada en la popular hoja de cálculo que se incluye dentro del portfolio ofrecido actualmente por Microsoft.

De esta forma se consigue que los usuarios no técnicos puedan acceder al mundo del BI (sin necesidad de contar con IT). Eso dicen. Una versión Wii para el BI. (Lo cierto es que no estará disponible como versión Beta hasta 2009 y como GA en 2010). En ese tiempo, mucho va a pasar el campo del BI.

Nigel Pendse, del Olap Report, hace una revisión bastante positiva, en donde hace una acertadísima revisión indicando que el Project Gemini es como un caballo de Troya, donde a través del uso de Excel (conocido por todos), se quita la complejidad de cubos, MDX, etc… Y se democratiza su uso y el de AS a todos.

 

 


INFOBRIGHT

 

 

infobright

http://www.infobright.com

Infobright combina una base de datos orientada a la columna con la red de conocimiento para ofrecer una arquitectura de auto-gestión de Data Warehouse optimizado para el análisis. Este software sofisticado elimina el tiempo y el esfuerzo que suelen participar en la ejecución y la gestión de un Data Warehouse, liberando su tiempo y su presupuesto.

Infobright Analytic Data Warehouse está basado en los siguientes conceptos:

  • Orientación a Columnas.
  • Paquetes de Datos.
  • Conocimiento de Red.
  • La optimización.

infobright_diagram_layers_b1

Infobright es, en su núcleo, es un comprimido de bases de datos orientadas a la columna. Esto significa que en lugar de los datos que se almacena la fila por fila, sino que se almacena la columna por columna. Hay muchas ventajas en la columna-orientación, incluyendo la capacidad de hacer más eficientes de compresión de datos, ya que cada columna guarda un solo tipo de datos (por oposición a las filas que normalmente contienen varios tipos de datos), y que permite la compresión de ser optimizados para cada tipo de datos. Infobright, organiza cada columna en paquetes de datos, tiene más compresión que otras bases de datos orientadas a la columna, ya que se aplica un algoritmo de compresión basado en el contenido de cada paquete de datos, no sólo cada columna.

La mayoría de las preguntas sólo implican un subconjunto de las columnas de las tablas y por lo que una base de datos orientada a la columna se centra solo en recuperar los datos que se requieren.

Los datos se almacenan en 65 mil Paquetes de Datos. Paquete de nodos de datos contienen un conjunto de estadísticas sobre los datos que se almacena y comprimen en cada uno de los Paquetes de Datos. Los Nodos de conocimiento proporcionan una nueva serie de metadatos relacionados con paquetes de datos o relaciones columnares.

El optimizador es el más alto nivel de inteligencia en la arquitectura. Utiliza la red de conocimientos para determinar el conjunto mínimo de paquetes de datos que necesitan ser descomprimido con el fin de satisfacer una consulta en el menor tiempo posible.

 


 

VERTICA

vertica-logo

http://www.vertica.com

Vertica es el único DBMS habilitado para gestionar terabytes de datos más rápido y más fiable que cualquier otro producto de almacenamiento de datos. Obtiene rápidamente BI con las siguientes características:

  • Orientación a columnas. 50x – 200x mas rápido, eliminando los costos de IO
  • Escala a arquitectura MPP. Escala ilimitadamente solo por la adición de nuevos servidores a la red.
  • Agresiva compresión de datos. Reduce los costos de almacenamiento hasta en un 90%.
  • Alta disponibilidad inmediata. Corre sin parar con replicación automática, resistente a fallos y recuperación.
  • Flexibilidad de despliegue. Despliegue en Linux, VMwire o en amazon cloud para manejar variedad de proyectos.

verticachecklist

Vertica cambia completamente la economía de la BI, que permite rápidamente iniciar un espectro mucho más amplio de análisis del negocio:

  • Ver mucho mayores volúmenes de datos históricos.
  • Analizar los datos en cualquier nivel de detalle.
  • Realizar análisis en tiempo real.
  • Conducta ad-hoc y de corta duración de análisis de proyectos de negocios.
  • Construir Análisis de Negocio con Software as a Service (SaaS).

 


 

QD TECHNOLOGY

qdtechnology

 http://www.qdtechnology.com

QD Technology Base de Datos de respuesta rápida (QD ™) es una solución de base de datos relacional que permite a los ejecutivos de negocios y analistas de datos fácil y cómodamente obtener respuestas rápidas a consultas de base de datos de copias locales de su base de datos. Consultas correr más rápido que con otras soluciones y ya que se ejecutan en los ordenadores de usuario, que no interfieran con otros las actividades de los usuarios, y se puede ejecutar en cualquier lugar.

Beneficios del Usuario:

  • Acceso a demanda para datos localizados. Los usuarios pueden obtener respuestas a sus preguntas sobre sus PC sin impactar negativamente las operaciones de IT, ya que la base de datos entera está compresa, encriptada y es copiada a su PC.
  • Rápida respuesta a consultas a través de una compresión inteligente. Dependiendo de la naturaleza de los datos, puede ser hasta cinco veces más rápido que las tradicionales bases de datos relacionales.
  • Actualizaciones automáticas entregadas al usuario. Cuando la base de datos master cambia, las actualizaciones pueden ser enviadas a los usuarios, sin la necesidad de la intervención del usuario final.

Beneficios para la empresa.

  • Facilita la innovación. Puede reducir dramáticamente el tiempo de respuesta de las consultas.
  • Reducción de la infraestructura informática. Pone los derechos de la base de datos directamente en la PC de los usuarios, no requiere de varios niveles de infraestructura para las consultas, los datos del cubo de gestión o de depósito.
  • Mejora el rendimiento del usuario. Los analistas de datos y los usuarios pueden ejecutar sus consultas cuando quieran, sin restricciones que les imponen las bases de datos de administradores u otros usuarios de negocios.
  • Solución completa.
    • Alta velocidad de compresión.
    • Tecnología para almacenar una copia local de la base de datos en PC del usuario.
    • Capacidad de consulta a la base de datos sin estar en red.
    • Herramientas para reducir la demanda en el sistema y base de datos administradores.

Compresión.

  • Mejora del rendimiento de consultas a través de una compresión inteligente.
  • Rápido acceso a través de una compresión optimizada.
  • Aplica una técnica de compresión especialmente seleccionada de una biblioteca para cada columna en cada tabla.
  • Comprime los datos y tablas basándose en patrones.

Compatibilidad.

  • Compatible con ODBC.
  • Consultas con el estándar SQL-92.
  • Datos almacenados en filas y columnas.
  • Solamente datos basados en ASCII.

Tecnología.

Tablas antiguas nunca mueren. La compresión de QD es compatible con todas las versiones anteriores de QD.

Plataforma y Despliegue.

  • Plataforma. La configuración mínima para QD server es:
    • Windows server 2003 o 2000, XP o Vista.
    • 2 GB RAM
    • Espacio en disco suficiente para mantener la base de datos.

La mínima configuración para el sistema de consulta QD (desktop o laptop)

    • Windows server 2003, 2000, XP o Vista.
    • 1 GB RAM.
    • Espacio suficiente para mantener la base de datos comprimida.

 

Tiempo de implementación.

  • Instalación y configuración inicial de QD, en general se puede completar en 30 min.

Habilidades requeridas.

  • QD es compatible con ODBC sin especial formación a nivel de usuario.

Seguridad.

  • Datos en la PC
  • Encriptación.

 

SYBASE

sybase

http://www.sybase.com/products/datawarehousing/sybaseiq

Sybase es una base de datos relacional basada en columnas que es intrínsecamente más apropiado para el adecuado procesamiento de consultas que un enfoque basado en filas. Debido a que está basado en columnas, Sybase IQ aprovecha las características de cada columna en la tabla, en un número de diferentes caminos.

Sybase soporta los esquemas relacionales tradicionales, incluyendo la normalización de esquemas usados para procesos de transacción.

sybaseestructura

Como se puede ver Sybase incluye una API SQL que permite el acceso a SQL, también incluye ODBC, JDBC y XML, provee java para que puede ser usado para escribir procedimientos almacenados y funciones de usuario.

sybaseoperation

  • Ofrece una serie de índices especializados para el adecuado rendimiento de las consultas.
  • Una consecuencia de utilizar el almacenamiento columnar en conjunción con la indexación de Sybase IQ Bit Wise es que las agrupaciones pueden hacerse bajo la marcha. Dado que una parte significativa de extraer, trasformar y cargar es la anterior agrupación de transacciones.
  • Compresión de datos es mucho más fácil de implementar en un enfoque basado en columnas que cuando se utilizan los métodos convencionales. Es significativamente más eficiente. En la práctica Sybase IQ ha demostrado una compresión de datos de un 50% a un 70% del conjunto de datos original.
  • Es fácil agregar y cargar una columna de datos a una tabla como seria agregar una fila  a una base de datos relacional convencional.
  • Un enfoque basado en columnas es mucho más fácil de mantener y requiere menos sintonización que un DWH convencional.
  • Multihilo y alta disponibilidad 24 x 7.
  • A parte de las características ya mencionadas, también apoya RCube, estructura plana que puede proveer importantes beneficios en comparación con los esquemas convencionales. En particular RCube puede acelerar significativamente la implementación, así como el rendimiento en tiempo de ejecución y proporcionar una mayor flexibilidad.
  • Sybase ha sido creado para soportar el mayor numero de consultas posible corriendo en paralelo en lugar de concentrarse en el uso del paralelismo para optimizar el rendimiento de una consulta en particular.

 


 

ParAccelparaccel

http://www.paraccel.com

PADB tiene el propósito de construir Data Warehousing y manejadores analíticos de sistemas de bases de datos. PADB base de datos columnar es el más eficiente DBMS para DWH and BI y algunas otras consultas analíticas que se necesitan. Diseñado para velocidad y escalabilidad con simplicidad, se ajusta fácilmente dentro de un ambiente de DWH.

ParAccel es una base de datos robusta, relacional y totalmente transaccional DBMS para Data Warehousing, analítica y con aplicaciones BI. Su impresionante velocidad se construye en la sintonización manual de estructuras como índices, vistas materializadas y tablas de resumen no son necesarias (junto con las necesidades de mantenimiento). Este versátil rendimiento no depende de un diseño de esquema estrella, su flexible esquema neutral permite también desencadenar el poder de ParAccel para normalizar y de normalizar los datos. Las características de rendimiento incluyen:

  • Almacenamiento de Datos  Columnar.
  • Cargas de Alto rendimiento y actualizaciones.
  • Procesamiento Masivo paralelo.
  • Compresión adaptada.
  • Optimizador de consultas basado en el costo.
  • Consulta de compilación analítica.
  • Protocolo de interconexión con el cliente.
  • Todo en memoria con capacidad de diseño.

Escalabilidad:

La escalabilidad le proporciona protección a su inversión de DWH. PADB arquitectura MPP ofrece escalabilidad incremental lineal, servidor por servidor, por lo que no ocupara gran espacio en el centro de datos antes de que realmente se necesite.

  • Provee escalabilidad lineal lo que aumenta la capacidad y concurrencia.
  • Los nodos en momento de expansión se adapta fácilmente a los ciclos predefinidos.
  • El hardware estándar asegura la eficiencia de precios a medida que crecen los datos al automáticamente ser balanceados y agregados como nodos.

Simplicidad:

ParAccel carga y reparte diseños de Data Warehouse de fácil configuración, así que usted puede rápidamente solucionar  analíticamente problemas de rendimiento. Características de manejabilidad que simplifican las operaciones de DWH en curso:

  • Diseño para una rápida instalación
  • Interfaz estándar de apoyo (ODBC, JDBC, ANSI SQL 92)
  • Construidos para alta disponibilidad con ambientes SAN y no SAN.
  • SAN aprovecha la gestión de datos empresariales.
  • Se ejecuta en hardware estándar para apoyar los requerimientos operacionales.
  • Incluye la consola de administración de sistema, incorporado con un sistema manejador de reportes.
  • La Sintaxis “Amigo” tiene la capacidad de apoyar en la migración de Oracle y SQL server.

Procesamiento de Consultas Analítico y Eficaz

CPU por CPU, PADB MPP– arquitectura columnar, ofrece naturalmente un mayor rendimiento de DWH que otras bases de datos. El alto rendimiento orgánico es generado porque se necesitan menos CPU para alcanzar el rendimiento del DWH que se necesita. Inherente al alto rendimiento también significa una mayor productividad para la analítica de negocios y de TI.

 

REFERENCIAS

http://www.information-management.com/issues/2007_42/10000432-1.html

http://todobi.blogspot.com/2008/10/project-gemini.html

http://www.ventanaresearch.com/blog/commentblog.aspx?id=2892

http://www.vertica.com/enterprise-data-warehouse

http://www.qdtechnology.com/techsheet.asp

http://www.sybase.com/content/1035804/SybaseIQ_bloor-report.pdf





Visto: 27.090 veces

Una Respuesta a “Bases de Datos Columnares”

  1. pablo dice:

    tengo una exposición de sybase iq en mi lugar de estudios..y me faltan capturas de imagenes del motor de BD funcionando…asi como de las columnas , o sea, funcionando…seria de gran ayuda q me pudieras enviar imagenes o darme algun link ya q no he podido hallar…desde ya muchas gracias

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

%d bloggers like this:
Asesor En Línea

Ver más