Bases de Datos Columnares

Hoy en día las bases de datos columnares son una parte muy importante dentro de BI, ya que ésta, por su arquitectura permite generar consultas analíticas instantáneas de grandes volúmenes de información para toma de decisiones de las empresas.

Como su nombre lo indica, las bases de datos columnares están organizados de columna por columna, en lugar de la fila: es decir, todos los casos de un solo elemento de datos (por ejemplo: Nombre de cliente) se almacenan de modo que se puede acceder como una unidad. Esto las hace especialmente eficaces en las consultas analíticas de grandes volúmenes de información, como la lista de selecciones, que a menudo lee unos pocos elementos de datos, pero necesitamos ver todas las instancias de estos elementos. No así para consultas transaccionales. En contraste, una convencional base de datos relacional almacena los datos por filas, por lo que toda la información de un registro (fila) es inmediatamente accesible. Esto tiene sentido para las consultas transaccionales, que suelen referirse a un registro a la vez.

Las Bases de Datos Columnares se introdujeron por primera vez en 1970 en productos como Model 204 y ABABAS, desde 2004 han tenido una evolución constante para implementaciones comerciales. Hoy en día su desarrollo y aplicación a resultado en una gran competencia y variedad de opciones en bases de datos columnares.

Ventajas

Las bases de datos basadas en columnas son creadas para la velocidad, trabajan de una forma que permite omitir los datos irrelevantes para el análisis y leer de inmediato lo que se busca. De esta manera las consultas de agregación se vuelven especialmente rápidas. Otras de sus principales ventajas son:

  • Las bases de datos columnares almacenan datos en registros de manera que puedan contener un gran número de columnas dinámicas. A diferencia de bases de datos relaciones que está optimizada para almacenar filas de datos.
  • Además, una reducción importante en cuanto a los requisitos.

El almacenamiento basado en columnas para las tablas de bases de datos es un factor importante en el desempeño de las consultas analíticas, ya que reduce notablemente los requisitos globales de E/S del disco y también disminuye el volumen de datos que requiere cargar desde él.

  • Por último, hay que destacar que desde su diseño las bases columnares están pensadas para reducir la escala de clústeres distribuidos en hardware de bajo costo. Para aumentar el desempeño. Lo que los hace una de las primeras opciones en cuanto a procesamiento de Big Data y para almacenamiento de datos.

 

Principales Bases de Datos Columnares

Amazon Redshift

Es un almacenamiento de datos basado en la nube a escala de petabytes totalmente administrado para el almacenamiento y el análisis de conjuntos de datos a gran escala. También es utilizado para realizar migraciones de bases de datos a gran escala.

Está solución esta diseñada para permitir a los clientes basados en SQL conectarse a las herramientas de Business Intelligence, ofreciendo datos a los usuarios en tiempo real.

Se basa en PostgreSQL 8, ofrece un rendimiento rápido y consultas eficientes que ayudan a la organización a tomar decisiones y análisis de negocios sólidos.

Amazon Redshift vs Almacén de datos tradicional

Rendimiento

  • Consultas rápidas en grandes conjuntos de datos, que tratan con tamaños de datos de hasta un petabyte. La velocidad con la que procesa los datos es simplemente imposible de alcanzar en el almacenamiento de datos tradicional.

Costo y Escalabilidad

  • Permite una mayor flexibilidad y escala elástica. A medida que cambian sus requisitos, puede escalar hacia arriba o hacia abajo de forma instantánea para adaptarse a las necesidades de capacidad y rendimiento con unos pocos clics en administración.
  • Los precios bajo demanda y en términos de costos garantizan que solo pague por lo que usa.

Azure Synapse Analytics

(antes Azure SQL Data Warehouse)

Es un almacén de datos analíticos MPP a escala de petabytes creado sobre la base de SQL Server, ejecutado como parte de la plataforma en la nube de Microsoft Azure. Separa el almacenamiento y el proceso facturando cada una por separado.

SQL DW abstrae las máquinas físicas y representa la potencia de proceso en forma de unidades de almacenamiento de datos (DWU) permitiendo a los usuarios escalar recursos de procesos sin complicaciones.

Azure Synapse Analytics vs Almacén de datos tradicional

Facilidad de uso

  • Abstrae los recursos de proceso lejos del usuario, representándolos en forma de DW, el usuario puede escalar verticalmente y reducir muy fácilmente para aprovisionar más o menos recursos en su almacenamiento de datos.

Escalabilidad y Rendimiento

  • Gran variedad de opciones proporcionadas a los usuarios finales para escalar el rendimiento de Azure Synapse Analytics. Los usuarios pueden actualizar las máquinas individuales o agregar más recursos informáticos en forma de máquinas adicionales, que se pueden configurar para escalar automáticamente.

BigQuery

Es un almacén de datos para empresas que resuelve el problema de almacenar y consultar, al permitir realizar consultas de SQL de alta velocidad mediante el poder de procesamiento de infraestructura de Google.

BigQuery permite controlar el acceso al proyecto y los datos según sean las necesidades de la organización.

BigQuery vs Almacén de datos tradicional

Costo y escalabilidad

  • Las empresas pueden implementar los análisis y consultas que requieren sin la necesidad de alquilar más espacio en el servidor o escalar sin una necesidad real.
  •  La combinación de las capacidades de aprendizaje automático de BigQuery con conjuntos de datos y estructuras existentes puede mejorar el diseño del almacenamiento de información, facilitar las consultas y el análisis de datos, e incluso reducir los costos al eliminar estructuras superfluas.

Oracle Autonomous Data Warehouse

Es un servicio de almacenamiento de datos basado en la nube que Utiliza la optimización de consultas continua, indexación de tablas, resúmenes de datos y el ajuste automático para garantizar un rendimiento alto constante, aunque la cantidad de usuarios y volumen de datos aumenten.

 

Oracle Autonomous Data Warehouse vs Almacén de datos tradicional

Escalabilidad autónoma

  • Puede triplicar de forma temporal el procesamiento y la E/S para que esta mantenga el rendimiento.

Rendimiento y costos

  • La gestión autónoma permite ejecutar un almacén de alto rendimiento, seguro y de alta disponibilidad, al tiempo que se van rediciendo los costos administrativos.

Snowflake Computing

Almacén de datos analítico el cual se proporciona como software de servicio (SaaS). Proporciona un almacén más rápido, de fácil uso y flexible. No está basado en una base de datos existente o plataforma de software de Big Data como Hadoop, en su lugar este utiliza un nuevo motor de base de datos SQL con una arquitectura única diseñada para la nube. Tiene muchas similitudes con los almacenes de datos empresariales, pero demuestra una funcionalidad adicional y capacidades únicas.

Arquitectura

Snowflake vs Almacén de datos tradicional

Escalabilidad y Rendimiento

  • Cuenta con la simplicidad de administración de datos de una arquitectura de disco compartido, pero con el rendimiento y ventajas de escala horizontal de una arquitectura de nada compartido.

MariaDB SkySQL

Es la oferta de DBaaS, es un servicio de base de datos totalmente administrado a través de un servicio en la nube por medio de Google Clound Platforma (GCP).
Las ventajas que mantiene es el control de versiones SkySQL garantiza que los usuarios estén siempre en la versión más reciente, así como que cuenten con análisis y soporte transaccional.
Al estar integrado con DBaaS proporciona monitoreo con métricas y gráficos en tiempo real además de un análisis de carga de trabajo que muestra el servicio de machine learning el cual identifica los cambios en los patrones de carga de trabajo para una escala proactiva de recursos y coherencia del servicio.

Características

Cuenta con toda la potencia de Maria DB Platform combinando diferentes tipos de base de datos que van desde transacciones (configuración para OLTP), análisis o almacenamiento de datos OLAP o si se requiere de una configuración híbrida.


Base de datos Columnares de Código Abierto

Apache Cassandra

Es un sistema de gestión de bases de datos (DBMS) de código abierto para bases de datos muy grandes y estructuradas. La buena escalabilidad, de estas bases de datos se pueden distribuir a diferentes clústeres, por lo que Cassandra no se encuentra unida a un único servidor.

 

Tolerante a Fallos

  • Los datos son replicados automáticamente en varios nodos para la tolerancia a errores. Admite la replicación en varios centros de datos y los nodos con errores pueden ser reemplazados.

Performance

  • Supera constantemente a las alternativas populares de NoSQL en puntos de referencia y aplicaciones reales, principalmente debido a opciones de arquitectura fundamentales.

MonetDB

Inova en todas las capas de un DBMS, por ejemplo, un modelo de almacenamiento basado en la fragmentación vertical, una arquitectura moderna de ejecución de consultas ajustada por CPU, índices automáticos y de autoajuste, optimización de consultas en tiempo de ejecución y una arquitectura de software modular.

 

Escalabilidad Vertical y Horizontal

  • La escalabilidad vertical puede aumentar los recursos relacionados con la memoria o la CPU del servidor que utiliza MongoDB.
  • La escalabilidad horizontal puede crear diferentes nodos, los cuales permiten aumentar la disponibilidad de la aplicación conforme el volumen de los datos o el número de accesos a la base de datos.

Conclusión

Ya sean bases de datos columnares o relacionales. La tecnología de bases de datos hoy en día permite virar entre ambas opciones, dependiendo la que mejor se adecúe a lo que buscamos. Conocer y saber diferenciar no solo pros y contras de cada una sino poder implementar la mejor solución que necesitemos es clave.

¿Por qué utilizar una base de datos columnar?

Las bases de datos columnares superan a las bases de datos relacionales tradicionales en algunas áreas. Proporcionan acceso a los elementos de mayor relevancia, aumentando la velocidad en consultas incluso en bases de datos de millones de registros.

Las bases de datos tradicionales ofrecen una fuente de datos completa, sin embargo, la arquitectura de base de datos en columnas ofrece un análisis completo de los datos generales de forma sencilla. La organización de las bases de datos columnares permite que los usuarios puedan ver resultados más rápidos y análisis más eficientes.

 

Visto: 46,818 veces

One thought on “Bases de Datos Columnares

  1. tengo una exposición de sybase iq en mi lugar de estudios..y me faltan capturas de imagenes del motor de BD funcionando…asi como de las columnas , o sea, funcionando…seria de gran ayuda q me pudieras enviar imagenes o darme algun link ya q no he podido hallar…desde ya muchas gracias

Deja un comentario