¿En qué consiste un data mart

En un mercado dominado por big data y la analítica, los data marts son una clave para transformar eficientemente los datos en información útil. Los almacenes de datos suelen manejar conjuntos de datos voluminosos, pero los análisis de datos exigen disponer de datos fáciles de encontrar y de rápida disponibilidad. ¿Una persona con un perfil ejecutivo debería realizar consultas complejas tan solo para acceder a los datos que necesita para sus informes? No, y ese el motivo por el que las empresas inteligentes utilizan data marts.

Un data mart es una base de datos centrada en un ámbito que muchas veces es un segmento aislado de un almacén de datos de empresa. El subconjunto de datos contenido en un data mart suele alinearse con una unidad comercial concreta, como Ventas, Finanzas o Marketing. Los data marts aceleran los procesos comerciales al dar acceso a la información en un almacén de datos o un data store operativo en cuestión de días, y no meses o periodos más largos. Como un data mart tan solo contiene los datos aplicables a un ámbito comercial concreto, resulta una forma rentable de obtener información explotable rápidamente.

Descargar Por qué tu próximo almacén de datos debería estar en la Cloud ahora
Descargar ahora

Data mart frente a almacén de datos

Los data marts y los almacenes de datos son ambos repositorios muy estructurados en los que se almacenan y gestionan los datos hasta que resulta necesarios. Sin embargo, presentan diferencias en el alcance de los datos almacenados: los almacenes de datos están creados para actuar de depósito central de datos para toda una empresa, mientras que un data mart cumple la exigencia de una división o departamento comercial específico. Como un almacén de datos contiene datos de toda la empresa, la mejor práctica es garantizar un control estricto de todos los que tienen acceso al mismo. Además, consultar los datos que necesita en un almacén de datos es una tarea increíblemente difícil para las empresas. Así pues, el principal objetivo de un data mart es aislar (o escindir) un conjunto más pequeño de datos del conjunto total para ofrecer un acceso más fácil a los datos para los consumidores finales.

Un data mart puede crearse desde un almacén de datos existente (enfoque de arriba abajo) o desde otras fuentes, como sistemas operativos internos o datos externos. Es parecido a un almacén de datos; se trata de una base de datos relacional que almacena datos transaccionales (valor temporal, orden numérico, referencia a uno o más objetos) en columnas y filas, simplificando su organización y acceso.

Por otro lado, cada unidad de negocios puede crear sus propios data marts según sus propios requisitos de datos. Si lo exigen las necesidades del negocio, se pueden fusionar distintos data marts y crear un único almacén de datos. Este es el enfoque de desarrollo de abajo a arriba.

 

Data Mart

Almacén de datos

Tamaño

<100 GB

+100 GB

Ámbito

Un único ámbito

Varios ámbitos

Alcance

Área de negocio

Toda la empresa

Fuentes de datos

Pocas fuentes

Muchos sistemas de fuentes

Integración de datos

Un único ámbito de actividad

Todos los datos de la empresa

Tiempo de creación

Minutos, semanas, meses

De muchos meses a años

.

3 tipos de data marts

Existen tres tipos de data marts: dependientes, independientes e híbridos. Se clasifican según su relación con el almacén de datos y las fuentes de datos que se utilizan para crear el sistema.

  1. Data marts dependientes

Un data mart dependiente se crea a partir de un almacén de datos empresariales existente. Es el enfoque de arriba abajo que empieza almacenando todos los datos comerciales en una única ubicación y luego se extrae una porción claramente definida de los datos cuando se necesita analizarlos.

Para formar un almacén de datos, se agrega un conjunto de datos concreto (en forma de agrupamiento) a partir del almacén, se reestructuran y luego se cargan al data mart, donde pueden realizarse consultas. Pueden ser una visión lógica o un subconjunto físico del almacén de datos:

  • Visión lógica: una tabla/vista virtual separada lógicamente —aunque no físicamente— del almacén de datos
  • Subconjunto físico: extracción de datos que constituye una base de datos separada físicamente del almacén de datos

Los datos granulares (el nivel inferior de datos del conjunto diana) del almacén de datos sirven como única referencia para todos los data marts dependientes que se creen.

  1. Data marts independientes

Un data mart independiente es un sistema autónomo (creado sin utilizar ningún almacén) que se centra en una única disciplina o área del negocio. Los datos se extraen de fuentes internas o externas (o de ambas), se procesan y luego se cargan al repositorio del data mart, donde se almacenan hasta que son necesarios para análisis comerciales.

Los data marts independientes no son difíciles de diseñar y desarrollar. Son ventajosos para lograr objetivos a corto plazo, pero pueden resultar farragosos de gestionar (cada cual con su propia herramienta de ETL y lógica) a medida que las necesidades de la empresa crecen y se complican.

3. Data marts híbridos

Un data mart híbrido combina datos de un almacén de datos existente con otros sistemas de fuentes operativas. Aúna la velocidad y el énfasis en el usuario final de un enfoque de arriba a abajo con las ventajas de la integración corporativa del método de abajo a arriba.

Descargar ¿En qué consiste un data mart ahora
Ver ahora

Estructura de un data mart

Un data mart es semejante a un almacén de datos, pero se puede organizar con un esquema en estrella, copo de nieve, bóveda o de otros tipos como patrón. Los equipos de Informática suelen utilizar un esquema en estrella, que consiste en una o varias tablas de hechos (conjuntos de métricas relativas a un proceso o acontecimiento de negocio específico) en las que se indican tablas de dimensiones (clave primaria unida a una tabla de hechos) en una base de datos relacional.

La ventaja de un esquema en estrella es que se requieren menos combinaciones entre tablas al escribir las consultas, dado que no hay dependencia entre dimensiones. Esto simplifica el proceso de solicitud de ETL, lo que facilita el el acceso y la navegación para los analistas.

En un esquema en copo de nieve las dimensiones no están claramente definidas. Se normalizan para ayudar a reducir la redundancia de los datos y proteger su integridad. Ocupa menos espacio al almacenar las tablas de dimensiones, pero es una estructura más complicada (varias tablas que alimentar y sincronizar) que puede resultar difícil de mantener.

Ventajas de un data mart

La gestión de los big data (y la obtención de información de valor comercial) es un reto al que se enfrentan todas las empresas. La mayoría lo aborda con data marts estratégicos.

  • Acceso eficiente: un data mart es una solución para acceder a un conjunto concreto de datos a efectos de business intelligence que permite ahorrar tiempo.
    .
  • Alternativa económica a los almacenes de datos: los data marts pueden ser una alternativa económica a desarrollar un almacén de datos de empresa, puesto que los conjuntos de datos necesarios son más pequeños. Un data mart independiente puede estar operativo en menos de una semana.
    .
  • Mejora del rendimiento del almacén de datos: los data marts dependientes e híbridos pueden mejorar el rendimiento de un almacén de datos al asumir la carga del procesamiento, para satisfacer las necesidades del analista. Cuando los data marts dependientes se instalan en un centro de procesamiento separado, reducen también notablemente los costes de procesamiento para analíticas.

He aquí otras ventajas de los data marts:

  • Mantenimiento de datos: distintos departamentos pueden ser dueños de sus datos y controlarlos.
  • Configuración sencilla: su diseño simple no exige tanta habilidad técnica para configurarlo.
  • Analítica: se puede realizar fácilmente el seguimiento de los indicadores clave de rendimiento (KPI).
  • Entrada sencilla: los data marts pueden ser piezas fundamentales de un futuro proyecto de almacén de datos para toda la empresa.

El futuro de los data marts se halla en cloud.

Incluso con la flexibilidad y eficiencia mejoradas que ofrecen los data marts, los big data (y las grandes empresas) siguen creciendo demasiado para muchas soluciones locales. A medida que los almacenes de datos y los data lakes dan el salto a la cloud, también lo hacen los data marts.

Con una plataforma cloud compartida para crear y alojar datos, el acceso y los análisis ganan considerablemente en eficiencia. Se pueden crear clústeres temporales de datos para un análisis a corto plazo o combinar clústeres de largo recorrido para un trabajo más continuado. Las tecnologías modernas también están separando el almacenado de los datos de la computación, lo que permite la máxima escalabilidad de cara a realizar consultas de datos.

A continuación enumeramos algunas ventajas más de los data marts dependientes e híbridos basados en cloud:

  • Arquitectura flexible con aplicaciones nativas en cloud.
  • Único depósito que contiene todos los data marts.
  • Recursos consumidos a demanda.
  • Acceso inmediato en tiempo real a la información.
  • Aumento de la eficiencia.
  • Consolidación de recursos que reduce los costes.
  • Analítica interactiva en tiempo real.

Ver Talend Open Studio para Big Data para Simulaciones ahora
Ver ahora

Cómo empezar con los data marts

Las empresas deben lidiar con una cantidad infinita de datos y la necesidad cambiante de analizar esos mismos datos para formar conjuntos manejables sobre los que realizar análisis y extraer información. Los data marts en la cloud suponen una solución escalable y a largo plazo. Para crear un data mart, asegúrese de encontrar una herramienta de ETL que le permita conectarse a su almacén de datos existente o a otras fuentes de datos esenciales que sus usuarios comerciales necesiten para extraer información. Además, compruebe que su herramienta de integración de datos pueda actualizar periódicamente el data mart para asegurar que sus datos (y la analítica resultante) estén siempre al corriente.

 Talend Data Management Platform ayuda a los equipos a trabajar de forma más inteligente, con una arquitectura abierta y escalable y unas herramientas gráficas sencillas para contribuir a transformar y cargar fuentes de datos aplicables y crear un nuevo data mart. Además, Talend Data Management Platform simplifica el mantenimiento de data marts existentes al automatizar y programar las tareas de integración necesarias para actualizar el data mart.

Con Talend Open Studio for Data Integration podrá conectarse a tecnologías como Amazon Web Services Redshift, Snowflake o Azure Data Warehouse con el fin de crear sus propios data marts, sacando partido a la flexibilidad y la escalabilidad de cloud.

| Actualizado por última vez: febrero 19th, 2019