ETL para Analytics
Los procesos ETL (Extraction, Transformation and Loading - extracción, transformación y carga) son los componentes más importantes y de valor añadido de una infraestructura de Business Intelligence (BI). Aún pueden ser invisibles por los usuarios de la plataforma de BI, los procesos ETL recuperan los datos de todos los sistemas operativos y les pre-elaboran para las herramientas de análisis y de reporting. La exactitud de la plataforma BI entera depende de los procesos ETL.
Para obtener más informaciones sobre las soluciones de Talend ahora.
¿Qué es ETL?
Los procesos de Extracción, Transformación y Carga constan de múltiples pasos, cuyo objetivo es transferir datos desde las aplicaciones de producción a los sistemas de Inteligencia de negocio :
- Extracción de los datos desde las aplicaciones y bases de datos de producción (ERP, CRM, RDBMS, archivos, etc.)
- Transformación de estos datos para reconciliarlos en todos los sistemas source, realizar cálculos o análisis sintáctico de cadenas, enriquecerlos con información de búsqueda externa y, además, adaptarlos al formato preciso por el sistema objetivo (Third Normal Form, Star Schema, Slowly Changing Dimensions, etc.)
- Carga de los datos resultantes en las diversas aplicaciones de BI:Almacenes de datos históricos generales (data warehouse) o almacenes de datos empresariales, almacenes de datos históricos individuales (data mart), aplicaciones OLAP (Procesamiento analítico en línea) o “cubos”, etc
La latencia de los procesos ETL varía desde los lotes (a veces, de forma mensual o semanal, pero en la mayoría de los casos diariamente), al tiempo casi real con actualizaciones más frecuentes (cada hora, cada pocos minutos, etc.).
Los Retos del ETL
Existen numerosos desafíos para implementar unos procesos ETL eficaces y fiables.
- Los volúmenes de datos crecen de forma exponencial, y los procesos ETL tienen que procesar grandes cantidades de datos granulares (productos vendidos, llamadas telefónicas, transacciones bancarias…). Algunos sistemas de BI se actualizan simplemente de manera incremental, mientras que otros requieren una recarga completa en cada iteración.
- A medida que los sistemas de información crecen en complejidad, también aumenta la disparidad de las source. Los procesos ETL necesitan una extensa conectividad a las aplicaciones en paquetes (ERP, CRM, etc.), bases de datos, mainframes, archivos, servicios Web, etc.
- Las estructuras y aplicaciones de Inteligencia de negocio incluyen los almacenes de datos históricos generales e individuales y las aplicaciones OLAP, para el análisis, notificación y cuadros de mando operacionales y tácticos (dashboarding) y estratégicos (scorecarding), etc.
Todas estas estructuras objetivo tienen requisitos diferentes de transformación de datos, y distintas latencias.
- Las transformaciones implicadas en los procesos ETL pueden ser muy complejas. Los datos necesitan agregarse, analizarse, computarse, procesarse estadísticamente, etc. También se necesitan transformaciones específicas a BI, como Slowly Changing Dimensions.
- Mientras que la Inteligencia de negocio tiende hacia una puntualidad real, los almacenes de datos generales e individuales se tienen que actualizar más a menudo, ya que las ventanas de tiempo de carga se reducen.
Soluciones de integración de datos Open Source para ETL
Las soluciones de integración de datos de Talend están optimizadas para unos procesos ETL de calidad empresarial. Las siguientes características son especialmente críticas para el diseño, desarrollo, ejecución y mantenimiento de los procesos ETL :
- Modelización de procesos orientada al negocio que implica a las partes interesadas en el negocio y garantiza una comunicación óptima entre TI y las líneas de negocio
- Entorno de desarrollo gráfico que mejora en gran medida la productividad y facilita el mantenimiento
- Plataforma muy evolutiva que aprovecha una red de hardware comercial, y es la única solución que admite la arquitectura dual ETL + ELT.
- La más amplia conectividad para admitir todos los sistemas
- Componentes avanzados integrados ETL, incluidas manipulaciones de cadenas, Slowly Changing Dimensions, soporte para cargas masivas, etc.