Diferencias entre ETL y ELT: Definir la diferencia

La diferencia entre ETL y ELT depende de dónde se transforman los datos y cuántos datos se retienen en almacenes de datos operativos.

Extraer/Transformar/Cargar (ETL, Extract/Transform/Load) es un enfoque de integración que extrae información de fuentes remotas, la transforma a formatos y estilos definidos y luego la carga en bases, fuentes o almacenes de datos.

.

diagrama etl

.

De modo similar, Extraer/Cargar/Transformar (ELT, Extract/Load/Transform) extrae datos de una o varias fuentes, pero luego los carga en el almacén de datos diana sin formatearlos. La transformación de datos, en cualquier proceso de ELT, se produce dentro de la base de datos diana. ELT exige menos de las fuentes remotas, lo único que solicita es sus datos en bruto y sin tratar.

.

diagrama elt

.

Ambos enfoques son viables, pero al diseñar una arquitectura de datos los responsables de informática deben plantearse las capacidades internas y el impacto creciente de las tecnologías cloud.

La evolución del ELT

El ELT lleva tiempo en funcionamiento, pero cobró un interés renovado con herramientas como Apache Hadoop, un framework para distribuir y procesar grandes cargas de trabajo en pocos — o muchos millares de — nodos de trabajo para el procesamiento en paralelo. Una tarea ingente como la transformación de petabytes de datos en bruto se repartió en pequeñas tareas, procesadas remotamente, que se devuelven para la carga en la base de datos.

Pero las evoluciones en materia de potencia de procesamiento, especialmente la agrupación en clústeres virtual, han aportado a los recursos de servidores locales un aumento de potencia exponencial, reduciendo la necesidad de dividir las tareas. Las tareas de big data que solían distribuirse por toda la cloud, procesarse y devolverse ahora pueden gestionarse en un único lugar.

Cómo funciona un proceso ELT y cuándo conviene utilizarlo

A diferencia del ETL, el proceso de Extraer/Cargar/Transformar recaba información a partir de un número ilimitado de fuentes, la carga en una ubicación de procesamiento y la transforma en business intelligence que resulte explotable.

  • Extracción: el primer paso, la extracción, funciona de forma parecida en ambos enfoques de gestión de datos. Flujos de datos en bruto procedentes de infraestructuras virtuales, software y aplicaciones se ingieren o bien en su totalidad o bien conforme a unas reglas predefinidas.
  • Carga: aquí es donde el ELT se desvía de su pariente cercano, el ETL. En lugar de suministrar todo este volumen de datos en bruto y cargarlos a un servidor de procesamiento provisional para su transformación, el ELT los entrega en su conjunto al punto donde acabarán residiendo. Esto acorta el ciclo entre la extracción y la entrega, pero exige mucho más trabajo previo hasta poder sacar partido a los datos.
  • Transformación: la base de datos o el almacén de datos clasifica y normaliza los datos, conserva una parte o la totalidad a mano y accesible para elaborar informes personalizados. Los gastos generales de almacenar esta cantidad de datos son superiores, pero aporta más oportunidades para extraer business intelligence relevante de forma personalizada prácticamente en tiempo real.

Así pues, ¿los procesos ELT son la opción adecuada? Dependiendo de la arquitectura de red y el presupuesto existentes de la empresa y del grado en el que ya esté explotando tecnologías cloud y de big data, no siempre. Sin embargo, cuando alguno o todos estos tres ámbitos clave son fundamentales, probablemente la respuesta sea afirmativa.

  1. Cuando la velocidad de ingesta manda. Como el ELT no tiene por qué esperar a que se procesen los datos externamente antes de cargarse (la carga y la transformación de los datos puede producirse en paralelo), el proceso de ingesta es mucho más rápido y suministra información en bruto a una velocidad considerablemente más ágil que los procesos ETL.
    .
  2. Cuando más información implica mejor información. La ventaja de convertir datos en business intelligence radica en la capacidad de hacer emerger patrones ocultos y convertirlos en información operativa. Al conservar a mano todos los datos históricos, las organizaciones pueden extraer datos a partir de cronogramas, patrones de ventas, tendencias de temporada o cualquier métrica emergente que cobre importancia para la organización. Como los datos no se han transformado antes de cargarse, tendrá acceso a todos sus datos sin tratar. Lo habitual es que los data lakes cloud tengan un depósito de datos en bruto que luego pasa a ser un depósito de datos perfeccionado (o transformado). Los científicos de datos, por ejemplo, prefieren acceder a datos sin tratar, mientras que a los usuarios comerciales les gusta disponer de datos normalizados a efectos de business intelligence.
    .
  3. Cuando es consciente de que tendrá que redimensionar. Cuando usa motores de procesamiento de datos de gran calidad, como Hadoop, o almacenes de datos en cloud, el ELT puede aprovechar su potencia de procesamiento nativa para ganar en escalabilidad.

Tanto el proceso ETL como el ELT son metodologías contrastadas de producción de business intelligence a partir de datos en bruto. No obstante, como sucede con prácticamente todo lo tecnológico, la cloud está cambiando la forma en la que las empresas abordan los retos del ELT.

Ver Geo-ETL: Processing Geodata with Talend ahora
Ver ahora

Ventajas del uso de un proceso ELT en cloud

Cloud trae consigo un abanico de capacidades que muchos profesionales del sector consideran que, con el tiempo, volverán obsoletos los centros de datos locales. Cloud supera los obstáculos naturales del ELT ofreciendo:

  • Escalabilidad: las funcionalidades ELT en centros de datos in situ más antiguos podrían sobrecargar rápidamente la potencia de procesamiento y almacenamiento local, lo que exigiría costosas actualizaciones de hardware y tiempo programado de inactividad para el despliegue de las soluciones.

    La escalabilidad de una infraestructura cloud virtual y los servicios alojados — como una plataforma de integración como servicio (iPaaS) y un software como servicio (SaaS) — aportan a las organizaciones la capacidad de ampliar recursos sobre la marcha. Incorporan el tiempo de computación y el espacio de almacenamiento necesarios incluso para tareas de transformación de datos ingentes.
    .
  • Integración (prácticamente) sin fisuras: como el ELT cloud interactúa directamente con otros servicios y dispositivos en toda una plataforma cloud, las tareas que anteriormente eran complejas, como el mapeo de datos continuo, se simplifican radicalmente. Lo que en su día fueron retos monumentales ahora pueden convertirse en interfaces gráficas interactivas sencillas que ofrecen toda la información crítica de un vistazo.
    .
  • Código abierto: las mejores soluciones de ELT sacan partido a la potencia de las plataformas cloud dinámicas de código abierto, que operan de forma colectiva para promover mejoras, seguridad y cumplimiento normativo en toda la empresa. El ELT de código abierto genera comunidades profesionales mundiales gracias a las cuales se eliminan las dificultades de los datos a medida que surgen en su red, o incluso antes de que aparezcan.
    .
  • Menor coste de la propiedad: cuando el estándar era el ETL, ampliar capacidades exigía ampliar también los costes. Reforzar los recursos de procesamiento y almacenamiento suponía un gasto a fondo perdido, con grandes inversiones en hardware. La limitación de este enfoque era que las organizaciones tenían que pagar por adelantado por la potencia máxima que podían alcanzar, pero la operativa diaria tan solo utilizaba una ínfima parte de esa capacidad.

Como la mayoría de los servicios cloud, el ELT cloud es de pago por uso. Esto significa que los costes de computación y almacenamiento aumentarán al procesar grandes tareas de ETL, pero se reducirán prácticamente a cero cuando el entorno opere bajo una presión mínima. Esto, como media anual, comporta un coste total de la propiedad mucho menor, sobre todo cuando permite ahorrar la inversión inicial.

En este sentido, y muchas más, la cloud está redefiniendo cuándo y cómo localizan las empresas sus producciones de business intelligence.

Ver The Rise of Cloud Integration Platforms ahora
Ver ahora

Soluciones a los retos más habituales del ELT

Para ejecutar correctamente cualquier tarea, las organizaciones deben disponer de las herramientas y la competencia adecuadas. Como con cualquier tarea, los errores cometidos al principio del proceso de producción se amplifican a medida que evoluciona el proyecto, y existen varios escollos habituales que pueden poner en peligro cualquier arquitectura de ELT.

  • Lagunas de seguridad: el traslado de petabytes de datos y su puesta a disposición de todas las aplicaciones y los usuarios llevan asociados riesgos de seguridad. Un enfoque de diseño seguro integra la seguridad a todos los niveles de la empresa y garantiza que los almacenes de datos no se infecten por culpa de datos corruptos o comprometidos.
    .
  • Complacencia en el cumplimiento: los instrumentos de cumplimiento cada vez más amplios, como HIPAA, PCI y el RGPD, generan mayor presión sobre las organizaciones para que efectúen auditorias obligatorias y demuestren que cumplen con la normativa. Cualquier enfoque de ELT debe idearse pensando en el cumplimiento normativo para evitar infringir legislaciones nacionales o internacionales.
    .
  • Saturación de recursos: las ventajas de extraer business intelligence de almacenes de datos se acompañan de un inconveniente que salta a la vista: todos esos datos requieren mantenimiento. Los proveedores de servicios cloud y tarifas de pago por uso permiten explotar los big data con precios más asequibles que nunca, pero incluso los costes de almacenamiento por franjas pueden encarecerse si no se dispone de un plan de gestión y se prohíbe el crecimiento infinito de los volúmenes de información operativa.
    .
  • Gobernanza de datos ausente: del mismo modo que la seguridad de los datos que se manejan en un proceso de ELT es crítica, también lo son las 5 preguntas que deben plantearse sobre la gobernanza de datos:

    ¿Quién controla la gestión de datos maestro en la organización?
    ¿Qué datos se recogen/conservan?
    ¿Cuándo se realizan análisis y auditorías?
    ¿Dónde se guardan los datos?
    ¿Por qué afectan en positivo los procesos ELT al rendimiento del negocio?

Responder preguntas clave por adelantado crea prácticas responsables de ELT y posiciona a las empresas para que puedan recabar mucha información que repercute en la cuenta de resultados a diario.

Conclusiones sobre ELT y ETL

Durante más de quince años Talend ha venido proporcionando a sus socios en todo el mundo las herramientas que necesitan para transformar sus negocios. Acometa incluso las tareas de ELT más voluminosas con Open Studio for Big Data, la plataforma gratuita compatible en todo el mundo en la que confían algunas de las mayores empresas del planeta.

Empiece a trabajar con ELT o ETL con las herramientas de Talend para big data. Obtenga más información sobre todo lo que Talend puede aportar a las organizaciones y descargue Big Data Sandbox para configurar un entorno de desarrollo y prueba hoy mismo.

| Actualizado por última vez: February 19th, 2019