Motivos de la disrupción del mercado de ETL causada por las herramientas de ELT

Los estudios indican que aproximadamente el 50 % de los datos empresariales reside en un entorno cloud, hecho que ilustra la importancia de las fuentes de datos externas para la empresa moderna. En esta línea, las organizaciones necesitan herramientas modernas para tratar e integrar ágilmente esos datos en un periodo de tiempo adecuado a la velocidad actual del mundo de los negocios. Las mejores herramientas de extracción, carga y transformación (conocidas por su sigla en inglés: ELT) se adaptan a esas cargas de trabajo y cada vez están ganando más credibilidad en el ámbito de los almacenes de datos como una vía rentable, eficaz y que ofrece un gran rendimiento para la integración de datos, ya sea externa o interna.

Muchas organizaciones acuden cada vez más a las herramientas de ELT para abordar la cantidad, variedad y velocidad de las fuentes de big data, que muchas veces agotan la capacidad de las herramientas de extracción, transformación y carga (ETL) pensadas para un almacenamiento de datos interno y relacional. En este artículo dilucidaremos las diferencias entre herramientas de ETL y de ELT, analizaremos cómo las herramientas de ELT refuerzan los almacenes de datos y apuntaremos cómo las herramientas de ELT están condicionando el futuro de la integración de datos.

Download Cloud Data Warehouse Trends for 2019 now.
Download Now

ELT y ETL: ¿qué diferencia hay?

El ELT es el proceso por el que se extraen datos en bruto de sus fuentes originales (canales de Twitter, ERP, CRM, etc.) y se cargan a unas fuentes de destino, que suelen ser almacenes de datos o data lakes. A diferencia de otros enfoques, el ELT exige transformar datos dentro de los sistemas de destino, lo que redunda en menos infraestructuras física y menos capas intermedias.

Para entendernos, las herramientas de ELT son como una evolución de los métodos de ETL tradicionales. Las herramientas de ETL son unas plataformas separadas estructuradas entre sistemas de origen y de destino. La principal diferencia entre ETL y ELT es que el ETL transforma los datos antes de cargarlos a los sistemas de destino, mientras que el ELT lo hace en estos sistemas. Se trata de una distinción fundamental para muchos procesos de aguas abajo y afecta a los sistemas posteriores.

Infraestructura y recursos

Las herramientas de ETL son unas plataformas especializadas para las fases intermedias entre la extracción de datos y su carga en repositorios de destino. Las organizaciones deben adquirir y mantener esas herramientas si desean integrar datos en sistemas de destino. Como las herramientas de ELT no necesitan esa fase intermedia para cargar datos en sistema de destino, requieren menos infraestructura física y recursos especializados puesto que la transformación se efectúa con el motor del sistema de destino, a diferencia de los motores de las mismas herramientas de ETL.

Preparación de datos

Las herramientas de ETL se encargan del proceso de preparación de datos, en virtud del cual los datos se limpian y se preparan para su transformación. Con el ELT, la preparación de datos se produce una vez los datos se han cargado en los almacenes, data lakes o almacenamiento de datos en cloud, lo que redunda en una mayor eficiencia y una menor latencia. Así pues, las mejores herramientas de ELT presentan muchas menos exigencias de fuentes iniciales de datos y no requieren las fases intermedias del ETL, puesto que gran parte del tratamiento se realiza en el sistema de destino.

Rendimiento

El rendimiento de las herramientas de ELT es inmensamente superior al de las de ETL, en especial cuando se opera con datos a escala. Inmensos petabytes de datos pueden obturar fácilmente el sistema si se usan herramientas de ETL, dado que estos mecanismos dependen de sus propios servidores y motores para transformar los datos. Además, esa complejidad de transformación aumenta debido al amplio abanico de datos semiestructurados y no estructurados que sistemáticamente pueblan las fuentes de big data. Esos cuellos de botella de ETL pueden prolongar considerablemente la latencia de acceso y análisis de datos en almacenes.

Tiempo de obtención de valor

Con herramientas de ELT, el tiempo necesario para obtener valor de analizar y actuar a partir de los datos se agiliza al transformar los datos dentro de los sistemas de destino. Los científicos de datos y analistas de negocio avanzados sacarán partido de las opciones de schema-on-read con muy poca programación manual al transformar sus datos rápidamente y emplear técnicas de machine learning para sus análisis. Las herramientas de ETL se ralentizan al programar manualmente procesos necesarios para que todos los datos encajen en el esquema uniforme de un almacén de datos, por ejemplo, como previa al análisis.

El paso de herramientas de ETL a ELT es una consecuencia natural de la era de los big data. Las herramientas de ETL tradicionales fueron creadas para un almacenamiento de datos relacional convencional, con gran parte de los datos procedentes de sistemas internos y, en su inmensa mayoría, estructurados. Los recursos informáticos reservados a las herramientas de ETL no se concibieron para las necesidades de dimensión, variación y baja latencia de los grandes volúmenes de big data. Es verdad que estas herramientas pueden seguir siendo viables para datos internos y estructurados, pero cada vez se están volviendo más obsoletas para integrar el sinfín de big data no estructurados y semiestructurados de fuentes externas, sobre todo en aplicaciones de baja latencia, como el Internet de las cosas.

Download Motivos de la disrupción del mercado de ETL causada por las herramientas de ELT now.
View Now

El ELT mejora el almacenamiento de datos

Las mejores herramientas de ELT sirven para mejorar los almacenes de datos y los data lakes en más de un sentido. En ambos casos, pueden agilizar el tiempo necesario para preparar los datos para el análisis. Cargando datos a un framework de un data lake, como Hadoop, las organizaciones pueden utilizar motores de procesamiento dentro de ese framework para preparar y transformar los datos. El framework de Hadoop se creó para una escalabilidad inmensa y aprovecha el tratamiento en paralelo para acelerar las tareas informáticas. Por lo tanto, cuando se utiliza el ELT sencillamente para cargar un data lake, las organizaciones pueden emplear este método para derivar el schema-on-read sin todo el trabajo de modelado de datos convencional necesario para unificar el esquema en los ajustes relacionales.

Cargar almacenes de datos con ELT depende en gran medida de la misma metodología. No obstante, durante el proceso de transformación los datos se transforman al esquema unificado de estos repositorios. También existe una fase adicional en la que los datos transformados se cargan desde un data lake, como Hadoop, al almacén en sí. Muchas de las ventajas temporales conservan su vigencia, al igual que las ventajas desde el punto de vista de la arquitectura e infraestructura que aporta hacer uso del motor de procesamiento de Hadoop para transformaciones. He aquí algunas ventajas del ELT:

  • Arquitectura racionalizada: Como estas herramientas de ELT aprovechan la potencia de procesamiento de los sistemas de destino, racionalizan la arquitectura necesaria para preparar datos para el consumo. No existe ninguna capa intermedia con limitaciones de potencia de procesamiento; el sistema de destino se emplea tanto para la preparación como la transformación de datos.
  • Incorporación rápida de fuentes de big data: Asimismo, existe una gran cantidad de fuentes de big data semiestructurados y no estructurados que se incorporan rápidamente a almacenes de datos y data lakes gracias al ELT. Es difícil emplear estas fuentes rápidamente con métodos tradicionales de ingesta y transformación.
  • Cajas analíticas (Sandbox): Algunas de las ventajas recurrentes de las mejores herramientas de ELT son el uso de data stores como por ejemplo Hadoop como sandbox para que los científicos de datos experimenten sin tener que normalizar el esquema en función del repositorio subyacente, paso necesario si usamos un enfoque convencional.
  • Almacenamiento y tratamiento: Las herramientas de ELT permiten a las organizaciones utilizar los sistemas de destino tanto para el almacenamiento como en cuanto a potencia de procesamiento. De esta forma se contribuye a maximizar el rendimiento de inversión en esos repositorios, lo que ayuda a justificar estas herramientas ante la alta dirección.

La business Intelligence (BI) sigue siendo la finalidad esencial del almacenamiento de datos. Las mejores herramientas de ELT potencian en gran medida la BI desde distintos puntos de vista. Permiten la rápida incorporación de múltiples fuentes externas junto a las internas tradicionales, como suplementar los datos de CRM o de ERP con información alternativa, por ejemplo, de las redes sociales. Los métodos de ELT permiten que cada una de esas fuentes de datos se cargue a Hadoop para la transformación y con ello proporcionan un schema-on-read a los científicos de datos para que entiendan la relación que guardan los datos alternativos con las necesidades de negocio y el esquema de almacenamiento. Una vez esas fuentes se transforman para adaptarse al esquema de almacenamiento, los usuarios puede emitir informes sobre todo un abanico de datos para realizar análisis más útiles de las tendencias de los clientes.

Download Best Practices Report: Multiplatform Data Architectures now.
Download Now

El ELT allana el futuro de la integración de datos

En resumen, el ELT es un potente paradigma para adaptarse al tamaño, la velocidad y otros aspectos diversos de los big data que hoy en día se emplean de forma sistemática por toda la empresa. Abandona la capa intermedia tradicional de ETL para pasar la preparación y la transformación de datos a repositorios de datos subyacentes aprovechando su moderna potencia de procesamiento para la transformación. Este enfoque simplifica la arquitectura de integración, acelera el tiempo de obtención de valor y ofrece un rendimiento robusto necesario para extraer continuamente todo el valor de los big data, en especial comparado con los métodos de ETL tradicionales.

El énfasis actual en los big data y los entornos informáticos cada vez más heterogéneos y frecuentemente necesarios asegurarán que las integraciones de datos oportunas, sostenibles y eficaces sigan siendo una prioridad esencial para las organizaciones durante mucho tiempo. En última instancia, el ELT solventa esta cuestión al conceder un grado importante de flexibilidad en la ejecución de integraciones de datos.

Como ejemplo de la cantidad de ventajas del ELT, hoy en día Talend Open Studio se emplea con muchos de los frameworks de big data más populares. Descubra cómo puede el ELT contribuir a la evolución de su empresa descargando Talend Open Studio.

| Last Updated: noviembre 26th, 2019