ETL en el entorno cloud: cómo le afectarán sus cambios

Desde el advenimiento de los big data, el proceso de ETL (extraer, transformar y cargar) ha hecho las veces del corazón que bombea información por todas las redes corporativas modernas. Actualmente, el ETL cloud es una herramienta decisiva para administrar ingentes conjuntos de datos y en el futuro las empresas aumentarán su dependencia de ella. El motivo es sencillo: en el entorno competitivo actual, los datos son como la sangre; si no dispones de existencias suficientes, no puedes seguir.

ETL: una breve introducción

El ETL es el estándar internacional de tratamiento de amplios volúmenes de datos. El ETL reparte el proceso por todo un conjunto de procesadores enlazados que operan a partir de un marco común (como Apache Hadoop). El proceso de ETL incorpora tres funciones distintas:

  • Extraer. Durante el proceso de extracción, los datos sin tratar se obtienen de toda una serie de procedencias, como son las bases de datos, los dispositivos de red, las aplicaciones tanto de hardware como de software de seguridad, etc. Estos datos en streaming recorren distintas redes digitales y se recaban prácticamente en tiempo real.
  • Transformar. En la fase de transformación del proceso de ETL, se encauzan ríos enteros de información para obtener datos útiles para los negocios. Al mismo tiempo, el motor de ETL reduce el volumen de datos detectando y eliminando los datos duplicados. Luego los datos se normalizan y formatean para ser utilizados y/o analizados posteriormente. Por último, se clasifican y verifican antes de pasar a la siguiente fase.
  • Cargar. En la última etapa del proceso ETL se depositan los datos en sus destinos previstos. Entre ellos, herramientas de análisis, bases de datos o data lakes, repositorios de red en frío u otros usos posibles.

En términos relativos, el ETL lleva años produciéndose. Pero simplemente la forma en la que se ha utilizado para transformar datos sin tratar en business intelligence no ha evolucionado con el tiempo y, además, ha preparado el camino para la tecnología cloud.

ETL tradicional: de origen local

Antes de la llegada de la fibra óptica y los recursos cloud distribuidos por todo el mundo, los procesos de ETL se gestionaban localmente. Imagínense una sala de ordenadores enorme y ruidosa en la que uno o dos técnicos se pasean entre pilas de computadoras y bastidores de red verificando conexiones.

A finales de los años setenta, el valor de las bases de datos se disparó cuando las herramientas que se utilizaban para normalizar (o transformar) datos a formatos habituales se hicieron muy accesibles. He aquí algunos de los proyectos de ETL más importantes de esa época:

  • Centros de investigación que compartían grandes volúmenes de datos científicos
  • Primeras colaboraciones en lo que acabó siendo el World Wide Web, el predecesor de la Internet moderna
  • La normalización de un protocolo de comunicaciones (TCP/IP) a partir del cual evolucionaron la mayoría de datos y telecomunicaciones modernos
  • El antepasado de las modernas tecnologías de marketing digital que agrega datos de consumidores y adapta los anuncios a franjas de población específicas

Durante gran parte de la existencia del ETL, el proceso se realizaba de forma local, o física, cerca de los científicos y analistas que lo utilizaban. Los datos fluían hasta centros controlados a través de un sistema de cables y se extraían mediante unos sencillos algoritmos. Luego esos datos se transformaban a un formato normalizado o "limpio" y se cargaban en bases de datos, en las que las personas podían manipularlos y aprender de ellos.

Download ETL en el entorno cloud: cómo le afectarán sus cambios now.
View Now

Este enfoque sentó los cimientos de muchas de las opciones tecnológicas y de comunicación que conocemos hoy. A pesar de su importancia, el ETL tradicional presentaba graves limitaciones. En la era previa a la miniaturización, el coste del proceso de ETL y la necesidad de importantes cantidades de almacenamiento solían ser prohibitivos. Además, mantener todos esos datos tan valiosos en un único sitio también entrañaba el riesgo de pérdidas catastróficas en caso de desastre natural, robo o fallo tecnológico.

Adelanten ahora hasta 2018. Opciones de almacenamiento de datos económicas, redes de fibra y velocidades de procesador cada vez superiores garantizan tres aspectos sobre los datos:

  1. La cantidad de datos que fluye por las empresas modernas seguirá creciendo de forma exponencial.
  2. El valor de dichos datos seguirá aumentando.
  3. La potencia computacional necesaria para procesar todos estos datos (así como el reto que supone darles el uso corporativo más adecuado) significa que el ETL en cloud desempeñará un papel crucial en los big data del futuro.

La transición a cloud

A medida que las redes nacionales e internacionales evolucionaron tanto en materia de velocidad como de capacidad, se fue reduciendo poco a poco la necesidad de almacenar montañas de datos en entornos locales.

El tecnólogo Brian Patrick Eha ha estudiado la evolución de la velocidad de Internet y el impacto de la tecnología cloud en la transferencia de datos. Según Eha, en 1984 una línea de datos especializada relativamente rápida podía alcanzar velocidades de transferencia de 50 kilobits por segundo (Kbs). En 2013, las conexiones de fibra óptica de uso comercial aumentaron ese rendimiento a valores de hasta 1 gigabyte por segundo. Ese cambio drástico en la velocidad, junto con la proliferación de almacenamientos económicos y reemplazables, fueron el catalizador que transformó el ETL de un proceso local, caro y tedioso a lo que conocemos hoy en día como ETL cloud.

Según un informe de 2018 de IDG, casi tres cuartas partes de las empresas opera actualmente en parte o en su totalidad en un entorno cloud, cifra que en 2020 habrá superado el 90 %.

ETL cloud

Actualmente los procesos de ETL se producen en el entorno cloud, junto a tecnologías como el desarrollo de aplicaciones, el comercio electrónico o la seguridad informática. El ETL nativo para cloud sigue el conocido proceso de tres pasos, pero cambia la forma en la que se realizan las distintas etapas.

El framework de Apache Hadoop se ha convertido en el camino en el que se desarrolla un ETL cloud. Hadoop distribuye los procesos de computación, lo que significa que datos de distintos orígenes puede extraerse remotamente, transformarse mediante una red de recursos informáticos y posteriormente para su análisis local.

El ETL nativo para cloud depende de clústeres de computación compartidos. Puede que estén esparcidos por todo el mundo, pero gracias a Hadoop operan como entidades lógicas particulares que comparten el trabajo de las tareas de computación masivas. Las tareas de ETL, que en su día se ejecutaban en la casa de al lado o en el sótano, ahora se procesan mediante clústeres diseminados por interfaces cloud.

Lo más sorprendente es que todo ello se produce en órdenes de magnitud más rápidas que el ETL tradicional local. Las empresas que siguen utilizando el ETL en un entorno local o híbrido ya están quedando a la zaga en una categoría competitiva clave: la velocidad.

Download The Cloud Data Integration Primer now.
Download Now

Este proceso en cloud produce pantallas analíticas que muchas veces los profesionales del ETL conocen bien, puesto que saben utilizar herramientas fiables para buscar y extraer los datos como lo hacían años atrás. La Apache Software Foundation es la comunidad de código abierto más grande del mundo en el diseño y asistencia para ETL y las herramientas que lo convierten en explotable para los humanos.

Sin embargo, el mero volumen de conjuntos de datos que se manejan actualmente, y la velocidad a la que crecen constantemente, está generando nuevas dificultades para obtener una business intelligence útil y muy personalizada a partir de herramientas de ETL tradicionales. Cada vez son más las empresas que se están pasando a las plataformas de gestión de datos para satisfacer sus singulares necesidades en materia de ETL.

Este proceso en cloud produce pantallas analíticas que muchas veces los profesionales del ETL conocen bien, puesto que saben utilizar herramientas fiables para buscar y extraer los datos como lo hacían años atrás. La Apache Software Foundation es la comunidad de código abierto más grande del mundo en el diseño y asistencia para ETL y las herramientas que lo convierten en explotable para los humanos.

Sin embargo, el mero volumen de conjuntos de datos que se manejan actualmente, y la velocidad a la que crecen constantemente, está generando nuevas dificultades para obtener una business intelligence útil y muy personalizada a partir de herramientas de ETL tradicionales. Cada vez son más las empresas que se están pasando a las plataformas de gestión de datos para satisfacer sus singulares necesidades en materia de ETL.

Download ETL en el entorno cloud: cómo le afectarán sus cambios now.
View Now

Talend: la solución gestionada para el ETL cloud

Desde 2005 Talend ha cooperado con organizaciones de primer nivel para abordar sus dificultades de ETL y otras cuestiones de la integración de sus datos mediante soluciones alojadas y de fácil uso. Con Talend Open Studio for Data Integration y Talend Data Management Platform, los desarrolladores y los analistas pueden trabajar con conjuntos de datos prácticamente ilimitados de todos los formatos más habituales para reforzar la potencia del ETL y de otras tecnologías de las que depende la empresa cloud moderna.

No obstante, lejos de ser un paraíso para los aficionados a la tecnología, Talend convierte el ETL manejable en tiempo real y sus tareas asociadas en accesibles para usuarios que necesitan business intelligence actualizada y de confianza para tomar decisiones con tino. Desde las ventas hasta los envíos, pasando por el servicio al cliente, las interacciones corporativas modernas deben ser rápidas, eficientes y rentables, y la capacidad que tiene Talend de suministrar los datos necesarios a las personas oportunas puede reportar una gran mejora a cualquier organización.

El paquete de soluciones de Talend para big data aborda uno de los puntos más conflictivos de las organizaciones: la falta de desarrolladores cualificados. Con Talend, los procesos automatizados y lanzados desde una interfaz gráfica de usuario reducen la necesidad de programar manualmente a casos concretos, por lo que la gestión del ETL y la extracción de datos se vuelven más rápidas y eficientes.

Lo más importante es que la plataforma de código abierto de Talend sigue ampliándose a la velocidad de los big data, por lo que garantiza que hasta las necesidades de datos más exigentes y específicas hallarán respuesta con relativa facilidad.

Empiece con su prueba gratuita hoy mismo y descubra por qué algunas de las organizaciones de mayor relieve del mundo han elegido Talend para liberar sus datos de infraestructuras heredadas con una plataforma de integración de ETL creada para el entorno cloud.

| Last Updated: septiembre 18th, 2019