Presentamos Pipeline Designer: reinventar la integración de datos

Presentamos Pipeline Designer: reinventar la integración de datos

  • Stephanie Yanaga
    Stephanie Yanaga is a Product Marketing Manager focusing on Talend’s free and open source products. In this role, Stephanie will be involved in the open source product strategy and will also work to ensure the Talend open source community has the resources needed to continue to thrive. Prior to joining the product marketing group in January 2018, Stephanie spent two years in Australia building out Talend’s APAC presence.

Me hace mucha ilusión presentarles Pipeline Designer, un entorno de diseño para integración de datos de próxima generación que permite a los desarrolladores crear y desplegar canalizaciones de datos en cuestión de minutos, diseñar sin problemas combinando casos por lotes y en streaming y redimensionar de forma nativa con las últimas tecnologías híbridas y multicloud. 

<<Pruebe Pipeline Designer ahora mismo>>

¿Por qué Pipeline Designer?

No es ningún secreto que los datos se han convertido en una fuente de ventaja competitiva para empresas de todos los sectores. Y, para conservar dicha ventaja, su organización tiene que asegurar tres cosas:

  1. Que esté recabando todos los datos que le proporcionarán la mejor información
  2. Que las unidades de negocio que dependen de esos datos los reciban de forma oportuna para ser rápidos a la hora de tomar decisiones
  3. Que exista una forma de escalar e innovar a medida que surjan nuevos requisitos

Cubrir todos estos frentes puede ser muy difícil, ante la aparición de un sinfín de nuevos tipos y tecnologías de datos. Por ejemplo, una de las principales dificultades a las que deben hacer frente las empresas de hoy es trabajar con todas las tipologías de paradigmas de streaming, además de lidiar con nuevos tipos de datos que aparecen de todas partes: redes sociales, Internet, sensores, cloud, etc. Las empresas consideran que el tratamiento y suministro de datos en tiempo real es la clave que puede aportarles información valiosa en tiempo real, pero se ha demostrado que resulta complejo recabar y transformar esos datos fácilmente.

Pongamos como ejemplo los datos de clickstream. Desde las páginas web no paran de enviarse datos y ese flujo es continuo y sin descanso. El enfoque por lotes habitual para ingerir o tratar datos que dependen de "iniciar" o "detener" los datos de forma definitiva ha quedado obsoleto con los datos en streaming y elimina el posible valor de la reactividad en tiempo real ante los datos. Por ejemplo, las tiendas online dependen de los datos de clickstream para comprender el grado de interacción de los clientes con sus páginas, algo fundamental para saber cómo llegar a los usuarios diana con los productos que les interesarán. En un sector con márgenes muy limitados, es esencial contar con información valiosa en tiempo real sobre la actividad de los clientes y datos de precios de la competencia para tomar decisiones rápidas que permitan ganar cuota de mercado.

Además, si dependemos de datos de distintas aplicaciones, la herramienta de integración que tenga la empresa quizá no sea capaz de adaptarse a los cambios de formato y a canalizaciones que pueden romperse cada vez que se añada un nuevo campo a los datos originales. E incluso si Informática fuera capaz de manejar el carácter dinámico de los datos, a lo mejor las unidades de negocio que necesitan acceso a los datos tendrían que esperar semanas antes de disponer de información práctica debido a la cantidad cada vez mayor de trabajo que recae en los encargados de distribuir los datos al resto del negocio.  

En realidad, según una reciente encuesta a científicos de datos, más del 30 % mencionaba como dificultades principales la falta de disponibilidad de los datos y la dificultad para acceder a ellos, y la demanda del mercado de mayor acceso a datos operativos se refuerza con los anuncios de vacantes que demuestran que se ofertan 4 veces más puestos de trabajo de ingenieros de datos que de científicos de datos.

Las competencias de la ingeniería de datos (acceder, compilar, transformar y suministrar todo tipo de datos a la empresa) están muy solicitadas y hoy día los ingenieros de datos necesitan ser más productivos que nunca al trabajar en un entorno de datos en constante cambio. Al mismo tiempo, los integradores ad hoc tienen que poder habilitarse para acceder a los datos e integrarlos, con lo que se eliminaría su dependencia del equipo de Informática.

Por último, con el aumento de las exigencias comerciales de tiempos de respuesta más cortos, tanto los ingenieros de datos como los integradores ad hoc necesitan integrar sus datos de inmediato, y sus herramientas de integración tienen que poder ayudarles a cumplir esas nuevas exigencias. Hoy en día los ingenieros de datos y los integradores ad hoc necesitan una herramienta de integración nativa para cloud que sea accesible e intuitiva, pero también capaz de trabajar con la variedad y los volúmenes de datos con los que lidian a diario.  

Son problemas que parecen insuperables, pero no se preocupe. No le habríamos hecho leer hasta aquí si no tuviéramos una respuesta.

Presentamos Pipeline Designer

Como hemos visto darse estas situaciones muchas veces con clientes actuales y potenciales, sabíamos que podíamos ayudar. Por eso hemos creado Pipeline Designer.

Pipeline Designer es una IU web en autoservicio creada en el cloud que hace de la integración de datos un proceso más rápido, fácil y accesible en una época en la que todo el mundo espera aplicaciones cloud fáciles de usar y en las que los volúmenes, tipos y tecnologías de datos no hacen sino aumentar a un ritmo prácticamente inalcanzable.

Permite a los ingenieros de datos abordar de forma rápida y sencilla casos de integración liviana como la transformación y entrega de datos a almacenes de datos en cloud, ingerir y tratar datos en streaming en un data lake cloud o cargar datos en volumen a Snowflake y Amazon Redshift. Gracias a la moderna arquitectura de Pipeline Designer, los usuarios pueden trabajar con datos por lotes y en streaming sin tener que preocuparse de reconstruir totalmente sus canalizaciones para adaptarse a volúmenes crecientes o formatos cambiantes de datos, lo que en última instancia les permite transformar y suministrar datos más rápido que nunca.

<<Pruebe Pipeline Designer ahora mismo>>

¿Qué tiene de tan singular Pipeline Designer? He aquí algunos aspectos destacados que nos gustaría compartir con usted:

Previsualización inmediata

La posibilidad de previsualización inmediata de Pipeline Designer le permite realizar un diseño continuo de integración de datos. Ya no tiene que diseñar, compilar, desplegar y ejecutar la canalización para ver de qué tipo de datos se trata.

Sencillamente puede ver los cambios en sus datos en tiempo real, en cada momento del proceso de diseño, en el mismo lienzo de diseño. Haga clic en cualquier procesador de su canalización de datos para ver los datos antes y después de su transformación y así se asegurará de que los datos resultantes sean exactamente lo que usted necesita. De esta forma reducirá drásticamente el tiempo de desarrollo y acelerará sus proyectos de transformación digital.

Como ejemplo rápido, veamos los datos de entrada y salida de la siguiente transformación con Python:

Diseño sin esquemas

El schema-on-read es una estrategia de integración de datos para integraciones modernas, como el traspaso de datos en streaming a plataformas de big data, sistemas de mensajería o el NoSQL. Ahorra tiempo porque no tiene que mapear los datos de entrada, que suelen estar menos estructurados, a un esquema fijo. 

Pipeline Designer es compatible con el schema-on-read, lo que elimina la necesidad de definir esquemas antes de crear canalizaciones y permite que las canalizaciones conserven su resiliencia cuando cambia el esquema No existe una definición fija de esquema al definir una conexión o conjunto de datos en Pipeline Designer. La estructura de los datos se infiere en el momento en que se ejecuta la canalización, es decir, recabará datos y adivinará su estructura. Si se produce un cambio en el esquema fuente, en la siguiente ejecución la canalización se adaptará para tener en cuenta los cambios. Esto significa que puede empezar a trabajar con sus datos inmediatamente y añadir fuentes de datos «sobre la marcha», puesto que los esquemas se descubren de forma dinámica. En resumen, aporta mayor resiliencia y flexibilidad en comparación con una definición «rígida» de metadatos. 

Integre cualquier dato con una portabilidad sin igual

Talend tiene una larga trayectoria liderando la «adaptación al futuro» de su trabajo de desarrollo. Primero modelará su canalización y luego podrá elegir la plataforma donde desee ejecutarla (local, cloud o big data). Y, cuando cambien los requisitos, bastará con seleccionar otra plataforma. Un ejemplo sería cuando hemos cambiado nuestro generador de código de MapReduce a Spark, que permitiría que su tarea se ejecutara en Spark de forma nativa y optimizada en pocos clics, Pero la cosa se pone aún mejor. Al crear a partir de Apache Beam como proyecto de código abierto, podemos desvincular el diseño y el tiempo de ejecución, lo que le permite crear canalizaciones sin tener que pensar en el motor de procesamiento desde el que ejecutará su canalización.

No solo eso, sino que podrá diseñar las canalizaciones de streaming y por lotes en la misma paleta.

Así pues, podría conectar la misma canalización a una fuente delimitada, como una consulta SQL, o una fuente no delimitada, por ejemplo, una cola de mensajes, y funcionará como canalización por lotes o en streaming sencillamente según la fuente de los datos. En el momento del tiempo de ejecución, podrá elegir si desea ejecutar de forma nativa en la plataforma cloud donde residen sus datos e incluso ejecutar en EMR para la máxima escalabilidad. Pipeline Designer logra realmente aquello de «diseñe una vez y ejecute en cualquier parte» y le permite ejecutar en múltiples clouds de forma escalable.

Componente para Python integrado

Python es el lenguaje de programación de mayor crecimiento y lo utilizan de forma habitual los ingenieros de datos, por lo que queríamos que Pipeline Designer permitiera a sus usuarios sacar partido a los conocimientos que pudieran tener de Python y ampliar la herramienta para encarar cualquier transformación a medida que necesiten. Por ello Pipeline Designer integra un componente para crear scripts de Python de cara a transformaciones personalizables.

¿Desea sacar partido a más datos?

Otra ventaja de Pipeline Designer es que no se trata de una aplicación autónoma ni de una solución única puntual. Forma parte de la plataforma Talend Data Fabric, que resuelve algunos de los aspectos más complejos de la cadena de valor total de los datos. Con Data Fabric los usuarios pueden recabar datos de distintos sistemas, gobernarlos para asegurar un uso correcto, transformarlos a nuevos formatos, mejorar su calidad y compartirlos con actores internos y externos.

Pipeline Designer se gestiona a través de la misma aplicación que el resto de Talend Cloud: la Talend Management Console. Esta continuidad garantiza que los informáticos tengan acceso completo a la plataforma de Talend y presten la supervisión y gobernanza que tan solo puede ofrecer una plataforma unificada como Talend Cloud. Y, por supuesto, a nivel informático se obtienen también todas las demás ventajas de Talend Data Fabric, como el control del uso de los datos, para que sea fácil auditarlos y asegurar la confidencialidad, la seguridad y la calidad de los datos.

Los usuarios que no tengan experiencia con Talend podrán empezar a trabajar con Pipeline Designer sabiendo que existe un paquete de aplicaciones especializadas pensadas para que colaboren y sustenten una cultura de gestión exhaustiva de los datos que llegue a toda la empresa. A medida que sus necesidades crezcan, Talend le acompañará en su viaje de datos.

Nos ilusiona poder ofrecerle una prueba gratuita sin descargas del producto en la que podrá ver cómo simplifica Pipeline Designer unas integraciones más livianas. Si desea más información sobre las funcionalidades disponibles, consulte aquí la página del producto o pruébelo gratis durante 14 días!

Join The Conversation

0 Comments

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *