Guía para desarrolladores de Informatica PowerCenter que deseen cambiar a Talend

Guía para desarrolladores de Informatica PowerCenter que deseen cambiar a Talend

  • Venkat Sundaram
    Venkat Sundaram is a Customer Success Architect at Talend. Prior to Talend, Venkat was focused on implementing data warehousing, data integration and business intelligence technologies to solve traditional business data processing problems for several US financial institutions.

Hace poco empecé a trabajar con Talend como arquitecto de éxito de clientes. Como parte de esta función asesoro a los clientes orientándoles sobre arquitectura y mejores prácticas para el manejo de sus estrategias de datos con Talend. Antes de incorporarme a Talend trabajé en distintas implementaciones de almacenes de datos en las que Informatica PowerCenter era la herramienta ETL de preferencia. Cualquier transición de una tecnología a otra puede resultar de lo más complicada. Sin embargo, en lugar de intentar "replicar" en Talend cómo se hacen las cosas en PowerCenter, tomemos un poco de perspectiva y entendamos cómo funciona Talend, sus capacidades y diferencias respecto a PowerCenter. En este artículo compartiré mis experiencias con el paso de Informatica a una plataforma de integración más moderna para ayudarle a minimizar su proceso de migración de Informatica a Talend.

Talend o Informatica PowerCenter: ¿qué diferencia hay?

Ambas herramientas cumplen en esencia la misma misión: trasladar datos de un origen a un destino, pero enfocan la consecución de forma distinta. Los dos enfoques tienen sus ventajas. Es importante entender esos pros y contras antes de diseñar su tarea de ETL.

Lo primero que tenemos que entender es que, aunque ambas herramientas tengan una interfaz gráfica de usuario y ambas extraigan datos de fuentes, los transformen y los carguen a un destino, sus implementaciones son diferentes. Talend genera un código de Java nativo que le permite ejecutarlas en cualquier sitio. PowerCenter, por otro lado, genera metadatos que se almacenan en un repositorio RDBMS que su motor propietario utiliza para las ejecuciones.

Lo que es importante entender es que, como Talend es un generador de código, puede ejecutarse tanto como motor ETL (en su propio servidor autónomo) como ELT (de forma nativa en el servidor de destino). El código Java que genera Talend puede ejecutarse en cualquier plataforma compatible con Java; podría ser en un servidor en su centro de datos, en cloud o incluso ejecutarse en su portátil. Si bien ambas plataformas proporcionan componentes que manejan la mayoría de tareas necesarias para la integración de datos, existen situaciones en las se requiere una solución a medida. Muchas veces esto supone una cierta programación personalizada que me parece un proceso arduo e ineficiente si utiliza PowerCenter. Sin embargo, en Talend puede crear sus propios componentes a medida en Java e integrarlos en el estudio sin problema alguno. Se trata de consideraciones importantes al diseñar su tarea de integración de datos.

Descargar >> Talend Open Studio for Data Integration

¿Cómo se diseñan mis tareas?

La otra diferencia importante entre las dos herramientas es cómo se construye una tarea. Empecemos por PowerCenter. Lo primero que uno desarrolla es un mapeo (que, básicamente, se trata de un "flujo de datos"). Aquí es cuando se define el mapeo entre el origen, el destino y la lógica de transformación. Una vez validado el mapeo y guardados sus metadatos en el repositorio, se crean Sessions (sesiones) y Workflows (flujos de trabajo) o el " flujo del proceso". A continuación se asignan conexiones físicas a los objetos origen y destino, se secuencian las tareas en orden de ejecución y se pueden implementar los procedimientos de gestión/notificación de errores.

En Talend se implementan a la vez el flujo de datos y el de procesos, sin interrupciones. Construimos una tarea que defina el "flujo del proceso" mediante una amplia variedad de componentes que proporcionan una funcionalidad específica que implementa el "flujo de los datos". El "flujo del proceso" se implementa mediante "activadores" y el "flujo de datos" entre componentes mediante "filas", basadas en un esquema concreto.

Para ayudarle a entenderlo, comparemos los conceptos de PowerCenter con sus equivalentes de Talend:

Informatica PowerCenter

Talend Studio

Descripción

Repositorio

Repositorio de proyectos

El repositorio de PowerCenter y el Repositorio de proyectos de Talend contienen objetos de metadatos reutilizables (como tareas, conexiones a BD, definiciones de esquemas, etc.). En Talend, en lugar de utilizar un sistema de control de código fuente propietario, están integrados sin fisuras con sistemas de control de código fuente SVN o GIT.

Carpeta

Carpeta

Las carpetas ayudan a organizar los objetos según su funcionalidad. PowerCenter no permite crear subcarpetas, pero Talend sí.

Flujo de trabajo

Tarea

El Flujo de trabajo o la Tarea implementa el flujo del proceso de ETL con todas las conexiones y dependencias definidas. En Talend, una Tarea representa tanto el flujo del proceso como el de los datos.

Worklet/Sesión reutilizable

Joblet

Una combinación de un conjunto de tareas que es reutilizable en cualquier flujo de trabajo/tarea. Puede utilizarlo para código reutilizable, como gestión de errores, notificaciones o procesos repetibles.

Sesión y mapeo

Componentes

PowerCenter define conexiones, ubicaciones de archivos y gestión de errores por separado en una Sesión, mientras que en Talend la función de Mapeo y Sesión se combinan y se implementan en un Componente o un conjunto de Componentes vinculados por el flujo del proceso o de los datos.

Transformaciones

Componentes

Talend dispone de una amplia biblioteca de componentes compatibles con diferentes transformaciones. Por ejemplo, uno de los Componentes más utilizados (tMap) es una combinación de las transformaciones Informatica Expression, Lookup, Router y Joiner.

Origen y destino: definiciones y conexiones

Metadatos del repositorio

En Talend las definiciones y conexiones de esquema pueden incrustarse en el código de cada componente, pero como mejor práctica se aconseja sobremanera que se definan en los metadatos del repositorio y se reutilicen en los componentes.

Análisis detallado de la interfaz

Por último, echemos un vistazo a la interfaz Studio basada en Eclipse de Talend e intentemos verla desde la perspectiva de un desarrollador que trabaje con PowerCenter.

  1. Repository (Repositorio; PowerCenter: Navigator) es donde se definen todos los recursos: Carpetas, Tareas, Definiciones y Conexiones de Esquema, parámetros y variables.
  2. Design Area (Área de diseño; PowerCenter: Workspace) es donde se montan las tareas.
  3. Las pestañas de contexto que aparecen al pie se utilizan para configurar y documentar los componentes y ejecutar la Tarea. Combina distintas funciones que proporcionan las herramientas de Designer (Diseñador) y Workflow Manager (Gestor de flujos de trabajo) de PowerCenter.
  4. Palette (Paleta; PowerCenter: Transformation toolbar) es una biblioteca con todos los componentes disponibles.
  5. Perspective (Perspectiva) determina el diseño general de Studio y la disposición de las distintas áreas en Studio. Cada producto destacado de Talend tiene su propia perspectiva. La gran ventaja que esto supone es que un desarrollador no necesita alternar entre distintas herramientas según el producto que esté utilizando. La interfaz de usuario unificada entre productos mejora la productividad de los desarrolladores.

Tras varios años trabajando como arquitecto de Informatica, la principal lección que aprendí es que la forma de juzgar la validez de una tecnología es observar sus mejores prácticas asociadas. Talend no es ninguna excepción a esa regla. Si desea aprovechar al máximo su inversión en Talend, debe aplicar mejores prácticas y cumplirlas como parte del ciclo vital de desarrollo de su software. Aquí tiene algunos enlaces para empezar a trabajar con patrones de diseño de tareas y mejores prácticas de Talend: 1.ª parte, 2.ª parte, 3.ª parte y 4.ª parte.

Conclusión

Mi viaje con Talend acaba de empezar. Lo que de momento he aprendido es que, una vez se entienden las diferencias entre PowerCenter y Talend, cómo funciona Talend y las mejores prácticas asociadas, se puede empezar a aportar un valor increíble a su organización empleando Talend como plataforma de integración de datos. La próxima etapa de mi viaje con Talend se basará en estudiar la plataforma Talend Big Data y lo que llevo visto por el momento es apasionante. Espero compartir más conclusiones al respecto en mi próxima entrada del blog.

Descargar >> Talend Open Studio for Data Integration

Join The Conversation

0 Comments

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *