Leer un archivo

Abastecerse de datos, da igual si es desde una base de datos como de un archivo, es uno de los elementos más esenciales y necesarios de la integración de datos.  Talend Open Studio for Data Integration permite un acceso simple a sus datos por medio de una amplia gama de componentes compatibles con la conectividad entre bases de datos además de formatos de archivo estándar y complejos.  En este tutorial descubrirá  lo fácil que resulta acceder a datos en un formato de archivo estándar separado por comas. 

Este tutorial utiliza la versión 6 de Talend Open Studio Data Integration.

1. Cree una tarea nueva

  1. Asegúrese de que está seleccionada la perspectiva Integración.
  2. En el Project Repository (Repositorio de proyectos), haga clic con el botón derecho en Job Designs (Diseños de tareas) y haga clic en Create Standard Job (Crear una tarea estándar) en el menú.
  3. En el campo Name (Nombre) del asistente New Job (Tarea nueva), introduzca el nombre de la Tarea readCSVFile.
  4. Se recomienda añadir una finalidad y una descripción a las tareas. A continuación, haga clic en Finish (Terminar) para crear su Tarea.

El Job Designer (Diseñador de Tareas) abrirá una Tarea vacía.

2. Añada un componente tFileInputDelimited

3. Configure el componente tFileInputDelimited_1

  1. En el Diseñador de Tareas, haga clic en tFileInputDelimited_1.
  2. Para definir la configuración Basic (Básica) para el componente, en la vista Component (Componente) haga clic en Component.
    Property Type (Tipo de propiedad) define cómo leerá la fuente de datos.
    File Name/Stream (Nombre/Flujo del archivo) muestra la ruta de entrada o salida completa del archivo. Puede introducir manualmente la ruta o utilizar el botón de puntos suspensivos [...] para indicar la ruta del archivo.
    Row and Field Separators (Separadores de fila y campo) definen el tipo de separador de fila.
    Header (Encabezado) y Footer(Pie de página) indican el número de filas del archivos que deben pasarse por alto.
    Limit (Límite) muestra la cantidad máxima de líneas del archivo que deberán leerse.
    Schema (Esquema) define la estructura de datos del archivo.
  3. Para especificar la ruta y el nombre del archivo que deberá leerse, haga clic en [...] al lado del campo File Name (Nombre de archivo), seleccione el archivo del disco local y haga clic en Open (Abrir).

4. Defina el esquema para el componente tFileInputDelimited_1

  1. Para definir el esquema del componente tFileInputDelimited_1, haga clic en [...] al lado del campo Edit schema (Editar esquema).

    Se abrirá el asistente Schema (Esquema) de tFileInputDelimited_1.

    El botón [+] añade una columna al asistente Esquema.
    El botón [x] elimina los elementos seleccionados del asistente Esquema.
    Los botones [↑] y [↓] mueve los elementos seleccionados arriba o abajo en el asistente Esquema.
    .
  2. En el asistente Esquema, haga clic en el icono [+] para añadir una columna.
  3. En la columna Column (Columna) introduzca el nombre de campo como movieID.
  4. Para designar este campo como la clave de referencia, seleccione Key (Clave).
  5. En la columna Type (Tipo) haga clic en Integer (Entero).
  6. Asegúrese que la columna Nullable (Permitir valores nulos) no esté marcada para que se rechacen los valores nulos en esta columna.
  7. En la columna Length (Longitud) introduzca 4.
  8. Repita los pasos de b a g para todos los campos del archivo CSV.
  9. Para cerrar el asistente Esquema haga clic en OK.

5. Añada el componente de registro y propague los datos

  1. Añada un componente tLogRow a la Tarea. El componente tLogRow mostrará en la consola todas las filas de datos que reciba.
  2. Para propagar los datos del componente tFileInputDelimited_1 a tLogRow_1, en el Diseñador de Tareas haga clic con el botón derecho en tFileInputDelimited_1, manténgalo presionado y arrástrelo a tLogRow_1.

Método alternativo: Para vincular los componentes también puede hacer clic con el botón derecho en el componente de origen y luego haga clic en Row > Main (Fila > Principal).

6. Ejecute la Tarea

En la vista Run (Ejecutar) de la Tarea readCSVFile haga clic en Run.

El componente tFileInputDelimited ha leído el archivo y su contenido lo ha mostrado en la consola el componente tLogRow.