Crear metadatos de conexión a clúster

En este tutorial aprenderá a crear metadatos para un clúster de Hadoop automáticamente conectándose a Cloudera Manager.

Este tutorial utiliza la versión 6 de Talend Data Fabric Studio y un clúster de Hadoop: Cloudera CDH, versión 5.4.

1. Cree una nueva definición de metadatos para un clúster de Hadoop

  1. Asegúrese de que está seleccionada la perspectiva Integration (Integración).
  2. En Project Repository (Repositorio de proyectos), expanda Metadata (Metadatos), haga clic con el botón derecho en Hadoop Cluster (Clúster de Hadoop) y haga clic en Create Hadoop Cluster (Crear clúster de Hadoop) para abrir el asistente.
  3. En el campo Name (Nombre) del asistente de Conexión a clúster de Hadoop, escriba MyHadoopCluster. En el campo Purpose (Finalidad), introduzca Cluster connection metadata (Metadatos de conexión a clúster) y en el campo Description (Descripción), escriba Metadata to connect to a Cloudera CDH 5.4 cluster (Metadatos para conectarse a un clúster de Cloudera CDH 5.4) y haga clic en Next (Siguiente).

Se abrirá el asistente de Importación de la configuración de Hadoop.

2. Seleccione el método de configuración automática

  1. En la lista Distribution (Distribución) del asistente de Importación de configuración de Hadoop seleccione Cloudera y en la lista Version (Versión) seleccione 4(YARN mode).

    Hay varias formas de crear metadatos para un clúster de Hadoop.

    - Configuración automática extrayendo la configuración desde Ambari o Cloudera Manager
    - Configuración automática importándola de los archivos de configuración de Hadoop
    - Configuración manual
    .
  2. Para seleccionar el método de configuración automática, en el panel Option (Opción) seleccione Retrieve configuration from Ambari or Cloudera (Extraer configuración desde Ambari o Cloudera) y haga clic en Next (Siguiente).

3. Conéctese a Cloudera Manager

Cloudera Manager es una aplicación integral para la administración de clústeres de Cloudera CDH. Para extraer la información de conexión y crear los metadatos correspondientes, tendrá que conectarse a Cloudera Manager.

  1. Para ello, introduzca las credenciales de Cloudera Manager. En la casilla Manager URI (with port), introduzca http://clusterCDH54:7180. En las casillas Username (Nombre de usuario) y Password (Contraseña) , escriba admin y haga clic en Connect (Conectar).

    El clúster de nombre Cluster 1 aparecerá en la lista Discovered clusters (Clústeres descubiertos).
    .
  2. Para extraer la configuración del clúster descubierto, haga clic en Fetch (Recuperar).

    El asistente detectará los archivos de configuración y enumerará los servicios correspondientes. En este tutorial mantendremos la configuración por defecto y crearemos definiciones de metadatos para YARN, HDFS, Hive y HBase. La definición para Spark no está disponible.
    .
  3. Para importar la configuración a los metadatos del clúster de Hadoop creados, haga clic en Finish (Terminar).

4. Cree metadatos correspondientes a los servicios enumerados, salvo Spark

  1. En el panel de autenticación del asistente de Conexión al clúster de Hadoop, ponga el nombre de usuario student (estudiante) y haga clic en Check Services (Comprobar servicios). Se abrirá la ventana Checking Hadoop Services (Comprobando los servicios Hadoop). El estado del Namenode (Nodo de nombre) y Resource Manager (Gestor de recursos) es 100%.
    .
  2. Cierre la ventana Checking Hadoop Services (Comprobando los servicios Hadoop). Para cerrar el asistente de Conexión al clúster de Hadoop y crear los metadatos, haga clic en Finish (Terminar).

5. Inspeccione los metadatos creados en el Repositorio

  1. En el Repository (Repositorio), expanda Hadoop Cluster (Clúster de Hadoop).
    Ahora ya tendrá las definiciones de los metadatos disponibles.
  2. Expanda la definición principal, de nombre MyHadoopCluster, que corresponde al servicio YARN. Expanda HBase, HDFS y Hive.

Ahora ya están preparadas las definiciones de los metadatos para utilizarlas en una tarea de Talend.