Manual de Talend Big Data y Machine Learning Sandbox

Antes de adentrarnos en vías prácticas para que Big Data and Machine Learning Sandbox de Talend resulte beneficioso para su empresa, queremos ayudarle a instalarlo correctamente.

¿En qué consiste Sandbox?

Big Data y Machine Learning Sandbox de Talend es un entorno virtual que utiliza contenedores de Docker para combinar Talend Real-Time Big Data Platform con algunos escenarios de muestra que están preinstalados y listos para usarse.

En los enlaces siguientes encontrará las pruebas de concepto creadas a partir de casos prácticos reales que demuestran cómo Talend, Spark, NoSQL y la mensajería en tiempo real pueden integrarse fácilmente en su negocio cotidiano. Tanto si se trata de una integración de datos por lotes, en streaming o en tiempo real, empezará a entender cómo aprovechar Talend para responder ante los retos que plantean los big data y llevar su negocio a la era de los datos.

Consulte las pruebas de concepto:

Ahora puede sacar todo el partido a su Sandbox con estos contextos de muestra preintegrados y listos para su ejecución.

Motor de recomendacionesMantenimiento predictivo de IoT
Evaluación de riesgos en tiempo realOptimización de almacenes de datos

¿Cuáles son los requisitos de sistema para usar Sandbox?

Sandbox viene empaquetada como una máquina virtual (MV) y necesita un reproductor de máquinas virtuales.

Los reproductores de MV compatibles son:

  • VMWare
  • VMWare Fusion (para usuarios de Mac)
  • VirtualBox

En cuanto a la máquina host, recomendamos:

  • Al menos 8-10 GB de RAM disponible
  • 50 GB de espacio libre en disco

Una vez descargado el reproductor que desee e instalado siguiendo sus instrucciones, ya podrá descargar e instalar Talend Big Data y Machine Learning Sandbox. Luego puede echar un vistazo a las demostraciones de Sandbox (enlaces de arriba), que incorporan Apache Kafka, Spark, Spark Streaming, Hadoop y NoSQL.

¿Cómo configuro Sandbox?

Es importante entender que necesita una conexión a Internet estable y fiable para completar la instalación y configuración de Talend Big Data y Machine Learning Sandbox. Cuando haya finalizado el registro en línea y elegido el archivo de descarga de Sandbox que desee, recibirá una pequeña aplicación de gestión de descargas (Download Manager Application, en formato .dlm). Abra esta aplicación para gestionar las demás descargas de Sandbox. Talend Big Data y Machine Learning Sandbox es un archivo Open Virtualization Format Archive (.ova) de 6 GB, con lo que según la velocidad de conexión a Internet de que disponga podría tardar en descargarse. Por ello con Download Manager Application podrá poner en pausa y reiniciar la descarga.

Una vez finalizada la descarga y guardado el archivo .ova en su disco duro local (p. ej., en C:/TalendSandbox), siga las instrucciones de importación a VirtualBox o a sistema basado en VMWare del reproductor de máquinas virtuales y para establecer la correspondencia del archivo de Sandbox que esté utilizando.

VirtualBox

  1. Abra la aplicación VirtualBox.
  2. En la barra del menú, seleccione File > Import Appliance… (Archivo > Importar dispositivo).
  3. Navegue hasta el archivo .ova que ha descargado. Selecciónelo y haga clic en Next (Siguiente).
  4. Acepte los Appliance Settings (Ajustes de dispositivo) por defecto haciendo clic

Talend Machine Learning Sandbox - Importación a Virtualbox

 

VMWare

  1. Abra la aplicación VMware Player.
  2. Haga clic en «Open a Virtual Machine» (Abrir una máquina virtual).
  3. Navegue hasta el archivo .ova que ha descargado. Selecciónelo y haga clic en Open (Abrir).
  4. Seleccione la ruta de almacenamiento de la nueva máquina virtual (p. ej., C:/TalendSandbox/vmware) y luego haga clic en Import (Importar).

Talend Machine Learning Sandbox - Importación a VMWare

Las máquinas virtuales de Talend Big Data y Machine Learning Sandbox vienen preconfiguradas para ejecutarse con 8 GB de RAM y 2 CPU. Tal vez tenga que ajustar esa configuración según sean las capacidades de su ordenador. Para ejecutar los ejemplos de MapR, se recomienda elevar el ajuste de RAM de la MV a 10 GB o más, si es posible.

¿Qué debo esperar cuando arranque la MV por primera vez?

Cuando inicie Talend Big Data y Machine Learning Sandbox por primera vez, la máquina virtual arrancará cargando un portal web donde se registrará toda la configuración de Sandbox. Este proceso puede tardar de 15 a 30 minutos, en función de la velocidad de la conexión a Internet y el tráfico de red. Al cabo de poco tiempo se le pedirá que elija una plataforma Hadoop. Puede escoger entre Cloudera, Hortonworks y MapR. También puede escoger explorar el entorno Sandbox sin seleccionar ninguna plataforma Hadoop. Si en algún momento decide seleccionar una plataforma o incluso cambiar de plataforma, puede acceder a las plataformas disponibles en cualquier momento haciendo clic en «Choose a Hadoop Platform» (Elegir una plataforma Hadoop) en la parte superior derecha del portal.

Selección de plataforma de big data para Sandbox

Conviene tener paciencia durante el proceso de carga y dejar que Sandbox finalice su proceso de constitución. No abra Talend Studio durante la constitución. Cuando reciba la indicación de que Sandbox ya está listo para su uso, puede empezar a trabajar en el entorno virtual.

Sandbox está listo

Cuando Sandbox esté listo oficialmente, podrá acceder a más recursos y contenidos de demostración desplazándose hacia abajo por el portal. Ahí tendrá acceso a aplicaciones web para las demostraciones que le darán instrucciones de inicio rápido sobre cómo ejecutar las demostraciones en Sandbox. También tendrá acceso a Hadoop Cluster Resource Manager WebUI accediendo a «Hadoop Cluster», y a HDFS WebUI accediendo a «HDFS Browser».

Con la distribución para MapR, el HDFS Browser (Navegador de HDFS) le dirigirá al MapR Control System (MCS), donde podrá echar un vistazo a sus volúmenes, tablas de datos y flujos. Para acceder desde Firefox deberá añadir un certificado de excepción.

¿Cómo arranco Talend Real-time Big Data Studio?

Ahora que ya tiene listo Sandbox, puede abrir Talend Studio. Para ello haga clic en el icono de Talend de la barra izquierda de su escritorio. La primera vez que lo ejecute, realice los siguientes pasos:

  1. Primero deberá configurar una conexión. Haga clic en Manage Connection (Administrar conexión) e introduzca su dirección de correo electrónico y luego haga clic en OK.
  2. Después tendrá que escoger el proyecto que desee abrir. Según la plataforma de big data que haya elegido, se le ofrecerán las siguientes opciones:
    • CLOUDERA_DEMOS
    • HORTONWORKS_DEMOS
    • MAPR_DEMOS
    • LOCAL_DEMOS (si ha rechazado cargar una plataforma de big data)

Machine Learning Sandbox - Selección de proyecto

Aviso: Si ha descargado varias plataformas de big data, tendrá distintos proyectos. Elija según la plataforma que haya escogido.

  1. Cuando Talend Studio se abra, le aparecerá una pantalla de bienvenida. Cierre la pantalla de bienvenida y le aparecerá una ventana emergente para instalar otros paquetes. Debe dejar marcada la opción Required third-Party libraries (Bibliotecas externas necesarias) y seleccionar también Optional third-party libraries (Bibliotecas externas opcionales) y hacer clic en Finish (Terminar).

  1. Acepte todas las licencias de terceros que requieran aceptación. Haga clic en el botón circular de «I accept the terms of the selected license agreement» (Acepto las condiciones del acuerdo de licencia seleccionado) y luego en Accept All (Aceptarlas todas).
    Sandbox Talend Studio - Aceptación de licencias
  2. Espere a que finalicen las descargas antes de proseguir (tenga paciencia, porque el proceso puede tardar un poco).

| Last Updated: junio 26th, 2019