POC de optimización de almacenes de datos

Manual de Talend Big Data y Machine Learning

Eche un vistazo a las demás entregas de la serie:

Configuración de Sandbox

Mantenimiento predictivo de IoTEvaluación de riesgos en tiempo realMotor de recomendaciones

Introducción

En este ejemplo analizamos un enfoque de optimización de un almacén de datos que aprovecha la potencia de Spark para realizar analíticas de un gran conjunto de datos antes de cargar al almacén de datos. De esta forma podemos confirmar la integridad de los datos y, en última instancia, elegir rechazar la carga antes de que unos datos erróneos corrompan la calidad del almacén de datos. Esta demostración se ha configurado para resaltar el Spark Engine integrado en Talend Studio y puede ejecutarse sin conectividad directa a una plataforma de big data. Aunque el motor Spark de Talend Studio no es una solución para un entorno de producción, es cierto que ilustra que, incluso en desarrollo, los usuarios de Talend pueden obtener la plena funcionalidad de Spark sin tener que conectarse o configurar una plataforma de big data a escala completa.


Lo más destacado

Almacén de datos Sandbox - Analítica

Analítica previa a la carga

Al analizar grandes volúmenes de datos ANTES de cargarlos en su almacén de datos, elimina los gastos que provocan costosas anomalías de datos una vez en el almacén de datos.

Icono de Sandbox - Procesamiento de grandes volúmenes

Procesamiento de grandes volúmenes con Spark

Con Talend y Spark puede procesar gigabytes y terabytes de datos en una mínima parte del tiempo.

Descarga de ETL

Con Talend y una plataforma de big data puede optimizar su almacén de datos y eliminar el costoso gasto que supone el procesamiento de datos.


Ejecución

Acceda al portal de casos prácticos de optimización de almacenes de datos desde la página de carga de Sandbox para obtener indicaciones de ejecución rápida y una interfaz gráfica web.

Optimización de almacenes de datos Sandbox - Página de carga

Abra Talend Studio en el entorno Sandbox. Para este ejemplo trabajaremos en la carpeta Warehouse_Optimization que encontrará en la vista del repositorio. Analizaremos tareas de los diseños de tarea Standard (Estándar) y Big Data Batch (Lote de big data). Cuando esté listo para empezar, realice los siguientes pasos:

  1. Navegue hasta la carpeta Warehouse_Optimization en tareas Big Data Batch (Lote de big data). Ejecute la tarea Step_01_Generate_MonthlyReport. Se trata de una tarea de Spark que lee una gran cantidad de archivos de un único directorio y agrega los datos en un único informe. Optimización de almacenes de datos - Generación de informe mensual
  2. Navegue hasta la carpeta Warehouse_Optimization en tareas Big Data Batch (Lote de big data). Ejecute la tarea Step_02_Month_Over_Month_Comparison .Esta tarea de Spark toma los datos recién agregados en la tarea anterior y los compara con el mismo archivo de informe que fue generado el mes anterior para indicar cualquier anomalía sobre los datos. En un caso práctico típico, estas tareas se ejecutarían cada vez que se programara un nuevo conjunto de datos para cargarse en el almacén (en este caso, mensualmente). A efectos de este Sandbox, ya hemos incluido los datos "Previous Month's" (Del mes anterior) para cotejarlos.Tarea mes a mes de optimización de almacenes de datos
  3. Navegue hasta la carpeta Warehouse_Optimization en tareas Standard (Estándar). Ejecute la tarea Step_03_GoogleChart_Product_by_Unit. Esta tarea sencillamente utiliza GoogleCharts para trazar los gráficos de informes comparativos generados que se han creado en la tarea anterior. Estos gráficos pueden verse en la consola de control de esta página web. Optimización de almacenes de datos - Gráfico de Google
  4. Revise la consola de control de la página web y los dos informes gráficos que se generan. Debería observar varios productos que están considerablemente desalineados respecto a los demás, lo que indica que los datos son imprecisos. En una situación real, los analistas comerciales que conocen los datos deberían poder reconocer las anomalías y rechazar la carga de datos al almacén.

Almacén de datos - Página web de demostración


Conclusión

Este ejemplo se centra en el uso de un Spark Engine que Talend Studio lleva integrado. De modo parecido, la misma demostración podría configurarse para ejecutarse respecto a cualquiera de las plataformas de big data. Los grandes volúmenes de datos tardan en cargarse y, si los datos están dañados o son imprecisos, las acciones correctivas pueden tardar todavía más. Pero con la conectividad y potencia de procesamiento nativos para Spark de Talend, el gran conjunto de datos puede analizarse de forma rápida y fácil antes de cargarlos en el almacén de datos. Así los analistas comerciales echan un vistazo previo a la calidad de los datos y se eliminan los trámites de procesar datos farragosos del almacén de datos; con ello liberamos el almacén para darle su uso original, que es proporcionar un acceso rápido a informes de calidad.

| Last Updated: agosto 12th, 2019