Herramientas de machine learning: Cómo utiliza la plataforma de Talend el ML para mejorar la integración de datos

Para mantener la competitividad con las aplicaciones de big data y la business intelligence en casi cualquier sector se necesitan canalizaciones de big data capaces de procesar y analizar cantidades ingentes de datos en tiempo real. Las soluciones de machine learning integradas en Microsoft Azure y Apache Spark aceleran el desarrollo y facilitan el mantenimiento de estos sistemas, pero muchas de estas soluciones de machine learning son complejas de por sí.

Talend contribuye a reducir las complejidades del machine learning (ML) ofreciendo un ecosistema exhaustivo de herramientas y tecnologías en autoservicio fáciles de usar que integran sin fisuras conceptos de ML en su plataforma de big data. Con una barrera inferior en cuanto a habilidades (no se necesitan programadores muy versados en los complejos lenguajes R, Python o Java), las organizaciones obtienen información de sus datos más rápidamente a un coste inferior.

Unos componentes de machine learning prediseñados y de fácil manejo permiten a los ingenieros de datos concentrarse en big data y elaborar el sistema distribuido, en lugar de tener que aprender a crear modelos. Los científicos de datos pueden centrar su atención en lo que mejor se les da: crear modelos e idear algoritmos. Permite a perfiles distintos realizar tareas distintas, según convenga, aumentando la eficiencia y acelerando el tiempo previo al desarrollo.

Watch Fundamentals of Machine Learning now.
Watch Now

Casos de machine learning de Talend

Las tecnologías de big data de Talend, combinadas con los componentes de machine learning, permiten a las empresas desplegar resultados del proceso de ML rápidamente con el fin de resolver problemas urgentes de índole comercial. Los bancos, las aseguradoras, las compañías aéreas, los hoteles y muchas más organizaciones emplean machine learning. Existe un caso de uso específico para prácticamente cada sector y necesidad empresarial.

Paddy Power Betfair (PPB) es la empresa de apuestas y juegos deportivos cotizada en bolsa más grande del mundo, con cinco millones de clientes en todo el planeta. Utilizando Talend Real-Time Big Data para integrar 70 TB de datos desde múltiples fuentes en una plataforma integrada en cloud, logró reducir el tiempo de desarrollo a la mitad y aumentaron considerablemente la agilidad de sus datos y los tiempos de respuesta.

Componentes prediseñados de machine learning

Con el kit de herramientas Talend, los componentes de machine learning están preparados para su uso desde el primer minuto. Este software de ML preelaborado permite a los usuarios de los datos, sea cual sea su experiencia, trabajar fácilmente con algoritmos, sin tener que saber cómo funciona el algoritmo o cómo se creó. Al mismo tiempo, los expertos pueden perfeccionar dichos algoritmos como los deseen.

Los componentes de machine learning vienen integrados en la plataforma Real-Time Big Data, lo que permite a los usuarios realizar analíticas sin necesidad de programar manualmente. Los algoritmos de machine learning de Talend se agrupan en cuatro áreas en función de su mecanismo de operación, y cada uno de ellos contiene varios componentes de ML listos para su uso:

1. Algoritmos de clasificación

En el machine learning, la clasificación es una técnica de extracción de datos que se utiliza para encontrar patrones en conjuntos voluminosos de datos. Emplea una serie de datos de aprendizaje que contienen observaciones (instancias), con afiliación a una categoría conocida, para identificar a qué conjunto de categorías (subpoblaciones) pertenece una observación.

Existen dos tipos de algoritmos de clasificación:

  1. Clasificación binaria: solo hay dos resultados posibles.
  2. Clasificación multietiqueta: hay muchos resultados posibles.

Algunas casuísticas de algoritmos de clasificación son la detección de correo basura, la categorización de imágenes o la extracción de texto para conocer el sentimiento de cliente. El objetivo es predecir una subpoblación de clase, o etiqueta, a partir de un ejemplo conocido.

Algunos de los componentes de clasificación del machine learning de Talend son tClassify, tClassifySVM, tDecisionTreeModel, tGradientBoostedTreeModel, tLogicRegressionModel, tNaiveBayesModel, tPredict, tRandomForestModel y tSVMModel.

2. Algoritmos de agrupación en clústeres

El análisis de clústeres (agrupación en clústeres) es una tarea primordial de la extracción de datos exploratoria y una técnica habitual empleada en los análisis de datos estadísticos.

El agrupamiento por K-medias, por ejemplo, es un tipo de aprendizaje no supervisado. Es uno de los algoritmos de aprendizaje no supervisados más sencillos y se usa para resolver el problema de clasificar un conjunto concreto de datos por medio de un cierto número de clústeres. Algunos casos de K-medias son la segmentación por precio, la determinación de la fidelidad de cliente y la detección de fraude.

Algunos componentes de agrupación en clústeres del machine learning de Talend son tKMeansModel, tPredict y tPredictCluster.

3. Algoritmos de recomendación

También se les conoce como sistema de recomendación y se trata de una subcategoría de filtros de información cuyo objetivo es predecir la calificación o preferencia que un usuario daría a un artículo.

El filtrado colaborativo es un tipo de algoritmo de recomendación. El filtrado colaborativo puede ser por usuario o por artículo. El objetivo de ambos enfoques pasa por predecir automáticamente usuarios o artículos (es decir, filtros) a partir de las preferencias de muchos usuarios o artículos (es decir, colaboración).

Los dos tipos de componentes de recomendación del machine learning de Talend son:

  • tALSModel: este componente procesa una gran cantidad de información de sus componentes previos de Spark sobre las preferencias de los usuarios respecto a productos concretos. Efectúa cómputos del algoritmo Alternating Least Squares (ALS) sobre esos conjuntos de datos para generar y escribir un modelo de recomendación de producto depurado (formato Parquet).
  • tRecommend: este componente analiza datos a partir de sus componentes previos de Spark por medio de un modelo de recomendación para calcular las preferencias de los usuarios. Se basa en el modelo de recomendación de productos de usuario generado por el tALSModel y recomienda productos a usuarios conocidos por el modelo.

Los algoritmos del sistema de recomendación se pueden combinar con técnicas de aprendizaje profundo para realizar predicciones a partir de volúmenes ingentes de big data, de manera parecida al motor de recomendación por redes neuronales profundas de YouTube creado por Google.

Algunos componentes de recomendación del machine learning de Talend son tALSModel y tRecommend.

4. Algoritmos de regresión

Las pruebas de regresión son un proceso estadístico que calcula la relación entre variables. Se centra en la relación entre una variable dependiente y una o varias variables independientes, o "predictores".

A título de ejemplo, el componente tModelEncoder recibe datos de sus componentes previos y luego aplica un gran abanico de algoritmos de procesamiento especializado para transformar columnas de dichos datos: representación de palabras como vectores, hashing, bucketization (clasificación por categorías), etc. Luego envía el resultado al componente de aprendizaje del modelo (tLogisticRegressionModel o tKMeansModel) que sigue para en última instancia formar y crear un modelo predictivo.

Algunos componentes de regresión del machine learning de Talend son tModelEncoder, tLinearRegressionModel y tPredict.

Cómo empezar a trabajar con machine learning de Talend

El machine learning de Talend saca partido a Apache Spark en Hadoop y a Microsoft Azure para mejorar la escala y el rendimiento. Spark le permite usar los componentes de ML de Talend para procesar y analizar grandes conjuntos de datos en tiempo real. Podrá crear un modelo rápidamente y luego centrar su atención en el resultado de valor comercial, en lugar del proceso de desarrollo.

Para obtener más información sobre machine learning con Talend y Spark, vea el webinar a demanda Fundamentos del machine learning. Ofrece una visión general del aprendizaje supervisado, no supervisado y los métodos de aprendizaje reforzado, además de información detallada sobre Spark y el procesamiento del lenguaje natural (PLN).

| Last Updated: enero 30th, 2019