Uso de machine learning para calidad de datos

Uso de machine learning para calidad de datos

  • Nitin Kudikala
    Nitin Kudikala is a Customer Success Architect at Talend. In this role, Mr.Kudikala advises firms on how to create value by becoming Data Driven and ensures that they are empowered to use the Talend software in the most optimal way. He has 15 years of experience in the field of Data Governance, Data Quality, Data Warehousing, Master Data Management and Big Data. Prior to Talend, he worked as a Data Management Specialist at PepsiCo and before that as a Senior Consultant at Informatica Corporation.

En mi última entrada de blog hice hincapié en algunas de las dificultades en materia de gobernanza en big data y cómo la calidad de datos (CD) representa una parte sustancial de la gobernanza de datos. En esta entrada he querido centrarme en cómo los big data están cambiando la metodología de CD. Los big data han convertido el machine learning (ML) en mayoritario y del mismo modo que la CD ha condicionado el ML, el ML también está afectando la metodología de aplicación de la CD. Tradicionalmente, la CD ha sido una tarea interna de Informática en virtud de la cual los analistas observaban un dato, entendían sus patrones (perfiles) y creaban reglas de limpieza y correspondencia de datos (normalización). Una vez creadas y producidas estas reglas, se realizan intentos de cuantificar la calidad de cada conjunto de datos a intervalos periódicos.

¿Por qué debe emplearse el ML en la CD?

Límites del proceso tradicional de CD

Analicemos los límites que presenta el enfoque tradicional de la correspondencia de datos. Hasta la fecha los criterios de selección han dependido sobremanera del bloqueo y elección de las ponderaciones correctas. Estas actividades son muy manuales de por sí y, por lo tanto, susceptibles a errores de calado. Además, definir las reglas de correspondencia es un proceso muy laborioso. Las organizaciones tardan meses en definir y ajustar sus reglas de correspondencia. Otra limitación es el tamaño de los bloques de datos. Si el tamaño de un bloque es demasiado grande, el rendimiento del proceso de correspondencia puede verse gravemente afectado. Cualquier variación sustancial en los conjuntos de datos en materia de calidad también restará eficiencia a las reglas. Este es el motivo por el que las organizaciones suelen disponer de estrictas directrices de correspondencia de datos y se muestran reticentes a la hora de emplear algoritmos manuales, que son más propensos a los errores. Este problema puede llegar a ser mucho más dificultoso, pues la cantidad de fuentes de datos que las empresas deben extraer y emparejar para obtener una imagen de conjunto de su sociedad es cada vez mayor.

El auge del ML puede llegar a condicionar drásticamente las metodologías de CD. Parte de los procesos de normalización, en concreto la correspondencia de datos, podría automatizarse haciendo que un modelo de ML "aprendiera" y predijera las correspondencias sistemáticamente. Una vez realizado el trabajo manual inicial para configurar las etiquetas, los modelos de ML pueden empezar a aprender de los nuevos datos que se hacen llegar para su normalización. Cuantos más datos se suministren al modelo, mejor funcionará el algoritmo de ML y ello redundará en la exactitud de los resultados. Por consiguiente, el ML es más escalable, en comparación con los enfoques tradicionales. Las empresas no necesitan restringir el volumen de datos o la cantidad de fuentes para identificar las reglas de correspondencia. Dicho esto, también son necesarios los sistemas diseñados para cuantificar el rendimiento del modelo de ML en sí.

Generalización del machine learning

Según determinados estudios, el 22 % de las empresas analizadas ya ha aplicado algoritmos de machine learning a sus plataformas de gestión de datos. La NASA, por ejemplo, ha descubierto muchas aplicaciones de machine learning al valorar la calidad de los datos científicos, como la detección de valores poco habituales o anomalías.

El motivo que explica el apogeo del ML es que los motores de procesamiento de big data como Spark ahora permiten a los desarrolladores emplear bibliotecas de ML para procesar su código. Cada una de estas bibliotecas de ML disponibles actualmente por medio de Spark también lo está para los desarrolladores de Talend. El lanzamiento de Talend Data Fabric en invierno de 2017 trajo también consigo componentes de ML para correspondencia de datos. Se llaman tMatchpairing, tMatchModel y tMatchPredict. A continuación presentamos un resumen exhaustivo del proceso necesario para emplear dichos componentes para predecir resultados de correspondencias.

Correspondencia de datos con machine learning en cuatro sencillos pasos

  • Paso 1: Preanalizar el conjunto de datos mediante el componente tMatchpairing. Esto deja al descubierto cualquier dato sospechoso cuya puntuación de correspondencia se encuentre entre el valor umbral y de correspondencia. Las puntuaciones de correspondencia también formarían parte del conjunto de datos.
  • Paso 2: Posteriormente, los administradores de datos etiquetan el registro de correspondencia sospechoso como "corresponde" y "no corresponde" Es un proceso manual y puede aprovecharse la consola Talend Stewardship para racionalizar el etiquetado.
  • Paso 3: Una muestra del conjunto resultante del paso 2 alimenta el tMatchModel para "aprender" y el resultado sería un modelo de clasificación de ML. La validación del modelo se realiza automáticamente en este momento mediante el componente tMatchPredict.
  • Paso 4: El modelo generado en el paso 3 está listo para emplearse en la predicción de correspondencias para nuevas fuentes de datos.

En resumen, combinando la potencia del ML con Spark y los procesos de calidad de datos, se puede utilizar este flujo de trabajo para predecir correspondencias de conjuntos de datos automáticamente. La cantidad de datos no será una restricción, puesto que el proceso se ejecutaría automáticamente en los nodos del clúster de big data aprovechando el framework de procesamiento distribuido de Apache Spark. Por lo tanto, las empresas que ya cuentan con científicos de datos pueden emplear este flujo de trabajo no tan solo para analíticas, sino también para sus proyectos de gestión de datos. No obstante, es evidente que nos encontramos en una etapa muy incipiente en cuanto al uso del ML para la gestión de datos. Tendrá que seguir investigándose para descubrir cómo puede contribuir el ML en conceptos de gestión de datos más avanzados, como la MDM o la administración de datos.

Referencias:

El papel del machine learning en la gestión de datos maestros

Valoración automatizada de la calidad de datos en el archivo inteligente

Un estudio apunta la desconexión entre la calidad de datos y la predisposición empresarial a poner en práctica el machine learning y las analíticas

El modelo para dejarse guiar por los datos

Join The Conversation

0 Comments

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *