Uso de machine learning para calidad de datos

En mi última entrada del blog hice hincapié en algunas de las dificultades en materia de gobernanza en big data y cómo la calidad de datos (CD) representa una parte sustancial de la gobernanza de datos. En esta entrada he querido centrarme en cómo los big data están cambiando la metodología de CD.

Los big data han convertido el machine learning (ML) en mayoritario y, del mismo modo que la CD ha condicionado el ML, el ML también está afectando la metodología de aplicación de la CD. Tradicionalmente, la CD ha sido una tarea interna de Informática en virtud de la cual los analistas observaban un dato, entendían sus patrones (perfiles) y creaban reglas de limpieza y correspondencia de datos (normalización). Una vez creadas y producidas estas reglas, se realizan intentos de cuantificar la calidad de cada conjunto de datos a intervalos periódicos.

¿Por qué debe emplearse el ML en la CD?

Límites del proceso tradicional de CD

Analicemos los límites que presenta el enfoque tradicional de la correspondencia de datos. Hasta la fecha los criterios de selección han dependido sobremanera del bloqueo y elección de las ponderaciones correctas. Estas actividades son muy manuales de por sí y, por lo tanto, susceptibles a errores de calado. Además, definir las reglas de correspondencia es un proceso muy laborioso. Las organizaciones tardan meses en definir y ajustar sus reglas de correspondencia.

Otra limitación es el tamaño de los bloques de datos. Si el tamaño de un bloque es demasiado grande, el rendimiento del proceso de correspondencia puede verse gravemente afectado. Cualquier variación sustancial en los conjuntos de datos en materia de calidad también restará eficiencia a las reglas. Este es el motivo por el que las organizaciones suelen disponer de estrictas directrices de correspondencia de datos y se muestran reticentes a la hora de emplear algoritmos manuales, que son más propensos a los errores. Este problema puede llegar a ser mucho más dificultoso, pues la cantidad de fuentes de datos que las empresas deben extraer y emparejar para obtener una imagen de conjunto de su sociedad es cada vez mayor.

El auge del ML puede llegar a condicionar drásticamente las metodologías de CD. Parte de los procesos de normalización, en concreto la correspondencia de datos, podría automatizarse haciendo que un modelo de ML "aprendiera" y predijera las correspondencias sistemáticamente. Una vez realizado el trabajo manual inicial para configurar las etiquetas, los modelos de ML pueden empezar a aprender de los nuevos datos que se hacen llegar para su normalización. Cuantos más datos se suministren al modelo, mejor funcionará el algoritmo de ML y ello redundará en la exactitud de los resultados. Por consiguiente, el ML es más escalable, en comparación con los enfoques tradicionales. Las empresas no necesitan restringir el volumen de datos o la cantidad de fuentes para identificar las reglas de correspondencia. Dicho esto, también son necesarios los sistemas diseñados para cuantificar el rendimiento del modelo de ML en sí.

Generalización del machine learning

Según determinados estudios, el 22 % de las empresas analizadas ya ha aplicado algoritmos de machine learning a sus plataformas de gestión de datos. La NASA, por ejemplo, ha descubierto muchas aplicaciones de machine learning al valorar la calidad de los datos científicos, como la detección de valores poco habituales o anomalías.

El motivo que explica el apogeo del ML es que los motores de procesamiento de big data como Spark ahora permiten a los desarrolladores emplear bibliotecas de ML para procesar su código. Cada una de estas bibliotecas de ML disponibles actualmente por medio de Spark también lo está para los desarrolladores de Talend. El lanzamiento de Talend Data Fabric en el invierno de 2017 introdujo componentes de ML para correspondencia de datos. Se llaman tMatchpairing, tMatchModel y tMatchPredict. A continuación presentamos un resumen exhaustivo del proceso necesario para emplear dichos componentes para predecir resultados de correspondencias.

Correspondencia de datos con machine learning en cuatro sencillos pasos

  • Paso 1: Preanalizar el conjunto de datos con el componente tMatchpairing. Esto hace aflorar cualquier dato sospechoso cuya puntuación de correspondencia se encuentre entre el umbral y la puntuación de correspondencia. Estas puntuaciones también formarían parte del conjunto de datos
  • Paso 2: A continuación los administradores de datos etiquetan el registro de correspondencia sospechoso como ‘corresponde’ y ‘no corresponde’. Se trata de un proceso manual y puede hacerse uso de la consola de Talend Stewardship para racionalizar este etiquetado.
  • Paso 3: Se alimenta una muestra de los resultados del paso 2 a tMatchModel para que ‘aprenda’ y el resultado constituiría un modelo de clasificación de ML. Aquí la validación del modelo se efectúa automáticamente con el componente tMatchPredict.
  • Paso 4: El modelo generado en el paso 3 está listo para emplearse en la predicción de correspondencias para nuevas fuentes de datos.

 

 

En resumen, combinando la potencia del ML con Spark y los procesos de calidad de datos, se puede utilizar este flujo de trabajo para predecir correspondencias de conjuntos de datos automáticamente. La cantidad de datos no será una restricción, puesto que el proceso se ejecutaría automáticamente en los nodos del clúster de big data aprovechando el framework de procesamiento distribuido de Apache Spark. Por lo tanto, las empresas que ya cuentan con científicos de datos pueden emplear este flujo de trabajo no tan solo para analíticas, sino también para sus proyectos de gestión de datos. No obstante, es evidente que nos encontramos en una etapa muy incipiente en cuanto al uso del ML para la gestión de datos. Tendrá que seguir investigándose para descubrir cómo puede contribuir el ML en conceptos de gestión de datos más avanzados, como la MDM o la administración de datos.

 

Referencias:

El papel del machine learning en la gestión de datos maestros

Un estudio apunta la desconexión entre la calidad de datos y la predisposición empresarial a poner en práctica el machine learning y las analíticas

El modelo para dejarse guiar por los datos

| Last Updated: septiembre 17th, 2019