Introducción a la correspondencia de datos ¿Cómo funciona la correspondencia de datos?

Introducción a la correspondencia de datos ¿Cómo funciona la correspondencia de datos?

Este artículo es el primero de una serie de tres entregas que analizarán la correspondencia de datos y cómo llevarla a cabo con el kit de herramientas de Talend. Esta primera entrega se centrará en la teoría que sustenta la correspondencia de datos, en qué consiste y cómo funciona. La segunda analizará el uso de las herramientas Talend para realizar correspondencias. Por último, la última entrega de la serie versará sobre cómo ajustar los algoritmos de correspondencia de datos para lograr las mejores coincidencias posibles.

Lo primero es lo primero: ¿en qué consiste la correspondencia de datos? A grandes rasgos, es la capacidad de identificar duplicados en grandes conjuntos de datos. Estos duplicados pueden ser personas con entradas múltiples en una o varias bases de datos. También puede tratarse de artículos duplicados, de cualquier descripción, contenidos en regímenes de existencias. La correspondencia de datos le permite identificar duplicados, o posibles duplicados, y emprender acciones, como fusionar las dos entradas idénticas o similares en una. También le permite identificar los no duplicados, que pueden ser igual de importantes de identificar, puesto que nos interesa saber que dos cosas parecidas no son lo mismo de ninguna de las maneras.

Así pues, ¿cómo funciona realmente la correspondencia de datos? ¿Cuáles son las teorías matemáticas que la sustentan? Muy bien, regresemos a los principios más básicos. ¿Cómo se sabe que dos "cosas" son en realidad lo mismo? O, ¿cómo se sabe si dos "personas" son la misma persona? ¿Qué es lo que identifica algo de forma inequívoca? Lo hacemos nosotros por instinto. Reconocemos rasgos en las cosas o las personas que se parecen y entendemos que podrían ser, o que son, lo mismo. En teoría esto puede aplicarse a cualquier objeto, ya sea una persona, una prenda de ropa, como unos pantalones cortos, una taza o un "artilugio".

En realidad esto es un problema que lleva 60 años planteándose. Se formalizó durante los años sesenta en la obra fundacional de Fellegi y Sunter, dos estadísticos estadounidenses. Su primer uso fue destinado a la Oficina del Censo de los EE. UU. Se llamó "Enlace de registros" (Record linkage), que hace referencia a la forma en la que se enlazan registros de distintos conjuntos de datos. En el caso de registros duplicados en ocasiones se conoce como eliminación de duplicados o el proceso de identificación de duplicados y su vinculación. ¿Cuál son estas propiedades que permiten identificar duplicados?

Para ello necesitamos "identificadores únicos". Se trata de propiedades que es poco probable que cambien con el tiempo. Podemos asociar y ponderar probabilidades de cada propiedad. Por ejemplo, podemos reparar en la probabilidad de que esas dos cosas sean en realidad la misma. Puede aplicarse tanto a personas como a objetos.

El problema, sin embargo, es que las cosas pueden cambiar, y lo hacen, o a veces se identifican erróneamente. El truco consiste en identificar qué puede cambiar, a saber, nombre, dirección o fecha de nacimiento. Hay ciertos aspectos que es menos probable que cambien que otros. En el caso de los objetos, podría ser el caso del tamaño, la forma, el color, etc.

AVISO: El enlace de registros es muy sensible a la calidad de datos que se enlazan. Antes, los datos deben "normalizarse" para que todos presenten una calidad comparable.

Existen dos tipos de enlace de datos:

  1. El enlace de registros determinista, que se basa en una serie de identificadores que se corresponden.
  2. El enlace de registros probabilístico que se basa en la probabilidad de que una serie de identificadores se correspondan.

La inmensa mayoría de correspondencias de datos son de carácter probabilístico. Los enlaces deterministas son demasiado inflexibles.

De acuerdo, ¿y cómo se establecen las correspondencias? En primer lugar, se procede a lo que se denomina una agrupación por bloques. Se ordenan los datos en bloques de tamaño parecido que tienen el mismo atributo. Se identifican "atributos" que es improbable que cambien. Puede tratarse de apellidos, fechas de nacimiento, color, volumen, forma, etc. A continuación se realiza la correspondencia. Primero debe asignarse un tipo de correspondencia a cada atributo (hay muchas formas de emparejar estos atributos). Los nombres pueden emparejarse fonéticamente; las fechas, por semejanza. A continuación se calcula la ponderación RELATIVA de cada atributo de correspondencia. Se parece bastante a una medida de "importancia". Luego se calculan las probabilidades de correspondencia y también de desemparejar accidentalmente dichos campos. Por último, se asigna un algoritmo para ajustar la ponderación relativa de cada atributo para obtener lo que se denomina una "Ponderación de correspondencia total". Esa es la correspondencia probabilística de dos elementos.

En resumen:

  • Normalice los datos
  • Elija atributos que sea improbable que cambien
  • Agrupe por bloques, ordénelos por bloques de tamaño comparable
  • Realice las correspondencias por probabilidades (recuerde que existen muchos tipos de correspondencia distintos)
  • Asigne ponderaciones a las correspondencias
  • Súmelo todo y obtenga una ponderación TOTAL

La última etapa consiste en ajustar sus algoritmos de correspondencia para obtener correspondencias cada vez mejores. Abordaremos este aspecto en la tercera entrega de esta serie.

La próxima pregunta es ¿qué herramientas encontramos en el kit de Talend y cómo las puedo utilizar para realizar correspondencias de datos? Esto lo abordaremos en la próxima entrega de esta serie de artículos sobre correspondencia de datos.

Sobre el autor

Stefan Franczuk es arquitecto de Éxito de los Clientes en Talend y trabaja en el Reino Unido. Tras sus inicios laborales en la ingeniería y la aviación, dio el salto a la informática hace más de 25 años, incluida su vertiente académica. Franczuk cuenta con una dilatada experiencia en múltiples disciplinas informáticas. Los últimos 15 años ha ideado una gran cantidad de soluciones de integración para clientes de todo el mundo. Franczuk también tiene experiencia muy diversa en big data, ciencia de datos y analítica de datos. Se doctoró en Física Fotonuclear Experimental en la Universidad de Glasgow.

Join The Conversation

0 Comments

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *