Uniserv und DZ Bank untersuchen KI-Einsatz zur Bereinigung von Stammdaten-Dubletten

Automatisierte Dubletten-Bereinigung soll noch effizienter und schneller erfolgen. KI soll bei der Bildung von Golden Records unterstützen.

UNISERV GmbH | 15.10.2019

Uniserv und DZ Bank untersuchen KI-Einsatz zur Bereinigung von Stammdaten-Dubletten

Inwieweit lassen sich durch Verfahren der Künstlichen Intelligenz (KI) Stammdaten-Dubletten von Geschäftspartnern vollautomatisiert und ohne Eingriff von Data Stewards bereinigen? Diese Frage will das gemeinsame Projekt von Uniserv, einem spezialisierten Anbieter von Lösungen für das Management von Geschäftspartnerdaten, zusammen mit dem Startup Recognai und der DZ Bank beantworten. Darüber hinaus wird die Zusammenarbeit untersuchen, mit welchem Modell der Künstlichen Intelligenz die besten Ergebnisse bei der Dubletten-Suche erzielt werden können, sei es etwa durch überwachtes oder nicht-überwachtes Lernen (supervised und unsupervised Learning).

KI soll Dubletten-Bereinigung automatisieren

Das Projekt befindet sich aktuell in der Proof-of-Concept-Phase und hat sich zum Ziel gesetzt, die automatisierte Dubletten-Bereinigung noch effizienter und schneller zu gestalten. Hierbei kommt die Master-Data-Management-Lösung, der Customer Data Hub (CDH), von Uniservzum Einsatz. Über den CDH werden die Stammdaten-Dubletten der Geschäftspartner der DZ Bank identifiziert und bereinigt, gleichartige Datensätze also vereint. Trotz dieses Systemeinsatzes müssen nicht eindeutige Dubletten (Possible Data Matches) aktuell noch manuell durch Data Stewards geprüft werden. Sie kontrollieren, ob es sich um eine wirkliche Dublette handelt oder nicht. Durch Datenänderungen und neue Datensätze kommen außerdem regelmäßig neue, manuell zu bearbeitende Dubletten-Kandidaten hinzu. KI-Komponenten, die den CDH im Rahmen des Projektes ergänzen, sollen diese manuellen Aufwände nun deutlich reduzieren oder sogar eliminieren.

KI-Systeme müssen erst angelernt werden

Zunächst geht es darum, dass die KI lernt, zwischen einer potenziellen Dublette und einer Nicht-Dublette zu unterscheiden und dabei auch den menschlichen Entscheidungsvorgang zu verstehen und anzuwenden. Hierfür steht ein entsprechender Datenbestand mit früheren Entscheidungen der Data Stewards zur Verfügung. „Bevor sie zum Einsatz kommen können, müssen KI-Systeme naturgemäß erst angelernt werden. Sie lernen aus Beispielen und sind so in der Lage, Muster und Gesetzmäßigkeiten zu erkennen. Praktisch passiert dies über verschiedene Algorithmen. Nach Beendigung der Lernphase kann das KI-System verallgemeinern und auch unbekannte Daten beurteilen“, erklärt Dr. Simone Braun, Head of Business Development bei Uniserv, das Vorgehen.

Das Berufsbild des Data Stewards wandelt sich zum Trainer der KI

Im nächsten Schritt soll die KI Stammdaten-Dubletten nach dem erlernten Muster erkennen und Entscheidungen autonom, ohne Eingriff eines Data Stewards, durchführen. Kann die KI nicht mit einer vorgegebenen Sicherheit entscheiden, ob es sich tatsächlich um eine Dublette oder Nicht-Dublette handelt, werden diese Fälle wiederum durch Data Stewards endgültig beurteilt und als Feedback zurück an das System gespielt. Auf diese Weise sollen Routine-Tätigkeiten der Dubletten-Bearbeitung automatisiert und die Data Stewards hiervon entlastet werden. Sie können sich somit komplizierteren, sprich insbesondere vom Standard abweichenden Fällen zuwenden. Die Data Stewards wandeln sich somit vom Dubletten-Bearbeiter zum Trainer der Künstlichen Intelligenz.

Weitere Uniserv-Initiativen prüfen den Einsatz von KI beim Geschäftspartnerdaten-Management

Uniserv untersucht bereits in weiteren Projekten den Einsatz von KI in den Bereichen Datenqualität und Master Data Management. Im Rahmen der europäischen Data-Pitch-Initiative entwickelte Uniserv zusammen mit den Startups frosha und Recognai innovative Software-Lösungen auf Basis von Deep-Learning-Verfahren. Ziel war es, geschäftsrelevante Informationen aus un- und semi-strukturierten Geschäftspartnerdaten zu gewinnen. Im Zuge des Forschungsprojekts KOBRA untersucht Uniserv in Kooperation mit dem Institut für Angewandte Informatik der Universität Leipzig Machine-Learning-Verfahren zur automatisierten und fehlertoleranten Identitätserkennung. Im Rahmen des jüngst gestarteten Forschungsprojektes DE4L (Data Economy 4 Advanced Logistics) geht es um den sicheren Datenaustausch bei Logistikdienstleistungen.