Jump to main content Hotkeys
Distributed and Self-organizing Systems
Distributed and Self-organizing Systems

Masterarbeit

Matching von heterogenen Personenrepräsentationen im Kontext von Data Governance und
          Informationsintegration
Matching von heterogenen Personenrepräsentationen im Kontext von Data Governance und Informationsintegration

Completion

2014/04

Research Area

Intelligent Information Management

Students

pavp

Advisers

wild

gaedke

Description

Data governance is an evolving field aiming at synergizing the work of legal, records management, business and IT departments in order to reduce risks and costs incurred by storing and processing corporate information. The departments need to deal with disparate data sources, e.g., e-mail repositories, document archives, databases and file systems, which may contain data with various representations of the same person. Processing heterogeneous representations of the same person is a challenging task: A failure in recognizing duplicates or matching them to a single representation may cause serious problems, ranging from difficulties to detect the exact number of company’s customers or employees to addressing the same person with an identical issue multiple times. This is not only a significant problem for corporate intranets, but also for the Internet. A single person may have several e-mail accounts, social network profiles and other user accounts, which makes a matching difficult. The goal of this thesis is both the analysis of the state of the art of processes and technologies for solving the problem of heterogeneous person representations in disparate data sources as well as the design, implementation and evaluation of a suitable approach or combination of approaches to solve the outlined problem in the context of data governance and information integration. The demonstration of the solution based on a real-life scenario is also a part of this goal.

Description (German)

Data Governance ist ein aufstrebendes Gebiet, das sich mit der Herstellung von Synergien zwischen Tätigkeiten von Rechtsabteilungen, Schriftgutverwaltungen, Fach- und IT-Abteilungen beschäftigt. Dies geschieht mit dem Hintergrund der Minimierung von Risiken und Kosten, die bei Speicherung und Verarbeitung von Unternehmensdaten anfallen. Abteilungen haben es mit unterschiedlichen Datenquellen zu tun, wie bspw. E-Mail- und Dokumentenarchive, Datenbanken und Dateisysteme, welche mitunter verschiedene Repräsentationen ein und derselben Person enthalten. Die Verarbeitung heterogener Repräsentationen ein und derselben Person ist eine herausfordernde Aufgabe, da bereits ein Fehler bei der Erkennung von Dubletten oder deren Zuordnung zu einer Repräsentation schwerwiegende Probleme verursachen kann. Diese reichen von Schwierigkeiten bei der Bestimmung der genauen Anzahl von Unternehmenskunden und Mitarbeitern bis hin zur mehrfachen unnötigen Kontaktierung einer Person bezüglich desselben Themas. Das Problem ist hierbei nicht nur vorherrschend in unternehmensinternen Netzwerken, sondern auch darüber hinaus. So kann eine einzelne Person mehrere E-Mail-Konten, Social Network-Profile und andere Benutzerkonten unterhalten, was wiederum ein Matching erschwert. Ziel dieser Arbeit ist sowohl die Analyse des aktuellen Standes von Verfahren und Technologien zum Matching heterogener Personenrepräsentationen als auch die Konzeption, Implementierung und Evaluation eines geeigneten Ansatzes bzw. einer Kombination von Ansätzen zur Lösung des skizzierten Problems im Kontext Data Governance und Informationsintegration. Die Demonstration des Lösungsansatzes auf Basis eines real existierenden Szenarios ist ebenso Bestandteil dieser Zielsetzung.


Powered by DGS
Edit list (authentication required)

Press Articles