Aktuelle Ansätze zur Dublettenerkennung in Datenbanksystemen

Current approaches to duplicate detection in database systems

  • Im Rahmen dieser Ausarbeitung wurde eine Untersuchung bezüglich der automatisierten Erkennung von semantisch äquivalenten Datensätzen in Datenbanksystemen durchgeführt. Ziel der Arbeit ist es, die dabei auftretenden Problematiken, sowie die aktuellsten Ansätze zur Lösung dieser Probleme zu erforschen. Aufbauend auf einer tiefgründigen Literaturuntersuchung, wurden sowohl der Gegenstand und die Problematik des Themas, als auch aktuellste Ansätze zur Lösung dieser Probleme untersucht und in Form einer wissenschaftlichen Arbeit vereinheitlicht. Ein Großteil der Literatur zielt auf spezielle Aspekte der Dublettensuche ab und gibt keinen umfassenden Überblick über die Thematik. Diesen Überblick soll das vorliegende Werk anhand einer stark beispielorientierten und praxisnahen Schreibweise offerieren. In der Arbeit findet zunächst eine Einordnung des Problems in den Terminus der Datenqualität statt. Weiterhin wird grundlegendes Wissen über die Entstehungsursa-chen und Auswirkungen von Duplikaten vermittelt. Den Großteil der Arbeit bildet die Beschreibung des Ablaufes einer Duplikaterkennung, einschließlich der aktuellsten Verfahren, welche hierbei eine Rolle spielen. Dabei werden zunächst die Grundlagen der Duplikaterkennung verdeutlicht, welche im Laufe der Arbeit detaillierter unter-sucht werden. Besonders tiefgründige Einblicke versucht diese Arbeit dabei auf die Gesichtspunkte Gütekriterien, Datenvorbereitung, Suchraumreduzierung (Partitionierung) und die Erkennung von Duplikaten durch Ähnlichkeitsbestimmungsverfahren zu legen. Das Ergebnis der Arbeit ist eine wissenschaftliche und praxisnahe Darstellung der Duplikaterkennung, welche sich auf die aktuellsten Ansätze dieser Thematik bezieht. Somit kann dieses Werk als Wissensgrundlage für verschiedenste Softwareprojekte, beispielsweise im Bereich Data-Warehouse, dienlich sein oder für weitere Nachforschungen genutzt werden.

Export metadata

Additional Services

Metadaten
Author:Tommy Ebisch
Advisor:Thomas Franke, Mario NeugebauerGND
Document Type:Bachelor Thesis
Language:German
Name:Hochschule
Dr.-Friedrichs-Ring 2A, 08324 Zwickau
Date of Publication (online):2016/02/19
Year of first Publication:2015
Publishing Institution:Westsächsische Hochschule Zwickau
Date of final exam:2015/02/16
Tag:Dublettenerkennung; Duplikaterkennung
Page Number:107 Seiten, 41 Abb., 26 Tab., 15 Lit.
Faculty:Westsächsische Hochschule Zwickau / Physikalische Technik, Informatik
Release Date:2016/02/19