Refine
Has Fulltext
- no (1)
Year of publication
- 2015 (1)
Document Type
- Bachelor Thesis (1)
Institute
Language
- German (1)
Is part of the Bibliography
- no (1)
Im Rahmen dieser Ausarbeitung wurde eine Untersuchung bezüglich der automatisierten Erkennung von semantisch äquivalenten Datensätzen in Datenbanksystemen durchgeführt. Ziel der Arbeit ist es, die dabei auftretenden Problematiken, sowie die aktuellsten Ansätze zur Lösung dieser Probleme zu erforschen. Aufbauend auf einer tiefgründigen Literaturuntersuchung, wurden sowohl der Gegenstand und die Problematik des Themas, als auch aktuellste Ansätze zur Lösung dieser Probleme untersucht und in Form einer wissenschaftlichen Arbeit vereinheitlicht. Ein Großteil der Literatur zielt auf spezielle Aspekte der Dublettensuche ab und gibt keinen umfassenden Überblick über die Thematik. Diesen Überblick soll das vorliegende Werk anhand einer stark beispielorientierten und praxisnahen Schreibweise offerieren. In der Arbeit findet zunächst eine Einordnung des Problems in den Terminus der Datenqualität statt. Weiterhin wird grundlegendes Wissen über die Entstehungsursa-chen und Auswirkungen von Duplikaten vermittelt. Den Großteil der Arbeit bildet die Beschreibung des Ablaufes einer Duplikaterkennung, einschließlich der aktuellsten Verfahren, welche hierbei eine Rolle spielen. Dabei werden zunächst die Grundlagen der Duplikaterkennung verdeutlicht, welche im Laufe der Arbeit detaillierter unter-sucht werden. Besonders tiefgründige Einblicke versucht diese Arbeit dabei auf die Gesichtspunkte Gütekriterien, Datenvorbereitung, Suchraumreduzierung (Partitionierung) und die Erkennung von Duplikaten durch Ähnlichkeitsbestimmungsverfahren zu legen. Das Ergebnis der Arbeit ist eine wissenschaftliche und praxisnahe Darstellung der Duplikaterkennung, welche sich auf die aktuellsten Ansätze dieser Thematik bezieht. Somit kann dieses Werk als Wissensgrundlage für verschiedenste Softwareprojekte, beispielsweise im Bereich Data-Warehouse, dienlich sein oder für weitere Nachforschungen genutzt werden.