Aktuelle Ansätze zur Dublettenerkennung in Datenbanksystemen
Current approaches to duplicate detection in database systems
- Im Rahmen dieser Ausarbeitung wurde eine Untersuchung bezüglich der automatisierten Erkennung von semantisch äquivalenten Datensätzen in Datenbanksystemen durchgeführt. Ziel der Arbeit ist es, die dabei auftretenden Problematiken, sowie die aktuellsten Ansätze zur Lösung dieser Probleme zu erforschen. Aufbauend auf einer tiefgründigen Literaturuntersuchung, wurden sowohl der Gegenstand und die Problematik des Themas, als auch aktuellste Ansätze zur Lösung dieser Probleme untersucht und in Form einer wissenschaftlichen Arbeit vereinheitlicht. Ein Großteil der Literatur zielt auf spezielle Aspekte der Dublettensuche ab und gibt keinen umfassenden Überblick über die Thematik. Diesen Überblick soll das vorliegende Werk anhand einer stark beispielorientierten und praxisnahen Schreibweise offerieren. In der Arbeit findet zunächst eine Einordnung des Problems in den Terminus der Datenqualität statt. Weiterhin wird grundlegendes Wissen über die Entstehungsursa-chen und Auswirkungen von Duplikaten vermittelt. Den Großteil der Arbeit bildet die Beschreibung des Ablaufes einer Duplikaterkennung, einschließlich der aktuellsten Verfahren, welche hierbei eine Rolle spielen. Dabei werden zunächst die Grundlagen der Duplikaterkennung verdeutlicht, welche im Laufe der Arbeit detaillierter unter-sucht werden. Besonders tiefgründige Einblicke versucht diese Arbeit dabei auf die Gesichtspunkte Gütekriterien, Datenvorbereitung, Suchraumreduzierung (Partitionierung) und die Erkennung von Duplikaten durch Ähnlichkeitsbestimmungsverfahren zu legen. Das Ergebnis der Arbeit ist eine wissenschaftliche und praxisnahe Darstellung der Duplikaterkennung, welche sich auf die aktuellsten Ansätze dieser Thematik bezieht. Somit kann dieses Werk als Wissensgrundlage für verschiedenste Softwareprojekte, beispielsweise im Bereich Data-Warehouse, dienlich sein oder für weitere Nachforschungen genutzt werden.
Author: | Tommy Ebisch |
---|---|
Advisor: | Thomas Franke, Mario NeugebauerGND |
Document Type: | Bachelor Thesis |
Language: | German |
Name: | Hochschule Dr.-Friedrichs-Ring 2A, 08324 Zwickau |
Date of Publication (online): | 2016/02/19 |
Year of first Publication: | 2015 |
Publishing Institution: | Westsächsische Hochschule Zwickau |
Date of final exam: | 2015/02/16 |
Tag: | Dublettenerkennung; Duplikaterkennung |
Page Number: | 107 Seiten, 41 Abb., 26 Tab., 15 Lit. |
Faculty: | Westsächsische Hochschule Zwickau / Physikalische Technik, Informatik |
Release Date: | 2016/02/19 |