Wie die Dubletten Auswahl angewendet wird
Der Duplicate-Survivor-Workflow ermöglicht es, mehrdeutige Duplikate in einer Tabelle zu identifizieren oder aufzulösen. Er verwendet einen agentenbasierten Ansatz, um automatisch den besten Eintrag (den „Survivor“) innerhalb jeder Gruppe potenzieller Duplikate zu bestimmen und markiert alle anderen als Duplikate.
Was wird damit gelöst?
Für jede Duplikatgruppe wird nur ein Eintrag als Survivor markiert. Basierend auf einer vom Benutzer definierten „Survivor-Strategie“ werden alle anderen als Duplikate gekennzeichnet, die ignoriert oder gelöscht werden können.
So sieht der Workflow aus:

Workflow einrichten
Es gibt einen klaren Workflow, dem gefolgt werden kann. Betrachte folgendes Beispiel:
(1) Datei auf der DQC Platform auswählen (aus einem Connector oder einer statischen Datei)
(2) Duplikatregel einrichten und Tabellencheck durchführen
Eine Duplikatregel für die Spalte mit Duplikaten einrichten und einen Tabellencheck durchführen.

(3) Zu „Fehler“ gehen und auf „Daten verbessern“ klicken

(4) Workflow einrichten
Hier kann ein Workflow bestehend aus „Data input“, „Duplicate survivor“ und „Preview“ eingerichtet werden. Einfach die Nodes aus der Node-Bibliothek auswählen und per Drag-and-Drop hinzufügen.
Im nächsten Schritt können die Nodes (falls nötig) spezifiziert werden.
(5) Nodes spezifizieren
Data input Node: Durch Klicken auf das Stift-Symbol kann der Node spezifiziert werden. Bei Bedarf kann ein Filter gesetzt oder einzelne Zeilen explizit ausgeschlossen werden.

Duplicate survivor Node: Falls relevante Kontextinformationen in einer separaten Datei enthalten sind, kann diese (CSV-Format) hinzugefügt werden. Einfach die Datei in der Bibliothek hochladen.

Dann den Duplicate-Survivor-Node spezifizieren: Die betroffene Duplikatregel auswählen und die Survivor-Strategie angeben. Die Strategie sollte beschreiben, wie der Survivor identifiziert wird. Optional kann die Kontextdatei hinzugefügt werden.

(6) Ergebnisse vorbereiten
Zwei Optionen zur Ergebniseinsicht: Preview Node oder CSV-Download.
Für den Preview Node: Node öffnen und einen Workflow-Test durchführen (falls die Datei nicht zu viele Einträge enthält). Der Survivor wird angezeigt, inklusive eines Confidence Scores.

Für den CSV-Download: Auf „Run“ klicken und dann auf das Download-Symbol.

Hinweise
Ideal für Datenbereinigung oder Dublettenauflösung
Ergebnistabelle kann heruntergeladen werden
Mehr erfahren: Connectors, Adressverbesserungen, Regel-Detailansicht