DQC Logo
|
Derzeit nur in der DQC Platform Cloud verfügbar. Unterstützung für Private Cloud folgt in Kürze.

Laden von PDFs in strukturierte Daten auf der DQC Platform

Die DQC Platform ermöglicht es, ein oder mehrere PDF-Dokumente hochzuladen und deren Inhalte automatisch in ein strukturiertes Tabellenformat zu transformieren. Dies ist besonders hilfreich bei der Arbeit mit Geschäftsdokumenten, Rechnungen, Berichten oder anderen Dateien, die sowohl tabellarische Daten als auch kontextuelle Informationen enthalten.

Extraktion von Tabellen- und Kontextinformationen

Die PDF-Extraktions-Engine erfasst:

  • Tabellendaten (Zeilen, Spalten und aufgeteilte Felder)

  • Informationen außerhalb von Tabellen (z. B. Kopf- oder Fußzeilen)

  • Dateinamen (Aktivierung über den Schalter „Add file name as column“ am unteren Rand)

Damit stehen sowohl strukturierte Werte (z. B. Artikelnummern, Daten oder Mengen) als auch unstrukturierte Metadaten (z. B. Dokumentüberschriften) in einem einheitlichen, abfragbaren Format zur Verfügung.

Definition eines Extraktionsschemas mit YAML

Zur Steuerung, welche Informationen aus einem Dokument extrahiert werden sollen, verwendet die DQC Platform ein YAML-basiertes Schema. Das Schema definiert:

  • Spalten – welche Felder extrahiert werden, erwartete Datentypen (z. B. TEXT, NUMBER) und wo diese zu finden sind (Tabelle, Kopfbereich, Fußbereich)

  • Sektionen – wie verschiedene Dokumentbereiche strukturiert sind (Header, Tabelle, Footer)

Beispielschema

Nachfolgend ein vereinfachtes und generalisiertes YAML-Schema:

table:
  columns:
    column_name:
      type: "TEXT"
      extract_description: "Beschreibung, wie dieser Wert identifiziert und extrahiert wird"
      section: "table"
    another_column:
      type: "NUMBER"
      extract_description: "Weiteres Feld aus einer Tabelle oder einem Dokumentbereich"
      section: "header"

document_information:
  sections:
    header:
      extract_description: "Informationen im oberen Bereich des Dokuments"
    table:
      extract_description: "Haupttabellendaten im Dokumentinhalt"
    footer:
      extract_description: "Zusätzliche Hinweise oder Details im unteren Bereich"

Hinzufügen von PDFs zu einem bestehenden Schema

In vielen Fällen erzeugt ein bestehender Prozess im Laufe der Zeit mehrere PDFs. Dadurch entwickeln sich auch die Daten, die in der DQC Platform qualitätsgeprüft werden sollen, kontinuierlich weiter. Zusätzliche PDFs mit demselben strukturellen Format können in ein bestehendes Schema hochgeladen werden. Die enthaltenen Informationen werden als neue Zeilen an die bestehende Tabelle angehängt. Alle Qualitätsregeln werden beim nächsten Ruleset-Check automatisch auf die aktualisierte Tabelle angewendet.

undefined Notes

  • Das Servicekonto muss demselben Projekt wie das Dataset zugeordnet sein

  • Die Berechtigungen sind schreibgeschützt – es werden keine Änderungen an den Daten vorgenommen

Verbinden von PDFs | DQC