DQC Logo
|

Verbindung zu Databricks

Um ein Databricks Lakehouse mit der DQC Platform zu verbinden, werden einige zentrale Konfigurationsdaten benötigt. Diese Anleitung erklärt alle notwendigen Felder, die Erstellung eines Zugriffstokens und die Einrichtung der Berechtigungen.


Required connection details

Feld

Beispiel

Beschreibung

Name

My production data

Beliebiger interner Name für die Verbindung

Host

000-000000-0000.cloud.databricks.com
000000000000000.azuredatabricks.net

Host aus der URL nach Anmeldung in Databricks:
https://<host>/explore/data/...

Token (dev)

dapi********************-2

Zugriffstoken – siehe Anleitung unten

Service Principal (prod)

Client ID: ************************
Client Secret: **************

In Azure Databricks: User icon > Settings > Identity and Access > Service Principals

Cluster ID

0000-000000-0A0AA0A0

In Databricks, ID eines Clusters – in der URL bei geöffnetem Cluster ersichtlich

Catalog

production_data

Katalog, der das gewünschte Schema und die Tabellen enthält

Schema

inventory

Ziel-Schema zur Anbindung

Diese Werte werden im Konfigurationsformular der DQC Platform eingetragen


Databricks-Zugriffstoken erstellen

Für die Verbindung wird ein Zugriffstoken benötigt. Es wird empfohlen, einen Service Principal zu verwenden.

Option 1: Service Principal (empfohlen)

  1. Service Principal erstellen

  2. Token-Nutzung erlauben

    • In Databricks dem Principal die Berechtigung zum Verwenden von Tokens geben (siehe Token Permissions)

  3. Zugriffstoken erzeugen

    • Token mit "lifetime_seconds": null erstellen

    • Token sicher aufbewahren Instructions


Option 2: Persönliches Token (für Entwicklung)

  1. In Databricks zu User Settings > Developer Tools gehen

  2. Ein persönliches Zugriffstoken erzeugen

  3. Token sicher speichern

Instructions


Zugriff auf das Zielschema gewähren

Damit die DQC Platform Daten lesen kann, muss dem entsprechenden Nutzer oder Service Principal die Rolle Data Reader im gewünschten Schema zugewiesen werden.

Außerdem müssen für Databricks SQL Warehouse-Verbindungen temporäre In-Memory-Tabellen erstellt werden über:

GRANT CREATE VOLUME ON SCHEMA <schema> TO <service_principal>;

oder:

GRANT CREATE VOLUME ON CATALOG <catalog> TO <service_principal>; 

Berechtigungen im Unity Catalog auf Schema-Ebene vergeben

Databricks Unity Catalog Berechtigungsanforderungen

Warum benötigt DQC.ai die CREATE VOLUME-Berechtigung?

Bei der Verwendung von DQC.ai mit Databricks Unity Catalog benötigt Ihr technischer Service-User die CREATE VOLUME-Berechtigung. Dies ist eine rein technische Anforderung für die Abfrageausführung und stellt KEIN Sicherheitsrisiko für Ihre Daten dar.

Wofür diese Berechtigung verwendet wird

Ausschließlich für temporäres Abfrage-Staging

Die CREATE VOLUME-Berechtigung wird ausschließlich zum Erstellen temporärer Staging-Bereiche während der Abfrageausführung verwendet. So funktioniert es:

  1. Während der Abfrageausführung: Wenn DQC.ai Ihre Daten verarbeitet, muss der Connector Zwischenergebnisse und In-Memory-Datenstrukturen temporär bereitstellen

  2. Temporäre Volumes werden erstellt: Diese Volumes dienen als temporärer Scratch-Space für die Abfrageausführung - ähnlich wie temporäre Tabellen, aber für dateibasierte Operationen

  3. Automatische Bereinigung: Diese temporären Volumes werden nach Abschluss der Abfrageausführung automatisch bereinigt

Was diese Berechtigung NICHT tut

  • undefined Gewährt KEINEN Zugriff zum Lesen Ihrer bestehenden Daten

  • undefined Erlaubt KEINE permanenten Änderungen an Ihren Daten

  • undefined Gewährt KEINEN Zugriff auf andere Catalogs, Schemas oder Tabellen

  • undefined Umgeht NICHT Ihre bestehenden Datenzugriffskontrollen

Technischer Hintergrund

Warum nicht einfach Leseberechtigungen verwenden?

Sie fragen sich vielleicht: "Wenn DQC.ai nur Daten liest, warum benötigt es dann CREATE VOLUME?"

Der Databricks SQL Connector (im Gegensatz zu PySpark) kann Abfragen nicht direkt auf reinen In-Memory-Datenstrukturen ausführen. Wenn der DQC-Connector folgendes benötigt:

  • DataFrames oder Tabellen verarbeiten

  • Temporäre Lookup-Tabellen für Joins erstellen

  • Zwischenergebnisse bei komplexen Transformationen bereitstellen

...muss er diese Daten an einem Ort materialisieren, auf den Databricks Compute zugreifen kann. Unity Catalog Volumes sind der verwaltete Mechanismus für dieses dateibasierte Staging.


Statische IP-Adresse der DQC Platform freigeben

Stelle sicher, dass folgende IP-Adresse in der Netzwerkkonfiguration freigegeben ist:

3.123.94.228

undefined Hinweise

Verbindung zu Databricks | DQC