Durch Anklicken „Akzeptieren“, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Seitennavigation zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Sehen Sie sich unsere an Datenschutzrichtlinie für weitere Informationen.
Sep 4, 2024
More

9 einfache Schritte, um mit Dataform zu beginnen

So verbessern Sie Ihre BigQuery-ETLs. Von Fassil S. Yehuala

Das von Google übernommene Dataform bietet Datentransformationen für Cloud Data Warehouses (DWHs) wie BigQuery, Redshift und Snowflake. Im Gegensatz zu herkömmlichem ETL ist Dataform eine Plattform für die Verwaltung von Daten im ELT-Format, bei der Daten aus der Quelle extrahiert, dem DWH hinzugefügt und dann transformiert werden. Bei datadice verwenden wir Dataform, um Daten in BigQuery zu verwalten, bevor wir sie in Looker Studio, unserer führenden Datenvisualisierungslösung, und Power BI verwenden.

In meinem vorheriger Beitrag, ich habe einleitende Anmerkungen zu Dataform geschrieben. In diesem Beitrag werde ich mich jedoch auf die Verwendung von Dataform in BigQuery von GCP konzentrieren und Ihnen Schritt für Schritt Anweisungen für den Einstieg in das Tool geben. Um den Anweisungen zu folgen, müssen Sie sich bei Ihrem GCP-Konto anmelden. Um mit Ihren Teamkollegen an einem Datentransformationsprojekt zusammenzuarbeiten, benötigen Sie möglicherweise ein Git-Repository.

Lass uns anfangen!

1. Einrichtung

Vor der Arbeit an Datenformular, müssen Sie die Dataform- und BigQuery-APIs aktivieren.

Um Ihr erstes Repository zu erstellen, gehen Sie zur Datenformular-Seite und klicken Sie auf Repositorium erstellen. Dann auf das Create repository Seite, gib deinem Repository einen Namen, wähle eine Region aus und klicke dann auf Erstellen.

Um Workflows in GCP auszuführen, müssen Sie Gewähren Sie dem Servicekonto von Dataform Zugriff auf BigQuery. Je nach Projekt können Sie eine der folgenden Rollen auswählen: BigQuery-Dateneditor (sowohl lesen als auch schreiben), BigQuery-Datenbetrachter (schreibgeschützt) und BigQuery-Job-Benutzer (hostet Ihr Dataform-Repository).

Klicken Erledigt führt Sie zu einem leeren Repository.

Geben Sie das ein Workspace-ID und klicken Sie Erstellen.

Wenn die Seite mit dem Entwicklungsarbeitsbereich angezeigt wird, klicken Sie auf Workspace initialisieren.

2. Datenquellen erstellen oder deklarieren

In Dataform ist es möglich, Ansichten mit SQLX zu erstellen, einer Open-Source-Erweiterung, die SQL zusätzliche Funktionen bietet. SQLX macht die Entwicklung schneller, skalierbarer und zuverlässiger — mit modularen statt langen Abfragen. Es ermöglicht Funktionen wie Datendokumentation, automatisierte Qualitätsprüfungen und Abhängigkeitsmanagement.

Um unser Projekt zu organisieren, erstellen wir die folgenden Unterordner: Quellen, Staging und Reporting.

Klicken Sie dazu auf die drei Punkte neben Definitionen und wählen Sie Verzeichnis erstellen.

2.1 Tabellen/Ansichten erstellen

Lassen Sie uns nun Tabellen oder Ansichten als Datenquellen von Grund auf neu erstellen. Klicken Sie dazu auf die drei Punkte neben dem Verzeichnis „Quellen“ und klicken Sie auf Datei erstellen. Und dann erstellen Sie zwei Ansichten mit den Namen bestellungen.sqlx, und Benutzer.sqlx. Schreiben Sie dann Ihre Codes wie unten gezeigt in jede Datei.

Gut gemacht! Sie haben Ihre erste Tabelle mit Dataform erstellt.

2.2 Datenquellen deklarieren

Wenn sich die Daten bereits in BigQuery befinden, können Sie stattdessen Quellen deklarieren (wie unten gezeigt). Beachten Sie, dass es sich dabei um Tabellen vom Typ Deklaration handelt. Um die Hauptmerkmale der Deklaration in BigQuery zu konfigurieren, können Sie Konfiguration {} wie im Beispiel unten gezeigt.

3. Staging: Erstellen Sie Zwischenansichten und Tabellen

Sie können das verwenden $ {ref ()} Funktion, um auf die in Ihrem Dataform-Projekt definierten Tabellen und Ansichten zu verweisen. Darüber hinaus ist es möglich, einen Abhängigkeitsbaum aller Tabellen zu erstellen, um sicherzustellen, dass die Verarbeitung in der richtigen Reihenfolge erfolgt. Sie können Syntaxen wie verwenden $ {ref („Bestellungen“)} wie im Beispiel unten. Es ist auch möglich, die Hauptmerkmale der View-Implementierung in BigQuery über Konfiguration {} im Code-Header.

Klicken Sie auf die drei Punkte neben Staging und erstellen Sie die beiden .sqlx-Dateien:

4. Erstellen Sie die Berichtstabelle

Erstellen Sie nun die sales_by_user.sql Datei im Reporting-Unterordner. Bei dieser Transformation werden sowohl die Benutzer als auch die Bestellungen in derselben Tabelle zusammengefasst. Die resultierende Tabelle enthält beispielsweise Spalten für den Namen, die E-Mail-Adresse, die Benutzer-ID und den Umsatz der Bestellung des Benutzers.

5. Test der Datenqualität

Mit Dataform können Sie Datenqualitätsprüfungen mithilfe der folgenden integrierten Funktionen durchführen.

  • Einzigartiger Schlüssel: stellt sicher, dass es nur eine Zeile pro Wert der angegebenen Spalte (n) gibt;
  • Nicht Null: bestätigt, dass die Felder nicht Null sind;
  • Zeilenbedingungen: Verwendet einen benutzerdefinierten SQL-Ausdruck. Wenn dieser Ausdruck für eine Zeile FALSCH ist, schlägt die Prüfung fehl.

Sie können Ihre Assertions auch mit SQLX schreiben. SQLX ist ein leistungsstarkes Tool zum einfachen Schreiben und Verwalten von Assertionen zu Ihren Daten. Im Hintergrund schreibt Dataform eine Abfrage, um Zeilen zu identifizieren, die gegen die von Ihnen angegebenen Regeln verstoßen. Wenn die Abfrage Zeilen zurückgibt, schlägt die Assertion fehl. Anhand dieser Informationen können Teams darauf vertrauen, dass ihre Daten zuverlässig und genau sind, sodass sie fundierte Entscheidungen treffen und bessere Ergebnisse erzielen können.

6. Dokumentieren Sie Ihre Daten

Sie können Ihre Daten in Dataform dokumentieren, indem Sie im Konfigurationsblock der SQLX-Dateien Beschreibungen von Tabellen und Spalten hinzufügen.

7. Kompilierte Grafiken

Sobald Sie SQLX-Dateien erstellt haben, generiert Dataform automatisch ein kompiliertes Diagramm. Dieses Diagramm zeigt die Daten aus allen Quellen an einem Ort und ermöglicht so einen einfachen Vergleich und eine einfache Analyse. Es zeigt einen Abhängigkeitsbaum und die Beziehungen zwischen verschiedenen Datensätzen. Dies hilft, Datendiskrepanzen zu identifizieren. Es kann auch Einblicke in die Daten geben, die sonst möglicherweise schwer zu identifizieren sind.

8. Führen Sie Ihr Projekt aus

Jobs in Dataform können sowohl manuell als auch automatisch ausgeführt werden. Bei der manuellen Ausführung können Sie das gesamte Projekt, eine Tag-Auswahl oder eine Auswahl von Aktionen ausführen, wobei Sie die Option haben, Nichtabhängigkeiten und abhängige Objekte einzubeziehen. Darüber hinaus können Sie den Job mit einer „vollständigen“ Aktualisierung ausführen, bei der inkrementelle Datensätze nach Bedarf gelöscht und neu erstellt werden. Es hat sich bewährt, Stichwörter zur Verwaltung Ihrer Zeitpläne zu verwenden.

Nach der Hinrichtung wurde user_by_sales Die Tabelle wird in BigQuery erstellt/aktualisiert.

Im Prinzip können Sie den Ausführungsprozess automatisieren. Im Gegensatz zur älteren Version ist die automatische Ausführung in Dataform derzeit nicht direkt in BigQuery verfügbar. In jedem Fall können Sie geplante Ausführungen über Workflows und Cloud Scheduler ausführen.

Ab März 2023 ist es möglich, eine Vorschau Ihrer Abfragen in Ihrem Workspace anzuzeigen. Dies ist eine wertvolle Ergänzung, da sie dir hilft, die Ergebnisse deiner Abfragen zu sehen. Auf diese Weise können Sie Fehler in Ihrer Abfrage schnell identifizieren und sie entsprechend überarbeiten. Es gibt Ihnen auch die Möglichkeit, Ihre Abfrage vor der Ausführung zu optimieren und so Ihre Leistung zu verbessern.

9. Integration mit GitHub

Wie bereits erwähnt, bietet Dataform Datenteams viele Vorteile, da es die Best Practices der Softwareentwicklung einbringt. Mit Dataform ist es dank der Verbindung zu Entwicklungsumgebungen wie GitHub möglich, kontinuierliche Integrationspraktiken durchzuführen. Da Dataform verschiedene Branches anbietet, gibt es Möglichkeiten, isolierte Läufe durchzuführen, ohne dass sich dies auf Tabellen oder Datensätze in anderen Teams oder Umgebungen auswirkt.

Sobald Sie sich angemeldet und Ihr Git-Repository eingerichtet haben, können Sie Dataform verwenden, um Ihre Daten zu transformieren. Von dort aus können Sie Ihre Datentransformationen durchführen, die Ergebnisse analysieren und mit Ihren Teamkollegen zusammenarbeiten. Schließlich können Sie die Erkenntnisse mit Ihren Stakeholdern teilen und Feedback einholen. Nachdem Sie Ihr Datentransformationsprojekt abgeschlossen haben, können Sie dasselbe Git-Repository verwenden, um Ihren Code zu speichern und die Ergebnisse mit Ihren Teamkollegen zu teilen. Dadurch wird es einfacher, auf das Projekt zuzugreifen und es zu überprüfen und alle Beteiligten auf dem Laufenden zu halten.

10. Fazit

Es ist unbedingt zu beachten, dass Dataform kein ETL-Tool im herkömmlichen Sinne ist, sondern ein Tool zur Datentransformation. Kurz gesagt, es ist das „T“ im ELT-Format. Mithilfe dieses Tools kann das gesamte Team zusammenarbeiten, um eine einzige Datenquelle innerhalb des Unternehmens aufzubauen. Auf diese Weise können Daten ordnungsgemäß standardisiert und organisiert werden, wodurch saubere Datensätze erstellt werden, die effektiv für Analysen und datengestützte Entscheidungen verwendet werden können. Darüber hinaus vereinfacht Dataform die Verwaltung der Datenpipeline des Unternehmens und reduziert deren Komplexität.

Dataform gehört jetzt zur Google Cloud Platform. Mit der Integration in GCP ist Dataform jetzt zugänglicher denn je. Auf diese Weise können Benutzer mit den übrigen Google Cloud Platform-Diensten auf die Datentransformationsfunktionen von Dataform zugreifen. Es bietet Benutzern auch die Möglichkeit, ihre Daten schnell und einfach zu analysieren, zu transformieren und zu visualisieren.

Alles in allem können Sie mit Dataform Ihre Datenpipelines einfach verwalten und bereitstellen, benutzerdefinierte Abfragen erstellen und Datenjobs automatisieren — und das alles bequem von Ihrem GCP-Konto aus.

Weitere Informationen zu den ersten Schritten mit Dataform in BigQuery finden Sie in der folgenden Dokumentation.

Weitere Links

Der Artikel ist der zweite Teil der Serie Erstellen einer Datenpipeline mit Dataform in BigQuery von Datenurteil. In diesem Beitrag wurde Dataform vorgestellt, eine integrierte Entwicklungsumgebung für Ihr Datenteam.

Folge uns auf LinkedIn für Einblicke in unsere tägliche Arbeit und wichtige Updates zu BigQuery, Data Studio und Marketing Analytics.

Abonniere unseren YouTube-Kanal für Diskussionen zu DWH, BigQuery, Looker Studio und Google Tag Manager.

Wenn Sie BigQuery von Grund auf lernen möchten, erhalten Sie Zugriff auf unsere kostenloser BigQuery-Kurs

Verbessern Sie Ihre Fähigkeiten mit Google Data Studio und BigQuery, indem Sie sich für unser Udemy-Kurs.

Benötigen Sie Hilfe bei der Einrichtung eines modernen, kostengünstigen Data Warehouse oder eines analytischen Dashboards? Senden Sie uns eine E-Mail an hello@datadice.io um einen Anruf zu vereinbaren.