Durch Anklicken „Akzeptieren“, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Seitennavigation zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Sehen Sie sich unsere an Datenschutzrichtlinie für weitere Informationen.
Sep 4, 2024
More

Erstellen einer Datenpipeline mit Dataform in BigQuery (Teil 1)

Was ist Dataform und wie funktioniert es? Von Fassil S. Yehuala

Dataform ist eine IDE (Integrated Development Environment), mit der Sie moderne Datenflüsse in Cloud-Data Warehouses wie Google BigQuery, Amazon Redshift oder Snowflake erstellen können. Die Verwaltung der Datentransformation und -integration in modernen Data Warehouses war mit Dataform noch nie so intuitiv, da „es Datenteams hilft, Datenpipelines aufzubauen, die Rohdaten in neue Tabellen und Ansichten umwandeln, die für Analysen verwendet werden können“.

Dataform wurde von zwei ehemaligen Googlern, Lewis Hemens und Guillaume-Henri Huon, gegründet, um die Verwaltung von Data Warehouses mithilfe von Dataform als Betriebssystem für das Data Warehouse zu modernisieren. Seit Dezember 2020 ist Dataform Teil von Google Cloud. Als Teil der Google Cloud Platform ist Dataform jetzt verfügbar für frei. Da sich Dataform bei GCP jedoch in der Vorschauphase befindet, gibt es einige Eigenschaften ist möglicherweise nicht verfügbar.

Dataform widmet sich der Transformation Teil der ELT-Prozesse (Extract, Load, Transform). Sein Hauptzweck besteht darin, „Daten zu transformieren, die bereits in Ihr Warehouse geladen sind“. Es ermöglicht Datenteams (Analysten, Ingenieure usw.), effektiver zusammenzuarbeiten, indem Git für die Versionskontrolle von Skripten verwendet wird.

Quelle: https://dataform.co

Das obige Diagramm veranschaulicht die Positionierung von Dataform in einer Datentransformationskette. Dataform verwendet Best Practices aus der Welt der IT-Entwicklung.

Was kann Dataform tun?

Dataform erstellt ein einziges Verzeichnis für Ihre gesamte Datenverwaltung. Tatsächlich werden die Datendefinitionen in einem einzigen Verzeichnis gespeichert. In ähnlicher Weise synchronisiert es diese Informationen mit Git, um sie dem gesamten Team zugänglich zu machen. Dataform bringt die folgenden Best Practices der Softwareentwicklung in die Welt der Datenentwicklung.

  • Versionskontrolle: Die Dataform IDE ist in Git integriert. Dadurch können Benutzer von ihren Filialen aus arbeiten. Somit ist es möglich, die Änderungen direkt zu veröffentlichen oder sie einem Überprüfungscode zu unterziehen.
  • Automatisierung von Datenqualitätstests: Mit Dataform können Sie Qualitätstests für alle Ihre Daten definieren und anwenden. In ähnlicher Weise ermöglichen automatische Benachrichtigungen, potenzielle Fehler so früh wie möglich zu erkennen.
  • Sichere Bereitstellungen. Dataform hilft Ihnen bei der Anwendung von Sandboxing, Entwicklungsumgebungen und CI/CD, um neue Änderungen sicher zu integrieren.

Wo liegt Dataform in der Datenpipeline?

Quelle: https://dataform.co

Mit Dataform können Dateningenieure und Analysten alle Datentransformationsprozesse im Warehouse verwalten. Somit wird die Umwandlung von Rohdaten in Datensätze, die zur Analyse in BI-Tools bereit sind, besser lesbar.

Wie funktioniert Dataform?

Für die Entwicklung in Dataform wird eine Erweiterung von SQL verwendet, die als SQLX bekannt ist. Dataform behauptet, dass „SQLX SQL zusätzliche Funktionen bietet, um die Entwicklung schneller, zuverlässiger und skalierbarer zu machen“. Das folgende Diagramm zeigt die Beziehung zwischen Standard-SQL und SQLX.

Quelle: https://dataform.co

Wie schneidet Dataform im Vergleich zu anderen ähnlichen Tools ab?

Dataform im Vergleich zu dbt (Tool zur Datenerstellung)

Wie Dataform ist dbt ein Open-Source-Tool zur Datentransformation in Data Warehouses (Snowflake, Bigquery, Redshift, Postgres). Seine Verwendung basiert auf Modellen, die in der SQL-Sprache geschrieben wurden, um die Transformation zu definieren, wodurch sie für den Datenanalysten leicht zugänglich ist. Während der Ausführung werden die Modelle im Data Warehouse in Form von Tabellen oder Ansichten materialisiert. Ähnlich wie bei Dataform können Sie mit dbt Metadaten mit Modellen verknüpfen (Generierung der Dokumentation und Definition von Datenvalidierungstests).

Da Dataform jetzt Teil von GCP ist und direkt in die BigQuery-Plattform integriert ist, ist es eine überzeugende Wahl für Startups im GCP-Ökosystem. Dbt hingegen verfügt über ein riesiges Ökosystem, das im Hinblick auf die Kompatibilität zwischen Analysetools von Vorteil ist. Dataform und dbt verfügen über ein SaaS-Angebot, quasi eine Cloud-IDE + CI/CD, die sich ideal für die Entwicklung eignet.

Datenformular vs. Apache Airflow

Apache Airflow ist eine Open-Source-Workflow-Planungsplattform, die in der Datentechnik weit verbreitet ist. Sie ist entscheidend für die Architektur und Orchestrierung komplexer Datenpipelines. Obwohl einer der Vorteile von Airflow die Flexibilität ist, erfordert diese Flexibilität umfangreiche Programmierkenntnisse, um Ihre Datenpipeline zum Laufen zu bringen. Wenn Sie ein Start-up sind, können Sie sich für eine einfachere Option entscheiden. Mit Airflow stellen Datenmanagement, Abhängigkeiten und Wartungsaktivitäten manchmal eine Herausforderung dar. Dataform kümmert sich um all diese Probleme.

Fazit

Viele Unternehmen, von Hightech-Startups bis hin zu großen Einzelhändlern, nutzen Dataform täglich, um ihre Daten effektiv zu verwalten. Dataform ist ein vielversprechendes Produkt, da es sich als Tool für die Zukunft positioniert, um die Transformation von Datenpipelines in der GCP zu beschleunigen.

Weitere Informationen zu den ersten Schritten mit Dataform in BigQuery finden Sie in der folgenden Dokumentation.

Weitere Links

Folge uns auf LinkedIn für Einblicke in unsere tägliche Arbeit und wichtige Updates zu BigQuery, Data Studio und Marketing Analytics.

Abonniere unseren YouTube-Kanal für Diskussionen zu DWH, BigQuery, Looker Studio und Google Tag Manager.

Wenn Sie BigQuery von Grund auf lernen möchten, erhalten Sie Zugriff auf unsere kostenloser BigQuery-Kurs

Verbessern Sie Ihre Fähigkeiten mit Google Data Studio und BigQuery, indem Sie sich für unser Udemy-Kurs.

Benötigen Sie Hilfe bei der Einrichtung eines modernen, kostengünstigen Data Warehouse oder eines analytischen Dashboards? Senden Sie uns eine E-Mail an hello@datadice.io um einen Anruf zu vereinbaren.