Dataform ist eine IDE (Integrated Development Environment), mit der Sie moderne Datenflüsse in Cloud-Data Warehouses wie Google BigQuery, Amazon Redshift oder Snowflake erstellen können. Die Verwaltung der Datentransformation und -integration in modernen Data Warehouses war mit Dataform noch nie so intuitiv, da „es Datenteams hilft, Datenpipelines aufzubauen, die Rohdaten in neue Tabellen und Ansichten umwandeln, die für Analysen verwendet werden können“.
Dataform wurde von zwei ehemaligen Googlern, Lewis Hemens und Guillaume-Henri Huon, gegründet, um die Verwaltung von Data Warehouses mithilfe von Dataform als Betriebssystem für das Data Warehouse zu modernisieren. Seit Dezember 2020 ist Dataform Teil von Google Cloud. Als Teil der Google Cloud Platform ist Dataform jetzt verfügbar für frei. Da sich Dataform bei GCP jedoch in der Vorschauphase befindet, gibt es einige Eigenschaften ist möglicherweise nicht verfügbar.
Dataform widmet sich der Transformation Teil der ELT-Prozesse (Extract, Load, Transform). Sein Hauptzweck besteht darin, „Daten zu transformieren, die bereits in Ihr Warehouse geladen sind“. Es ermöglicht Datenteams (Analysten, Ingenieure usw.), effektiver zusammenzuarbeiten, indem Git für die Versionskontrolle von Skripten verwendet wird.
Das obige Diagramm veranschaulicht die Positionierung von Dataform in einer Datentransformationskette. Dataform verwendet Best Practices aus der Welt der IT-Entwicklung.
Dataform erstellt ein einziges Verzeichnis für Ihre gesamte Datenverwaltung. Tatsächlich werden die Datendefinitionen in einem einzigen Verzeichnis gespeichert. In ähnlicher Weise synchronisiert es diese Informationen mit Git, um sie dem gesamten Team zugänglich zu machen. Dataform bringt die folgenden Best Practices der Softwareentwicklung in die Welt der Datenentwicklung.
Mit Dataform können Dateningenieure und Analysten alle Datentransformationsprozesse im Warehouse verwalten. Somit wird die Umwandlung von Rohdaten in Datensätze, die zur Analyse in BI-Tools bereit sind, besser lesbar.
Für die Entwicklung in Dataform wird eine Erweiterung von SQL verwendet, die als SQLX bekannt ist. Dataform behauptet, dass „SQLX SQL zusätzliche Funktionen bietet, um die Entwicklung schneller, zuverlässiger und skalierbarer zu machen“. Das folgende Diagramm zeigt die Beziehung zwischen Standard-SQL und SQLX.
Wie Dataform ist dbt ein Open-Source-Tool zur Datentransformation in Data Warehouses (Snowflake, Bigquery, Redshift, Postgres). Seine Verwendung basiert auf Modellen, die in der SQL-Sprache geschrieben wurden, um die Transformation zu definieren, wodurch sie für den Datenanalysten leicht zugänglich ist. Während der Ausführung werden die Modelle im Data Warehouse in Form von Tabellen oder Ansichten materialisiert. Ähnlich wie bei Dataform können Sie mit dbt Metadaten mit Modellen verknüpfen (Generierung der Dokumentation und Definition von Datenvalidierungstests).
Da Dataform jetzt Teil von GCP ist und direkt in die BigQuery-Plattform integriert ist, ist es eine überzeugende Wahl für Startups im GCP-Ökosystem. Dbt hingegen verfügt über ein riesiges Ökosystem, das im Hinblick auf die Kompatibilität zwischen Analysetools von Vorteil ist. Dataform und dbt verfügen über ein SaaS-Angebot, quasi eine Cloud-IDE + CI/CD, die sich ideal für die Entwicklung eignet.
Apache Airflow ist eine Open-Source-Workflow-Planungsplattform, die in der Datentechnik weit verbreitet ist. Sie ist entscheidend für die Architektur und Orchestrierung komplexer Datenpipelines. Obwohl einer der Vorteile von Airflow die Flexibilität ist, erfordert diese Flexibilität umfangreiche Programmierkenntnisse, um Ihre Datenpipeline zum Laufen zu bringen. Wenn Sie ein Start-up sind, können Sie sich für eine einfachere Option entscheiden. Mit Airflow stellen Datenmanagement, Abhängigkeiten und Wartungsaktivitäten manchmal eine Herausforderung dar. Dataform kümmert sich um all diese Probleme.
Viele Unternehmen, von Hightech-Startups bis hin zu großen Einzelhändlern, nutzen Dataform täglich, um ihre Daten effektiv zu verwalten. Dataform ist ein vielversprechendes Produkt, da es sich als Tool für die Zukunft positioniert, um die Transformation von Datenpipelines in der GCP zu beschleunigen.
Weitere Informationen zu den ersten Schritten mit Dataform in BigQuery finden Sie in der folgenden Dokumentation.
Folge uns auf LinkedIn für Einblicke in unsere tägliche Arbeit und wichtige Updates zu BigQuery, Data Studio und Marketing Analytics.
Abonniere unseren YouTube-Kanal für Diskussionen zu DWH, BigQuery, Looker Studio und Google Tag Manager.
Wenn Sie BigQuery von Grund auf lernen möchten, erhalten Sie Zugriff auf unsere kostenloser BigQuery-Kurs
Verbessern Sie Ihre Fähigkeiten mit Google Data Studio und BigQuery, indem Sie sich für unser Udemy-Kurs.
Benötigen Sie Hilfe bei der Einrichtung eines modernen, kostengünstigen Data Warehouse oder eines analytischen Dashboards? Senden Sie uns eine E-Mail an hello@datadice.io um einen Anruf zu vereinbaren.