Durch Anklicken „Akzeptieren“, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Seitennavigation zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Sehen Sie sich unsere an Datenschutzrichtlinie für weitere Informationen.

Einführung in BigQuery-Workflows

Eine neue Ära der Datenorchestrierung. Von Fassil S. Yehuala

Google Cloud hat kürzlich eine neue Funktion zur Vereinfachung der Datenverwaltung eingeführt: BigQuery-Workflows. Dieses Orchestrierungstool ohne Code ist jetzt als Vorschau verfügbar und soll Datenteams dabei helfen, ihre Prozesse mit weniger Aufwand zu automatisieren. Ganz gleich, ob Sie reguläre Abfragen ausführen oder eine Pipeline von Aufgaben verwalten, BigQuery Workflows bieten eine einfache, visuelle Möglichkeit, Dinge zu erledigen.

In diesem Beitrag erläutern wir, was BigQuery Workflows sind, wie sie erstellt und verwendet werden, welche Vor- und Nachteile sie haben und wie sie zu Dataform, einem weiteren beliebten Orchestrierungstool, passen.

Was sind BigQuery-Workflows?

BigQuery Workflows ist eine Funktion in BigQuery von Google Cloud Plattform, die es Benutzern ermöglicht, Aufgaben wie das sequentielle Ausführen von SQL-Abfragen oder Notebooks zu automatisieren. Wenn Sie jemals Probleme damit hatten, Abfragen manuell zu planen oder das richtige Tool für die Verwaltung einer Datenpipeline zu finden, kommen BigQuery Workflows hier ins Spiel.

Das Tool bietet eine einfache Möglichkeit, Aufgaben zu planen, Abhängigkeiten zwischen ihnen zu handhaben und den Fortschritt zu überwachen — und das alles, ohne Code schreiben zu müssen. Sie können es verwenden, um sicherzustellen, dass Ihre SQL-Abfragen oder Notebooks jedes Mal pünktlich ausgeführt werden, ohne sich Gedanken darüber machen zu müssen, was zuerst kommt oder ob die Dinge abgeschlossen sind, bevor die nächste Aufgabe beginnt.

So erstellen Sie Workflows in BigQuery

Das Erstellen eines Workflows in BigQuery ist auch für Benutzer ohne technische Kenntnisse einfach. Hier ist eine grundlegende Anleitung, die Ihnen den Einstieg erleichtert:

  1. Gehe zu BigQuery: Rufen Sie die BigQuery-Oberfläche in der Google Cloud Console auf. Wählen Sie im Editor-Bereich die Option „Workflow“ aus dem Dropdownmenü aus.
  1. Konfiguriere deinen Arbeitsablauf: Benennen Sie Ihren Arbeitsablauf, wählen Sie einen Dataform-Dienstkonto um es auszuführen und die Region auszuwählen, in der es verarbeitet werden soll.
  1. Aufgaben hinzufügen: Sie können dem Workflow SQL-Abfragen oder Notizbücher hinzufügen. Jede Aufgabe kann von anderen abhängen, sodass Sie eine Ausführungsreihenfolge definieren können. Beispielsweise könnte eine Aufgabe Daten bereinigen und die nächste könnte diese Daten in ein maschinelles Lernmodell laden.
  1. Bereitstellen und Planen: Sobald Ihr Workflow eingerichtet ist, können Sie ihn bereitstellen und so planen, dass er automatisch in beliebigen Intervallen ausgeführt wird — täglich, wöchentlich oder in einer anderen für Sie geeigneten Häufigkeit.
  1. Überwachen und anpassen: Nach der Bereitstellung können Sie Ihre Aufgaben von der BigQuery-Konsole aus überwachen. Wenn etwas schief geht, z. B. ein Berechtigungsproblem, wird dies in den Protokollen angezeigt, sodass die Fehlerbehebung vereinfacht wird.

Beispiel: Orchestrierung eines einfachen Workflows in BigQuery

Sehen wir uns ein Beispiel an, wie BigQuery-Workflows verwendet werden können, um eine Abfolge von Aufgaben zu orchestrieren. Angenommen, Sie möchten Transaktionsdaten verarbeiten und dann maschinelles Lernen mit den aggregierten Ergebnissen durchführen, um das Kundenverhalten vorherzusagen. So könnten Sie einen Workflow einrichten, der SQL-Abfragen orchestriert, und ein Python-Notizbuch.

Aufgabe 1: Transaktionsdaten mit SQL erstellen und aggregieren

Erstellen Sie zunächst eine Tabelle, die Dummy-Transaktionsdaten enthält:

Aufgabe 2: Aggregieren Sie die Daten nach Kunden

Dadurch entsteht ein Zusammenfassung des Kunden Tabelle, die die Gesamttransaktionen und den Umsatz jedes Kunden enthält.

Aufgabe 3: Ein Machine-Learning-Modell in einem Python-Notebook ausführen

Dieses Python-Notizbuch nimmt Zusammenfassung des Kunden Daten als Eingabe und verwendet ein lineares Regressionsmodell, um den Kundenumsatz auf der Grundlage der Anzahl der Transaktionen vorherzusagen. Die Ergebnisse werden im Cloud Storage-Bucket gespeichert, der an den Workflow gebunden ist.

Mithilfe von BigQuery-Workflows können Sie die folgenden Schritte nacheinander planen:

  1. SQL-Abfrage: Erstellen und aggregieren Sie zunächst die Transaktionsdaten.
  2. Python-Notizbuch: Nachdem die SQL-Aufgaben abgeschlossen sind, führen Sie das Notebook aus, um Vorhersagen für maschinelles Lernen durchzuführen.

Diese Orchestrierung stellt sicher, dass Daten ohne manuelles Eingreifen effizient verarbeitet und analysiert werden. Sie können den Workflow nach einem Zeitplan (z. B. täglich oder wöchentlich) ausführen, um Ihre Prognosen kontinuierlich zu aktualisieren, sobald neue Transaktionen verarbeitet werden.

Beobachten Sie die Workflows in der Orchestrierung

Im neuen Orchestrierungsmenü in BigQuery sehen Sie die Workflow-Ausführungen neben den Dataform-Ausführungen.

Dort kannst du auf die entsprechenden Workflows klicken, um dir die Details anzusehen und ob sie die letzten 5 Mal erfolgreich gelaufen sind.

Die Vorteile von BigQuery-Workflows

  1. Visuelle Oberfläche: Einer der größten Vorteile von BigQuery Workflows ist die visuelle Oberfläche. Anstatt sich mit Code zu beschäftigen, können Sie Ihre Datenpipelines verwalten, indem Sie Aufgaben per Drag-and-Drop verschieben. Das ist besonders hilfreich, um die Abhängigkeiten zwischen Aufgaben auf einen Blick zu erkennen.
  2. Keine Zeitpläne mehr erraten: Bisher mussten Sie möglicherweise abschätzen, wie lange eine Abfrage dauern würde, bevor Sie die nächste planen konnten. Mit BigQuery-Workflows können Sie Abhängigkeiten zwischen Aufgaben festlegen, sodass eine Aufgabe erst ausgeführt wird, nachdem die vorherige Aufgabe abgeschlossen ist. Dadurch wird sichergestellt, dass alles reibungslos und ohne Verzögerungen abläuft.
  3. Integrierte Terminplanung: Die von Dataform betriebene Planungs-Engine übernimmt das Timing von Aufgaben automatisch. Egal, ob Sie eine einzelne Abfrage ausführen oder eine mehrstufige Pipeline orchestrieren, alles wird in der richtigen Reihenfolge und pünktlich ausgeführt.
  4. Zentralisierte Überwachung: Workflows verfügen über integrierte Protokolle zur Verfolgung des Fortschritts. Sie können Aufgaben ganz einfach überwachen, Fehler beheben und sogar die Ausgabe Ihrer Notizbücher in einsehen Cloud-Speicher.
  5. Kosteneffektiv: BigQuery Workflows kosten keine zusätzlichen Kosten. Sie zahlen nur für die üblichen Rechen- und Speicherkosten von BigQuery. Das macht BigQuery zu einer kostengünstigen Ergänzung Ihres Daten-Toolsets.

Die Nachteile von BigQuery-Workflows

So vielversprechend BigQuery Workflows auch sind, es gibt einige Einschränkungen:

  • Nur neue Vermögenswerte: Sie können keine vorhandenen Abfragen oder Notizbücher in einen Workflow importieren. Jede Aufgabe muss innerhalb der Workflow-Oberfläche von Grund auf neu erstellt werden.
  • Keine Workflow-Freigabe: Im Gegensatz zu anderen Tools können Sie einen bestimmten Workflow nicht einfach mit anderen Benutzern teilen. Nur diejenigen mit Datenformular-Administrator Die Rolle kann auf Workflows zugreifen und diese ändern, was die Zusammenarbeit in größeren Teams verlangsamen kann.
  • Feste Region: Wenn Sie einen Workflow erstellen, müssen Sie eine Verarbeitungsregion auswählen. Diese Auswahl ist dauerhaft. Wenn sich Ihre Datenspeicheranforderungen ändern, müssen Sie einen neuen Workflow von Grund auf neu erstellen.
  • Keine Codeversionierung: Es gibt kein Repository, das den Code des Workflows speichert, was dazu führt, dass kein zentraler Ort für die Implementierung und keine fortschrittlichen Speichermechanismen wie Commits und kein Rückgängigmachen von Änderungen vorhanden sind.
  • Vorschaumodus: Da es sich um eine Vorschaufunktion handelt, sind einige Bugs oder Einschränkungen beim Support zu erwarten. Dies bedeutet auch, dass zukünftige Funktionen wahrscheinlich erweitert werden, aber das aktuelle Tool fühlt sich im Vergleich zu ausgereiften Alternativen wie Composer möglicherweise eingeschränkt an.

Wie lassen sich BigQuery-Workflows mit Dataform vergleichen?

BigQuery Workflows basiert auf Datenformular, ein Tool, das bereits von vielen Datenteams zur Verwaltung komplexer Datentransformationen verwendet wird. Dataform erfordert zwar Programmierkenntnisse und ist eher für fortgeschrittene Benutzer geeignet, BigQuery Workflows soll jedoch ein einfacheres, kein Code Option, die jeder nutzen kann.

Warum also zusätzlich zu Dataform BigQuery-Workflows einführen? Die Antwort liegt in der Barrierefreiheit. Dataform eignet sich hervorragend für komplexe Projekte, bei denen Teams die volle Kontrolle über ihre Datenpipelines und erweiterte Anpassungen benötigen. Allerdings benötigt nicht jedes Team diesen Grad an Komplexität. Für alltägliche Abläufe wie die Ausführung geplanter Abfragen oder die Orchestrierung grundlegender Aufgaben bietet BigQuery Workflows eine viel einfachere Lösung. Es bietet ein ausgewogenes Verhältnis zwischen Benutzerfreundlichkeit und Leistung und ist daher ideal für Unternehmen, die ein einfaches, visuelles Tool benötigen, aber dennoch Prozesse effizient automatisieren möchten.

In Zukunft besteht sogar die Möglichkeit, BigQuery-Workflows auf andere Arten von Assets auszudehnen oder sogar zu integrieren Komponist für komplexere Workflows.

Fazit

BigQuery Workflows ist eine wertvolle Ergänzung der BigQuery-Plattform, insbesondere für Benutzer, die nach einer einfachen Möglichkeit suchen, ihre Datenpipelines zu verwalten und zu automatisieren. Mit seiner intuitiven Oberfläche, der integrierten Planung und der nahtlosen Integration mit BigQuery ist es ein einfach zu bedienendes Tool, das häufig auftretende Probleme bei der Datenorchestrierung behebt.

Ganz gleich, ob Sie ein Datenanalyst sind, der regelmäßige Berichte verwaltet, oder ein Ingenieur, der eine Pipeline für maschinelles Lernen automatisiert, mit BigQuery Workflows können Sie Ihre Abläufe mit weniger Aufwand optimieren. Da Google dieses Tool ständig weiterentwickelt, können wir erwarten, dass noch mehr Funktionen und Integrationen es noch leistungsfähiger machen werden.

Wenn Sie BigQuery bereits verwenden, ist jetzt ein guter Zeitpunkt, um diese neue Funktion zu erkunden und zu sehen, wie sie Ihre Datenprozesse vereinfachen kann.

Mehr zum Lesen

Wenn dir dieser Blog gefallen hat, wirst du ihn auch lieben! Tauchen Sie ein in weitere fesselnde Inhalte:

Aktualisieren Sie Ihren ls-Befehl auf eza

Aktuelle Updates zu Google Data Analytics

Ihr KI-Begleiter in der Google Cloud

Erwecken Sie den Data Messenger durch die Integration von BigQuery mit Slack

Weitere Links

Schauen Sie sich unsere an LinkedIn Konto, um Einblicke in unseren Arbeitsalltag zu erhalten und wichtige Updates zu BigQuery, Data Studio und Marketing Analytics zu erhalten.

Wir haben auch mit unserem eigenen YouTube-Kanal angefangen. Wir sprechen über wichtige DWH-, BigQuery-, Data Studio- und viele weitere Themen. Schauen Sie sich den Kanal an hier.

Wenn du mehr darüber erfahren möchtest, wie du Google Data Studio verwenden und es in Kombination mit BigQuery auf die nächste Stufe bringen kannst, sieh dir unseren Udemy-Kurs an. hier.

Wenn Sie Hilfe bei der Einrichtung eines modernen und kostengünstigen Data Warehouse oder eines analytischen Dashboards benötigen, senden Sie uns eine E-Mail an hello@datadice.io und wir vereinbaren einen Telefontermin.