Google Cloud hat kürzlich eine neue Funktion zur Vereinfachung der Datenverwaltung eingeführt: BigQuery-Workflows. Dieses Orchestrierungstool ohne Code ist jetzt als Vorschau verfügbar und soll Datenteams dabei helfen, ihre Prozesse mit weniger Aufwand zu automatisieren. Ganz gleich, ob Sie reguläre Abfragen ausführen oder eine Pipeline von Aufgaben verwalten, BigQuery Workflows bieten eine einfache, visuelle Möglichkeit, Dinge zu erledigen.
In diesem Beitrag erläutern wir, was BigQuery Workflows sind, wie sie erstellt und verwendet werden, welche Vor- und Nachteile sie haben und wie sie zu Dataform, einem weiteren beliebten Orchestrierungstool, passen.
BigQuery Workflows ist eine Funktion in BigQuery von Google Cloud Plattform, die es Benutzern ermöglicht, Aufgaben wie das sequentielle Ausführen von SQL-Abfragen oder Notebooks zu automatisieren. Wenn Sie jemals Probleme damit hatten, Abfragen manuell zu planen oder das richtige Tool für die Verwaltung einer Datenpipeline zu finden, kommen BigQuery Workflows hier ins Spiel.
Das Tool bietet eine einfache Möglichkeit, Aufgaben zu planen, Abhängigkeiten zwischen ihnen zu handhaben und den Fortschritt zu überwachen — und das alles, ohne Code schreiben zu müssen. Sie können es verwenden, um sicherzustellen, dass Ihre SQL-Abfragen oder Notebooks jedes Mal pünktlich ausgeführt werden, ohne sich Gedanken darüber machen zu müssen, was zuerst kommt oder ob die Dinge abgeschlossen sind, bevor die nächste Aufgabe beginnt.
Das Erstellen eines Workflows in BigQuery ist auch für Benutzer ohne technische Kenntnisse einfach. Hier ist eine grundlegende Anleitung, die Ihnen den Einstieg erleichtert:
Sehen wir uns ein Beispiel an, wie BigQuery-Workflows verwendet werden können, um eine Abfolge von Aufgaben zu orchestrieren. Angenommen, Sie möchten Transaktionsdaten verarbeiten und dann maschinelles Lernen mit den aggregierten Ergebnissen durchführen, um das Kundenverhalten vorherzusagen. So könnten Sie einen Workflow einrichten, der SQL-Abfragen orchestriert, und ein Python-Notizbuch.
Erstellen Sie zunächst eine Tabelle, die Dummy-Transaktionsdaten enthält:
Dadurch entsteht ein Zusammenfassung des Kunden Tabelle, die die Gesamttransaktionen und den Umsatz jedes Kunden enthält.
Dieses Python-Notizbuch nimmt Zusammenfassung des Kunden Daten als Eingabe und verwendet ein lineares Regressionsmodell, um den Kundenumsatz auf der Grundlage der Anzahl der Transaktionen vorherzusagen. Die Ergebnisse werden im Cloud Storage-Bucket gespeichert, der an den Workflow gebunden ist.
Mithilfe von BigQuery-Workflows können Sie die folgenden Schritte nacheinander planen:
Diese Orchestrierung stellt sicher, dass Daten ohne manuelles Eingreifen effizient verarbeitet und analysiert werden. Sie können den Workflow nach einem Zeitplan (z. B. täglich oder wöchentlich) ausführen, um Ihre Prognosen kontinuierlich zu aktualisieren, sobald neue Transaktionen verarbeitet werden.
Im neuen Orchestrierungsmenü in BigQuery sehen Sie die Workflow-Ausführungen neben den Dataform-Ausführungen.
Dort kannst du auf die entsprechenden Workflows klicken, um dir die Details anzusehen und ob sie die letzten 5 Mal erfolgreich gelaufen sind.
So vielversprechend BigQuery Workflows auch sind, es gibt einige Einschränkungen:
BigQuery Workflows basiert auf Datenformular, ein Tool, das bereits von vielen Datenteams zur Verwaltung komplexer Datentransformationen verwendet wird. Dataform erfordert zwar Programmierkenntnisse und ist eher für fortgeschrittene Benutzer geeignet, BigQuery Workflows soll jedoch ein einfacheres, kein Code Option, die jeder nutzen kann.
Warum also zusätzlich zu Dataform BigQuery-Workflows einführen? Die Antwort liegt in der Barrierefreiheit. Dataform eignet sich hervorragend für komplexe Projekte, bei denen Teams die volle Kontrolle über ihre Datenpipelines und erweiterte Anpassungen benötigen. Allerdings benötigt nicht jedes Team diesen Grad an Komplexität. Für alltägliche Abläufe wie die Ausführung geplanter Abfragen oder die Orchestrierung grundlegender Aufgaben bietet BigQuery Workflows eine viel einfachere Lösung. Es bietet ein ausgewogenes Verhältnis zwischen Benutzerfreundlichkeit und Leistung und ist daher ideal für Unternehmen, die ein einfaches, visuelles Tool benötigen, aber dennoch Prozesse effizient automatisieren möchten.
In Zukunft besteht sogar die Möglichkeit, BigQuery-Workflows auf andere Arten von Assets auszudehnen oder sogar zu integrieren Komponist für komplexere Workflows.
BigQuery Workflows ist eine wertvolle Ergänzung der BigQuery-Plattform, insbesondere für Benutzer, die nach einer einfachen Möglichkeit suchen, ihre Datenpipelines zu verwalten und zu automatisieren. Mit seiner intuitiven Oberfläche, der integrierten Planung und der nahtlosen Integration mit BigQuery ist es ein einfach zu bedienendes Tool, das häufig auftretende Probleme bei der Datenorchestrierung behebt.
Ganz gleich, ob Sie ein Datenanalyst sind, der regelmäßige Berichte verwaltet, oder ein Ingenieur, der eine Pipeline für maschinelles Lernen automatisiert, mit BigQuery Workflows können Sie Ihre Abläufe mit weniger Aufwand optimieren. Da Google dieses Tool ständig weiterentwickelt, können wir erwarten, dass noch mehr Funktionen und Integrationen es noch leistungsfähiger machen werden.
Wenn Sie BigQuery bereits verwenden, ist jetzt ein guter Zeitpunkt, um diese neue Funktion zu erkunden und zu sehen, wie sie Ihre Datenprozesse vereinfachen kann.
Wenn dir dieser Blog gefallen hat, wirst du ihn auch lieben! Tauchen Sie ein in weitere fesselnde Inhalte:
Aktualisieren Sie Ihren ls-Befehl auf eza
Aktuelle Updates zu Google Data Analytics
Ihr KI-Begleiter in der Google Cloud
Erwecken Sie den Data Messenger durch die Integration von BigQuery mit Slack
Schauen Sie sich unsere an LinkedIn Konto, um Einblicke in unseren Arbeitsalltag zu erhalten und wichtige Updates zu BigQuery, Data Studio und Marketing Analytics zu erhalten.
Wir haben auch mit unserem eigenen YouTube-Kanal angefangen. Wir sprechen über wichtige DWH-, BigQuery-, Data Studio- und viele weitere Themen. Schauen Sie sich den Kanal an hier.
Wenn du mehr darüber erfahren möchtest, wie du Google Data Studio verwenden und es in Kombination mit BigQuery auf die nächste Stufe bringen kannst, sieh dir unseren Udemy-Kurs an. hier.
Wenn Sie Hilfe bei der Einrichtung eines modernen und kostengünstigen Data Warehouse oder eines analytischen Dashboards benötigen, senden Sie uns eine E-Mail an hello@datadice.io und wir vereinbaren einen Telefontermin.