In diesem BigQuery-Tutorial für Anfänger tauchen Sie in die Grundlagen von SQL ein und konzentrieren sich dabei auf die SELECT- und FROM-Anweisungen. Ausgehend von einem Überblick über BigQuery, einschließlich Projektstrukturen und Datensätzen, lernen Sie, wie Sie Daten mithilfe von SQL effektiv abfragen. Anhand praktischer Beispiele und Demonstrationen erfahren Sie, wie Sie bestimmte Daten aus Tabellen abrufen, SELECT DISTINCT für Einzelwerte verwenden und potenzielle Fallstricke wie die effiziente Verwendung von SELECT * umgehen. Am Ende dieses Tutorials verfügen Sie über eine solide Grundlage für SQL-Abfragen in der BigQuery-Umgebung.
Bevor wir uns mit SQL-Abfragen befassen, machen wir uns mit der Struktur von BigQuery vertraut. BigQuery organisiert Daten in Projekten, Datensätzen und Tabellen. Jedes Projekt kann mehrere Datensätze enthalten, und jeder Datensatz kann mehrere Tabellen enthalten. In unseren Tutorials konzentrieren wir uns hauptsächlich auf den Datensatz dwh_udemy_course und Große öffentliche Daten, das öffentlich zugängliche Daten enthält. Innerhalb des Datensatzes dwh_udemy_course untersuchen wir den Datensatz dwh_ecommerce, der Tabellen wie Bestellartikel-, Produkt- und Kundendaten umfasst. Und für den öffentlichen BigQuery-Datensatz verwenden wir San Francisco Bike Share Daten.
Schreiben wir unsere erste Anfrage. Die grundlegendste Abfrage, die Sie schreiben können, ist WÄHLEN SIE* AUS. Nehmen wir ein Beispiel aus den Bike Share-Daten. Die Aufteilung dieser Abfrage sieht wie folgt aus: Diese Anweisung wählt eine Spalte mit dem Namen „start_station_name“ aus der Tabelle bikeshare_trips aus, die sich innerhalb von bigquery-public-dataset innerhalb des San Francisco Bike Share-Datensatzes befindet.
Sobald Sie die Abfrage geschrieben haben, überprüfen Sie in der oberen rechten Ecke, ob ein grünes Häkchen ✅ vorhanden ist. Dies bedeutet, dass die Abfrage korrekt ist. Ein weiterer wichtiger Punkt, den Sie beachten sollten, ist, wie viele MB an Daten bei der Ausführung der Abfrage verarbeitet werden. Diese MB an Daten bestimmen die Kosten für die Ausführung der Abfrage. Weitere Informationen zu den Kosten der Abfrage finden Sie hier Verknüpfung.
SELECT start_station_name
FROM bigquery-public-data.san_francisco_bikeshare_trips
Wenn Sie die Abfrage ohne Verwendung der DISTINCT-Funktion ausführen, werden alle Zeilen im Ergebnis angezeigt, einschließlich Duplikate. Wenn beispielsweise mehrere Fahrten von derselben Station aus starten, wird jede Fahrt im Ergebnis als separate Zeile angezeigt.
Wenn wir jedoch die DISTINCT-Funktion verwenden, zeigt das Ergebnis nur eindeutige Zeilen. Doppelte Zeilen werden aus der Ergebnismenge entfernt. Wenn beispielsweise mehrere Fahrten von derselben Station aus starten, wird im Ergebnis nur eine Instanz dieser Station angezeigt, wodurch Redundanz vermieden und eine sauberere Ausgabe erzielt wird. Ein Beispiel, das beide Szenarien veranschaulicht, wurde in der Abbildung unten veranschaulicht.
SELECT DISTINCT start_sattion_name
FROM 'bigquery-public-data.san_francisco_bikeshare.bikeshare_trips'
Wenn Sie die SELECT * FROM-Anweisung ohne zusätzliche Funktionen verwenden, werden alle Spalten und Zeilen aus der angegebenen Tabelle im Abfrageergebnis abgerufen. Das bedeutet, dass alle Daten in der Tabelle angezeigt werden, einschließlich Duplikaten, falls vorhanden. „SELECT *“ entspricht „SELECT ALL“
SELECT *
FROM 'bigquery-public-data.san_francisco_bikeshare.bikeshare_trips'
Um die Klarheit und Konsistenz unserer Abfragen zu verbessern, können wir Spalten und Tabellen mithilfe von Aliasen umbenennen. Aliase bieten beschreibende Namen für Spalten und Tabellen, was das Verständnis von Abfrageergebnissen erleichtert, insbesondere wenn es sich um mehrere Tabellen und JOIN-Operationen handelt. Versuchen wir dieses Mal ein Beispiel mit einer anderen Tabelle - bikeshare_station_info.
SELECT name AS station_name
FROM 'bigquery-public-data.san_francisco_bikeshare_station_info'
Sie können die Anweisung auch ohne AS schreiben und sie funktioniert genauso.
SELECT name station_name
FROM 'bigquery-public-data.san_francisco_bikeshare_station_info'
In ähnlicher Weise können Sie auch Aliase für Tabellen hinzufügen. Zum Beispiel
SELECT name station_name
FROM 'bigquery-public-data.san_francisco_bikeshare_station_info' AS station
Zusammenfassend lässt sich sagen, dass das Beherrschen der SELECT * FROM-Anweisung für jeden, der mit SQL-Abfragen in BigQuery arbeitet, unerlässlich ist. Wenn Sie die Struktur von BigQuery verstehen, Schlüsselwörter wie DISTINCT verwenden und Abfragen im Hinblick auf Kosteneffizienz optimieren, können Sie effizient wertvolle Erkenntnisse aus Ihren Datensätzen gewinnen.
Darüber hinaus haben wir für visuelle Lernende ein umfassendes YouTube-Video zu diesem Thema. In dem Video zeigen wir auch Beispiele für Anweisungen aus dem Datensatz dwh_udemy_course und zeigen auf praktische Weise, wie Abfragen erstellt und ausgeführt werden. Wenn Sie daran interessiert sind, diese Abfragen in Aktion zu sehen, schauen Sie sich unsere YouTube-Video.
Darüber hinaus befassen wir uns im nächsten Kapitel ausführlich mit der WHERE-Anweisung und untersuchen, wie sie verwendet werden kann, um Daten zu filtern und Abfrageergebnisse zu verfeinern.
Springe zu Kapitel 2.