In der letzten Blog auf dem Y42 In der Serie haben wir Datenintegrationen in Y42 behandelt. In die Rohdaten sind alle Arten von Informationen eingebettet. Es ist wichtig, eine Vielzahl relevanter Spalten und Zeilen zu haben, aber zu viele unnötige Daten können zu Unordnung und Verwirrung führen.
Wenn die Aufgabe beispielsweise darin besteht, den Zusammenhang zwischen dem ausgegebenen Geld und den von einem Online-Shop generierten Einnahmen zu ermitteln, ist es keine kluge Entscheidung, sich die Lieferadresse des Kunden anzusehen. Ja, es enthält Informationen darüber, wo sich die Produkte am meisten verkaufen, aber das ist bereits ein anderes Thema. Das Hauptziel der Datenbereinigung sollte darin bestehen, sich nur auf den erforderlichen Datensatz zu konzentrieren. Schauen wir uns nun einige der Funktionen von Y42 an, wenn es um die Datentransformation geht.
Bei datadice lieben wir die F1-Rennen sehr. Jedes Jahr versuchen wir zu erraten, welcher Fahrer die Runden in der kürzesten Zeit beenden würde, die 5 besten Spieler und das beste Team. Da wir ein datengetriebenes Unternehmen sind, haben wir alle relevanten Daten für jedes Rennen gesammelt. Ich möchte ein Dashboard erstellen, in dem die von jedem Mitarbeiter gesammelten Punkte überprüft werden, um sie richtig zu erraten. Ich habe die Daten bereits in Y42 integriert. Müssen Sie Ihr Gedächtnis darüber auffrischen, wie Sie Daten in Y42 importieren können? Klick auf mich.
Die gesamte Datenbereinigung und -verarbeitung erfolgt im Abschnitt „Modell“. Erstellen Sie zunächst ein neues Modell, indem Sie in der rechten oberen Ecke auf die Schaltfläche „Hinzufügen...“ klicken und in diesem Fall „UI-Modell“ auswählen. Das „SQL-Modell“ wird später in der Serie behandelt. Halten Sie also Ausschau nach kommenden Blogs. Konzentrieren wir uns vorerst auf das UI-Modell. Geben Sie ihm einen Namen wie „f1_2022“ und klicken Sie auf die Schaltfläche „Erstellen“.
Eine leere Leinwand wird erstellt. Hier werden Datenpipelines mit einer einfachen Drag-and-Drop-Funktion entworfen. Auf der linken Seite sind verschiedene Transformationswerkzeuge in drei verschiedene Themen unterteilt, nämlich Tabellenmanipulation, Spaltenmanipulation und Zeilenmanipulation.
Der erste Schritt beim Erstellen von Pipelines beginnt damit, die importierten Daten auf die Arbeitsfläche zu bringen. Unter Tabellenmanipulation gibt es einen Knoten namens „Input“. Entweder indem Sie darauf klicken oder ihn per Drag-and-Drop auf die Arbeitsfläche ziehen, fügen Sie dem Modell den Knoten „Input“ hinzu. Wenn Sie auf den Knoten klicken, haben Sie die Möglichkeit, die Daten auszuwählen, die importiert werden müssen. Da das erste Formel-1-Rennen in Bahrain stattfand, importiere ich AllData-Bahrain.
Nachdem Sie die Daten ausgewählt haben, wird auf der rechten Seite eine Vorschau angezeigt. Dies ist eine praktische Funktion in Y42, um einen schnellen Überblick über die von Ihnen verwendeten Daten zu erhalten. Klicken Sie nun unten auf die Schaltfläche „Speichern“.
Schauen wir uns einige Knoten zur Spaltenmanipulation an. Wie ich bereits erklärt habe, ist es ratsam, nur die Spalten auszuwählen, die für das Endergebnis unerlässlich sind. Um die überflüssigen Spalten herauszufiltern, klicken Sie auf den Knoten „Felder“ und ziehen Sie ihn in die Arbeitsfläche.
Positionieren Sie es vor dem Eingabeknoten. Y42 wird versuchen, die Knoten automatisch zu verbinden, dies kann aber auch manuell erfolgen.
Die Farbe des Felderknotens wird rot angezeigt, was bedeutet, dass etwas nicht stimmt. In unserem Fall ist der Knoten noch nicht gespeichert. Um dies zu tun, klicken Sie auf den Knoten Felder und es werden alle in der Tabelle vorhandenen Spalten angezeigt. Für eine bessere Verwaltung der Knoten wird empfohlen, jedem Knoten in der linken oberen Ecke einen Titel zu geben.
Wenn Sie unten im Knoten auf „Eingabe“ klicken, werden die Daten angezeigt, die in den Knoten eingefügt wurden. Wenn Sie auf „Output“ klicken, werden die transformierten Daten angezeigt.
Wenn wir uns die Daten im Vorschaufenster auf der rechten Seite ansehen, wurden die Spaltennamen beim Import der Daten automatisch generiert. Aber wie Sie sehen können, scheint die letzte Zeile der Tabelle die richtigen Spaltennamen zu enthalten. Benennen wir also zuerst die Spaltennamen um und löschen dann die letzte Zeile.
Auf der linken Seite werden verschiedene Spalten angezeigt. Wenn Sie unter Geänderte ID auf ein Feld doppelklicken, können Sie das Feld umbenennen. Auf ähnliche Weise kann auch der neue Anzeigename geändert werden. Nach dem Umbenennen der Zeilen wechselt die Farbe zu Gelb, was darauf hinweist, dass der Benutzer einige Änderungen am Spaltennamen oder Datentyp vorgenommen hat.
Der Unterschied zwischen ID und Anzeigename besteht darin, dass diese ID für alle weiteren Prozesse des Datenworkflows verwendet wird, wohingegen der Anzeigename, wie der Name schon sagt, nur zur Anzeige dient. Wenn Sie einige Änderungen in der Spalte vornehmen, wird der ID-Name immer berücksichtigt. Ich habe Änderungen an den Namen der Spalten vorgenommen, wie in der Abbildung unten gezeigt.
Einige andere Unterschiede zwischen ID und Anzeigename sind, dass die ID keine Großbuchstaben, Leerzeichen oder Sonderzeichen enthalten darf, wohingegen für den Anzeigenamen alles erlaubt ist. Daher wird empfohlen, das Unterstrichsymbol (_) zu verwenden, wenn die ID mehr als ein Wort enthält.
Eine weitere wichtige Funktion von Y42 bei der Verwendung des Felder-Knotens ist, dass die Datentypen bereits angezeigt werden. In der Spalte Typ ist es möglich, den Datentyp zu ändern. Wenn es Spalten gibt, die nur Zahlen enthalten, kann der Datentyp als Zahl konvertiert werden, oder wenn die Spalte nur boolesche Werte enthält (TRUE oder FALSE). Es gibt auch eine Option für boolesche Datentypen. Beachten Sie, dass, wenn die Spalten, die Daten enthalten, im Textformat vorliegen, das hier nicht direkt geändert werden kann. Es ist jedoch bereits ein Knoten zur Datumsanalyse eingebaut, den wir im Laufe der Zeit behandeln werden.
Das Filtern von Spalten ist so einfach wie das Klicken. Da die vorletzte Spalte nicht benötigt wird, müssen Sie nur das Kästchen unter der Spalte anzeigen deaktivieren und BUMM! Es ist ausgeschlossen. So einfach ist das.
Wenn das Umbenennen und Filtern abgeschlossen ist, klicken Sie erneut auf Ausgabe. Auf der rechten Seite wird angezeigt, wie die Daten nach all den Änderungen aussehen. Wenn Sie das erwartete Ergebnis sehen, klicken Sie auf Speichern und Sie kehren zur Leinwand zurück.
Ich werde diese Sitzung vorerst hier beenden, aber in den kommenden Posts werde ich und mein Freund Debbi wird komplexere Pipelines bauen und weitere Knoten hinzufügen, um unsere Daten zu verfeinern. Am Ende werden wir ein Dashboard erstellen und schauen, wer die meisten Punkte hat, wenn er das Rennen richtig erraten hat.
Folge uns auf LinkedIn für Einblicke in unsere tägliche Arbeit und wichtige Updates zu BigQuery, Data Studio und Marketing Analytics.
Abonniere unseren YouTube-Kanal für Diskussionen zu DWH, BigQuery, Looker Studio und Google Tag Manager.
Wenn Sie BigQuery von Grund auf lernen möchten, erhalten Sie Zugriff auf unsere kostenloser BigQuery-Kurs
Verbessern Sie Ihre Fähigkeiten mit Google Data Studio und BigQuery, indem Sie sich für unser Udemy-Kurs.
Benötigen Sie Hilfe bei der Einrichtung eines modernen, kostengünstigen Data Warehouse oder eines analytischen Dashboards? Senden Sie uns eine E-Mail an hello@datadice.io um einen Anruf zu vereinbaren.