Durch Anklicken „Akzeptieren“, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Seitennavigation zu verbessern, die Nutzung der Website zu analysieren und unsere Marketingaktivitäten zu unterstützen. Sehen Sie sich unsere an Datenschutzrichtlinie für weitere Informationen.
Sep 4, 2024
More

Generieren Sie Dummy-Daten mit Faker mit Python

Eine Anleitung zur Verwendung des Faker-Pakets in Python zum Auffüllen eines Dummy-Datensatzes.

Was sind Dummy-Daten?

Dummy-Daten sind fiktive Informationen, die generiert oder verwendet werden, um reale Daten in verschiedenen Kontexten wie Tests, Entwicklung und Training zu simulieren. Diese Art von Daten ist so konzipiert, dass sie die Merkmale und die Struktur von tatsächlichen Daten nachahmen, ohne aussagekräftige oder sensible Informationen zu enthalten. Dummy-Daten werden häufig verwendet, um:

  1. Software testen: Stellen Sie sicher, dass Anwendungen unter verschiedenen Bedingungen und Eingaben ordnungsgemäß funktionieren.
  2. Systeme entwickeln: Erleichtern Sie die Erstellung und das Debuggen von Programmen, indem Sie Beispieldaten für die Verarbeitung und Manipulation bereitstellen.
  3. Algorithmen trainieren: Dient als Input für Modelle des maschinellen Lernens während der Entwicklungsphase.
  4. Funktionen demonstrieren: Veranschaulichen Sie die Funktionen von Softwareprodukten, ohne echte Benutzerdaten preiszugeben.

Warum Dummy-Daten verwenden?

Fiktive Daten werden für eine Vielzahl von Zwecken benötigt. Ob zum Testen, zur Anonymisierung sensibler Daten oder zum Hinzufügen von „Rauschen“ zu einem Trainingsdatensatz, es kann von Vorteil sein, Zugriff auf einen gefälschten Datensatz in derselben Form wie die echten Daten zu haben. Möglicherweise müssen Sie auch Dummy-Daten für Test- und Betriebszwecke generieren. Das heißt, um zu testen, was Sie entwickelt haben und wie Ihr Code auf verschiedene Arten von Eingaben reagiert.

Es kann jedoch schwierig sein, die erforderlichen Daten in einem bestimmten Format zu finden, das wir möchten. Also, woher bekommen Sie Dummy-Daten für Ihre eigene Anwendung? Für dieses Problem gibt es eine elegante Lösung in Form des Faker-Pakets. Mit Python können Sie das Faker-Paket verwenden, um Daten entsprechend Ihren Datenanforderungen zu generieren. Faker ist eine Open-Source-Bibliothek, mit der verschiedene Arten synthetischer Daten generiert werden können.

Wie füllt man eine Datenbank mit Dummy-Daten?

In diesem Artikel geben wir einen kurzen Überblick über das Faker-Paket in Python und wie man es verwendet, um einen Dummy-Datensatz zu erstellen.

Die Faker-Bibliothek in Python ist ein beliebtes Tool zum Generieren gefälschter Daten für eine Vielzahl von Anwendungen, z. B. zum Testen, Entwickeln und Trainieren von Modellen für maschinelles Lernen. Es ermöglicht Benutzern, Dummy-Daten zu erstellen, die reale Daten auf flexible und anpassbare Weise nachahmen. Faker kann Daten in verschiedenen Formaten generieren, darunter Namen, Adressen, Daten, Text und mehr.

Zu den wichtigsten Funktionen der Faker-Bibliothek gehören:

  1. Vielseitige Datengenerierung: Faker kann eine Vielzahl von Datentypen generieren, darunter Namen, Adressen, Telefonnummern, E-Mail-Adressen, Berufsbezeichnungen, Firmennamen, Lorem-Ipsum-Texte, Daten, Uhrzeiten und sogar komplexe Datenstrukturen.
  2. Lokalisation: Faker unterstützt mehrere Gebietsschemas und ermöglicht die Generierung von Daten, die für verschiedene Länder und Regionen spezifisch sind. Dazu gehören lokalisierte Namen, Adressen und andere kulturell relevante Daten.
  3. Personalisierung: Benutzer können den Datengenerierungsprozess anpassen, indem sie ihre eigenen Anbieter erstellen oder bestehende an spezifische Bedürfnisse anpassen.
  4. Einfache Bedienung: Faker ist so konzipiert, dass es einfach zu bedienen ist und über eine intuitive API verfügt, die es einfach macht, Daten mit nur wenigen Codezeilen zu generieren.

Wie benutzt man die Faker-Bibliothek in Python

Installation und Verwendung

Faker ermöglicht es Ihnen, zufällige Daten in Dutzenden von Sprachen zu generieren. Da Faker eine offene Bibliothek für die Community ist, wird sie ständig weiterentwickelt. Anbieter — Generatoren, die für einen bestimmten Datentyp spezifisch sind — werden regelmäßig von der Community hinzugefügt. Schauen wir uns an, wie man es in Bezug auf Codes verwendet.

Die Installation kann über pip mit dem Befehl erfolgen:

pip installiere Faker

Mit den folgenden zwei Codezeilen können Sie Faker initialisieren. Während die erste Zeile den Generator (Class Faker) importiert, wird die zweite verwendet, um den Generator mit Englisch als Standardsprachenparameter zu initialisieren. Wenn Sie Faker in anderen Sprachen initialisieren möchten, müssen Sie den Sprachparameter angeben (z. B. Faker („de_DE“) für Deutsch).

von faker import Faker

falsch = Faker ()

Generieren von Fälschungen

Jetzt sind Sie bereit, alle gewünschten Daten zu generieren. Die generierten Daten werden als falsch bezeichnet. Wie der Name schon sagt, handelt es sich um gefälschte Daten, die zufällig generiert werden. Ihr Zweck besteht darin, als Ersatz oder Platzhalter für die tatsächlichen Daten zu dienen. Eine Fälschung wird generiert, wenn die dem Datentyp entsprechende Methode aufgerufen wird.

Die Methode name () kann verwendet werden, um einen vollständigen Namen zu erstellen. Lassen Sie uns in den Code springen und überprüfen, wie diese Methoden funktionieren.

für i im Bereich (5): # Gibt vollständige Namen zurück

drucken (falsch.name ())

>>>Samantha Fernandez

>>>Denise Barnes

>>>Jason Strong

>>>Edward Burton

>>>Tonya Rocha

Wenn Sie jedoch stattdessen den einzigen Vor- oder Nachnamen verwenden möchten, können Sie die Methoden first_name () und last_name () verwenden.

fake.first_name () # Gibt einen Vornamen zurück

>>>Samuel

Beachten Sie, dass bei jedem Aufruf dieser Methoden ein zufälliger Name generiert wird.

fake.last_name () # Gibt den Nachnamen zurück

>>>Espinoza

Um Adressen zu erstellen, können Sie die Adresse () verwenden.

fake.address () # Gibt eine Adresse zurück

>>>3066 Mary Hills Suite 873

>>>Lake Stevenport, NV 32423

Darüber hinaus gibt die Methode fake.sentence () eine Zeichenfolge zurück, die einen zufälligen Satz enthält, wohingegen faker.text () einen zufällig generierten Text zurückgibt.

fake.sentence () # Gibt einen zufälligen Satz zurück

>>>Niemals die Aufmerksamkeit der Mitarbeiter im Inneren durchqueren.

Wie unten zu sehen ist, generiert faker.text () einen zufälligen Absatz.

fake.text () # Gibt einen zufälligen Text zurück

>>>Aus dem Sendbett. Könnte das Land seine Rolle preisgeben. Typ, der das Problem betrifft, Bild, Wahl holen. Klar, der Kandidat für Memory Kitchen ist Fish Defense. Versuchen Sie es mit Paper Forward, um einen Gasmenschen zu bauen.

Nehmen wir an, Sie möchten eine Liste mit 5 E-Mail-Adressen generieren. Jedes Mal generiert der folgende Code 5 zufällige Namen.

für i in range (5): # generiert 5 zufällige E-Mails

drucken (fake.email ())

>>>garciaeric@example.com

>>>logan01@example.net

>>>contrerasaustin@example.org

>>>rpreston@example.org

>>>brandy16@example.net

Wenn die Daten jedoch größer werden, besteht die Möglichkeit, dass Sie dieselbe E-Mail-Adresse mehrmals erhalten. Um also mithilfe des Faker-Pakets eindeutige Dummy-Daten zu erstellen, können Sie die Eigenschaft .unique des Generators verwenden.

für i in range (10): # generiert 5 einzigartige zufällige E-Mails

drucken (fake.unique.email ())

>>>hughesbrian@example.org

>>>raymondchapman@example.org

>>>vicki25@example.com

>>>munozzachary@example.net

>>>karen44@example.org

Jedes Mal, wenn der obige Code ausgeführt wird, werden 5 eindeutige E-Mail-Adressen generiert. Dies ist sehr hilfreich, wenn Sie Daten wie IDs generieren, die nicht wiederholt werden müssen.

Faker hat auch eine Methode zum Generieren eines Dummy-Profils.

fake.profile () #Returns ein falsches Profil

>>> {'Adresse': '64992 Becky Stream Apt. 932\nRebeccaville, WV 34184',

>>>' Geburtsdatum ': datetime.date (2000, 3, 24),

>>>'blood_group': 'O-',

>>>'company': 'Lopez und Sons',

>>>'current_location': (Dezimal ('78,061493'), Dezimal ('-114.798399')),

>>>'job': 'Pharmakologe',

>>>'mail': 'rebeccahansen@yahoo.com',

>>>'name': 'Herbst Sanchez',

>>>' Wohnsitz ': '8702 Matthew Circles Apt. 938\nDickersonfurt, WA 82226',

>>>'Geschlecht': 'F',

>>>'ssn': '534—29—2074',

>>>'username': 'Benutzername',

>>>'Webseite': ['http://hawkins.com/','https://wolf.com/']}

Bisher haben wir gefälschte Generator-Eigenschaften wie name (), first_name (), last_name (), email () usw. verwendet. Es gibt auch viele solcher Eigenschaften, die in 'Providers' enthalten sind. Bei einigen handelt es sich um Standardanbieter, bei anderen handelt es sich um Anbieter, die von der Community entwickelt wurden.

Standardanbieter

Es gibt viele Standardanbieter wie Adresse, Währung, Kreditkarte, Date_Time, Internet, Geo, Person, Profil, Bank usw., die bei der Erstellung der entsprechenden Dummy-Daten helfen. Weitere Informationen zur vollständigen Liste der Standardanbieter und ihrer Eigenschaften finden Sie hier.

Schauen wir uns einige Beispiele von faker.providers.address an

für i im Bereich (5): # Gibt 5 Ländernamen zurück

drucken (fake.country ())

>>>Luxemburg

>>>Vietnam

>>>Tonga

>>>Mosambik

>>>Österreich

Sie können auch Ländercodes abrufen.

für i im Bereich (5): # Gibt 5 Ländercodes zurück

drucken (fake.country_code ())

>>>DE

>>>ODER

>>>MH

>>>HERR

>>>CL

Wie bereits erwähnt, ist die Standardsprache Englisch und das Standardland sind die Vereinigten Staaten.

fake.current_country () #Returns aktuelles Land

>>>Vereinigte Staaten

Wenn das Gebietsschema geändert wird, wird die Ausgabe von current_country (), current_country_code (), address () usw. wie folgt geändert:

Falsch = Falsch („de_DE“)

fake.current_country_code () #Returns aktuelle Landesvorwahl

>>>DE

Anbieter aus der Gemeinschaft

Es gibt viele Community-Anbieter wie Credit Score, Air Travel, Vehicle, Music usw. Sie können auch Ihren Anbieter erstellen und ihn dem Faker-Paket hinzufügen. Weitere Informationen zur vollständigen Liste der Community-Anbieter und ihrer Immobilien finden Sie hier.

Schauen wir uns einige Beispiele von Faker_Music an. Bevor Sie mit der Generierung gefälschter Musikdaten mithilfe von Community-Anbietern beginnen, müssen Sie das Paket mit pip installieren.

pip installiere faker_music

Und dann müssen Sie den Anbieter zu Ihrer Faker-Instanz hinzufügen:

von faker_music importiere MusicProvider

falsch = Faker ()

fake.add_provider (Musikanbieter)

Jetzt stellst du ein, gefälschte Musikdaten zu generieren:

für i in range (5): #Returns -Musikgenres

drucken (fake.music_genre ())

>>>Rock

>>>Welt

>>>Klassik

>>>Pop

>>>Gesang

Lokalisierte Anbieter

Sie können die lokalisierten Dummy-Daten erstellen, indem Sie das erforderliche Gebietsschema als Argument für den Dummy-Generator angeben. Es unterstützt auch mehrere Gebietsschemas. In diesem Fall müssen alle Gebietsschemas im Python-Listendatentyp bereitgestellt werden, wie im unten gezeigten Beispiel.

fake = Faker (['de_DE', 'fr_FR', 'ja_JP'])

für _ im Bereich (10):

drucken (falsch.name ())

>>>

>>>Lina Weinhold

>>>Dorothee Huhn

>>>Anika Henck-Hörle

>>>Ilonka Drubin MBA.

>>>Philomena Rohleder

>>>

>>>Jacques Dumont Le Perrin

>>>

>>>

Das Standardgebietsschema ist 'en_US', d. h. US-Englisch. Lassen Sie uns programmieren, um 5 Adressen in Deutschland zu erstellen.

fake=Faker („de_DE“) # Gibt deutsche Adressen zurück

für i im Bereich (3):

drucken (fake.address ())

>>>Rafael-Mende-Platz 04

>>>04196 Steinfurt

>>>Resi-Atzler-Allee 843

>>>96746 Coburg

>>>Scheibeplatz 5/1

>>>52115 Stollberg

fake=Faker („de_DE“) #Returns Deutsche Bundesländer

für i im Bereich (5):

drucken (fake.administrative_unit ())

>>>Bregenz

>>>Hessen

>>>Rheinland-Pfalz

>>>Nordrhein-Westfalen

>>>Bayern

Generieren eines Dummy-Datensatzes

Wir werden einen fiktiven Datensatz von 100 Personen mit Attributen wie ID, Name, E-Mail, Adresse, Geburtsdatum, Geburtsort usw. erstellen. Wir verwenden den Standardanbieter „Profile“, um diese Daten zu erstellen und Pandas Dataframes zu verwenden, um sie zu speichern.

#Import -Pakete

von faker import Faker

von faker_music importiere MusicProvider

importiere Pandas als PDF

#Declare Faker-Objekt

falsch = Faker ()

#Add Musikfälscher

fake.add_provider (Musikanbieter)

#Define -Funktion zum Generieren gefälschter Daten und zum Speichern in einer JSON-Datei

def generate_dummy_data (Datensätze):

Daten= {}

#Iterate die Schleife und generiere gefälschte Daten

für i im Bereich (0, Datensätze):

daten [i] = {}

daten [i] [„id“] = falsche.unique.random_number (8)

data [i] [„name“] = falsch.name ()

data [i] [„email_address“] = fake.unique.email ()

data [i] [„adresse“] = falsche.adresse ()

data [i] [„date_of_birth“] = falsche.date_between („-67y“, „-18y“)

data [i] [„Geburtsland“] = fake.country ()

data [i] [„member_since“] = fake.date_time_between („-2y“, „jetzt“)

Daten zurückgeben

#Call Die Funktion zum Generieren gefälschter Daten und zum Speichern in einer JSON-Datei

Fake_Daten = Dummy_Daten generieren (100)

# JSON in DataFrame konvertieren

fake_data = pd.DataFrame (gefälsche_Daten)

Fake_Daten = Gefälsche_Daten.

gefälschte_Daten

Bildschirmfoto 2022-08-18 um 20.25.09.png

Fazit

Faker ist eine Python-Bibliothek zur Generierung gefälschter Daten. Es kann in mehreren Fällen sehr praktisch sein. Es gibt mehrere Alternativen zu Faker, aber es bleibt die bekannteste Option in Python. Es ist beliebt, weil es der einfachste Weg ist, gefälschte Aufzeichnungen zu erstellen, die echt aussehen. Sie können es verwenden, um Schleifen von Dummy-Daten zu erstellen. Mit einfachen Schritten generiert es innerhalb von Sekunden eine große Anzahl von Daten.

Ich hoffe dir hat dieser Artikel gefallen. Wenn Sie Fragen haben, hinterlassen Sie unten einen Kommentar.