Dummy-Daten sind fiktive Informationen, die generiert oder verwendet werden, um reale Daten in verschiedenen Kontexten wie Tests, Entwicklung und Training zu simulieren. Diese Art von Daten ist so konzipiert, dass sie die Merkmale und die Struktur von tatsächlichen Daten nachahmen, ohne aussagekräftige oder sensible Informationen zu enthalten. Dummy-Daten werden häufig verwendet, um:
Fiktive Daten werden für eine Vielzahl von Zwecken benötigt. Ob zum Testen, zur Anonymisierung sensibler Daten oder zum Hinzufügen von „Rauschen“ zu einem Trainingsdatensatz, es kann von Vorteil sein, Zugriff auf einen gefälschten Datensatz in derselben Form wie die echten Daten zu haben. Möglicherweise müssen Sie auch Dummy-Daten für Test- und Betriebszwecke generieren. Das heißt, um zu testen, was Sie entwickelt haben und wie Ihr Code auf verschiedene Arten von Eingaben reagiert.
Es kann jedoch schwierig sein, die erforderlichen Daten in einem bestimmten Format zu finden, das wir möchten. Also, woher bekommen Sie Dummy-Daten für Ihre eigene Anwendung? Für dieses Problem gibt es eine elegante Lösung in Form des Faker-Pakets. Mit Python können Sie das Faker-Paket verwenden, um Daten entsprechend Ihren Datenanforderungen zu generieren. Faker ist eine Open-Source-Bibliothek, mit der verschiedene Arten synthetischer Daten generiert werden können.
In diesem Artikel geben wir einen kurzen Überblick über das Faker-Paket in Python und wie man es verwendet, um einen Dummy-Datensatz zu erstellen.
Die Faker-Bibliothek in Python ist ein beliebtes Tool zum Generieren gefälschter Daten für eine Vielzahl von Anwendungen, z. B. zum Testen, Entwickeln und Trainieren von Modellen für maschinelles Lernen. Es ermöglicht Benutzern, Dummy-Daten zu erstellen, die reale Daten auf flexible und anpassbare Weise nachahmen. Faker kann Daten in verschiedenen Formaten generieren, darunter Namen, Adressen, Daten, Text und mehr.
Zu den wichtigsten Funktionen der Faker-Bibliothek gehören:
Faker ermöglicht es Ihnen, zufällige Daten in Dutzenden von Sprachen zu generieren. Da Faker eine offene Bibliothek für die Community ist, wird sie ständig weiterentwickelt. Anbieter — Generatoren, die für einen bestimmten Datentyp spezifisch sind — werden regelmäßig von der Community hinzugefügt. Schauen wir uns an, wie man es in Bezug auf Codes verwendet.
Die Installation kann über pip mit dem Befehl erfolgen:
pip installiere Faker
Mit den folgenden zwei Codezeilen können Sie Faker initialisieren. Während die erste Zeile den Generator (Class Faker) importiert, wird die zweite verwendet, um den Generator mit Englisch als Standardsprachenparameter zu initialisieren. Wenn Sie Faker in anderen Sprachen initialisieren möchten, müssen Sie den Sprachparameter angeben (z. B. Faker („de_DE“) für Deutsch).
von faker import Faker
falsch = Faker ()
Jetzt sind Sie bereit, alle gewünschten Daten zu generieren. Die generierten Daten werden als falsch bezeichnet. Wie der Name schon sagt, handelt es sich um gefälschte Daten, die zufällig generiert werden. Ihr Zweck besteht darin, als Ersatz oder Platzhalter für die tatsächlichen Daten zu dienen. Eine Fälschung wird generiert, wenn die dem Datentyp entsprechende Methode aufgerufen wird.
Die Methode name () kann verwendet werden, um einen vollständigen Namen zu erstellen. Lassen Sie uns in den Code springen und überprüfen, wie diese Methoden funktionieren.
für i im Bereich (5): # Gibt vollständige Namen zurück
drucken (falsch.name ())
>>>Samantha Fernandez
>>>Denise Barnes
>>>Jason Strong
>>>Edward Burton
>>>Tonya Rocha
Wenn Sie jedoch stattdessen den einzigen Vor- oder Nachnamen verwenden möchten, können Sie die Methoden first_name () und last_name () verwenden.
fake.first_name () # Gibt einen Vornamen zurück
>>>Samuel
Beachten Sie, dass bei jedem Aufruf dieser Methoden ein zufälliger Name generiert wird.
fake.last_name () # Gibt den Nachnamen zurück
>>>Espinoza
Um Adressen zu erstellen, können Sie die Adresse () verwenden.
fake.address () # Gibt eine Adresse zurück
>>>3066 Mary Hills Suite 873
>>>Lake Stevenport, NV 32423
Darüber hinaus gibt die Methode fake.sentence () eine Zeichenfolge zurück, die einen zufälligen Satz enthält, wohingegen faker.text () einen zufällig generierten Text zurückgibt.
fake.sentence () # Gibt einen zufälligen Satz zurück
>>>Niemals die Aufmerksamkeit der Mitarbeiter im Inneren durchqueren.
Wie unten zu sehen ist, generiert faker.text () einen zufälligen Absatz.
f
ake.text () # Gibt einen zufälligen Text zurück
>>>Aus dem Sendbett. Könnte das Land seine Rolle preisgeben. Typ, der das Problem betrifft, Bild, Wahl holen. Klar, der Kandidat für Memory Kitchen ist Fish Defense. Versuchen Sie es mit Paper Forward, um einen Gasmenschen zu bauen.
Nehmen wir an, Sie möchten eine Liste mit 5 E-Mail-Adressen generieren. Jedes Mal generiert der folgende Code 5 zufällige Namen.
für i in range (5): # generiert 5 zufällige E-Mails
drucken (fake.email ())
>>>
contrerasaustin@example.org
Wenn die Daten jedoch größer werden, besteht die Möglichkeit, dass Sie dieselbe E-Mail-Adresse mehrmals erhalten. Um also mithilfe des Faker-Pakets eindeutige Dummy-Daten zu erstellen, können Sie die Eigenschaft .unique des Generators verwenden.
für i in range (10): # generiert 5 einzigartige zufällige E-Mails
drucken (fake.unique.email ())
Jedes Mal, wenn der obige Code ausgeführt wird, werden 5 eindeutige E-Mail-Adressen generiert. Dies ist sehr hilfreich, wenn Sie Daten wie IDs generieren, die nicht wiederholt werden müssen.
Faker hat auch eine Methode zum Generieren eines Dummy-Profils.
fake.profile () #Returns ein falsches Profil
>>> {'Adresse': '64992 Becky Stream Apt. 932\nRebeccaville, WV 34184',
>>>' Geburtsdatum ': datetime.date (2000, 3, 24),
>>>'blood_group': 'O-',
>>>'company': 'Lopez und Sons',
>>>'current_location': (Dezimal ('78,061493'), Dezimal ('-114.798399')),
>>>'job': 'Pharmakologe',
>>>'mail': '
rebeccahansen@yahoo.com
',
>>>'name': 'Herbst Sanchez',
>>>' Wohnsitz ': '8702 Matthew Circles Apt. 938\nDickersonfurt, WA 82226',
>>>'Geschlecht': 'F',
>>>'ssn': '534—29—2074',
>>>'username': 'Benutzername',
>>>'Webseite': ['
http://hawkins.com/
','
https://wolf.com/
']}
Bisher haben wir gefälschte Generator-Eigenschaften wie name (), first_name (), last_name (), email () usw. verwendet. Es gibt auch viele solcher Eigenschaften, die in 'Providers' enthalten sind. Bei einigen handelt es sich um Standardanbieter, bei anderen handelt es sich um Anbieter, die von der Community entwickelt wurden.
Es gibt viele Standardanbieter wie Adresse, Währung, Kreditkarte, Date_Time, Internet, Geo, Person, Profil, Bank usw., die bei der Erstellung der entsprechenden Dummy-Daten helfen. Weitere Informationen zur vollständigen Liste der Standardanbieter und ihrer Eigenschaften finden Sie hier.
Schauen wir uns einige Beispiele von faker.providers.address an
für i im Bereich (5): # Gibt 5 Ländernamen zurück
drucken (fake.country ())
>>>Luxemburg
>>>Vietnam
>>>Tonga
>>>Mosambik
>>>Österreich
Sie können auch Ländercodes abrufen.
für i im Bereich (5): # Gibt 5 Ländercodes zurück
drucken (fake.country_code ())
>>>DE
>>>ODER
>>>MH
>>>HERR
>>>CL
Wie bereits erwähnt, ist die Standardsprache Englisch und das Standardland sind die Vereinigten Staaten.
fake.current_country () #Returns aktuelles Land
>>>Vereinigte Staaten
Wenn das Gebietsschema geändert wird, wird die Ausgabe von current_country (), current_country_code (), address () usw. wie folgt geändert:
Falsch = Falsch („de_DE“)
fake.current_country_code () #Returns aktuelle Landesvorwahl
>>>DE
Es gibt viele Community-Anbieter wie Credit Score, Air Travel, Vehicle, Music usw. Sie können auch Ihren Anbieter erstellen und ihn dem Faker-Paket hinzufügen. Weitere Informationen zur vollständigen Liste der Community-Anbieter und ihrer Immobilien finden Sie hier.
Schauen wir uns einige Beispiele von Faker_Music an. Bevor Sie mit der Generierung gefälschter Musikdaten mithilfe von Community-Anbietern beginnen, müssen Sie das Paket mit pip installieren.
pip installiere faker_music
Und dann müssen Sie den Anbieter zu Ihrer Faker-Instanz hinzufügen:
von faker_music importiere MusicProvider
falsch = Faker ()
fake.add_provider (Musikanbieter)
Jetzt stellst du ein, gefälschte Musikdaten zu generieren:
für i in range (5): #Returns -Musikgenres
drucken (fake.music_genre ())
>>>Rock
>>>Welt
>>>Klassik
>>>Pop
>>>Gesang
Sie können die lokalisierten Dummy-Daten erstellen, indem Sie das erforderliche Gebietsschema als Argument für den Dummy-Generator angeben. Es unterstützt auch mehrere Gebietsschemas. In diesem Fall müssen alle Gebietsschemas im Python-Listendatentyp bereitgestellt werden, wie im unten gezeigten Beispiel.
fake = Faker (['de_DE', 'fr_FR', 'ja_JP'])
für _ im Bereich (10):
drucken (falsch.name ())
>>>
>>>Lina Weinhold
>>>Dorothee Huhn
>>>Anika Henck-Hörle
>>>Ilonka Drubin MBA.
>>>Philomena Rohleder
>>>
>>>Jacques Dumont Le Perrin
>>>
>>>
Das Standardgebietsschema ist 'en_US', d. h. US-Englisch. Lassen Sie uns programmieren, um 5 Adressen in Deutschland zu erstellen.
fake=Faker („de_DE“) # Gibt deutsche Adressen zurück
für i im Bereich (3):
drucken (fake.address ())
>>>Rafael-Mende-Platz 04
>>>04196 Steinfurt
>>>Resi-Atzler-Allee 843
>>>96746 Coburg
>>>Scheibeplatz 5/1
>>>52115 Stollberg
fake=Faker („de_DE“) #Returns Deutsche Bundesländer
für i im Bereich (5):
drucken (fake.administrative_unit ())
>>>Bregenz
>>>Hessen
>>>Rheinland-Pfalz
>>>Nordrhein-Westfalen
>>>Bayern
Wir werden einen fiktiven Datensatz von 100 Personen mit Attributen wie ID, Name, E-Mail, Adresse, Geburtsdatum, Geburtsort usw. erstellen. Wir verwenden den Standardanbieter „Profile“, um diese Daten zu erstellen und Pandas Dataframes zu verwenden, um sie zu speichern.
#Import -Pakete
von faker import Faker
von faker_music importiere MusicProvider
importiere Pandas als PDF
#Declare Faker-Objekt
falsch = Faker ()
#Add Musikfälscher
fake.add_provider (Musikanbieter)
#Define -Funktion zum Generieren gefälschter Daten und zum Speichern in einer JSON-Datei
def generate_dummy_data (Datensätze):
Daten= {}
#Iterate die Schleife und generiere gefälschte Daten
für i im Bereich (0, Datensätze):
daten [i] = {}
daten [i] [„id“] = falsche.unique.random_number (8)
data [i] [„name“] = falsch.name ()
data [i] [„email_address“] = fake.unique.email ()
data [i] [„adresse“] = falsche.adresse ()
data [i] [„date_of_birth“] = falsche.date_between („-67y“, „-18y“)
data [i] [„Geburtsland“] = fake.country ()
data [i] [„member_since“] = fake.date_time_between („-2y“, „jetzt“)
Daten zurückgeben
#Call Die Funktion zum Generieren gefälschter Daten und zum Speichern in einer JSON-Datei
Fake_Daten = Dummy_Daten generieren (100)
# JSON in DataFrame konvertieren
fake_data = pd.DataFrame (gefälsche_Daten)
Fake_Daten = Gefälsche_Daten.
gefälschte_Daten
Faker ist eine Python-Bibliothek zur Generierung gefälschter Daten. Es kann in mehreren Fällen sehr praktisch sein. Es gibt mehrere Alternativen zu Faker, aber es bleibt die bekannteste Option in Python. Es ist beliebt, weil es der einfachste Weg ist, gefälschte Aufzeichnungen zu erstellen, die echt aussehen. Sie können es verwenden, um Schleifen von Dummy-Daten zu erstellen. Mit einfachen Schritten generiert es innerhalb von Sekunden eine große Anzahl von Daten.
Ich hoffe dir hat dieser Artikel gefallen. Wenn Sie Fragen haben, hinterlassen Sie unten einen Kommentar.