Mozilla Common Voice 23: 149 neue Sprachen und Spontane Sprache
-
Sören Hentzschel -
24. November 2025 um 07:10 -
1 Mal gelesen -
0 Antworten
Mit Common Voice stellt Mozilla den weltweit größten öffentlichen Datensatz menschlicher Stimmen bereit – kostenlos und für jeden nutzbar. Mozilla hat Version 23 seines Datensatzes veröffentlicht. Mit 149 neuen Sprachen werden jetzt mehr als doppelt so viele Sprachen unterstützt. Außerdem gibt es ab sofort zusätzliche Datensätze für spontane Sprache.
Der Markt für Spracherkennung wird von den ganz großen Namen kommerzieller Anbieter dominiert: Amazon, Apple, Google, Microsoft. Darum hat Mozilla im Jahr 2017 das Projekt Common Voice gestartet. Mit Common Voice bietet Mozilla eine kostenlose Alternative an, zu der jeder beitragen kann und die jedem zur Verfügung steht. Damit möchte Mozilla Innovation und Wettbewerb in der Sprachtechnologie auf Basis von Maschinenlernen fördern.
149 zusätzliche Sprachen
Mozilla Common Voice war bereits der vielfältigste mehrsprachige Sprachkorpus der Welt. Der nun veröffentlichte Datensatz Common Voice 23 bringt sage und schreibe Unterstützung für 149 neue Sprachen. Damit wurde die Anzahl mehr als verdoppelt. Common Voice unterstützt jetzt 286 Sprachen.
Insgesamt bringt die neue Version 2.105 Stunden zusätzliche Sprachdaten, was zu einer neuen Gesamtzahl von 35.921 Stunden führt. Der deutschsprachige Datensatz ist von 1.476 Stunden auf 1.484 Stunden gewachsen. In Summe waren 20.355 Menschen am deutschsprachigen Datensatz beteiligt.
Spontane Sprache
Parallel zu den bestehenden Datensätzen für geschriebene Sprache, bei denen vordefinierte Sätze vorgelesen werden, baut Mozilla mittlerweile auch Datensätze für sogenannte spontane Sprache auf, um die Stimme auf natürlichere Weise einzubringen. Dabei werden Fragen in eigenen Worten beantwortet und anschließend transkribiert.
Common Voice 23 bringt die ersten Datensätze hierfür und beinhaltet 357 Stunden spontaner Sprache, verteilt auf 51 Sprachen. Speziell der deutschsprachige Datensatz beinhaltet 48 Clips mit einer Gesamtlänge von einer Stunde, beigetragen von zwei Personen.
Zum Download der Mozilla Common Voice Datensätze
Zu Mozilla Common Voice beitragen
Der Beitrag Mozilla Common Voice 23: 149 neue Sprachen und Spontane Sprache erschien zuerst auf soeren-hentzschel.at.