Spracherkennung – Wie du Geschichten mit deiner Stimme schreibst.

Diesen Beitrag teilen

Wer träumt nicht davon, einfach und bequem da zu sitzen und die Geschichte, welche man im Kopf hat, jemandem zu diktieren? Doch leider hat vermutlich keiner von uns genug Geld um jemanden für diesen Dienst zu bezahlen, denn Diktat schreiben ist nicht unbedingt einfach und erfordert ein hohes Maß an können im Umgang mit der Tastatur oder eine Kurzschrift, wie Gerichtsprotokollanten sie nutzen.

Am Markt gibt es einige Auswahl an Software, welche es jemandem ermöglicht, seinen gesprochenen Text auf digitale Seiten zu übertragen. Allerdings kosten diese Programme meist auch gutes Geld. In diesem Beitrag möchte ich dir kostenlose Alternativen vorstellen.

Mit wenig Aufwand kann man bereits in Windows 10 die Spracherkennung nutzen. Auch Apple bietet integrierte Spracherkennung an. Einzig Nutzer von Linux haben Probleme ihre Texte per Sprachanweisung zu schreiben. Eine wirklich gute Alternative, die unabhängig vom Betriebssystem genutzt werden kann, stelle ich auch vor.

Inhaltsverzeichnis

Voraussetzungen für das Diktieren

Um seinen Text diktieren zu können, braucht man natürlich ein Mikrofon. Ohne kann kein Programm, egal wie gut, deinen gesprochenen Text in digitale Buchstaben überführen.

Für meinen Test habe ich das FAME Studio CM2 (Mikrofon) in Verbindung mit einem XENIX 302 USB (Input Mixer & USB/Audio Interface) verwendet. Zusammen ergibt das ein ganz gutes Setup, welches man auch gut zum voll quatschen von Menschen auf YouTube oder Podcasts nutzen kann. Im Prinzip reicht aber das integrierte Mikrofon an deinem PC aus. Solltest du keines haben, sollte auch ein Headset mit Mikrofon funktionieren.

Neben den technischen Voraussetzungen, benötigt man auch die Fähigkeit seinen Text geschmeidig ins Mikrofon zu sagen. Zu oft kam es beim Testen vor, dass ich dasaß und nicht wusste was ich ins Mikrofon sagen sollte. Daher habe ich dann mit Testsätzen gearbeitet. So konnte ich die Spracherkennung wesentlich konsistenter testen.

Zum Testen der Spracherkennung habe ich simple Kinderreime genommen. Die kennt man und kann dann am besten Vergleichen, was die Spracherkennung verbrochen hat.

Windows-Spracherkennung

Die Windows Spracherkennung, wie sie aktuell (29.06.2022) verfügbar ist, lässt sich nur wie folgt beschreiben:

Nicht zu gebrauchen!

Wie die Beispielsätze gleich zeigen werden, »erkennt« die Spracherkennung den gesprochenen Text kaum. Es entstehen teilweise Sätze und Texte, die einen entweder erschauern lassen oder für Lachanfälle verantwortlich sind.

Den komplizierten Fall »Punkt, Punkt, Komma, Strich, fertig ist das Mondgesicht« (die Satzzeichen müssen extra gesprochen werden) hat die Spracherkennung von Microsoft allerdings tadellos bestanden, was mich selbst sehr überrascht hatte.

Dennoch bleibt, dass die Spracherkennung äußerst langsam läuft, sie ist einfach nicht gut. Man muss zwischen drin kurz aufhören mit dem diktieren, damit die Spracherkennung hinterherkommt. Am besten, man lässt einen Sprachrekorder — den Microsoft ebenfalls im Betriebssystem mitliefert — mitlaufen, um hinterher nachvollziehen zu können, was man denn nun eigentlich gesagt hatte. Die Spracherkennung direkt aus Word heraus, gibt es nur im Office 365 Paket, welches jährliche Kosten hat.

Da muss Microsoft noch ordentlich dran arbeiten, damit sie mit der Spracherkennung von Google mithalten kann.

Beispiele Windows-Spracherkennung

Die folgenden Beispiele, wurden exakt so aus dem Textprogramm kopiert und wurden nicht geändert.

Satz 1: Ene mene Miste, es rappelt in der Kiste, ene mene Meck und du bist weg.

Spracherkennung Microsoft: Liener Mähne müsste, das Rad in der Kiste, denen enorme F und du bist weg.

Satz 2: Heile heile Segen, drei Tage Regen. Drei Tage Sonnenschein, gleich wird es wieder besser sein.

Spracherkennung Microsoft: Ja heile Segen, drei Tage liegen. Drei Tage Sonnenschein, gleich wird es wieder besser sein.

Satz 3: Wo tut’s weh? Hol ein bisschen Schnee, hol ein bisschen kühlen Wind, dann vergeht es ganz geschwind!

Spracherkennung Microsoft: Votums will? Wohl ein bisschen Schnee, holen Beschränkungen Wind, dann geht das ganz geschwind!

Testsätze Microsoft

Spracherkennung Google Docs

Die Spracherkennung von Google Docs ist definitiv besser als die von Microsoft. Sie ist wesentlich schneller, was das Anzeigen vom Text angeht und sie versteht in mehr als 95% der Fälle auch welches Wort gerade gesagt wurde. Einzig das Setzen von Satzzeichen und das Einfügen von neuen Zeilen oder Absätzen gestaltet sich ein wenig schwieriger.

Wobei diese Probleme sich während der Spracheingabe beheben lassen. Auch erkennt Google Docs, ob es vielleicht ein Wort oder einen Teil des Satzes nicht ganz verstanden hat. Es unterstreicht dann das entsprechende Wort oder den Teil des Satzes und mit einem Rechtsklick auf diesen unterstrichenen Teil erhält man alternative Vorschläge.

Satzzeichen werden ebenfalls einfach gesprochen und von der Spracherkennung entsprechend eingefügt. Das funktioniert eigentlich ziemlich gut, es sei denn, man benötigt das Satzzeichen als Wort. So wird aus dem Reim, »Punkt, Punkt, Komma, Strich, fertig ist das Mondgesicht« letztendlich ». ,. ,,, Strich, fertig ist das Mondgesicht«, Microsoft hat das besser gemacht. Allerdings sollte sich dieses Problem in Grenzen halten, da wir hier ja eigentlich Romane und keine Kindergedichte schreiben wollen.

Nicht ganz uninteressant ist die Möglichkeit während des Diktierens den Text zu überarbeiten.

Ein großer Vorteil der Spracherkennung von Google ist aber, dass sie einfach da ist. Bei Microsoft muss man die Spracherkennung erst noch einrichten, was allerdings nicht so kompliziert ist.

Beispiele Google Docs

Die folgenden Beispiele, wurden exakt so aus dem Textprogramm kopiert und wurden nicht geändert.

Satz 1: Ene mene Miste, es rappelt in der Kiste, ene mene Meck und du bist weg.

Spracherkennung Google: Ene mene miste, es rappelt in der Kiste, ene mene Meck und du bist weg .

Satz 2: Heile heile Segen, drei Tage Regen. Drei Tage Sonnenschein, gleich wird es wieder besser sein.

Spracherkennung Google: Heile heile Segen, drei Tage Regen. Drei Tage Sonnenschein, gleich wird es wieder besser sein .

Satz 3: Wo tut’s weh? Hol ein bisschen Schnee, hol ein bisschen kühlen Wind, dann vergeht es ganz geschwind!

Spracherkennung Google: Wo tut es weh? Hol ein bisschen Schnee, hol ein bisschen kühlen Wind, dann vergeht es ganz geschwind!

Testsätze Google

Spracherkennung bei Apple & Linux

Bei Linux haben wir das Problem, dass keine der Distributionen mit eingebauter Spracherkennung daherkommt, man muss sich diese also nachinstallieren. Außerdem werden Open-Source Datenbanken verwendet, die meist nicht so umfangreich sind, wie die der kommerziellen Hersteller.

Auf Mac haben wir wohl eine ganz gute Spracherkennung, welche ich leider nicht testen kann, da ich keinen Mac besitze. Nach allem was ich aber gesehen habe, ist die Spracherkennung auf dem Mac sehr einfach über die Systemeinstellung »Tastatur« zu aktivieren und kann dann in den einzelnen Programmen genutzt werden.

Die Qualität des geschriebenen ist wohl auch ganz hinnehmbar, allerdings kann man nicht während des Diktierens den Text überarbeiten.

Fazit

Die von den Betriebssystemen mitgelieferte Spracherkennung, sofern überhaupt vorhanden, ist bei weitem noch nicht ausgereift. Auch wenn ich die Spracherkennung bei Google Docs nur nutzen kann, wenn ich angemeldet und daher online bin, so zeigt sie, was möglich ist. Die paar Fehler, die noch vorhanden sind, sind verschmerzbar, da die eigentliche Spracherkennung sehr gut funktioniert und man nicht nebenbei einen Sprachrekorder mitlaufen lassen muss, damit man hinterher nachvollziehen kann, was man eigentlich gesagt hat.

Ich hoffe, dieser kleine Beitrag hat dir einen guten Überblick über die Möglichkeiten von Spracherkennungssoftware gegeben. Bei Fragen und Anregungen kannst du dich gerne per Mail an uns wenden.

Diesen Beitrag teilen