Spracherkennungssoftware

Die Spracheingabe zum Diktieren von Texten oder Steuern von Geräten ist für blinde und sehbehinderte Nutzer eine interessante und oft schnellere Alternative zur Eingabe mit der Tastatur. Hierzu dient eine Spracherkennungssoftware.

Was ist das?

Eine Spracherkennungssoftware ermöglicht die Texterfassung über Sprache direkt in den Rechner. Die gesprochene Eingabe erscheint sodann als Text auf dem Bildschirm. Der erfasste Text kann auch zur Überprüfung der Eingabe wieder als Sprache ausgegeben werden. Spracherkennungssoftware dient auch als Eingabeinstrument, das Maus und Tastatur ersetzen kann. Sie erlaubt Nutzern Softwareanwendungen bzw. Apps per Spracheingabe zu steuern.

Das Ziel von Spracherkennungssoftware ist in erster Linie, das computergestützte Arbeiten zu beschleunigen. Die Sprachbedienung eines Rechners ist vorteilhaft für Menschen, die bei der Arbeit beide Hände einsetzen müssen. Spracherkennungssoftware ist aber auch hilfreich für alle Anwender, die eine Maus oder Tastatur aufgrund motorischer Einschränkungen oder aus anderen Gründen nicht bedienen können – ebenso für Sehbehinderte, die trotz Spezialtastatur Probleme bei der Tastenbedienung haben. Auch für Späterblindete, die eine Tastatur nicht "blind" nutzen können, kann Spracherkennungssoftware geeignet sein.

Wie funktioniert Spracherkennungssoftware?

Die Spracherkennungssoftware für PCs wird sprecherabhängig gesteuert. Dazu muss das Programm nach der Installation erst einmal auf die Stimme und Aussprache des jeweiligen Nutzers eingestellt werden. Diese Einstellung erfolgt über das Vorlesen kurzer Textpassagen und hilft dem Programm, die in seiner Datenbank abgespeicherten Vokabeln mit der individuellen Aussprache des Nutzers zu verbinden. Nach der Einstellungsphase wird das Programm bedient, indem der Nutzer einen Text in ein Mikrofon diktiert. Im Rahmen der Dokumentenerfassung erscheint dieser Text dann auf dem Bildschirm in der geöffneten Anwendung, z. B. in MS Word.

Was ist zu beachten?

Je nach Grad der Sehbehinderung ist die Funktionsweise der Spracherkennungssoftware nur sinnvoll in Verbindung mit weiteren Hilfsmitteln. Dazu zählt z. B. die Braillezeile ebenso wie der Screenreader, die Sprachausgabe oder Vergrößerungssysteme. Spracherkennungssoftware dient somit nur als Ergänzung, nicht als Ersatz für bestimmte Hilfsmittel.

Spracherkennungssoftware muss barrierefrei gestaltet sein. Damit ist die Zugänglichkeit der Programmoberflächen gemeint:

  • Spracherkennungssoftware muss unbedingt kompatibel sein mit Hilfsmitteln für blinde und sehbehinderte Anwender. Das bedeutet, Objektinformationen müssen an Screenreader, Braillezeile, Sprachausgabe oder Vergrößerungssysteme weitergeleitet werden.
  • Die Steuerung aller Befehle des Programms über die Tastatur muss möglich sein.

Marktübersicht

Spracherkennungssoftware auf dem Desktop

Seit Windows 7 kommt Windows mit einer integrierten Spracherkennung (siehe unser Test der Windows Spracherkennung von 2011). Auch das Betriebssystem Mac OS X hat eine im System integrierte Spracherkennung.

Der Marktführer auf dem Desktop ist die Firma Nuance mit der Software Dragon NaturallySpeaking. Ein weiterer Anbieter ist Linguatec mit dem Programm Voice Pro.

Spracherkennungssoftware auf mobilen Geräten

Heute ist auf einer Vielzahl von mobilen Endgeräten wie Smartphones und Tablets eine Spracherkennunssoftware vorinstalliert.

  • Am bekanntesten und wohl ausgereiftesten ist Apples Spracherkennungssoftware Siri für iPhones (ab 4S) und iPads (ab dritter Generation). Mit Siri lassen sich Anrufe zu Personen im Telefonbuch aufbauen,  Kalendereinträge eingeben, oder Erinnerungen an Termine eingeben, die von Siri zurückgespielt werden und dann vom Nutzer bestätigt oder verworfen werden können. Siri versucht "intelligent" zu antworten und zeigt nach der Spracheingabe "ich habe Hunger" z.B. eine Liste Restaurants in der Nähe. Zum Diktieren längerer Texte ist Siri weniger geeignet, da es nicht kontinuierlich Sprache aufnimmt und gleichzeitig digitalen Text ausgeben kann. In Apples Notes App kann Siri jedoch gut in Verbindung mit dem eingebauten Screenreader VoiceOver genutzt, werden um kürzere Texte zu diktieren.
  • Ab Version 4.1 gibt es auch bei Android Google Now als eine eingebaute Sprachsteuerung, mit der sich z.B. Apps oder Webadressen aufrufen oder Web-Suchen starten lassen. Die Sprachsteuerung funktioniert bei anderen Funktionen (Kalendereinträge machen, Karten aufrufen) noch nicht gut. Wissensfragen kann Google Now häufig interpretieren und direkt beantworten, statt Web-Suchen zu starten. 
    Außerdem gibt es eine Reihe von Android-Apps von Drittanbietern. JustSpeak eignet sich nach Herstellerangaben auch zur Sprachsteuerung des Geräts in Kombination mit Androids Screenreader Talkback.
  • Samsungs Spacheingabe heißt S-Voice. Viele Fragen werden nicht intelligent verstanden. Im Zweifelsfall schlägt S Voice vor, im Internet nach der Eingabe zu suchen.
  • Auch Windows Phone 8 hat eine eingebaute Spracherkennung, mit Nutzer Kontakte anrufen können bzw. auch eine SMS oder eine Notiz eingeben können.

Die mobilen Varianten der Spracherkennung laufen meist über eine Internetverbindung, wobei die eingegebene Sprache auf externen Servern ausgewertet wird, um den Speicher der mobilen Geräte nicht zu belasten.

Quellen