In dieser Lernressource geht es um die automatische Umwandlung von gesprochener Sprache in Text, der als Dokumente gespeichert oder als Befehle verarbeitet werden kann, um z.B. Geräte für behinderte oder ältere Menschen zu steuern oder in einem kommerziellen Umfeld die Bestellung von Waren und Dienstleistungen durch Audiobefehle zu ermöglichen. Die Lernressource basiert auf dem Open-Community-Ansatz, so dass die verwendeten Tools Open Source sind, um sicherzustellen, dass die Lernenden Zugang zu den Tools haben.

Speech to Text

Spracherkennung

Aufgaben für Lernende

Bearbeiten
 
Von analogen Audiodaten über das Mirkophon-Audiointerface zu digitalen Audiodaten - Schritt 1 vor der Sprachanalyse
  • (Anwendungen der Spracherkennung) Analysieren Sie die möglichen Anwendungen der Spracherkennung und identifizieren Sie die Herausforderungen der Anwendung!
  • (Human Speech Recognition) Vergleichen Sie das menschliche Sprachverständnis mit dem algorithmischen Ansatz der Spracherkennung. Was sind die Gemeinsamkeiten und Unterschiede von menschlicher und algorithmischer Spracherkennung?
  • (Sprache und Erkennung von Emotionen) Sprache enthält mehr Informationen als der kodierte Text. Ist es möglich, mit in der Informatik entwickelten Methoden Emotionen in der Sprache zu erkennen?
    • Was sind die Gemeinsamkeiten und Unterschiede zwischen Text- und Emotionserkennung in der Sprachanalyse?
    • Was sind mögliche Anwendungsbereiche in digitalen Assistenten für die Sprach- und Emotionserkennung?
    • Analysieren Sie die verschiedenen Arten von Informationssystemen und identifizieren Sie verschiedene Anwendungsbereiche der Spracherkennung und beziehen Sie mobile Geräte in Ihre Überlegungen mit ein!
  • (Geschichte) Analysieren Sie die Geschichte der Spracherkennung und vergleichen Sie die Entwicklungsschritte mit aktuellen Anwendungen. Ermitteln Sie die wichtigsten Schritte, die für die heutigen Anwendungen der Spracherkennung erforderlich sind!
  • (Risikokompetenz) Identifizieren Sie mögliche Bereiche von Risiken und mögliche Strategien zur Risikominderung, wenn Spracherkennung in mobilen Geräten oder mit Sprachsteuerung für das Internet der Dinge im Allgemeinen eingesetzt wird? Welche Maßnahmen zum Kapazitätsaufbau für Unternehmen, Forschung und Entwicklung sind erforderlich!
  • (Kommerzielle Datenernte) Wenden Sie das Konzept der Spracherkennung auf Kommerzielle Datenernte an. Welches sind die potentiellen Vorteile für die Generierung von maßgeschneiderter Werbung für die Nutzer entsprechend ihrem erstellten Profil? Wie trägt die Spracherkennung zur Erstellung von Nutzerprofilen bei? Worin besteht der Unterschied zwischen Offline- und Online-Spracherkennungssystemen aufgrund der Übermittlung von erkanntem Text oder Audiodateien, die zur Spracherkennung an entfernte Server übermittelt werden?
  • (Kontextabhängigkeit von Spracherkennung und Bedeutung von Wörtern) Das Wort "Feuer" mit einer Kerze in der Hand und einem brennenden Haus im Hintergrund schafft einen anderen Kontext und eine andere Erwartungshaltung bei den Zuhörern, die hören, was jemand Ihnen sagen will. Erläutern Sie, warum Kontextbewusstsein hilfreich sein kann, um die Erkennungsgenauigkeit zu optimieren? Wie kann ein Spracherkennungssystem einen Kontext für die Spracherkennung erkennen. D.h. die Erkennung des Kontextes ohne eine Benutzereinstellung, die in einen Diktiermodus umschaltet, z.B. bei medizinischen Berichten für Röntgenbilder.
  • (Audio-Video-Komprimierung) Gehen Sie zur Lernressource über Audio-Video-Kompression und erklären Sie, wie Spracherkennung in Verbindung mit Sprachsynthese eingesetzt werden kann, um den Bandbreitenverbrauch für Videokonferenzen zu reduzieren.
  • (Leistung) Erläutern Sie, warum die Leistung der Spracherkennung und die Genauigkeit in vielen Anwendungen von Bedeutung sind. Diskutieren Sie die Anwendung in Autos oder allgemein in Fahrzeugen. Welche Sprachbefehle können in einer Verkehrssituation angewendet werden und welche Befehle (die nicht richtig erkannt werden) könnten zu Problemen oder sogar zu einem Unfall für den Fahrer führen. Ordnen Sie die theorethischen Anwendungen der Spracherkennung (z.B. "an der Kreuzung rechts abbiegen", "Musik ein-/ausschalten",...) im Hinblick auf die erforderliche Leistung und Genauigkeit bzw. auf die derzeit verfügbaren Technologien, um den Befehl in akzeptabler Weise auszuführen.
  • (HTML5-Spracherkennung) Analysieren Sie den Quellcode der OpenSource web application demo with PocketSphinx (verwenden Sie den Browser Firefox/Chromium oder Chrome).
  • (Größe des Vokabulars) Erläutern Sie, wie der Umfang des erkannten Wortschatzes die Genauigkeit der Erkennung bestimmt.
  • (Menschen mit Behinderungen)[2] Untersuchen Sie die verfügbaren Frameworks Open Source-Offline-Infrastrukturen für die Spracherkennung, ohne Audioströme zur Verarbeitung an einen entfernten Server zu senden. Identifizieren Sie Optionen zur Steuerung von Robotern oder im Kontext von Ambient Assisted Living mit Spracherkennung[3].
  • (Versionskontrolle) Erforschung des Konzepts der Versionskontrolle und dessen Anwendung auf den Open Community Approach:
    • Gemeinsame Entwicklung der Open Source Codebasis der Spracherkennungsinfrastruktur,
    • Anwendung auf die gemeinschaftliche Entwicklung eines domänenspezifischen Vokabulars für die Spracherkennung für spezifische Anwendungsszenarien.
    • Anwendung auf Open Educational Resources, die Lernende bei der Nutzung von Spracherkennung und Open Source-Entwickler bei der Integration von Open-Source-Frameworks in Lernumgebungen unterstützen.

Definition

Bearbeiten

Spracherkennung ist das interdisziplinäre Teilgebiet der Computational Linguistics, das Methoden und Technologien entwickelt, die die Erkennung und Translation von gesprochener Sprache in Text durch Computer ermöglicht. Sie ist auch bekannt als automatische Spracherkennung (ASR), Computer-Spracherkennung oder speech to text (STT). Sie umfasst Wissen und Forschung aus den Bereichen Linguistik, Informatik und Elektrotechnik.

Training von Spracherkennungsalgorithmen

Bearbeiten

Einige Spracherkennungssysteme erfordern ein "Training" (auch "Enrollment" genannt), bei dem ein einzelner Sprecher Text oder isolierte Vokabeln in das System einliest. Das System analysiert die spezifische Stimme der Person und verwendet sie zur Feinabstimmung der Erkennung der Sprache dieser Person, was zu einer höheren Genauigkeit führt. Systeme, die kein Training verwenden, werden als "sprecherunabhängige"[4] Systeme bezeichnet. Systeme, die Training verwenden, werden als "sprecherabhängig" bezeichnet.

Anwendungen

Bearbeiten

Zu den Spracherkennungsanwendungen gehören voice user interfaces wie Sprachwahl (z. B. "nach Hause rufen"), Anrufweiterleitung (z. B. "Ich möchte ein R-Gespräch führen"), domotic-Gerätesteuerung, Suche (z. B. einen Podcast finden, in dem bestimmte Wörter gesprochen wurden), einfache Dateneingabe (z. B., Eingabe einer Kreditkartennummer), Erstellung strukturierter Dokumente (z. B. eines radiologischen Berichts), Bestimmung von Sprechereigenschaften,[5] Sprache-zu-Text-Verarbeitung (z.B. Wortverarbeitungs E-Mails, und Generierung eines durchsuchbaren Transkripts aus einer Audiospur), und Flugzeug (gewöhnlich als direkte Spracheingabe bezeichnet).

Der Begriff Spracherkennung[6][7][8] oder Sprecheridentifikation[9][10][11] bezieht sich auf die Identifizierung des Sprechers und nicht auf das, was er sagt. Sprechererkennung kann die Aufgabe der Übersetzung von Sprache in Systemen vereinfachen, die auf die Stimme einer bestimmten Person trainiert wurden, oder sie kann zur Authentifizierung oder Überprüfung der Identität eines Sprechers im Rahmen eines Sicherheitsprozesses verwendet werden.

Aus technologischer Sicht hat die Spracherkennung eine lange Geschichte mit mehreren großen Innovationswellen. In jüngster Zeit hat der Bereich von den Fortschritten beim deep learning und big data profitiert. Die Fortschritte zeigen sich nicht nur in der Vielzahl der auf diesem Gebiet veröffentlichten wissenschaftlichen Arbeiten, sondern vor allem auch in der weltweiten Übernahme einer Vielzahl von Deep-Learning-Methoden durch die Industrie bei der Entwicklung und dem Einsatz von Spracherkennungssystemen.

Modelle, Methoden und Algorithmen

Bearbeiten

Sowohl Akustikmodelling als auch Sprachmodelling sind wichtige Bestandteile moderner statistisch basierter Spracherkennungsalgorithmen. Hidden-Markov-Modelle (HMMs) werden in vielen Systemen eingesetzt. Die Sprachmodellierung wird auch in vielen anderen Anwendungen zur Verarbeitung natürlicher Sprache verwendet, z. B. in der Dokumentenklassifikation oder in der statistischen Maschinenübersetzung.

Lernaufgabe: Anwendungen

Bearbeiten

Die folgenden Lernaufgaben befassen sich mit verschiedenen Anwendungen der Spracherkennung. Erforschen Sie die verschiedenen Anwendungen.

Verwendung in der Bildung und im Nutzung im Alltag

Bearbeiten

Beim Sprachlernen kann die Spracherkennung beim Erlernen einer Zweitsprache nützlich sein. Die Spracherkennung kann die richtige Aussprache unterstützen und einer Person helfen, ihre Sprechfertigkeit zu verbessern.[12]. Dabei werden ggf. grammatikalisch nicht korrekte Reihungen von Wörter per Spracherkennung erfasst und bei Erkennung einer intendierten Semantik ein grammatikalischer korrekter Satzbau wiedergegeben. Die Wiedergabe und Mustererkennung einer intendierten Bedeutung von Reihungen von Wörtern, die grammatikalisch nicht korrekt sind, ist eine weiter Aufgabe jenseits der Spracherkennung. Die Spracherkennung ist lediglich der erste Schritte für die Unterstützung von Lernenden.

Quellennachweise

Bearbeiten
  1. Pacheco-Tallaj, Natalia M., und Claudio-Palacios, Andrea P. "Development of a Vocabulary and Grammar for an Open-Source Speech-driven Programming Platform to Assist People with Limited Hand Mobility". Forschungsbericht eingereicht bei Keyla Soto, UHS-Professorin für Naturwissenschaften.
  2. Stodden, Robert A., und Kelly D. Roberts. "The Use Of Voice Recognition Software As A Compensatory Strategy For Postsecondary Education Students Receiving Services Under The Category Of Learning Disabled." Journal Of Vocational Rehabilitation 22.1 (2005): 49--64. Akademische Suche abgeschlossen. Web. 1 Mar. 2015.
  3. Zaman, S., & Slany, W. (2014). Smartphone-Based Online and Offline Speech Recognition System for ROS-Based Robots. Information Technology and Control, 43(4), 371-380.
  4. Speaker Independent Connected Speech Recognition- Fifth Generation Computer Corporation. Fifthgen.com. Archiviert vom Original am 11 November 2013. Abgerufen am 15 June 2013..
  5. P. Nguyen: Automatische Klassifizierung von Sprechereigenschaften. 2010..
  6. British English definition of voice recognition. Macmillan Publishers Limited.. Archiviert vom Original am 16 September 2011. Abgerufen am 21 February 2012..
  7. Stimmerkennung, Definition von. WebFinance, Inc. Archiviert vom html Original am 3. Dezember 2011. Abgerufen am 21. Februar 2012..
  8. Der Postsack LG #114. Linuxgazette.net. Archiviert vom Original am 19 February 2013. Abgerufen am 15. Juni 2013..
  9. P. Nguyen, D. Tran, Xu Huang and D. Sharma, "Automatic classification of speaker characteristics," International Conference on Communications and Electronics 2010, Nha Trang, Vietnam, 2010, pp. 147-152, doi: 10.1109/ICCE.2010.5670700.
  10. Reynolds, Douglas; Rose, Richard (January 1995). "Robust text-independent speaker identification using Gaussian mixture speaker models". IEEE Transactions on Speech and Audio Processing 3 (1): 72–83. doi:10.1109/89.365379. ISSN 1063-6676. OCLC 26108901. Archived from the original on 8 March 2014. Retrieved 21 February 2014.
  11. {Speaker Identification (WhisperID). In: Microsoft Research. Microsoft. Archiviert vom microsoft.com/de-us/projects/whisperid/ Original am 25 February 2014. Abgerufen am 21. Februar 2014: „Wenn Sie mit jemandem sprechen, erkennt er nicht nur, was Sie sagen, sondern auch, wer Sie sind. Mit WhisperID können Computer das auch tun, indem sie anhand der Art und Weise, wie Sie klingen, herausfinden, wer Sie sind.“.
  12. Vinton Cerf, Rob Wrubel, Susan Sherwood: Can speech-recognition software break down educational language barriers?. Discovery Communications. Archiviert vom Original am 7 April 2014. Abgerufen am 26 March 2014..

v:en:Speech Recognition