Dragon NaturallySpeaking

Nuance Dragon

Basisdaten

EntwicklerNuance Communications
Aktuelle Version16 (Professional Individual und Group)
(Februar 2023)
BetriebssystemWindows
KategorieSpracherkennung
LizenzProprietär
deutschsprachigja
https://www.nuance.com/dragon.html

Dragon NaturallySpeaking ist eine Spracherkennungs-Software, die das gesprochene Wort in Text auf dem Bildschirm oder Steuerungsbefehle für den Computer umsetzt. Dragon NaturallySpeaking ist in verschiedenen Ausgaben für private und professionelle Nutzer zu kaufen, unabhängige Anbieter liefern zusätzliche Fachvokabulare. Seit der (nur intern verwendeten) Versionsnummer 14 wird die Bezeichnung „NaturallySpeaking“ vom Hersteller nicht mehr verwendet. Stattdessen erfolgt die Vermarktung unter dem Namen „Dragon“, gefolgt von der Bezeichnung der Edition wie z. B. „Dragon Professional Individual“. Die ähnliche, für das Betriebssystem macOS geschriebene Variante hieß zuletzt „Dragon Professional Individual für Mac“, wird aber seit Oktober 2018 nicht mehr vertrieben.[1] Die Bezeichnung Dragon NaturallySpeaking wird hier zur besseren Abgrenzung zunächst beibehalten.

Anfänge

Die Anfänge des Programms und des ursprünglichen Herstellers beruhen auf einem Prototyp von Software zur Spracherkennung, der Ende der 1970er, Anfang der 1980er Jahre von James und Janet Baker entwickelt worden war, während sie zunächst an der Carnegie Mellon University, später an einem IBM-Forschungszentrum tätig waren.[2] Die Bakers gründeten Dragon Systems im Mai 1982.[3] Vorläufer von Dragon NaturallySpeaking war die Software DragonDictate, die für DOS geschrieben war und noch keine kontinuierliche Spracherkennung ermöglichte. Dragon NaturallySpeaking 1.0 erschien 1997. Im Jahr 2000 wurde das Unternehmen von Lernout & Hauspie übernommen. Aus dessen Insolvenzmasse erwarb 2005 das amerikanische Unternehmen ScanSoft die Rechte daran, welches heute Nuance Communications heißt.

Funktionsweise

Dragon NaturallySpeaking ist eine Software zur Spracherkennung am PC. Die Software setzt Äußerungen, die in ein mit dem Computer verbundenes Mikrofon gesprochen werden, in Text oder Steuerungsbefehle um. Es handelt sich um ein sprecherabhängiges (eine Anpassung an den Nutzer erforderndes) Front-End-System, also eines, bei dem die Umsetzung der Sprache in Text auf dem Rechner des Nutzers erfolgt und unmittelbar nach dem Diktat der Äußerung sichtbar ist („what you say is what you see“). Im Verhältnis etwa zur Spracherkennungsfunktion von Smartphones, bei der die Umsetzung der über das Internet gesendeten akustischen Informationen auf zentralen Servern erfolgt und der Text dann zurück übertragen wird, ergeben sich hierdurch möglicherweise Vorteile bei Geschwindigkeit und Genauigkeit der Umsetzung sowie der Möglichkeit zur Anpassung an Wortschatz und Bedürfnisse des Nutzers. Je nach Version wird von DragonNaturally Speaking auch die Umsetzung zuvor (mit einem Diktiergerät oder einem Aufnahmeprogramm) aufgezeichneter Diktate unterstützt.

Die akustischen Signale werden zur Umsetzung – vereinfacht gesagt – digital abgetastet und im Rahmen eines „akustischen Modells“ nach Charakteristika eingeordnet, die eine ungefähre Zuordnung zu Lauten ermöglichen. Die Auswahl erfolgt statistisch unter Einsatz verschiedener Varianten von Hidden-Markov-Modellen. Ab der Version 15 rühmt sich Dragon, eine neue Spracherkennungsengine unter Einsatz von „Deep Learning“ zu verwenden.[4] Dieses akustische Modell wird bei einem (in aktuellen Versionen nicht mehr nötigen) anfänglichen Training und fortlaufend bei der Benutzung, insbesondere durch die Korrektur von Erkennungsfehlern, an die Stimme des jeweiligen Sprechers angepasst. Zu den „erkannten“ Lauten werden dann statistische Hypothesen über die jeweils am wahrscheinlichsten gesagten Worte angestellt. Bei ähnlich oder gleich klingenden Lauten/Worten entscheidet die Software somit anhand von Mehrwortfolgen innerhalb der Äußerung des Sprechers, welches Ergebnis als Text auf dem Bildschirm erscheint. Grundlage hierfür ist ein Sprachmodell (linguistisches Modell), welches diese Wahrscheinlichkeiten beschreibt. Einzelheiten sind im Artikel zur Spracherkennung näher erläutert. Der Erkennungsvorgang läuft auf aktueller Hardware normalerweise so schnell im Hintergrund ab, dass der gesprochene Text fast sofort nach Beendigung der Äußerung auf dem Bildschirm erscheint.

Im Auslieferungszustand enthält die Software Standard-Sprachmodelle für die jeweilige Eingabesprache, die auf einer Analyse der Wahrscheinlichkeit von Wortfolgen innerhalb eines sehr großen Text-Corpus durch den Hersteller beruhen. Bei der Einrichtung der Software am PC des Nutzers – der Anlage eines Benutzerprofils – kann dieses Standard-Sprachmodell durch die Analyse von vorhandenen Texten des jeweiligen Nutzers an dessen Schreibstil angepasst werden. Dies erfolgt auch fortlaufend während der Benutzung (sogenannte Modelloptimierung). Für diese fortwährende Verbesserung des linguistischen Modells (aber auch für die des akustischen Modells) ist dabei insbesondere die konsequente Korrektur der falsch erkannten Wörter und Wortkombinationen vermittels der entsprechenden Programmfunktionen wichtig. Dragon NaturallySpeaking verwendet bei dem in der älteren Version 11 vorherrschenden Sprachmodell „BestMatch IV“ Zusammenhänge von bis zu vier Wörtern, sogenannte Quadgramme. Ab der Version 12 richtete Dragon auf entsprechend leistungsstarken PCs (Mehrkernprozessoren und Arbeitsspeicher von mehr als 2 GB RAM) Benutzerprofile mit dem Sprachmodell „BestMatch V“ ein, welches Fünfwortfolgen analysieren sollte. Mit der Version 15 wurde das Sprachmodell wieder als „BestMatch IV“ bezeichnet, was im Zusammenhang mit der veränderten Erkennungstechnik stehen soll.

Das Sprachmodell funktioniert ausschließlich nach statistischen Methoden, nicht nach grammatikalischen Regeln. Die Erkennungsgenauigkeit ist aufgrund dieser Funktionsweise am besten, wenn zusammenhängende Äußerungen gesprochen werden, am besten ganze längere Sätze. Dementsprechend ist die Software auf die Erkennung von gut strukturierter Sprache ausgerichtet, wie für Diktate von Briefen, Berichten und sonstigen Sachtexten typisch, nicht aber etwa für die Umsetzung von aufgezeichneten mündlichen Alltagsäußerungen mit vielen Satzbrüchen, Auslassungen und Füllseln, erst recht nicht für die direkte Umsetzung von Gesprächen mehrerer Sprecher in Text.

Das Sprachmodell von Dragon NaturallySpeaking baut auf einem mitgelieferten Vokabular (Wort-Lexikon) auf, welches im Auslieferungszustand ca. 150.000 Wortformen (im aktiven Vordergrundvokabular) enthält. Da die Software keine grammatikalischen Regeln anwendet, sind im Vokabular nicht nur die Wortstämme, sondern alle einzelnen Wortformen hinterlegt. Dieses Vokabular lässt sich nutzerspezifisch durch Analyse eigener Texte auf unbekannte Wörter und Wortformen, aber auch durch die Korrektur bei Erkennungsfehlern um ca. weitere 150.000 Wortformen ergänzen. Um die Geschwindigkeit der Umsetzung in einem akzeptablen Bereich zu halten, ist das Vokabular in verschiedene „Slots“ gegliedert, also ein Vordergrundvokabular und ein Hintergrundvokabular (dessen Größe auf ca. 250.000–300.000 Einträge geschätzt wird). Zum aktiven Zugriff wird nur das Vordergrundvokabular im Arbeitsspeicher gehalten, Wörter aus dem Hintergrundvokabular werden hinzugefügt, nachdem sie einmal verwendet (und dabei fehlerhaft erkannt und dann korrigiert) wurden.

Das Sprachmodell der Software ist auf eine bestimmte Sprache ausgerichtet, das heißt, es ist nicht möglich, mit demselben Benutzerprofil Texte in verschiedenen Eingabesprachen zu diktieren. Um in einer anderen Sprache zu diktieren, muss vielmehr ein entsprechendes gesondertes Benutzerprofil angelegt sein und aufgerufen werden. Die deutsche Version von Dragon NaturallySpeaking ermöglicht die Anlage von Benutzerprofilen in Deutsch und Englisch. Die Software ist auch für Spanisch, Französisch, Italienisch, Niederländisch und Japanisch erhältlich, allerdings nicht in Form einzelner Module, sondern in Form separater Versionen.[5] Gebräuchliche Fremdwörter sind im mitgelieferten Vokabular enthalten; die Hinzufügung und zuverlässige Erkennung weiterer Fremdwörter, deren Aussprache nicht der üblichen Lautung im Deutschen entspricht, kann durch den Benutzer erfolgen, indem solche Wörter mit einer lautmalerischen „gesprochenen Form“ im Lexikon hinterlegt werden (Beispieleinträge: geschriebene Form „breakage“, gesprochene zum Beispiel „brehkitsch“, oder: geschriebene Form „CIA“, gesprochene „Ssie ei äi“).

Der bis zur Version 13 verwendete Name der Software „NaturallySpeaking“ leitet sich von der Eigenschaft einer kontinuierlichen Spracherkennung ab. Anders als bei Spracherkennungssystemen, die bis Mitte der Neunzigerjahre des 20. Jahrhunderts verwendet wurden, und auch noch anders als beim Vorgänger DragonDictate, muss der Sprecher zwischen den einzelnen Wörtern keine unnatürlichen Sprechpausen machen (diskrete Sprache), sondern kann kontinuierlich sprechen. Die Software kann aus den Lautfolgen die (wahrscheinlichen) Wortgrenzen anhand der beschriebenen Methoden selbst ermitteln. Gleichwohl ist eine strukturierte, deutliche (aber nicht übertrieben artikulierte) und flüssige Sprechweise der beste Erfolgsgarant (der Hersteller empfiehlt, sich an der Sprechweise von Nachrichtensprechern zu orientieren).

Systemanforderungen und Features

Dragon NaturallySpeaking läuft unter dem Betriebssystem Windows ab Windows XP, unter 64-bit-Windows ab der Version 10.1. Für macOS vertrieb Nuance bis September 2018 eine auf demselben Spracherkennungskern aufbauende Software, die bis zur Version 4 auf den Namen Dragon Dictate hörte, aber nicht mit dem oben genannten Vorläufer von Dragon NaturallySpeaking zu verwechseln ist und in der letzten verfügbaren Version 6 „Dragon Professional Individual für Mac“ genannt wurde. Diese macOS-Fassung bleibt in der Funktionalität von Korrekturen und Steuerungsmöglichkeiten für den Computer hinter den Windows-Versionen von Dragon zurück. Vertrieb und Unterstützung der macOS-Version wurden von Nuance im Oktober 2018 eingestellt[1]

Dragon NaturallySpeaking läuft nicht nativ auf Betriebssystemen mit Linux-Kern (z. B. Ubuntu, Red Hat, openSuSE etc.).[6] Das API-Übersetzungssystem Wine ermöglicht aber einen stabilen Einsatz der Kernkomponenten einiger Versionen – vorausgesetzt, eine manuell angepasste Installation wurde von einem erfahrenen Linux-Nutzer durchgeführt, die Möglichkeit zur Steuerung von nativen Programmen ist allerdings nicht gegeben, ebenfalls in Wine laufende Programme wie das Wine-Wordpad-Clon oder das DragonPad sowie die automatische Verschriftlichung von MP3-Dateien funktionieren aber problemlos.[7] Es wäre auch denkbar, die Windows-Version von z. B. LibreOffice und Firefox unter Wine durchzuführen, um diese dann mit Dragon steuern zu können.

Ab der Version 11 setzt NaturallySpeaking auf Mehrkern-Prozessoren eine Multipass-Technik ein, bei welcher die gleiche Äußerung parallel auf zwei Prozessorkernen analysiert und die wahrscheinlichste Äußerung unter Einsatz jeweils unterschiedlicher Hidden-Markov-Modelle ermittelt wird, um auf diese Weise die Zuverlässigkeit zu erhöhen. Um genügend Rechner-Kapazität für andere Aufgaben, insbesondere die Ziel-Anwendungen, in die hinein diktiert wird, zu behalten, empfiehlt sich daher der Einsatz auf modernen Prozessoren. Prozessor und Größe des Arbeitsspeichers sowie ein ausreichend großer 2nd bzw. 3rd Level Cache haben auch erheblichen Einfluss auf die Geschwindigkeit der Umsetzung. Bei einem leistungsfähigen aktuellen PC erscheint der Text zumeist unmittelbar, nachdem eine Äußerung ausgesprochen ist.

Obwohl das Programm relativ hohe Anforderungen an die Größe des Arbeitsspeichers und die Kapazität des Prozessors stellt, ist die Benutzeroberfläche eine unauffällige „Dragon-Leiste“, die auch ganz ausgeblendet werden kann. Das Konzept geht dahin, dass der Benutzer direkt in Ziel-Anwendungen wie Textverarbeitungsprogramme diktiert, in denen dann der gesprochene Text ohne Tastatureingabe erscheint. Ebenso können kompatible Anwendungsprogramme durch gesprochene Befehle gesteuert werden (z. B. Speichern oder Drucken von Dokumenten, Formatierungen); diese Funktionen werden nicht zuletzt von Benutzern mit Bewegungseinschränkungen geschätzt. Zur Kommunikation mit Anwendungsprogrammen greift Dragon NaturallySpeaking auf die MSAA (Microsoft Active Accessibility)-Schnittstelle und die Microsoft-Sprachanwendungsschnittstelle SAPI 4 (nicht die Nachfolgeversion 5) zurück. Der volle Befehlssatz zur Steuerung von Anwendungen steht daher nur in entsprechend kompatiblen Anwendungsprogrammen wie Microsoft Word (Version 2013 ist erst ab NaturallySpeaking 12.5 kompatibel, Version 2016 ab Dragon Professional Individual bzw. 14) oder Internet Explorer zur Verfügung, in der Software als „Standardfenster“ oder „Fenster mit voller Textkontrolle“ bezeichnet (in früheren Versionen auch als Select-and-Say). Andere Software wie OpenOffice Writer, Mozilla Firefox oder Mozilla Thunderbird werden teilweise unterstützt. Browser-basierte Cloud-Anwendungen wie Outlook.com werden nur teilweise unterstützt, nicht z. B. die Microsoft Office Web Apps.

Dragon NaturallySpeaking verfügt auch über ein eigenes einfaches Textverarbeitungsprogramm „DragonPad“, welches funktional Microsoft WordPad ähnelt, sowie über ein Diktierfenster, welches zum Transfer von diktiertem Text in nicht kompatible Zielanwendungen benutzt werden kann. Neben kompatiblen Anwendungsprogrammen kann man mit Dragon NaturallySpeaking die Windows-Oberfläche mit Sprachbefehlen steuern (im Startbildschirm von Windows 8 nur eingeschränkt).

Erkennungsgenauigkeit

Die Software setzt ein anfängliches, etwa fünfminütiges Sprechertraining voraus, welches ab Version 9 aber auch übersprungen werden kann, sowie möglichst eine Analyse eigener Texte des Sprechers. Die Erkennungsrate liegt bei einem gut eintrainierten Profil je nach Qualität der Hardware und Deutlichkeit der Sprechweise derzeit bei mehr als 98 Prozent. Auch durch die Verwendung eines besseren als des vom Hersteller mitgelieferten Mikrofons kann die Erkennungsgenauigkeit positiv beeinflusst werden.

Traditionell galt: Je eher ein begrenztes Fachvokabular zum Einsatz kommt (etwa bei Ärzten oder Anwälten), umso besser die Erkennungsrate. Aufgrund der Steigerung der Leistungsfähigkeit des Programms und der Hardware besteht bei den aktuellen Versionen praktisch nicht mehr die Notwendigkeit, für bestimmte Fachgebiete jeweils eigene Vokabulare einzusetzen. Jedoch gilt nach wie vor, dass im Vokabular nicht bereits vorhandene Wörter auch nicht richtig erkannt werden können.

Eine Ausnahme bildet (in der deutschen Version) die Funktion zur automatischen Bildung von Komposita. Typische Bestandteile von zusammengesetzten Wörtern sind im Vokabular zusätzlich mit Merkmalen versehen, wonach sie mit anderen Wörtern zu Komposita (ggf. mit Fugen-s) zusammengezogen werden, wenn diese unmittelbar davor oder danach diktiert werden. Auch diese Funktion ist statistisch gesteuert und liefert daher zuweilen auch falsche Komposita, z. B. bei „Zusammengesetztenwörtern“.

Solche Fälle gehören zu den wenigen, in denen Erkennungsfehler von einer Rechtschreibprüfung in der Zielanwendung bemerkt werden – im Gegensatz zu falsch erkannten Wörtern wie in dem (fiktiven) Beispiel: „Der Auszubildende ging in die Leere“. Ein Korrekturlesen von mittels Spracherkennung diktierten Texten ist daher empfehlenswert, worauf der Hersteller in der Lizenzvereinbarung ausdrücklich hinweist.

Versionen

Legende:Alte VersionÄltere Version; noch unterstütztAktuelle VersionAktuelle VorabversionZukünftige Version
VersionVeröffentlichungEditionen
Ältere Version; nicht mehr unterstützt: 1.0Juni 1997Personal
Ältere Version; nicht mehr unterstützt: 2.0November 1997Standard, Preferred, Deluxe
Ältere Version; nicht mehr unterstützt: 3.0Oktober 1998Point & Speak, Standard, Preferred, Professional (optionale Legal oder Medical Add-ons)
Ältere Version; nicht mehr unterstützt: 4.04. August 1999Essentials, Standard, Preferred, Professional, Legal, Medical, Mobile
Ältere Version; nicht mehr unterstützt: 5.0August 2000Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 6.015. November 2001Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 7.0März 2003Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 8.0November 2004Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 9.0Juli 2006Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server
Ältere Version; nicht mehr unterstützt: 9.5Januar 2007Standard, Preferred, Professional, Legal, Medical, SDK client, SDK server
Ältere Version; nicht mehr unterstützt: 10.07. August 2008Essentials, Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 10.1März 2009Standard, Preferred, Professional, Legal, Medical
Ältere Version; nicht mehr unterstützt: 11.024. August 2010Home, Premium, Professional, Legal
Ältere Version; nicht mehr unterstützt: 11.0März 2011Medical
Ältere Version; nicht mehr unterstützt: 11.5Juni 2011Premium
Ältere Version; nicht mehr unterstützt: 11.5Juli 2011Home, Professional, Legal
Ältere Version; nicht mehr unterstützt: 12.0August 2012Home, Premium
Ältere Version; nicht mehr unterstützt: 12.0September 2012Professional, Legal
Ältere Version; nicht mehr unterstützt: 12.0Dezember 2012Medical Practice
Ältere Version; nicht mehr unterstützt: 12.5Februar 2013Home, Premium, Professional, Legal
Ältere Version; nicht mehr unterstützt: 13.0August 2014Home, Premium
Ältere Version; nicht mehr unterstützt: 13.0Oktober 2014Professional, Legal
Ältere Version; nicht mehr unterstützt: 14.0September 2015Professional Individual, Group
Ältere Version; nicht mehr unterstützt: 14.0April 2016Professional Group, Legal Group, Legal Individual
Ältere Version; nicht mehr unterstützt: 15.0Oktober 2016Professional Individual
Ältere Version; nicht mehr unterstützt: 15.0Mai 2017Professional Group
Ältere Version; nicht mehr unterstützt: 15.1November 2017Professional Group, Legal Group (jeweils nur Volumenlizenzierung (VLA))
Ältere Version; nicht mehr unterstützt: 15.3Februar 2018Professional Group, Legal Group
Ältere Version; nicht mehr unterstützt: 15.4April 2019Professional Group, Legal Group (jeweils nur Volumenlizenzierung (VLA))
Ältere Version; nicht mehr unterstützt: 15.5November 2019Professional Group, Legal Group
Ältere Version; nicht mehr unterstützt: 15.6Juli 2020Professional Group, Legal Group
Ältere Version; nicht mehr unterstützt: 15.61Dezember 2020Professional Group, Legal Group
Ältere Version; nicht mehr unterstützt: 15.7.1September 2021Professional Group, Legal Group
Aktuelle Version: 16März 2023Professional, Legal
2020.1 bis 4Januar 2020Professional Anywhere, Legal Anywhere, Medical One
2021.1 bis 4Januar 2021Professional Anywhere, Legal Anywhere, Medical One

Einzelnachweise

  1. a b Dragon Professional Individual for Mac End of Life (Memento vom 7. November 2020 im Internet Archive)
  2. Geschichte von Dragon Systems (englisch), aufgerufen am 2. Juli 2011
  3. „Speechless“ (Porträt über Janet McIver Baker), Tufts University Magazine, Herbst 2012 (englisch), aufgerufen am 6. Oktober 2012
  4. Dragon Professional 16 übertrifft alle Erwartungen – und ist besser als je zuvor
  5. Verzeichnis der Sprachversionen auf der Herstellerseite (englisch), aufgerufen am 23. Februar 2013
  6. Frequently Asked Questions. Nuance, archiviert vom Original am 6. August 2015; abgerufen am 11. August 2015 (englisch).
  7. WineHQ – Dragon Naturally Speaking 12.5. Abgerufen am 3. März 2021.

Auf dieser Seite verwendete Medien

Dragon Naturally Speaking Logo.png

w:Dragon NaturallySpeaking Logo

Source: [1], generated using the Dragon Logo eps file