Transduktor (Informatik)
Ein Transduktor ist in der theoretischen Informatik ein spezieller endlicher Automat. Er zeichnet sich dadurch aus, dass er im Gegensatz zu einem Akzeptor eine Ausgabe erzeugt. Er überführt (übersetzt) eine Quellsprache in eine Zielsprache. Da die formalen Eigenschaften dieser Sprachen variieren können, unterscheidet man verschiedene Untertypen, die im Folgenden näher beschrieben werden.
Endlicher Transduktor
Endliche Transduktoren sind endliche Automaten, die im Unterschied zu Akzeptoren zusätzlich eine Ausgabefunktion besitzen. Diese Funktion ist in der klassischen Definition mit den Übergängen und den Endzuständen des Automaten verknüpft. Abbildung 1 zeigt einen auf dem Alphabet basierenden Transduktor, der jedes Vorkommen von in einer Eingabezeichenkette durch ein einzelnes in der Ausgabe ersetzt. Für die Eingabe beispielsweise wird ausgegeben. Im Zustand 1 kann der Transduktor beispielsweise ein a lesen, dafür ein x ausgeben und in den Zustand 2 übergehen. Zustand 2 ist kein Endzustand, da ja nun ein b gelesen werden muss. Da im Beispiel das zu Ersetzende und das Ersetzte unterschiedlich lang sind, wird beim Übergang von 2 nach 0 beim Lesen von b das leere Wort ausgegeben.
Mathematische Definition
Ein Transduktor ist ein 7-Tupel , wobei:
- ist eine endliche Menge von Zuständen,
- ist das Eingabealphabet (eine endliche, nicht-leere Menge von Symbolen),
- ist das Ausgabealphabet (eine endliche, nicht-leere Menge von Symbolen),
- ist der Anfangszustand und ein Element aus ,
- ist die Zustandsübergangsfunktion ,
- ist eine endliche Menge von Endzuständen (),
- ist die Ausgabefunktion .
Die Übergangsfunktion ist diejenige eines nichtdeterministischen endlichen Transduktors, d. h. der Transduktor kann beim Lesen eines Symbols a im Zustand q prinzipiell in mehrere Folgezustände übergehen. Ist der Transduktor hingegen deterministisch, lässt sich die Übergangsfunktion folgendermaßen definieren:
.
Die Ausgabefunktion vereinfacht sich im deterministischen Fall zu .
Oft werden Übergangs- und Ausgabefunktion auch zu einer Übergangsrelation mit zusammengefasst.
Algebraische Operationen
Die Menge der endlichen Transduktoren ist abgeschlossen unter folgenden Operationen:
- Verkettung: Sind und Transduktoren, so ist auch ein Transduktor.
- Vereinigung
- Stern- und Plushüllenbildung
- Umkehrung
- Invertierung: Vertauschen von Ein- und Ausgabeband.
- Komposition
Unter Schnitt sind nur azyklische Transduktoren oder solche, die keine :x bzw. x:-Übergänge besitzen, abgeschlossen.
Nicht abgeschlossen sind Transduktoren unter:
Ferner gibt es einige Optimierungsoperationen für Transduktoren:
- Entfernung von :-Übergängen
- Determinisierung des Eingabebands des Transduktors. Abb. 3 zeigt die deterministische Variante des Transduktors aus Abb. 2 (zu beachten ist, dass dieser Transduktor im strengen Sinne durch seine Epsilon-Übergänge nicht deterministisch ist. Vgl. Subsequentielle Transduktoren). Allerdings können nicht alle Transduktoren, noch nicht mal diejenigen, die eine Funktion realisieren, determinisiert werden. Abb. 4 zeigt einen nicht determinisierbaren Transduktor. Dies unterscheidet endliche Transduktoren von endlichen Automaten und hat Konsequenzen für die Entscheidbarkeit des Äquivalenzproblems (s. u.)
- Eine Teilklasse der Transduktoren erlaubt äquivalente minimale Varianten.
- Pushing: Verschieben von Ausgabesymbolen so weit wie möglich in Richtung Startzustand. Durch Pushing in Verbindung mit Determinisierung kann eine eindeutige Normalform hergestellt werden.
Korrespondierende Sprachklasse
Die zu endlichen Transduktoren korrespondierende Sprachklasse umfasst die sog. regulären Relationen. Vgl. auch Formale Sprachen, Chomsky-Hierarchie.
Erweiterungen
P-subsequentielle Transduktoren
Die Überführung eines Transduktors in einen -subsequentiellen Transduktor wird Determinisierung genannt. Dabei werden die Ausgaben verzögert und durch eine zusätzliche Endausgabefunktion an den Endzuständen ausgegeben, entspricht hierbei der Maximalanzahl der Ausgaben. Sollte sein, spricht man von einem sequentiellen Transduktor. Ein sequentieller Transduktor, bei dem alle Zustände auch Endzustände sind, heißt auch subsequentiell. Alle azyklischen Transduktoren lassen sich in äquivalente (im Sinne der realisierten String-Funktion) -subsequentielle Transduktoren überführen. Bei einem zyklischen Transduktor kann die Determinierbarkeit mit Hilfe der „Twins Property“ festgestellt werden.
Mathematische Definition
Ein -subsequentieller Transduktor ist ein 8-Tupel , wobei:
- ist eine endliche Menge von Zuständen,
- ist das Eingabealphabet (eine endliche, nicht-leere Menge von Symbolen),
- ist das Ausgabealphabet (eine endliche, nicht-leere Menge von Symbolen),
- ist der Anfangszustand,
- ist die Zustandsübergangsfunktion ,
- ist eine endliche Menge von Endzuständen,
- ist die Ausgabefunktion ,
- ist die Endausgabefunktion .
Die Endausgabefunktion gibt bis zu verschiedene Strings an den Endzuständen aus, dabei ist die finite Anzahl der Ambiguitäten eines Transduktors.
Ein Algorithmus zur Determinisierung ist der von Mohri.
Verwendung von Gewichten
Ein gewichteter endlicher Transduktor ist ein Transduktor, der um eine Gewichtsfunktion erweitert wurde, die den Transitionen Werte zuweist. Diese Werte können aus einem beliebigen Halbring stammen.
Fasst man wie oben Übergangs- und Ausgabefunktion und dazu die Gewichtsfunktion zu einer Relation zusammen, ist ein gewichteter Transduktor über einem Halbring ein 8-Tupel , wobei
- wie oben,
- ist eine Menge von Anfangszuständen,
- ist die Relation ,
- ist die Gewichtsfunktion , die den Anfangszuständen Gewichte zuweist,
- ist die Gewichtsfunktion , die den Endzuständen Gewichte zuweist.
Die Gewichte können beispielsweise in der Sprachsynthese dazu verwendet werden, für ein Eingabezeichen verschiedene Aussprachemöglichkeiten anzubieten, die unterschiedlich wahrscheinlich sind. Die Wahrscheinlichkeiten können zum Beispiel durch maschinelles Lernen ermittelt werden.
Anwendungen
- Morphologische Analyse
- Robuste syntaktische Analyse
- Datenkompression
- Kodierung
Kellertransduktor
Ein Kellertransduktor ist ein LR-Parser zu einer gegebenen kontextfreien Grammatik, also ein Kellerautomat, der eine Ausgabe erzeugt.