Transkribus

Transkribus ist eine Plattform zur Texterkennung (OCR), Layout-Analyse und Strukturerkennung von historischen Dokumenten.

Allgemeines

Transkribus ist frei zugänglich und hat derzeit (September 2022) mehr als 90.000 registrierte Benutzer, von denen mehrere Hundert die Software täglich verwenden. Die Plattform entstand im Rahmen der EU-Projekte tranScriptorium[1] (2013–2015) und READ (Recognition and Enrichment of Archival Documents – 2016–2019).[2] Sie wurde von der Universität Innsbruck bzw. der Gruppe Digitalisierung und elektronische Archivierung entwickelt. Seit dem 1. Juli 2019 wird die Plattform von der Europäischen Genossenschaft READ-COOP betrieben und weiterentwickelt.

In der Plattform sind Tools verschiedener Forschungsgruppen aus ganz Europa integriert. Zu nennen sind hier insbesondere die Pattern Recognition and Human Language Technologie (PRHLT)-Gruppe der Technischen Universität Valencia, von der die freie OCR-Software PyLaia stammt,[3] und die CITlab-Gruppe der Universität Rostock, die HTR+ – eine proprietäre OCR-Software – entwickelt hat.

Auch bei Verwendung von PyLaia für die Texterkennung sind die so trainierten Texterkennungsmodelle nur innerhalb von Transkribus nutzbar, können also nicht frei exportiert werden. Dies unterscheidet Transkribus von Alternativen wie beispielsweise eScriptorium.[4] Transkribus ermöglicht allerdings den freien Export der erstellten Trainingsdaten und trainierte Modelle können mit anderen Usern innerhalb der Plattform geteilt werden.

Technologie

Transkribus verwendet Künstliche Intelligenz um handgeschriebenen Text in digitalen Text umzuwandeln. Dabei werden Fortschritte aus der KI-Forschung der letzten zehn Jahre im Bereich der Bilderkennung und des Natural Language Processing miteinander vereint. Zuerst werden die Struktur und das Layout eines Textes unter Berücksichtigung einzelner Zeilen und nicht-textueller Elemente erkannt. Dann wird ein KI-gestütztes Texterkennungsmodell angewendet, um die handgeschriebenen Zeichen in digitalen Text umzuwandeln. Es gibt bereits eine ganze Palette von öffentlich zugänglichen Modellen für bestimmte Arten von Handschriften aus bestimmten Sprachen und Epochen, zum Beispiel für deutsche Kurrentschrift oder die Handschrift von Bentham.

Basierend auf den Prinzipien von Deep Learning können User alternativ auch ein eigenes Modell für ihren Text trainieren. Dafür muss eine bestimmte Anzahl an Dokumenten händisch transkribiert werden, damit die Software lernt, welche handgeschriebenen Zeichen welchen digitalen Zeichen zugeordnet werden können. Es ist aber ebenfalls möglich, Transkribus lediglich zur händischen Transkription zu verwenden, wenn der Benutzer es vorzieht, kein Texterkennungsmodell einzusetzen.

Sobald der Text digitalisiert wurde, können Metadaten hinzugefügt werden. Das ermöglicht es Usern, zum Beispiel Keywords oder Tags zuzuweisen. Der digitale Text kann Zeichen für Zeichen durchsucht werden, mit Fokus darauf, Transkriptionen zu finden, die nicht zu 100 % korrekt sind. Dokumente können außerdem in sogenannten Collections organisiert werden, an denen mehrere Benutzer gleichzeitig arbeiten können und die als PDF-, ALTO- (XML) oder TEI -Dateien exportiert werden können.

Alternativen

Kostenfreie Programme mit teilweise vergleichbaren Funktionen sind eScriptorium und OCR4All[5].

Weblinks

Einzelnachweise

  1. tranScriptorium Projektseite, abgerufen am 26. Juni 2020.
  2. READ Projektseite, abgerufen am 26. Juni 2020.
  3. PyLaia Wiki. Abgerufen am 30. Juni 2022 (englisch).
  4. Moving from Transkribus to eScriptorium. Abgerufen am 30. Juni 2022 (englisch).
  5. OCR4all | forTEXT. Abgerufen am 20. Juni 2023.