eScriptorium


eScriptorium

Basisdaten

EntwicklerPSL
Erscheinungsjahr2018
Aktuelle Versionv0.14.0[1]
(24. Oktober 2023)
Betriebssystemplattformunabhängig
ProgrammiersprachePython, JavaScript, HTML
LizenzMIT-Lizenz[2]
gitlab.com/scripta/escriptorium

eScriptorium ist eine Plattform zur manuellen oder automatisierten Segmentierung und Texterkennung von historischen Handschriften und Drucken.

Details

Transkription von Johann Reinhold Forsters Tagebuch Journal of a Voyage on Board the Resolution 1772-1774 Vol. 1 in eScriptorium

Die Software ist Open Source und kann somit frei auch auf eigenen Rechnern installiert werden. Sie wird an der Université PSL in Paris als Teil der Projekte Scripta[3] und RESILIENCE[4] und mit Beiträgen weiterer Einrichtungen entwickelt, teilweise gefördert mit Mitteln aus dem EU-Förderprogramm Horizont 2020 und mit einem Zuschuss der Andrew W. Mellon Foundation.

Eingescannte Seiten von Handschriften und Drucken lassen sich in eScriptorium importieren und als Text in unterschiedlichen Formaten (Text, ALTO oder PAGE XML, TEI) exportieren. Dabei werden zunächst die Textbereiche mit Textzeilen in den Bildern manuell oder automatisch erkannt (Segmentierung). Anschließend werden die Textzeilen wiederum manuell oder automatisch transkribiert.

Sowohl die automatische Segmentierung als auch die Texterkennung kann anhand von manuell erstellten oder korrigierten Beispielen (engl. ground truth) trainiert werden. Die so erzeugten neuen Modelle lassen sich mit anderen teilen und können so einfach nachgenutzt werden.

Herzstück von eScriptorium ist die ebenfalls freie OCR-Software Kraken von Benjamin Kiessling, eine Weiterentwicklung der OCR-Software OCRopus, die für Hand- und Druckschriften geeignet ist und dabei auch Schriften wie Hebräisch und Arabisch, die von rechts nach links geschrieben werden, unterstützt.[5]

Vergleichbare Programme, die ähnliche Funktionen wie eScriptorium anbieten, sind LAREX (als Teil der Open-Source-Software OCR4All)[6][7] und das kostenpflichtige Transkribus.

Weblinks

Commons: eScriptorium – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

  1. v0.14.0. (abgerufen am 21. Januar 2024).
  2. gitlab.com. (abgerufen am 22. Januar 2024).
  3. Scripta-PSL. History and practices of writing. Abgerufen am 13. März 2022 (englisch).
  4. RESILIENCE – The Religious Studies Research Infrastructure. Abgerufen am 13. März 2022 (englisch).
  5. mittagessen/kraken: OCR engine for all the languages. Abgerufen am 13. März 2022 (englisch).
  6. LAREX - Zentrum für Philologie und Digitalität "Kallimachos". Abgerufen am 22. Januar 2024.
  7. OCR4all | forTEXT. Abgerufen am 20. Juni 2023.

Auf dieser Seite verwendete Medien

Logo escriptorium.png
Autor/Urheber: Alix Chagué, Lizenz: CC BY 4.0
Logo der Transkriptionssoftware eScriptorium
EScriptorium Journal of a Voyage on Board the Resolution 1772-1774 Vol. 1.png
Autor/Urheber: Stefan Weil, Lizenz: CC BY 4.0
The image shows the web based user interface of the transcription platform eScriptorium with a transcription of the diary Journal of a Voyage on Board the Resolution 1772-1774 Vol. 1.
EScriptorium v0.13.8 start page (detail).png
Autor/Urheber: Stefan Weil, Lizenz: CC BY 4.0
Startseite der Transkriptionssoftware eScriptorium v0.13.8 (Bildschirmkopie der Web-Applikation).