Texterkennung unter Linux mit Tesseract
Unter Windows kein Problem: Texterkennung von eingescannten Texten aus Zeitschriften oder Büchern. Unter Linux bisher noch immer sehr problematisch - aber es zeichnen sich schon Lichtstreifen am Horizont ab.
Geschichte
Die Linux-Gemeinde hat lange darauf gewartet: ein Texterkennungsprogramm, das aus eingescannten Vorlagen von Texten die Zeichen erkennt und sie als Zeichen speichert - bekannt ist dieser Vorgang als OCR (optical character recognition).
Unter MS-Windows sind derartige Programme schon längst mit grafischer Benutzeroberfläche in Gebrauch: Omnipage oder FineReader sind Programme, die diese Aufgabe in vorbildlicher Weise erfüllen, aber auch eine Menge Geld kosten.
Zwischen 1985 und 1995 begann die Firma Hewlett-Packard mit der Entwicklung einer OCR-Software. HP gab die Entwicklung auf und übergab den Programmcode der University of Nevada Las Vegas, die den Code über einen Umweg zu Google schließlich zur freien Enwicklung zur Verfügung stellte.
Tesseract
Das ursprünglich von HP entwickelte Produkt existiert heute unter dem Namen Tesseract und ist eine Software, die sich für den normalen Linux-Anwender nicht eignet, weil sie (bisher) über keine (dem Autor bekannte) grafische Benutzeroberfläche verfügt.
Wer Tesseract benutzen möchte, muss sich mit der Unix-/Linux-Kommandozeile auskennen. Wenn man Glück hat, wird Tesseract als Softwarepaket einer der gängigen Distributionen angeboten. Ansonsten muss man sich auf der Opensource-Softwareschmiede SourceForge bedienen. Hier bekommt man die Programmquellen, die man auf dem eigenen Computer aber erst in ein ausführbares Programm übersetzen muss. Für den Linux-Experten ist das sicherlich kein Problem; für Linux-Benutzer, die ihren PC als Desktopsystem eingerichtet haben, besteht die Notwendigkeit, das notwendige Entwicklungssystem (C/C++ - Compiler und Hilfsmittel zur Softwareentwicklung) zu installieren.
Nach erfolgreicher Installation ist der Arbeitsgang zur Texterkennung wie flgt:
- Einscannen der Quelle (Zeitungsartikel, Buchseite o.ä.)
- Speichern als unkomprimierte TIFF-Datei
- Umwandlung des als Grafik vorliegenden Textes mit Tesseract von der Linux-Konsole in eine Textdatei
- Weiterverarbeitung der Textdatei
Beispiel für Textumwandlung
Wie haben Tesseract bereits in der Praxis erprobt und in einfachen Fällen gute (texterkennungs-) Ergenisse erzielt. Als Vorlage diente uns ein mit dem Fotokopierer vervielfältigter Text, der auf einem gelben Hintergrund gedruckt war.
Folgender Text wurde durch die Bearbeitung des Programms Tesseract erzeugt:
Themen im Solarlabor sind Aufbau und Funktion der Komponenten von Photovoltaik- und ESolarthermieanlagen. Ihr Beitrag zu einer stabilen und klimaverträglichen Energieversorgung wird untersucht. Dabei kommt die von der UNESCO-Dekade für nachhaltige Bildung ausgezeichnete Ausstattung des Solarlabors zum Einsatz. Die.Schüler sammeln Ideen, wieSolarenergie auf ihrem Schulgelände genutzt werden kann. Es wird geklärt, welcheInformationen seitens der Schule für die Weiterentwicklung der Ideen benötigt werden. DieArbeitszeit im Solarlabor liegt bei fünf Stunden.
Die Fehlerrate beim Umwandeln der Grafik in einen Text ist gering. Voraussetzung für eine kleine Fehlerrate ist allerdings, dass die Vorlage bestimmte Bedingungen erfüllt. Beste Voraussetzungen bietet einspaltiger Text ohne Grafiken. Es sollte aber keine Schwierigkeiten bereiten, eine grafische Vorlage adäquat vorzubereiten.
|