Geschrieben von Bernhard Husch   

Texterkennung unter Linux mit Tesseract

fax-scannertaste.jpg

Unter Windows kein Problem: Texterkennung von eingescannten Texten aus Zeitschriften oder Büchern. Unter Linux bisher noch immer sehr problematisch - aber es zeichnen sich schon Lichtstreifen am Horizont ab. 


Geschichte 

Die Linux-Gemeinde hat lange darauf gewartet: ein Texterkennungsprogramm, das aus eingescannten Vorlagen von Texten die Zeichen erkennt und sie  als Zeichen speichert - bekannt ist dieser Vorgang als OCR (optical character recognition).

Unter MS-Windows  sind derartige Programme schon längst mit grafischer Benutzeroberfläche in Gebrauch: Omnipage oder FineReader sind Programme, die diese Aufgabe in vorbildlicher Weise erfüllen, aber auch eine Menge Geld kosten.

Zwischen 1985 und 1995 begann die Firma Hewlett-Packard mit der Entwicklung einer OCR-Software. HP gab die Entwicklung auf und übergab den Programmcode der University of Nevada Las Vegas, die den Code über einen Umweg zu Google schließlich zur freien Enwicklung zur Verfügung stellte.

Tesseract

Das ursprünglich von HP entwickelte Produkt existiert heute unter dem Namen Tesseract und ist eine Software, die sich für den normalen Linux-Anwender nicht eignet, weil sie (bisher) über keine (dem Autor bekannte) grafische Benutzeroberfläche verfügt.

Wer Tesseract benutzen möchte, muss sich mit der Unix-/Linux-Kommandozeile auskennen. Wenn man Glück hat, wird Tesseract  als Softwarepaket einer der gängigen Distributionen angeboten. Ansonsten muss man sich auf der Opensource-Softwareschmiede SourceForge bedienen. Hier bekommt man die Programmquellen, die man auf dem eigenen Computer aber erst in ein ausführbares Programm übersetzen muss. Für den Linux-Experten ist das sicherlich kein Problem; für Linux-Benutzer, die ihren PC als Desktopsystem eingerichtet haben, besteht die Notwendigkeit, das notwendige Entwicklungssystem (C/C++ - Compiler und Hilfsmittel zur Softwareentwicklung) zu installieren.

Nach erfolgreicher Installation ist der Arbeitsgang zur Texterkennung wie flgt:

  1. Einscannen der Quelle (Zeitungsartikel, Buchseite o.ä.)
  2. Speichern als unkomprimierte TIFF-Datei
  3. Umwandlung des als Grafik vorliegenden Textes mit Tesseract von der Linux-Konsole in eine Textdatei
  4. Weiterverarbeitung der Textdatei

Beispiel für Textumwandlung

Wie haben Tesseract bereits in der Praxis erprobt und in einfachen Fällen gute (texterkennungs-) Ergenisse erzielt. Als Vorlage diente uns ein mit dem Fotokopierer vervielfältigter Text, der auf einem gelben Hintergrund gedruckt war. 

beispiel.png
 
Folgender Text wurde durch die Bearbeitung des Programms Tesseract  erzeugt:
 
Themen im Solarlabor sind Aufbau und Funktion der Komponenten von Photovoltaik- und ESolarthermieanlagen. Ihr Beitrag zu einer stabilen und klimaverträglichen Energieversorgung wird untersucht. Dabei kommt die von der UNESCO-Dekade für nachhaltige Bildung ausgezeichnete Ausstattung des Solarlabors zum Einsatz. Die.Schüler sammeln Ideen, wieSolarenergie auf ihrem Schulgelände genutzt werden kann. Es wird geklärt, welcheInformationen seitens der Schule für die Weiterentwicklung der Ideen benötigt werden. DieArbeitszeit im Solarlabor liegt bei fünf Stunden.
 
Die Fehlerrate beim Umwandeln der Grafik in einen Text ist gering. Voraussetzung für eine kleine Fehlerrate ist allerdings, dass die Vorlage bestimmte Bedingungen erfüllt. Beste Voraussetzungen bietet einspaltiger Text ohne Grafiken.  Es sollte aber keine Schwierigkeiten bereiten, eine grafische Vorlage adäquat vorzubereiten.

 

 

 

 
< zurück   weiter >