Bücher scannen und Texterkennung aktivieren

Im Media-Lab haben wir für dich einen Buchscanner eingerichtet. Hier kannst du deine Bücher ganz einfach einscannen und abspeichern. Wenn du den fertigen Scan am Computer durchsuchbar machen möchtest, kannst du anschließend die OCR-Erkennung mit ABBYY FineReader 16 durchführen.

Der Scanner sollte eingeschaltet sein und auf dem Display steht Ready to Scan.

Ist der Scanner aus, drückst du zwei Sekunden auf den grünen Startknopf. Der Scanner fährt dann hoch, das dauert ca. eine Minute.

Damit der Scan ordentlich aussieht, muss das Buch korrekt ausgerichtet werden.

  1. Öffne das Buch auf den Seiten, die du zu erst scannen möchtest.
  2. Platziere es so, dass du den Text lesen kannst (untere Kante sollte zu dir zeigen).
  3. Lege es in die Mitte auf die beiden schwarzen Platten.
  4. Fahre entweder beide Platten gleichzeitig oder nacheinander hoch. Ziel ist es, dass beide Buchseiten von unten an die Glasplatte gepresst werden.
  5. Beispiel: Du scannst die ersten Seiten eines dicken Buchs. Dann ist die Platte auf der die schwere Hälfte des Buchs liegt, niedriger als die Platte auf der wenig seiten liegen.
  6. Der rote Laser sollte unterhalb der Buchseite sein und paralell zum unteren Buchrand sein.

Achtung, zerbrechliche Glasplatte

Die Glasplatte hält nicht von selbst. Bitte immer die Glasplatte festhalten!

So sollte ein ausgerichtetes Buch im Scanner liegen:

Mit diesen Tasten richtest du das Buch aus:

Einzelne Platten verschieben:
Die jeweils außen liegenden Knöpfe fahren die Platten auf dieser Seite hoch bzw. runter.

Beide Platten gleichzeitig verschieben:
Die genau mittig liegenden Knöpfe fahren beide Platten hoch bzw. runter.

Beide Platten diagonal zueinander verschieben:
Die mittig-außen liegenden Knöpfe verschieben beide Platten diagonal zueinander.

  1. Du öffnest BCS-2 Office über die Desktopverknüpfung.
  2. Wähle den ersten Job in der Liste.
  3. Sollten dort eingescannte Seiten liegen, löschst du sie einfach.
  4. Links oben findest du ein Fenster in dem wahrscheinlich kein Scan-Profil steht.
  5. Klicke dort drauf und wähle ein Scan-Profil.

Scanprofile

  1. JPEG: Bilder werden in Graustufen mit 300 DPI gespeichert. Empfohlen wenn ihr einfach ein Buch scannen möchtet und keine Langzeitspeicherung des Dokumentes braucht. Scangeschwindigkeit: Schnell.
  2. TIFF: Bilder werden in Graustufen mit 600 DPI gespeichert. Wenn auch Bildinformationen mitgespeichert werden sollen (Zeichnungen) eignet sich der Scan in Graustufen. Das TIFF-Format ist für die Langzeitspeicherung geeignet.
  3. TIFF BITONAL: Bilder werden Bitonal mit 600 DPI gespeichert. Bitonal ist ein starker schwarzweiß-Kontrast. Bitonales Scannen eignet sich vorallem dann, wenn es um den reinen Text ohne Bilder geht.

Wenn du ein Scanprofil gewählt hast,

  1. klicke auf den grünen Button neben dem Zahnrad.
  2. Betätige nun entweder den grünen Startknopf am Buchscanner oder das Fußpedal, um zu scannen.
  3. Hebe die Glasplatte an, blättere um und scanne einfach per Fußbedal oder Startknopf die nächste Seite.
  4. Achte darauf, dass du zwischendurch auch die schwarzen Platten neu ausrichten musst, damit das Buch gleichmäßig gegen die Glasplatte gedrückt wird.

Fußpedal:

Abspeichern

  1. Falls du eine Seite zweimal gescannt hast, kannst du sie vor dem Speichern noch entfernen, damit sie nicht doppelt in deiner PDF-Datei auftaucht (die betreffende Seite markieren und mit der Entf-Taste löschen.)
  2. Kontrolliere, ob du alle Seiten gescannt hast und die Seiten gut lesbar sind.
  3. Wenn du fertig bist, klicke auf Datei wähle Speichern unter…
  4. Wähle als Dateityp PDF und ändert einen Speicherort (zum Beispiel Mein Computer –> mmuster Daten (S:)\Dokumente um es auch auf anderen Computern im PC-Pool zu öffnen. Oder auf einen mitgebrachten USB-Stick.)
  5. Wenn du eins der TIFF-Scanprofile verwendet hast, solltest du auch als Dateityp TIFF wählen. Für TIFF-Dateien solltest du dann ein leeres Verzeichnis anlegen, da jede Seite eine eigene Datei wird.

Wenn du fertig bist, kannst du das Programm schließen.

Nimm nun dein Buch aus dem Scanner, indem du die Glasplatte anhebst.
Bitte fahre nun die schwarzen Platten runter.
Schalte den Buchscanner aus. Dazu hälst du ein paar Sekunden den roten Knopf gedrückt. Ggf. fahren erst die schwarzen Platten herunter. Sobald auf dem Display des Buchscanners Shutdown in process steht, kannst du loslassen.

In ABBYY FineReader kannst du nun deine Datei bearbeiten. Du kannst:

  • Seiten zurechtschneiden,
  • Seiten trennen,
  • das Dokument durchsuchbar machen (OCR aktivieren)

Dokument im OCR-Editor öffnen

  1. Öffne ABBYY FineReader OCR-Editor.
  2. fügt per Drag'n'Drop oder über das Menü das PDF-Dokument mit dem gescannten Buchseiten ein.
  3. Brich den automatischen Vorgang am Anfang ab.
  4. In der linken Spalte solltest du nun dein gescanntes Dokument sehen


Um Änderungen zu machen, klicke auf Bild bearbeiten:


Seiten zuschneiden (Ränder entfernen)
Falls du die Seiten zurechtschneiden möchtet:

  1. Markiere die entsprechenden Seiten und wähle in der rechten Seitenleiste das Tool Zuschneiden.
  2. Spanne jetzt das blaue Rechteck um den Bereich, den du am Ende speichern möchtest (also sollte der lesbare Text blau umrahmt sein).
  3. klicke auf Zuschneiden.

Hier findest du die Option Zuschneiden

Alles innerhalb des blauen Rechtecks bleibt bestehen:

Seiten trennen (Aus Doppelseiten einzelne Seiten machen) BCS-2 scannt immer zwei Blätter als eine Seite. Mit ABBYY kannst du sie wieder trennen.

  1. Markiere alle doppelseitig gescannten Seiten.
  2. Klicke auf Bild Bearbeiten und wähle in der rechten Seitenleiste die Option Teilen.
  3. Klicke in die Buchfalte zwischen den beiden Seiten und anschließend in der Seitenleiste auf Trennen nach Zeile.

Hier ist die Option Teilen:

Und so sieht ein geteiltes Buch dann aus:

Die Seiten sollten nun getrennt sein.

OCR einrichten
Zunächst solltest du die richtige(n) Sprache(n) auswählen:

  1. Klicke auf die gewählte Sprache (das Feld neben dem Erkennen-Button)
  2. Wähle nun weitere Sprachen und aktiviere OCR-Sprachen manuell festlegen
  3. Wähle aus der Liste die Sprache(n) aus, die du brauchst. Du kannst ohne Probleme mehrere Sprachen verwenden. Das ist zum Beispiel bei Wörterbüchern hilfreich.
  4. Bestätige die Sprachen mit OK

Du kannst einfach mehrere Sprachen wählen. ABBYY erkennt diese dann automatisch.

Historische Schriftarten mit OCR lesen
ABBY FineReader kann historische Schriftarten in den Sprachen Englisch, Deutsch, Französisch, Italienisch, Spanisch und Lettisch erkennen. Dafür gibt es die folgenden Sprachen:

  • Altenglisch
  • Altdeutsch
  • Altfranzösisch
  • Altitalienisch
  • Altspanisch
  • Lettische Fraktur

Wähle dafür, wie oben genannt, bei unter weitere Sprachen die gewünschte Sprache aus und drücke anschließend auf Erkennen.

Falls du möchtest, dass die Resultate der OCR-Erkennung in einer historischen Schrift angezeigt werden, so unterstützt ABBY FineReader die folgenden Schriftarten:

  • Textur/Textualis — gotische Schrift.
  • Fraktur — gotische Schrift mit eckigen Strichen.
  • Schwabacher — Gebrochene Schrift mit abgerundeten Strichen bei einigen Buchstaben.


Sollte keine historische Schriftart installiert sein, so wird die Schriftart Arial, Times oder Courier verwendet.

OCR anwenden

  1. Markiere alle oder einzelne Seiten (Wenn du einzelne Seiten markierst, werden nur diese bearbeitet)
  2. klicke auf und lasse die OCR-Erkennung durchlaufen.
  3. Anschließend kannst du im Editor die OCR-Erkennung korrigieren.

OCR korrigieren
Du siehst in deinem gescannten Dokument nun mehrere blaue Felder. Rechts siehst du ein Editor-Feld mit Text und unten dein Dokument, in vergrößerter Form.

Im Editor kannst du nun die OCR-Erkennung korrigieren.

Muster erstellen und selbst trainieren
Die OCR-Erkennung hat manchmal Probleme Schriften oder Zeichen zu erkennen. Das passiert häufiger bei alten Büchern, mathematischen Symbolen oder Ligaturen (zwei oder drei zusammengeklebte Zeichen wie fi, fl, ffi etc.). Aus diesem Grund ist es ratsam Benutzermuster zu erstellen und selbst zu trainieren.

  1. Klicke in der oberen Leiste auf Werkzeuge > Optionen….
  2. Dann gehe im Reiter OCR zu Nutzung von Muster und Training im OCR-Editor .
  3. Wähle dann Verwenden Sie das Training zum Erkennen neuer Zeichen und Ligaturen aus.(Außerdem integrierte Muster verwenden bedeutet, dass ABBY FineReader zusätzlich zu den von dir erstellten Mustern seine eigenen integrierten Muster anwendet.)
  4. Klicke rechts auf Mustereditor…, drücke auf Neu und gebe deinem Muster einen Namen.
  5. Klicke auf OK im Mustereditor und in den Optionen.
  6. Markiere die Seiten die du durchlaufen möchtest und drücke oben in der Schaltfläche auf . Falls das Programm auf ein unbekanntes Zeichen trifft, öffnet sich das Mustertraining.

  • Im oberen Fenster kann das Zeichen zugeschnitten werden (grün).
  • Gebe bei Geben Sie das Zeichen ein, das vom Bildausschnitt umschlossen wird: mithilfe der Tastatur das Zeichen ein, das es darstellen soll. Falls das Symbol nicht auf der Tastatur vorhanden ist, gibt es mit eine größere Auswahl an Zeichen.
  • Bei Effekten kann außerdem ausgewählt werden ob das Zeichen fett, kursiv, hoch- oder tiefgestellt ist.
  1. Klicke nach der Bearbeitung auf . Ein Muster kann bis zu 1000 Zeichen enthalten.
  2. Wenn du fertig bist, klicke auf Schließen und dann auf Ja um das Muster zu speichern.

Muster bearbeiten
Bevor du ein vorhandenes Muster verwenden möchtest, solltet du es vielleicht nochmal bearbeiten, da es die OCR-Qualität beeinträchtigen könnte. Ein Muster sollte nur ganze Zeichen oder Ligaturen enthalten. Sollten Ränder von Zeichen abgeschnitten oder falsche Buchstabenpaarungen vorhanden sein, so sollten diese entfernt werden.

  1. Klicke auf oben auf Werkzeuge > Mustereditor….
  2. Dann drücke auf das zu bearbeitende Muster und auf Bearbeiten….
  3. Wähle ein Zeichen aus, das du bearbeiten möchtest, und klicke dann auf Eigenschaften…. Dort hast du die Möglichkeit, das Zeichen zu bearbeiten. Ein Zeichen kann auch gelöscht werden.

Muster verwenden
Um ein Muster wiederzuverwenden, mache folgendes:

  1. Klicke auf oben auf Werkzeuge > Mustereditor….
  2. Wähle das Muster aus und klicke rechts auf Aktivieren. Neben dem Musternamen sollte nun (aktiv) stehen.

Muster exportieren und importieren
Um Muster auch für andere OCR-Projekte zu verwenden können, diese in einer Datei gespeichert werden.
Export:

  1. Klicke auf oben auf Werkzeuge > Optionen….
  2. Gehe über den Reiter OCR auf Benutzerdefinierte Muster und Sprachen speichern...
  3. Gehe auf den gewünschten Pfad zur Speicherung der Datei und gebe dieser Datei einen Namen.

Import:

  1. Klicke auf oben auf Werkzeuge > Optionen….
  2. Gehe über den Reiter OCR auf Benutzerdefinierte Muster und Sprachen speichern...
  3. Wähle die gewünschte Datei aus (*.fbt Datei).

Wichtige Hinweise zu Mustern

  • Es kann vorkommen, dass das Programm sehr ähnliche aber dennoch unterschiedliche Zeichen nicht auseinanderhalten kann, auch nicht, wenn du es ihm beibringst. (Bspw. gerades ('), linkes (‘) und rechtes (’) Anführungszeichen)
  • Das Programm erkennt ein Zeichen, je nachdem in welchem Kontext sich das Zeichen befindet. Ein kleiner Kreis wird in einer Zahlenumgebung als 0 und in einer Buchstabenumgebung als o erkannt.
  • Du kannst nur Muster für ein Dokument verwenden, das dieselbe Schriftart, Schriftgröße und Auflösung wie das Dokument hat, womit das Muster erstellt wurde.

Dokument abspeichern

  1. Du siehst rechts oben zwei Felder, die nun entscheidend sind:
  2. wähle zuerst rechts aus, welche Art der Kopie du haben möchtest.
    1. Empfehlung: Genaue Kopie
  3. Klicke anschlißend auf den kleinen Pfeil beim linken Feld.
  4. Wähle Als durchsuchbares PDF-Document speichern… aus.
  5. Wähle einen Speicherort aus und speichere die Datei ab.
  6. Fertig.

ABBYY-Projekt speichern
Falls die Zeit knapp wird, oder du eine Pause brauchst, kannst du auch deine Fortschritte als OCR-Projekt speichern:

  1. Klicke auf Datei
  2. wähle OCR-Projekt speichern… aus.

Jetzt kannst du zu einem späteren Zeitpunkt dein Projekt weiter bearbeiten. Das geht nur am Buchscanner-PC.

  • philpool/medialab/buchscanner.txt
  • Zuletzt geändert: 18/07/2024 16:26
  • von kmai1