DMS, ECM mit Integrationen

Automatisierte Belegverarbeitung

ABBYY FlexiCapture Engine

Ein Software Development Kit (SDK) ist eine Sammlung von Werkzeugen und Anwendungen von Hersteller, um definierte ABBYY Funktionen in bestehenden Softwareapplikationen, Programme  wie KIS, ERP, FIBU, Produktion, Logistik etc. Softwareprogramme mit diesen ABBYY Funktionen zu erweitern.

Mit dieser SDK können wir die Integration von dem marktführenden Document Capture Technologien in server- oder desktopbasierte und mobile Applikationen für Sie optimal einsetzten. Dieses Toolkit ist das erste umfassende Data Capture SDK, das Data Capture Technologien und visuelle Tools für eine schnellere und einfachere Applikationsentwicklung verbindet. Die vielseitigen Anwendungsgebiete umfassen die Bereiche der Dokumentenerkennung, Formularverarbeitung, Verarbeitung von semi- und unstrukturierten Dokumenten und deren Export in Drittsysteme zur Weiterbearbeitung oder Archivierung.

Produktübersicht

ABBYY FlexiCapture Engine ist die nächste Generation des Data Capture SDK von ABBYY. FlexiCapture Engine bietet die Möglichkeit, auf schnelle und effiziente Weise Lösungen zu entwickeln, mit denen Daten nahezu jeder Art und Komplexität aus Formularen und Dokumenten extrahiert werden können. Damit ist es ein ideales Tool für ISVs, OEM- und Dienstleistungsanbieter, die an der Entwicklung von Datenerfassungslösungen interessiert sind. Der Leistungsumfang von ABBYY FlexiCapture Engine reicht vom Extrahieren von Daten aus Umfragen, dem Speichern von Daten aus Rechnungen bis hin zur Klassifizierung und Indexierung von Verträgen und Briefen sowie der Entwicklung mobiler Datenerfassungsanwendungen. Es kann außerdem zur Erstellung benutzerdefinierte Datenerfassungslösungen für zahlreiche Scangeräte und -terminals eingesetzt werden.

ABBYY FlexiCapture Engine ist flexibel, exakt, skalierbar und bietet neben den bewährten Funktionsumfang jetzt noch folgende leistungsstarken Neuerungen:

  • Neue Merkmale und Verbesserungen der Technologie von FlexiCapture 9.0
  • Umfangreicherer Zugriff auf die FlexiCapture-Technologie ermöglicht die direkte Konfiguration der Verarbeitungsumgebung
  • Neue OCR-Sprachen: Chinesisch (vereinfacht und traditionell), Japanisch, Koreanisch und Vietnamesisch
  • Optimierung der Leistung bei Server-Szenarien (Mehrkern-CPU-Verarbeitung, 64-Bit-Unterstützung)
  • Verbesserte Entwicklerdokumentation und Bibliothek mit Codebeispielen Library

ABBYY FlexiCapture Engine ist das umfangreichste Data Capture SDK für die Kombination von Technologien und Tools zur Verarbeitung von Formularen, semi-strukturierten und unstrukturierten Dokumenten. Das Toolkit erlaubt auch Datenvalidierung, Dokumentenklassifizierung, Datenexporte in Backend-Systeme und die Konvertierung von Dokumenten zur Archivierung. Es spielt keine Rolle, wie komplex die Dokumente aufgebaut sind: FlexiLayouts wurden speziell für die Analyse und Identifizierung von Daten entwickelt, auch wenn die Dokumente nur teilweise strukturiert sind. Die Flexibilität des SDKs ermöglicht eine stabile und zuverlässige Verarbeitung mehrseitiger Dokumente und eine intelligente Verarbeitung langer Tabellen.

ABBYY FlexiCapture Technology for Data Capture

ABBYY ist bekannt für seine hochwertigen OCR und Linguistiktechnologien. Die Leistung von ABBYY FlexiCapture Engine basiert auf der äußerst umfangreichen Unterstützung für OCR-/ICR-Sprachen. Diese beinhalten über 195 Sprachen für OCR und etwa 112 Sprachen für ICR sowie eine zuverlässige Erkennung von Auswahlfeldern und Barcodes.

Mit FlexiCapture Engine können Sie den Funktionsumfang Ihrer Anwendungen auf einfache Weise erhöhen ohne die Entwicklungskosten explodieren zu lassen. Die ABBYY FlexiCapture-Technologie konvertiert gescannte oder mit einer Digitalkamera erfasste Dokumente in digitale Daten, die nahezu vollautomatisch in vielen Unternehmensprozessen zur Verfügung gestellt werden können.

Datenimport

ABBYY FlexiCapture Engine kann Bilder aus drei Arten von Quellen erhalten: Scannen von Dokumenten, öffnen von Dateien oder direkt aus dem Arbeitsspeicher.

Scannen von Dokumenten

  • Über TWAIN UI (einschließlich ADF-Unterstützung und manueller Eingabezufuhr)
  • Direkte Einrichtung der Scaneinstellungen über ABBYY FlexiCapture Engine API

ABBYY FlexiCapture Engine 9.0 ermöglicht eine flexible Verwaltung der Scanparameter wie z. B.: Helligkeit, Farbe, Auflösung, Bildgröße, Duplexscan, Einrichtung einer Pause zwischen den Seiten und mehr.

Bilddateiformate

Das Data Capture SDK unterstützt die meisten Bildformate, einschließlich mehrseitiger TIFF und JPEG 2000 (Teil 1) und funktioniert mit Schwarz-Weiß-, Graustufen- und Farbbildern. Auch das Öffnen von PDF-Dateien ist möglich, indem diese mit Hilfe der Adobe® PDF Library Technology in Bilder konvertiert werden.

  • BMP
  • DCX
  • DjVu
  • GIF
  • JBIG2
  • JPEG
  • JPEG 2000
  • PCX
  • PNG
  • PDF
  • TIFF and multi-page TIFF

Arbeiten mit Quellbildern als Datenstrom im Speicher

Bilder können in den Speicher geladen und entweder mit Engine-Verfahren oder über Software von Drittanbietern vorverarbeitet werden. Die vorverarbeiteten Bildseiten werden dann zur Erkennung direkt vom Speicher zum FlexiCapture Processor weitergegeben, ohne dass temporäre Dateien erzeugt werden müssen.

Bildaufbereitung

Nach dem Import führt FlexiCapture Engine eine Reihe von Funktionen zur Bildvorbearbeitung durch, um die Qualität der Dokumente für die weitere Verarbeitung und Ablage zu verbessern.

Nach dem Empfang der Bilder führt FlexiCapture Engine eine Reihe von Funktionen zur  Bildvorbearbeitung  durch, um  so die Qualität der Dokumentenbilder für die weitere Erkennung oder Archivierung zu verbessern:

Automatisierte Bildentzerrung

Hierbei handelt es sich um eine wichtige Funktion der Bilderzeugung aus Dokumenten. Sie wird bei gescannten Dokumenten angewandt, deren Bildverzerrung ausgeglichen werden muss. Falzkanten oder Linien sind nicht erforderlich. FlexiCapture Engine enthält mehrere Verfahren für das Entzerren von Bildern, basierend auf: Paare von schwarzen Quadraten, Linien oder Textzeilen.

Entfernen von Störungen in Bildern (oder Bildbereinigung)

Beim Scannen von Dokumenten mit mittlerer bis schlechter Qualität erhalten Sie unter Umständen sehr "verrauschte" Bilder mit vielen Punkten oder Flecken. Wenn sich diese Flecken in der Nähe von Buchstaben oder Zahlen befinden, können sie die Qualität der OCR beeinträchtigen. Diese Funktion entfernt das Rauschen. Die Größe der zu entfernenden Störungen kann vom Benutzer festgelegt werden. Sie kann für ein Bild sowie für einzelne Blöcke (oder Zonen) des Bildes angewendet werden.

Spiegelung und Invertierung

Es steht eine Option zum Spiegeln des vorbereiteten Bildes um seine vertikale Achse zur Verfügung. Außerdem ist es möglich, die Farben des vorbereiteten Bildes zu invertieren. Standardmäßig sind alle diese Eigenschaften auf FALSE gesetzt.

Farbfilterung

Insbesondere die intelligente Hintergrundfilterung sowie die Entfernung von Stempeln sind beim Extrahieren von Daten aus Dokumenten, die auf farbigen oder texturierten Hintergründen gedruckt sind, äußerst hilfreich.

Dokumentanalyse zur Datenerfassung

Der Begriff Dokumentanalyse bezieht sich auf die Methoden zur automatischen Identifizierung der Komponenten eines Dokuments. Die preisgekrönte FlexiCapture-Technologie von ABBYY löst eine weite Vielzahl von Datenerfassungsproblemen, indem das System mit einer erhöhten Intelligenz und Flexibilität ausgestattet wird. Mit FlexiLayout!, einer logischen Definition des Layouts von Daten, befreit FlexiCapture Sie von den Einschränkungen vorlagenbasierter Formularzuordnungen (wie z. B. Vertrauen auf die exakte Platzierung von Feldern auf der Seite). Das System kann durch Verwendung verfügbarer Informationen Felder an andere Stelle finden: durch den Bezug auf andere Objekte auf der Seite, Inhalte im Feld, dessen Größe, darum herum gezeichnete Linien usw.

Eine wichtige Funktion des Datenerfassungsszenariums besteht darin, dass nur bestimmte Felder erkannt werden. FlexiCapture imitiert die Art und Weise, wie Menschen Objekte erkennen. Um die erforderlichen Daten zu erkennen, hält der menschliche Bediener auf spezielle Felder im Dokument Ausschau. Er findet das Feld und analysiert die Bereiche darum. Unser Produkt geht genauso vor. Es findet die erforderlichen Felder auf flexiblen Formularen durch Verwendung einer speziell formalisierten Beschreibung, die als FlexiLayout! bezeichnet wird und die mit einem speziellen visuellen Tool, dem FlexiLayout Studio, erstellt wird. Dann analysiert das Programm den Bereich um das jeweilige Element und zieht seine Rückschlüsse über die Beschaffenheit des Feldes und dessen Inhalt.

 

 

Die Entwicklung mit FlexiCapture Engine erfolgt normalerweise in zwei Schritten:

  1. Sie sollten die Beschaffenheit des für das Auslesen von Daten verwendeten Dokuments analysieren und richtige Dokumentdefinitionen erstellen, die entweder auf Vorlagen für statische Formulare oder auf FlexiLayouts basieren können.
  2. Danach können Sie die Engine in Ihre Anwendung integrieren.

Entwicklung von Dokumentvorlagen für statische Formulare

Der Dokumentvorlageneditor ermöglicht eine schnelle und intuitive Entwicklung von Dokumentvorlagen für die Verarbeitung statischer Formulare.

  1. Laden Sie die verschiedenen Segmente des mehrseitigen Formulars in den Editor.
  2. Definieren Sie die allgemeinen Elemente, die zur Zuordnung des Dokuments verwendet werden: Anker, statischer Text und Trennlinien.
  3. Definieren Sie die verschiedenen Erkennungsbereiche in einem grafischen Editor, wo z. B. Textblöcke, Tabellen, Auswahlfelder, Gruppen von Auswahlfeldern, Barcodes und Bilder lokalisiert sind.
  4. Einrichtung der Erkennungseigenschaften für die einzelnen Bereiche, wie z. B. OCR, ICR, und das Anhängen von Datentypdefinitionen, Wörterbücher und Überprüfungsregeln.

Entwicklung von mehrseitigen FlexiLayout-Vorlagen mit FlexiLayout Studio

Die Benutzeroberfläche von FlexiCapture Studio wurde für eine vereinfachte FlexiLayout-Erstellung entwickelt, indem der Entwickler durch eine Reihe von Dialogfeldern geleitet wird. In komplizierten Fällen, bei denen eine detaillierte Anpassung und Unterstützung erforderlich sind, stellt FlexiCapture Studio einen direkten Zugriff auf die interne Struktursprache bereit und gewährleistet so volle Flexibilität und detailierte Kontrolle.

 

  1. Laden Sie eine Auswahl an Dokumenten mit verschiedenen Layouts.
  2. Bestimmen Sie eine Reihe generischer Elemente, die eine Identifizierung von Dokumenten ermöglichen und die für die Orientierung innerhalb eines Dokuments verwendet werden können, z. B. Zeichenfolgen, Zeilen, Abstände zwischen den Elementen.
  3. Bestimmen Sie Suchelemente für die gesuchten Daten, wie z. B. Text, Zahlen, Datum, Tabellen, Länge der Zeichenfolge, Zeichensätze, eines oder mehrere Wörter, eine oder mehrere Zeilen.

Zusätzlich werden diese Elemente in Bezug zu anderen, in Schritt 2) eingerichteten Bereichen gesetzt, beispielsweise rechts oder darunter.

Direktes Erstellen von Dokumentdefinitionen

Mit ABBYY FlexiCapture Engine können Entwickler Dokumentdefinitionen mithilfe der von ABBYY FlexiCapture Engine bereitgestellten Verfahren erstellen:

Erstellen einer einfachen Dokumentdefinition
(mit nur einer Sektion*)

Erstellen einer zusammengesetzten Dokumentdefinition
(mit mehreren Sektionen*)

  • Verwenden Sie die Methode CreateDocumentDefinitionFromAFL der Engine, um eine Dokumentdefinition von ABBYY Flexible Layout zu erstellen
  • Verwenden Sie die Methode CreateDocumentDefinitionFromXFD der Engine, um eine Dokumentdefinition aus der XML-Formulardefinition zu erstellen
  • Erstellen Sie mithilfe der Methode CreateDocumentDefinition des Engine-Objekts eine leere Dokumentdefinition
  • Erstellen Sie aus einer XFD-Datei einen neuen statischen Bereich
  • Erstellen Sie aus einer AFL-Datei einen neuen flexiblen Bereich.
    file

 

Erkennung

Optische Zeichenerkennung (OCR)

  • OCR-Technologie für über 195 Sprachen.
  • 41 Sprachen bieten Wörterbuch-/Morphologieunterstützung
  • Erkennung mehrsprachiger Dokumente
  • Erkennung von Dokumenten, die auf Punktmatrix-Druckern gedruckt wurden FlexiCapture Engine erkennt viele verschiedenartige gedruckte Punktmatrixtexte. Das wurde durch das Training der Zeichen erreicht, die aus mehrere Tausend Proben verschiedenster Drucker stammen. Dazu zählten Punktmatrix-, Typenrad-, Ketten- und Banddrucker sowie die Nutzung der Druckmodi Entwurf und Near Letter Quality (NLQ)
  • Erkennung von Dokumenten, die auf Schreibmaschinen geschrieben wurden
  • Zeichenerkennung für Chinesisch, Japanisch und Koreanisch (CJK)Thai, Vietnamese and Hebrew OCR.
  • Erkennung von OCR-A, OCR-B, MICR (E13B) und CMC7

Intelligente Zeichenerkennung (ICR)

  • ICR-Technologie für über 110 Sprachen
  • Über 30 Sprachen (mit lateinischen, griechischen und kyrillischen Alphabeten) mit Wörterbuch-/Morphologieunterstützung und 85 Sprachen mit lateinischen Zeichen ohne Wörterbücher
  • ICR für indische Ziffern, die in arabischen Staaten verwendet werden
  • 22 regionale Stile von Handschriften, die in verschiedenen Ländern und Regionen der Welt verwendet werden (für unterstützte ICR-Sprachen)
  • Erkennung handgeschriebener Zeichen in Feldern und Rahmen unterstrichene Auswahlfelder, Felder, Kombinationsfelder usw.
  • Mehrsprachige ICR: Einer der Hauptvorteile der ABBYY ICR-Technologie besteht darin, dass Ziffern und Ziffern in Kombination mit Buchstaben einer oder mehrerer Sprachen fast mit gleich hoher Genauigkeit erkannt werden, auch wenn die Felder Groß- und Kleinschreibung enthalten

Optische Erkennung von Markierungen (OMR)

Die OMR-Technologie von ABBYY erkennt einfache Auswahlfelder, gruppierte Auswahlfelder, Modell-Auswahlfelder und Auswahlfelder mit handschriftlichen "Korrekturen" in verschiedenen Variationen:

  • Einfacher Text
  • Unterstrichener Text
  • Text im Rahmen
  • Graue Felder
  • Zeichenfeldreihen
  • Einfacher Kamm
  • Kamm in Rahmen
  • Teilrahmen

OMR ergibt eine Genauigkeit von 99,995 %.

Optische Barcode-Erkennung (OBR)

  • 1D- und 2D-Barcodetypen. ABBYY Data Capture SDK unterstützt die Erkennung bekannter Typen von 1D- und 2D-Barcodes.
  • Intelligentes Extrahieren von Barcodes. Diese Funktion ermöglicht die automatische Erfassung und Erkennung von Barcodes in beliebigen Winkeln auf einem Dokument. Dies funktioniert sowohl mit 1D- als auch 2D-Barcodes. Geben Sie hier den gewünschten Absatzinhalt ein...

Verification

Die Datenüberprüfung erfolgt durch Vergleich der Erkennungsergebnisse mit dem Bildausschnitt auf dem Dokument. Wenn das Programm bestimmte Zeichen nicht mit absoluter Sicherheit erkennt, markiert es sie als "unsicher erkannt". Das Ziel der Überprüfung besteht darin, zu prüfen, ob diese Zeichen richtig erkannt wurden, und bei Bedarf Fehler zu korrigieren.

FlexiCapture Engine bietet effektive und komfortable Instrumente für die Überprüfung der Gültigkeit erfasster Daten und die Nachverfolgung von Erkennungsfehlern:

Regelbasierte Überprüfung

Bei Bedarf können erkannte Daten automatisch überprüft werden. Das beinhaltet eine einfache Bereichsüberprüfung, einen Vergleich mit einem bekannten Wert (z. B. als regulärer Ausdruck bereitgestellt oder aus einer Datenbank entnommen) und einen Vergleich der Datenelemente innerhalb eines Dokuments. Und schließlich können mit Skripten äußerst raffinierte Überprüfungsregeln erstellt werden.

Die Regeln können mit Hilfe eines separaten Tools auf einfache Weise verwaltet werden FlexiCapture, das mit FlexiCapture Engine mitgelieferte Produkt für die Einrichtung von Dokumentdefinitionen. Dadurch wird die Wartung von Lösungen in der Produktionsstufe erleichtert, da nur die Dokumentdefinition geändert werden muss, ohne dass eine Codezeile angefasst werden muss.

Sollten Entwickler dennoch die Verwaltung der Regeln über den Code bevorzugen, kann dieser einfach über die Produkt-API konfiguriert werden.

Gruppenüberprüfung

Die Gruppenüberprüfung ist ein Überprüfungsmodus, bei dem als gleich erkannte Zeichen in Gruppen zur Überprüfung übermittelt werden. Bei der Gruppenüberprüfung werden Zeichenbilder, die mit identischen Werten erkannt wurden, gruppiert und im Überprüfungsfenster angezeigt, so dass der Operator die von der Gruppe abweichenden Zeichen einfach identifizieren und korrigieren kann.

Kontextüberprüfung

Die Kontextüberprüfung dient zur effektiven Korrektur von Formatfehlern bei leicht erkennbaren Feldern, d. h. Feldern, deren Wertebereich bekannt ist oder einfach identifiziert werden kann. Beispiele für diese Felder sind Felder, die die Bezeichnung eines Landes oder eines Ortes enthalten.

Datenexport

Nachdem die Dokumente erkannt wurden, müssen die erkannten Daten gespeichert werden.

ABBYY FlexiCapture Engine ermöglicht Ihnen den Export aller relevanten Daten in Backend-Anwendungen und konvertiert analysierte Dokumente in durchsuchbare PDF- oder PDF/A-Dateien für Archivierungszwecke. Datenerfassungstechnologien exportieren Daten in strukturierte Formate (XML, CSV) oder an einen anderen Speicherort. Manchmal werden auch die Bilder des Originaldokuments gespeichert.

Mit der neuen Version ABBYY FlexiCapture Engine 9.0 können Entwickler von den folgenden erweiterten Exportmöglichkeiten profitieren:

Schwärzung

Schwärzung bedeutet das Unsichtbar machen vertraulicher oder sensibler Daten von der Datenverarbeitung. Entwickler können:

  • bestimmte Felder auf dem Bild vor dem Exportieren schwärzen,
  • für jedes Exportziel verschiedene Feldreihen zur Schwärzung auswählen

Dokumentvorlagen können so eingerichtet werden, dass sich das Aussehen der Bilder für jedes Exportziel ändert, indem bestimmte Felder auf dem Bild geschwärzt werden.



PDF (PDF/A) MRC Kompression

Eine spezielle Kompressionstechnologie mit dem Namen MRC (Mixed Raster Content) dient zur Minimierung der Größe von PDF- und PDF/A-Dateien.



Dokumentbilddateien sind im Allgemeinen aufgrund des Hintergrunds, der oft 90 % der Dateigröße ausmacht, sehr groß. Der Hintergrund kann im Ergebnisdokument jedoch unnötig sein. Wichtig sind in erster Linie Text und Bilder.

Die MRC-Kompressionstechnologie ermöglicht die Lokalisierung des Farbhintergrunds und dessen Löschung oder starke Komprimierung. Dadurch verbleiben Text und Bilder auf einem weißen Hintergrund, wodurch eine kleinere Dateigröße erreicht wird.
Auch Bildobjekte (Diagramme, Grafiken, Logos, Fotos, Zeichnungen, Stempel, Unterschriften usw.) werden leicht komprimiert, aber nur soweit, dass sich dabei die Qualität nicht zu stark verschlechtert.

Die MRC-Technologie analysiert die Konturen ähnlicher Zeichen im Dokument, erstellt eine Durchschnittsvorlage der Zeichen und verwendet diese anstelle des Zeichens selbst. Das führt zu einer besseren Lesbarkeit, da manche der Textfehler korrigiert werden und die Zeichenkonturen präziser werden.

Als Ergebnis erhalten Sie ein kleineres Bild, das sogar noch besser aussieht als vorher. Das daraus resultierende Dokument besitzt einen unauffälligen und farblosen Hintergrund mit feinem Text und Bildern.

Diese "Rekonstruktion" des Dokuments kann nützlich sein, wenn Sie aus folgenden Ursachen Bilder von schlechter Qualität verarbeiten müssen: schlechte Beleuchtung, unscharfe Fotos, falsche Scan-/Fotoparameter, dunkles unbeschichtetes Papier oder Dokumentenverfall.

All dies führt zu einem dunklen Hintergrund des Bildes mit zusätzlichen Texturen. Der Text erscheint unscharf und kann nur schwer gelesen werden.
Die MRC-Technologie verbessert das Erscheinungsbild des Dokuments und liefert eine acht- bis zehnmal kleinere Dateigröße als JPEG.

Erweiterte Optionen für die Bennenung von Exportdateien

Benennen Sie die resultierenden Dateien entsprechend Ihrer Unternehmensbedürfnisse

Bei der Einrichtung von Dokumentvorlagen können Entwickler dem Namensschema Ihrer Exportdateien Parameter und Indexfeldwerte nach Bedarf hinzufügen. Neue Optionen bieten mehr Flexibilität und eine umfangreiche Auswahl an Markierungen:
Exporteinstellungen Benennungsschema: Anpassen > Bearbeiten > Exportdateiziel Benennungsschema > Markierung hinzufügen