Pydica - eine Open-Source-Plattform zum Scannen und Validieren von Formularen in Python

Summary

Pydica steht für Distributed Document Capture und ist eine Plattform, mit der die verteilte Verarbeitung ausgefüllter Formulare vom Scannen über die OCR bis hin zur anschließenden Validierung möglich ist. Wir stellen die Plattform, unser Sicherheitskonzept und einen konkreten Anwendungsfall vor.

Für das Problem der Erfassung, Validierung und Weiterverarbeitung großer Mengen ausgefüllter Formulare wie zum Beispiel Verträge, Umfragen, Krankenscheine, Rezepte, Überweisungen, Schecks o. ä. existiert keine Lösung.

Ziele von Pydica sind:

Skalierbarkeit: Die verteilte Architektur sorgt dafür, daß mehrere Scanner- und Validierungsarbeitsplätze genutzt werden können. Auch die Serverkomponenten für OCR und automatische Validierung sind frei skalierbar.

Komplexe Validierungsregeln: Die Validierung beschränkt sich nicht nur auf einzelne Felder, sondern ist auch über mehrere Felder möglich, wie dies z. B. bei Prüfsummen der Fall ist.

Offene Toolchain: Pydica ist keine abgeschlossene Software, sondern darauf ausgelegt, die erfaßten Daten an Drittsoftware, wie zum Beispiel Abrechnungssysteme, zu übergeben.

Ein konkretes Anwendungsbeispiel von Pydica, welches am Ende des Vortrags vorgestellt wird, ist die Verarbeitung von Rezepten im Rechenzentrum für Berliner Apotheken Stein & Reichwald GmbH.