Aufgabe : Verträge liegen in PDF Formaten vor und müssen über eine AI Service ausgewertet werden
Da die Verträge teilweise eingescannt sind muss eine „echte OCR“ das auswerten.
Alternative direkt über die Datenbank Filter Oracle Text für die Indizierung binärer Daten verwenden
Daher wird nun das OpenSource Projekt docling getestet ob hier sich mit den vorhandenen Dokumenten gute Daten erzielen lasssen ⇒ Siehe dazu auch https://github.com/docling-project/docling
Folgender Ablauf soll dann in der produktiven Umgebung damit umgesetzt werden:
Ablauf:
Oracle Linux 9 - Grundinstallation, ohne X ähnlich wie Ein Oracle Linux 8 Basis System als Grundlagen für eine Oracle Clusterware und Datenbank Installation vorbereiten
Weiteres installieren:
dnf install python pip
User für den Dokumenten Prozess anlegen
groupadd -g 1200 dokumente useradd -u 1300 -g dokumente ocr passwd ocr
Zugriff auf die folgenden Urls sicherstellen (falls Maschine hinter einer APP Firewall)
Für die Modelle im Default:
su - ocr pip install docling
Erster Aufruf wirft Fehler:
docling https://baden-wuerttemberg.igmetall.de/dam/jcr:6e9b30ad-fd75-4005-b498-1be430baf604/ME_Industrie_NWNB_Montageabkommen.pdf .. ImportError: libGL.so.1: cannot open shared object file: No such file or directory ..
Lösung:
pip uninstall -y opencv-python opencv-python-headless && pip install opencv-python-headless
Aufruf:
docling --to json --no-show-layout https://baden-wuerttemberg.igmetall.de/dam/jcr:6e9b30ad-fd75-4005-b498-1be430baf604/ME_Industrie_NWNB_Montageabkommen.pdf
Installation:
Doku:
Web: