Benutzer-Werkzeuge

Webseiten-Werkzeuge


linux:pdf_oracle_linux_9_documenten_scanner

Oracle Linux 9 - PDF Dokumente intelligent auslesen - Docling

Aufgabe : Verträge liegen in PDF Formaten vor und müssen über eine AI Service ausgewertet werden

Da die Verträge teilweise eingescannt sind muss eine „echte OCR“ das auswerten.

Alternative direkt über die Datenbank Filter Oracle Text für die Indizierung binärer Daten verwenden

Daher wird nun das OpenSource Projekt docling getestet ob hier sich mit den vorhandenen Dokumenten gute Daten erzielen lasssen ⇒ Siehe dazu auch https://github.com/docling-project/docling

Folgender Ablauf soll dann in der produktiven Umgebung damit umgesetzt werden:

  1. Freigebenes Verzeichnis /data/dokumente/IN ⇐ hier wird eine zu verarbeitendes Dokument eingestellt
  2. Job der das IN Verzeichnis überwacht
  3. Job erkennt neue Datei und startet Verarbeitung
    1. Auslesen des Textes mit docling
    2. Hochladen json Text und der PDF Datei in den Doc Store in der Oracle Cloud mit einem Rest Service
    3. Nach der Verarbeitung verschieben nach /data/dokumente/DONE

Installation

Ablauf:

  • Oracle Linux 9 Basis System installiert
  • User OCR angelegt
  • Docling installiert
  • IN Verzeichnis zur Verfügung stellen
  • Job für die Überwachung neuer Dateien
  • Script für das Umwandeln in Text
  • Script für den Upload in die Cloud

Basis System

Oracle Linux 9 - Grundinstallation, ohne X ähnlich wie Ein Oracle Linux 8 Basis System als Grundlagen für eine Oracle Clusterware und Datenbank Installation vorbereiten

Weiteres installieren:

dnf install python pip

User

User für den Dokumenten Prozess anlegen

groupadd -g 1200 dokumente
 
useradd -u 1300 -g dokumente  ocr
passwd ocr

Docling Installation

Zugriff auf die folgenden Urls sicherstellen (falls Maschine hinter einer APP Firewall)

  • pypi.org/simple/ (Index für Paketlisten)
  • pypi.org/pypi (Metadaten-API)
  • files.pythonhosted.org (Download der Paketdateien)
  • bootstrap.pypa.io (Für get-pip.py und pip-Upgrade)
  • github.com
  • *.github.io
  • raw.githubusercontent.com/ (für Pakete direkt aus GitHub-Repos)
  • unpkg.com

Für die Modelle im Default:

  • modelscope.cn
  • huggingface.co
su - ocr
 
 
pip install docling

Problem mportError: libGL.so.1

Erster Aufruf wirft Fehler:

docling https://baden-wuerttemberg.igmetall.de/dam/jcr:6e9b30ad-fd75-4005-b498-1be430baf604/ME_Industrie_NWNB_Montageabkommen.pdf
..
ImportError: libGL.so.1: cannot open shared object file: No such file or directory
..

Lösung:

pip uninstall -y opencv-python opencv-python-headless && pip install opencv-python-headless

Docling Verwendung

Aufruf:

docling --to json  --no-show-layout https://baden-wuerttemberg.igmetall.de/dam/jcr:6e9b30ad-fd75-4005-b498-1be430baf604/ME_Industrie_NWNB_Montageabkommen.pdf

demnächst mehr

Quellen

Diese Website verwendet Cookies. Durch die Nutzung der Website stimmen Sie dem Speichern von Cookies auf Ihrem Computer zu. Außerdem bestätigen Sie, dass Sie unsere Datenschutzbestimmungen gelesen und verstanden haben. Wenn Sie nicht einverstanden sind, verlassen Sie die Website.Weitere Information
"Autor: Gunther Pipperr"
linux/pdf_oracle_linux_9_documenten_scanner.txt · Zuletzt geändert: von gpipperr