Paperless-Ngxの初期設定、日本語OCR

paperless-ngx Paperless-ngx
paperless-ngx

前回までのあらすじ

Paperless-Ngxをインストールはできましたが、ログインできていません。実際つかえるようにするための設定を行います。

なお、Paperless-Ngxの章では以下を扱っています。

初期ユーザ登録

これまでの手順でインストールしたportainerからユーザを作成します。

http://raspberrypi.local:9000/

からportainerにアクセスし、stacksからcontainerが見える画面までアクセスします。

paperlesss***-webserver-1のコマンドライン起動を選びます(〇部分)

connectを選択します。dockerの中のコマンドラインにアクセスするイメージです。

python3 manage.py createsuperuser

と入力すると、ユーザとパスワード作成の画面指示がありますので従います。この画面はそれで終了です。

http://raspberrypi.local:8010/

にアクセスして、先ほど作成したIDとパスワードを入力すれば上のような画面に入れると思います。こちらで起動は完了です。

右下の「新規ドキュメントのアップロード」から、画像を取り込みます。取り込みが開始したら、あとはブラウザを閉じても大丈夫です。バッチで処理してくれます。

日本語OCR設定

ここまででPaperless-Ngxの起動は完了していますが、日本語OCRが設定できていないので、取り込みをした文書の文字認識ができません。そこで以下の手順で日本語OCR設定を完了させます。

Openmediavaultから、サービス>Compose>Filesから、paperlessを選択し「編集」を選択します。

以下を入力します

services:
 webserver:
    environment:
      PAPERLESS_OCR_LANGUAGES: jpn
      PAPERLESS_OCR_LANGUAGE: jpn

設定は保存し、サービスを再度UPさせましょう。

stopしてからupしなおします。

PCのデスクトップ画像を写真にとり、Paperlessに取り込んでみました。「内容」の部分で日本語OCRの結果が表示されます。

無事、日本語での読み取りに成功しました1

MS-Officeファイル対応

これまでの設定だけでも資料の保管には対応できておりますが、Office文書への対応ができておりません。Office文書(.xlsx,.pptxなど)も格納し、OCR結果を得るためには、別途プラグインをインストールする必要があり、以下に手順を示します。

paperless-ngx/docker/compose/docker-compose.sqlite-tika.yml at main · paperless-ngx/paperless-ngx
A community-supported supercharged version of paperless: scan, index and archive all your physical documents - paperless...

office文書対応に関してはこちらの機能(tika)を利用します。

Openmediavaultから、サービス>Compose>Filesから、paperlessを選択し「編集」を選択します。さきほどの日本語OCRの際と同様です。

以下を入力します

services:
 webserver:
    depends on:
      - gotenberg
      - tika

以下を入力します

services:
 webserver:
    environment:
      PAPERLESS_TIKA_ENABLED: 1
      PAPERLESS_TIKA_GOTENBERG_ENDPOINT: http://gotenberg:3000
      PAPERLESS_TIKA_ENDPOINT: http://tika:9998

直下にgotenbergとtikaを登録します。

services:
 gotenberg:
    image: docker.io/gotenberg/gotenberg:8.7
    restart: unless-stopped
    command:
      - "gotenberg"
      - "--chromium-disable-javascript=true"
      - "--chromium-allow-list=file:///tmp/.*"
 tika:
    image: docker.io/apache/tika:latest
    restart: unless-stopped

stopしてからupしなおすと、tikaとgotenbergのセットが始まります。

ここまで無事終了すると、pptxやxlsxのファイルも文字認識できていることが確認できます。

まとめと次回予告

 Paperless-NGXの初期設定が完了しました。無事使える状態になりましたのでいろいろと離婚で見てください。

 次に、以下を説明予定です。

  • その次 Evernoteからのインポート手順とインポート結果の解析
  • その次 動作検証
  • その次 iphoenアプリの動作検証
  • その次 バックアップとリカバリ