日本語手書き文書のOCR処理

AIの進化の恩恵の一例

　キーボードからタイプ入力して文字起こしするには二の足を踏むほどの量の手書き文書があって、何年も手を付けかねていたのだが、そろそろ放っておけなくなって、なんとか始末つけようと昨今のOCR処理のツールを調べているうち（注１）に、なんとか使い物になりそうなのが見つかり、試してみた。かなりいい成績で実用に耐えそうだ。文字ベースの認識率（注２）はまだ正確には測定できていないが、概算で9０％を超えていそうだ。しかも無料で使える。
　Google Cloud AI OCRがそれだ。
　単純化していえば、画像データ化した手書き文字文書を、Google Cloudに入力すると、OCR処理され、コード化テキスト文書が出力されるのである。GoogleはいわばOCRエンジンを提供するだけで、一連の作業をシステム化したアプリとして提供している訳ではないので、画像データは手書き文書を1ページずつスキャンして事前に用意しておかなければならないし、その画像データを読み込んでOCR処理させるプログラムもPythonでコードしなければならない。もちろん事後処理として誤認識された文字を訂正する作業も人力だから相当な作業量になる。それでも一からキーボードで入力する手間と比べれば雲泥の差である。それに今や、プログラミングはほとんどAIが代行してくれる（今回お世話になったのはChatGPT）。たかだか数十行のコードではあったが、なんにも知らない開発実行環境（Google CloudとそのAPI）下で、しかも当人はほとんど経験のない（習得を諦めた）プログラミング言語のコードをまたたく間に書き上げ、なおかつそれが、数度の修正を経てではあるものの、意図通り機能する、なんて１０年前にはおよそ想像できなかった。

　実証実験で処理したのは手書きのA４版ノート２０ページ、文字数は約５万字だが、OCR処理時間は１分余りだったろうか。前処理（画像データ準備）と後処理（誤認識校訂作業）はその何百倍〜何千倍もかかるのに、驚くべきスピードである。速読の達人も遠く及ぶまい（速読は活字の文章を対象として速度を測定するから、比較することははなから無理があるが）。OCR処理にもう十倍ぐらい時間がかかってもいいから認識率があと数％も上がれば平均的な日本人の認識率を凌ぐだろう、などと虫の良い願望が湧いたりするが、夢物語ではなさそうなところが、ちょっと空恐ろしくもある。

OCRにまつわる余談

（１）活字OCRの利用例

　父の歌集（注３）を編集するときに使ったのは活字OCRシステムだった。父が参加していた結社の機関誌を２７年分を借りて、父の月詠掲載ページをスキャンしてOCR処理し、その出力テキストを手動修正して、出版社に渡す原稿を準備した。道具立ては、自宅のプリンタFAX複合機、Mac、OCRソフト（複合機に付属のもの）だけである。２０００年代前半のOCRでも、活字ならば実用になる程度の認識率だったから、会社勤めの傍らの夜なべ作業で４０００首たらず（約８万字）の歌集原稿がテキスト・データに起こせたのだ。

（２）業務としてのOCRシステム開発

　OCRとは因縁が深い。もうひとつ愛憎半ばする記憶もある。
　３０年以上も前だからもう時効だろう。あるメーカと共同でOCRの試作機を業務に導入する３年越しのプロジェクトを任された。顧客の手書きした住所氏名を読み取るシステムだったが、認識率はなかなかあがらず、８０％を超えることはなかったと記憶する。いちおうシステムは完成して本番稼働にこぎつけたが、それを機にわたしは転職した。そのシステムが大活躍したという噂も聞かなかったから、ひっそりと退役していったのであろう。

補足：あてにならない予告

件の手書き文書の始末が済んだら、別記事を立てて、以下の諸点なども含む顛末を報告していきたいと思っているが、さていつになることやら。
・手書き原稿見本
・出力見本
・OCR処理フロー
・認識率
・Pythonプログラムコード
・Google Cloud環境設定
・画像データの解像度など

　　　
　　　
注

注１　調べたOCRツール一覧（添付）
注２　文字ベースの認識率＝（正しく読み取った文字数／OCRが読み取った文字数）＊１００。
　フリーフォームでかな漢字混じりの日本語手書き文字文書で認識率９０％超は高い水準にあるとはいえようが、事後処理の観点からみると校正者の負荷はまだまだ大きい。
注３　歌集「自然薯やまいも人生」著者：石井善市　２００５年１月、短歌新聞社刊（橄欖叢書第３８０篇）