キーボードからタイプ入力して文字起こしするには二の足を踏むほどの量の手書き文書があって、何年も手を付けかねていたのだが、そろそろ放っておけなくなって、なんとか始末つけようと昨今のOCR処理のツールを調べているうち(注1)に、なんとか使い物になりそうなのが見つかり、試してみた。かなりいい成績で、文字ベースの認識率(注2)は優に90%を超えているだろう。しかも無料で使える。
Google Cloud AI OCRがそれだ。
単純化していえば、画像データ化した手書き文字文書を、Google Cloudに入力すると、OCR処理され、コード化テキスト文書が出力されるのである。GoogleはいわばOCRエンジンを提供するだけで、一連の作業をシステム化したアプリとして提供している訳ではないので、画像データは手書き文書を1ページずつスキャンして事前に用意しておかなければならないし、その画像データを読み込んでOCR処理させるプログラムもPythonでコードしなければならない。もちろん事後処理として誤認識された文字を訂正する作業も人力だから相当な負荷になる。それでも一からキーボードで入力する手間と比べれば雲泥の差である。それに今や、プログラミングはほとんどAIが代行してくれるのである。今回お世話になったのはChatGPT。たかだか数十行のコードではあったが、なんにも知らない開発実行環境(Google CloudとそのAPI)下で、しかも当人はほとんど経験のない(習得を諦めた)プログラミング言語のコードをまたたく間に書き上げ、なおかつそれが、数度の修正を経てではあるものの、意図通り機能する、なんておよそ人間業ではない。
実証実験で処理したのは手書きのA4版ノート20ページ、文字数は約5万字だが、OCR処理時間は1分余りだったろうか。前処理(画像データ準備)と後処理(誤認識校訂作業)はその何百倍〜何千倍もかかるのに、驚くべきスピードである。速読の達人も遠く及ぶまい(速読は活字の文章を対象として速度を測定するから、比較することははなから無理があるが)。OCR処理にもう十倍ぐらい時間がかかってもいいから認識率があと数%も上がれば平均的な日本人の認識率を凌ぐだろう、などと虫の良い願望が湧いたりするが、夢物語ではなさそうなところが、ちょっと空恐ろしくもある。
父の歌集(注3)を編集するときに使ったのは活字OCRシステムだった。父が参加していた結社の機関誌を27年分を借りて、父の月詠掲載ページをスキャンしてOCR処理し、その出力テキストを手動修正して、出版社に渡す原稿を準備した。道具立ては、自宅のプリンタFAX複合機、Mac、OCRソフト(複合機に付属のもの)だけである。2000年代前半のOCRでも、活字ならば実用になる程度の認識率だったから、会社勤めの傍らの夜なべ作業で4000首たらず(約8万字)の歌集原稿がテキスト・データに起こせたのだ。
OCRとは因縁が深いのか、もうひとつ愛憎半ばする記憶もある。
30年以上も前だからもう時効だろう。あるメーカと共同でOCRの試作機を業務に導入する3年越しのプロジェクトを任された。顧客の手書きした住所氏名を読み取るシステムだったが、認識率はなかなかあがらず、85%を超えることはなかった。いちおうシステムは本番稼働し、それを機にわたしは転職した。そのシステムが大活躍したという噂も聞かなかったから、ひっそりと退役していったのであろう。
件の手書き文書の始末が済んだら、別記事を立てて、以下の諸点なども含む顛末を報告していきたいと思っているが、さていつになることやら。
・手書き原稿見
・出力見本
・OCR処理フロー
・認識率
・Pythonプログラムコード
・Google Cloud環境設定
・画像データの解像度など
注2 文字ベースの認識率=(正しく読み取った文字数/OCRが読み取った文字数)*100。手書き文字OCRで認識率90%超は現状では高水準にあるとはいえようが、事後処理の観点からみると校正者の負担はまだまだ大きい。たとえば、普通の文章で濁点半濁点がついているかな文字は10%未満であろうが、それがすべて清音となっていると仮定すると、それははなはだ読みにくい文章に見えるはずだ。この例から、10文字中1文字程度は誤字の文章を校正する状況を想像されたい。
注3 歌集「自然薯人生」著者:石井善市 2005年1月、短歌新聞社刊(橄欖叢書第380篇)