2018年6月13日水曜日

OCR 2

先にOCRという記事をアップロードしました。
追加情報です。

文字が画面いっぱいに表示されたテレビ画面をカメラで撮影してグーグルドライブにアップして「アプリで開く」「グーグルドキュメント」と進むと画像データである画面の文字がテキスト変換されるというものでした。

元の画面が放送大学のもので、矢代幸雄氏の文書だったのですが、この文書は、調べてみたら著作権の保護期間が残っていました。

というわけで画像も変換されたテキストも公開できない。

そこで、
金原省吾氏の「絵画における線の研究」と「ルースキー・スヴェニール・マトリョーシカ」の一部を撮影してテキスト変換し、これを披露することにしました。

「絵画における線の研究」は、以前に紹介しましたように著者没後50年以上経過という理由で著作権の保護期間が終了しています。
「ルースキー・スヴェニール・マトリョーシカ」は、私がロシアの出版社から日本語訳印刷の許可を得ていますので著作権上の問題はない。
というわけで、この2種類の文書を使ってOCRを紹介します。

「絵画における線の研究」は、著作権の保護期間が終了しているのですが、別の問題がありました。
最近の若い人は理解できないかもしれませんが、この書物は旧漢字が使われていたのです。
取り急ぎ画像を紹介します。


さて、縦書き旧漢字という困難な文字をグーグルドライブは、どう変換したでしょうか。
以下です。

第五○ 竹葉描(審量本前期)
正しくは
第五〇図 竹葉描(●●本前冊)
(●●部分は、元の書物を肉眼でも読めない程度に潰れていました)
というわけで、ほぼ正確にデジタル化できているようです。

続いて

用筆横臥面記短概納、如竹葉。 として全く同一である。「古佛譜」は、
用筆横側、捺肥短、如竹葉状。 である。表現に多少の相違はあるが、同一である。竹葉描には異説 が無いやうである。
筆が直立して運動する場合と、側倒して運動する場合とでは、そ
こに相違がある。この竹葉描でも、太さがcacならば、その速さ は、側筆ではama であるのに、直筆では me a である。そして重さも側筆ではceeであるのに、直筆ではcm

赤い部分が誤訳です。
元画像から考えれば、かなり正確にデジタル化しているようです。

続いて


この画像をグーグルは、下のようにデジタル化しました。


有名なロシアのマトリョーシカに先立つ 型として日本の本州からもたらされたのは、 温厚な禿頭の老人の形をした仏教徒の賢人の フクルム車まで、その中からさらに数個の同じ ような人形が順に取り出せるように入ってい るものでした。

型」は、「原型」の間違い。
」は、「※2」の間違い。

でも元の文字を撮影した画像を見ればわかりますが、かなり文字が潰れています。
むしろ残り部分を正確にデジタル化できた方が驚くべきではないかと考えます。




0 件のコメント:

コメントを投稿