2018年6月28日木曜日

OCR 3 ロシア語の場合

2010年に、写実的な絵の画像が欲しくてモスクワのプーシキン美術館を訪問したことを書きました。
今年は、2018年。
8年間放置していた画像の処理です。

私は、しばしば文字情報もカメラで撮影して残します。
でも
この時は、失敗。
画像を示します。
みごとに(?)
手振れしています。

でも、グーグルのOCRは、デジタル化してくれました。
下、青文字部分です。
ついでに、大まかに訳してみました。
緑部分です。

ФРАНС СНЕЙДЕРС FRANS SNYDERS 1579 - 1657
フランス スナイデル 1579年~1657年
НАТЮРМОРТ С ЛЕБЕДЕМ. 1640-е STILL-LIFE WITH A SWAN
白鳥のある静物画 1640年
На тарелке в руках слуги - сладкие плоды инжира, которые в символике эпохи означают радости любви и плодородие. Плодородие земли - основная тема картины. На поздний период творчества мастера указывают уравновешенная, ясно читаемая Композиция и звучный, но не слишком яркий колорит.
召使いの手の中にある甘いイチジクの果実は、時代の象徴的な意味で愛と肥沃さの喜びを意味します。
地球(大地)の豊かさが絵の主なテーマです。
作者の晩年のバランスの取れた、明確でわかりやすい構図と色調ながら決して派手すぎない表現である。

訳がどの程度正確かは保証しません。
ロシア語ならこの程度にピンぼけでもグーグルOCRは、画像からデジタル化してくれるということをお知らせしたかったのです。





2018年6月13日水曜日

OCR 2

先にOCRという記事をアップロードしました。
追加情報です。

文字が画面いっぱいに表示されたテレビ画面をカメラで撮影してグーグルドライブにアップして「アプリで開く」「グーグルドキュメント」と進むと画像データである画面の文字がテキスト変換されるというものでした。

元の画面が放送大学のもので、矢代幸雄氏の文書だったのですが、この文書は、調べてみたら著作権の保護期間が残っていました。

というわけで画像も変換されたテキストも公開できない。

そこで、
金原省吾氏の「絵画における線の研究」と「ルースキー・スヴェニール・マトリョーシカ」の一部を撮影してテキスト変換し、これを披露することにしました。

「絵画における線の研究」は、以前に紹介しましたように著者没後50年以上経過という理由で著作権の保護期間が終了しています。
「ルースキー・スヴェニール・マトリョーシカ」は、私がロシアの出版社から日本語訳印刷の許可を得ていますので著作権上の問題はない。
というわけで、この2種類の文書を使ってOCRを紹介します。

「絵画における線の研究」は、著作権の保護期間が終了しているのですが、別の問題がありました。
最近の若い人は理解できないかもしれませんが、この書物は旧漢字が使われていたのです。
取り急ぎ画像を紹介します。


さて、縦書き旧漢字という困難な文字をグーグルドライブは、どう変換したでしょうか。
以下です。

第五○ 竹葉描(審量本前期)
正しくは
第五〇図 竹葉描(●●本前冊)
(●●部分は、元の書物を肉眼でも読めない程度に潰れていました)
というわけで、ほぼ正確にデジタル化できているようです。

続いて

用筆横臥面記短概納、如竹葉。 として全く同一である。「古佛譜」は、
用筆横側、捺肥短、如竹葉状。 である。表現に多少の相違はあるが、同一である。竹葉描には異説 が無いやうである。
筆が直立して運動する場合と、側倒して運動する場合とでは、そ
こに相違がある。この竹葉描でも、太さがcacならば、その速さ は、側筆ではama であるのに、直筆では me a である。そして重さも側筆ではceeであるのに、直筆ではcm

赤い部分が誤訳です。
元画像から考えれば、かなり正確にデジタル化しているようです。

続いて


この画像をグーグルは、下のようにデジタル化しました。


有名なロシアのマトリョーシカに先立つ 型として日本の本州からもたらされたのは、 温厚な禿頭の老人の形をした仏教徒の賢人の フクルム車まで、その中からさらに数個の同じ ような人形が順に取り出せるように入ってい るものでした。

型」は、「原型」の間違い。
」は、「※2」の間違い。

でも元の文字を撮影した画像を見ればわかりますが、かなり文字が潰れています。
むしろ残り部分を正確にデジタル化できた方が驚くべきではないかと考えます。




OCR

OCRとは
グーグルで検索しますと

「OCR(Optical Character Recognition/Reader、オーシーアール、光学的文字認識)とは、手書きや印刷された文字を、イメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術です。」

ということです。

書物やワープロで印刷された書類などを電子データに変換するものです。

それだけなら別にどうということはないのでが、今日は、「おっ」と驚くような結果が出ましたので、ここに記録しておきます。

放送大学の話です。

テレビ画面いっぱいに、10行ほどの文字が映し出されました。
テレビ画面にこれだけの文字が映し出されますと、目で追うのも結構難儀です。
筆写などとんでもない。

ふと思いついてカメラでテレビ画面を撮影しました。
このまま画像データとしてコンピュータに取り込んで、後でやっくり読もうと考えたのです。

ここまでくれば、「まさか」と思いながら、もう一息。
横着なことを考えました。

カメラで撮影した文字列の並んだテレビ画面をグーグルドライブにアップロードします。

コンピュータ画面にある画像をつまんで、グーグルドライブにドラッグ&ドロップ。
グーグルドライブにアップロードします。

グーグルドライブにアップロードした画像データを右クリック。
「アプリで開く」→「グーグルアプリ」を選びますと、
少し時間がかかって
テレビを撮影した写真画像の文字がテキストデータに変換されました。

グーグルドライブには、元の写真画像とテキスト化されたデータが並んでいます。

英文2枚、日本文1枚計3枚の写真を試しました。

どちらも、かなり正確にテキスト変換されました。

テレビで学習する時に、随分助かります。

取り急ぎ記録を兼ねてアップです。