「Googleドライブ」OCR機能で文字起こし検証→かなり高精度なのでご紹介
GoogleドライブにOCR機能があることを皆さんご存知でしょうか。
先日社内で「GoogleドライブのOCR機能の精度が凄いから使ってみて!」という情報が回ってきましたので、どれどれ本当に使えるかどうか試してみようじゃないかというのが本エントリーの趣旨でございます。
↓OCRについて知らない方は、
光学文字認識(OCR)とは
光学文字認識は、活字の文書の画像を文字コードの列に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能やマシンビジョンの研究分野として始まった。
ちなみにOCRの技術が向上することで、お客様から頂いたあらゆる資料を一瞬でデジタル化し、保存できるようになるのですから、画期的です。
私たちはホームページ制作を普段からご依頼いただくことが多いのですが、例えば”代表者様の挨拶”をパンフレットから引用するような際、「これを見ながら書き起こしたら良いと思いませんか?」といった共感を求められることが度々ございます。ですがそんな状況も慌てずに解決することができます。あ、決して紙媒体で資料をくださるお客様のことをネガティブに捉えているわけではございませんので。
簡単に私たちのことをご紹介させていただくと、東京・名古屋の2拠点でホームページ制作やウェブコンサルティングをさせていただいている会社になります。このウェブ企画ラボもそうですが、メディア運営を得意としてきた性質上、集客に興味のあるお客様からご依頼いただくことが多いです。
↓弊社ホームページリンク
ホームページ制作会社のウェブ企画|東京・名古屋
さて、本エントリーのお品書きです。
目次
GoogleドライブによるOCR(文字起こし)の使い方
テストに入る前に使い方についてご説明いたしましょう。といっても説明するほどのことはありません。
- Googleドライブに画像をアップする
- 右クリックから「アプリで開く>Googleドキュメント」を選択
- 少し待って開いたら終わり
これだけです。実際に見てみるとこんな感じです。
今すぐ使えるイメージが湧きますよね。では実験開始です。
レベル1:横書きのテキスト
まずはWordなどのソフトを使って作成された横書きのテキストです。この精度が低ければ、実務レベルでの活用は難しいでしょう。
今回利用した画像はこちら。
ポイントとしては8行目に記載されている「〜などの減少の一因1)となった」という部分。一部だけ小さくなっているこのテキストをどのように取り扱うのか楽しみです。
結果がこちら。(そのままコピペ)
1.はじめに
栄養・食生活は、生命を維持し、子どもたちが健やかに成長し、また人々が健康で幸福 な生活を送るために欠くことのできない営みである。身体的な健康という点からは、栄養状
態を適正に保つために必要な栄養素等を摂取することが求められ、その一方で食生活は 社会的、文化的な営みであり、人々の生活の質(QOL)との関わりも深い。
日本人の食生活が、第二次世界大戦以降約 50 年間に高塩分・高炭水化物・低動物性 たんぱく質という旧来の食事パターンから、動物性たんぱく質や脂質の増加等、大きな変 化を遂げたことは、感染症や脳出血などの減少の一因となった。しかし一方で、現在、が ん、心疾患、脳卒中、
(長いので省略)
<結果>
ミッションクリア!
ほぼ完璧に文字起こし出来ています。「1)」の部分については割愛されたようですが、その程度でしたら問題ございません。
レベル2:縦書きのテキスト
横書きが問題なく、そして高い精度で文字起こしできるのはわかりました。ですが縦書きはどうでしょうか。レイアウトからGoogleドライブが縦書きと判断し、OCRするのか非常に気になりますね。
今回利用した画像はこちら。
新聞のような文字が羅列されている縦書きに加え、数字や記号も多数登場いたします。
結果がこちら。(そのままコピペ)
11.執筆にあたっての基本的事項
(1) 本文は、縦書き(縦組)とする。 (2) 記述にあたっては、平明かつ正確であることを心がけ、住民に広く愛読されるとともに、
後世の地方史研究に資するものとする。 (3) 記述にあたっては、既刊市史をはじめ、これまでの市内外の諸研究を参考にするととも
に、各学問分野における最新の成果を盛り込むものとする。 (4) 記述にあたっては、恵庭市とその周辺の事項に留まらず、北海道をはじめ我が国全体、
及び国際社会などの社会的背景を巨視的な視点から記述することで、恵庭市の歴史を大
きな時代の流れの中で理解できるものとなるよう心がける。 (5) 写真や図版をできるだけ多く収録して、理解しやすく親しみやすいものとする。
(長いので省略)
<結果>
ミッションクリア!
凄いです。画像から縦書きであることを判断し、テキストに起こしてくれるんですね。「」などの記号も問題なくOCRしています。
実は縦書きのテキストに対して、縦書きで文字起こししてくれるんじゃないか、と淡い期待を抱いていたのですが、そうはならなかったようです。ただ、縦書きで文字起こしされても活用に困りますよね。
レベル3:ビジュアル要素付きのテキスト
文字に色がついていたりサイズが違ったり、そしてレイアウトも特殊。そのような場合のOCR精度はどうでしょうか。
今回利用した画像はこちら。
この程度でしたら実際にはGoogleドライブを使用せずに文字起こししたほうが早いような気もしますが、今回は実験ということで予めご了承ください。
結果がこちら。(そのままコピペ)
オフィスサービス ご注文・宅配システム 料金システムのご案内
ボトルは2週間または4週間に一度、定期的にお届けいたします。 この時、空きボトルの回収も行います。
N
定期配送でのお伺いとなるため、決められた納品日以外のお届けにお時間を いただく場合がございますので、あらかじめご了承ください。
ご注文・宅配システム
土日祝日・GW・盆・年末年始時期など、配達対応のお休みをいただく期間が ございます。
3
ボトルの納品は2本からとなります。また、紙コップのご注文は ボトリル補充時にご一緒にお願いいたします。
入会金0
解約金0
サーバーレンタル料0m
月々のお支払いお支払いいただく料金は【ボトル+あんしんサポートパック料】になります。 [ボトル]
[あんしんサポートパック料」 お客様が安心・安全・便利にお使い
いただくためのサービスです。
(長いので省略)
<結果>
ミッションクリア?
結果はまずまずといったところです。さすがにデザインの意図を理解し、「1,〜、2,〜」とリストにはしてくれませんでしたが、文字自体は問題なく起こせています。ただ一部、「0円」のところなど、うまく認識できなかったところもあるようです。
レベル4:手書きのテキスト
ここからは非常に高難易度となります。もし会議中にメモった手書きのテキストが、文字起こししてもらえたら「メモは手書きでとったほうが誠意が伝わる」問題が解決するかもしれません。
今回利用した画像はこちら。
誰が書いたかは非公開とさせてください。(切実)
結果がこちら。(そのままコピペ)
「こ(=悪い、と解求(っつ”する」デ レマーケティング”L- レジェンシーの
株式会社 WEB企画。ウェブメディア: ・ホームページ作ら ・ インターネットマーケティング支援(SEM)な”多数の サービスも提化しています。
<結果>
Oops!
全て正確には読み取れませんでしたが、一部はうまく認識してくれました。ただ、「そもそも人間でもうまく読み取れるか微妙だ」ですとか「文字がもっと上手だったらGoogleだって仕事してた」といった趣旨の批判は甘んじて受け入れさせていただきます。
手書きに関しては、皆さん個々で試していただくのがよろしいのではないでしょうか。
レベル5:表のテキスト
Googleドキュメントでは表を作成する機能もありますし、もしかすると表を写メしてアップすれば、自動で表にしてくれるのではないか!そんな期待を込めて実験に追加してみました。
今回利用した画像はこちら。
どうでしょう。かなりどっしりとした表です。これを表として認識してくれたら最高なのですが…
結果がこちら。(そのままコピペ)
主要サイト比較表
第1个产
約745万人
総会員数 又力下登錄者数
約77万人
男女比
掲載職種数
|
揭載日
基本職種数
基本機能
| |
職種了一下
約333万人 男性:60% 女性:40% 約9,100件
約9,800件
約9,800 件 每週水・金曜日
毎週月・木曜日 1職種
最大3職種
(長いので省略)
<結果>
Oops!
さすがに表にはしれくれませんでしたね。ただ、色付けたり、見出しっぽくボールドしたり工夫して文字起こししてくれた点については、愛おしく感じざるを得ませんので許してあげたいです。
ですが、「リスト、表、列、脚注、巻末の注などは、検出されない可能性があります。」とGoogleの公式に記載されていましたので、もしかすると表のタイプによっては認識することもあるのかもしれません。
まとめ
Googleの公式には下記のような説明が記載されています。
- 形式: .JPEG、.PNG、GIF、PDF(複数ページのドキュメント)の各ファイル。
- ファイルサイズ: ファイルは 2 MB 以下にします。
- 解像度: テキストの高さは 10 ピクセル以上にします。
- 向き: ドキュメントは正しい向きにします。画像の向きが間違っている場合は、回転させてから Google ドライブにアップロードします。
ですが実験では2M以上でも可能なことや、ドキュメントの向きが間違っていてもテキストに変換してくれました。
https://support.google.com/drive/answer/176692?co=GENIE.Platform%3DDesktop&hl=ja&oco=1
Wordやパワポなど、ソフトで作成した文字については縦書きでも横書きでも精度高く文字起こしが可能です。ビジュアル的な要素が多少入っていても、ほぼ問題ありませんので、実務レベルではかなり活用できるのではないでしょうか。
EvernoteなどでもOCR機能はついていますが、文字起こしまではしてくれません(正確には可能ですが、ちょっと手間です)。この精度で無料で利用できるのは、本当に凄いことです。皆さんも業務効率化のために是非ご活用ください。
GoogleKeepでスマホでもOCR(番外編)
ここからは番外編として、スマホでもOCR変換できるのかどうかについて調べてみました。
結論から言うと、Googleドライブのスマホアプリでは変換できません。
ですが同じGoogle製のアプリである「Google Keep」でしたら可能です。
下図のようにサクッと変換できます。
撮影して、スグにOCRしてくれるのがいいですね!PCに画像をいちいち取り込むのも面倒ですので、むしろこちらのほうが需要があるかもしれません。
使い方
まず画面右下の写真アイコンをタップ。
画像を選択するか、OCRしたい文字を撮影します。
今回は撮影にしました。画像を取り込むとクラウドにアップを始めます。アップが完了したマークが完了するまで待ちましょう。アップ未完了の状態ですと、OCRしてくれません。
アップロードが完了したら画像をタップすると、右上にメニューボタンがありますのでタップ。すると「画像のテキストを抽出」というメニューが出現しますので選択。
するとこのように一瞬で文字認識してくれます。Googleドライブと同じ文字認識APIを利用していますので、OCRの精度は変わらないはずです。
普段GoogleKeepを利用している方はもしかすると少ないのかもしれませんが、これを機会に活用の幅を広げてみてはいかがでしょうか。