Googleドライブを活用したOCRについて | GoogleTips

イントロダクション

世の中GW真っ盛りということで、御多分に漏れずGWを満喫していたらすっかり更新間隔が開いてしまいました。RFI・RFP関係の話の深堀が長期化しそうな様相なので、ちょっと小ネタを挟んでいこうと思います。

以前、GSuite関連の記事を紹介しましたが、GSuite＝Googleサービス全般は生産性を向上させるテクニックに溢れています。GSuiteの利活用を進めるうえでこれらのテクニックは非常に有益です。

既にうまくまとめられているサイトもいくつかありますが、GSuiteを紹介している手前、「情シスHack」流のGoogleサービスのTipsを紹介していこうと思います。何せ「Hack」を名乗っていますので。

画像ファイルから文字列抽出！OCRとして活用できる

使用するもの：Googleドライブ、Googleドキュメント、スマホで撮影した画像 or PDFファイル

お役立ち度：★★★★

※★～★★★★★で評価

デジタルカメラを利用して紙資料の文字を読み取る

紙などの非電子化媒体の文字を読み取り電子化するOCR（Optical Character Recognition/Reader、光学的文字認識）は、データ利活用で重要な技術です。

複合機のスキャナ等も性能が良ければOCRの機能を有しているものもありますが、必ず付いているわけではありません。
私自身SEから転職して、紙資料があまりにも多くて辟易していました。

専用の機械やサービスもありますが、GoogleドライブとGoogleドキュメントを利用すると、簡単にOCRを実現することができます。

①読み取りたい資料をスマホのカメラで撮影する。
写真の解像度を高くしたり、スキャン用のアプリを使用することでより認識されやすくなります。

②撮影した画像をGoogleドライブに登録する。

③画像ファイルを右クリック or ファイルを選択してからメニューボタンを選択して「アプリで開く」から「Googleドキュメント」を選択する。

④数秒～数十秒待つと文字データとして読み取られた結果がGoogleドキュメントに表示される。
ドキュメントの上部に元ファイルの画像が、下の方に読み取った結果が表示されます。読み取った文字は電子データとしてコピーしたり編集したりすることができます。

PDFファイル（非OCR）の文字を読み取る

複合機のスキャン機能でPDFファイルを作ることはできるけど、画像としてしか処理されず文字を抜き出すことができない、という場合でも同じことができます。

①非OCRのPDFをGoogleドライブに登録する。

②PDFファイルを右クリック or ファイルを選択してからメニューボタンを選択して「アプリで開く」から「Googleドキュメント」を選択する。

④数秒～数十秒待つと文字データとして読み取られた結果がGoogleドキュメントに表示される。

無料で提供されているのに読取はかなり正確

元ファイルの解像度にもよりますが、読み取った結果のデータはかなり正確です。
縦書きや二段組みの文章もきちんと読み取ることができます。

元ファイルの段間があまりに詰まっているとうまく読み取れないこともありますが、そのような場合は画像を切り分るとうまく読み込むことができます。

ORCで読み取ったファイルの容量は無し！

OCRとして読み取ったGoogleドキュメントは、元ファイルと同じ場所に自動で保存されているのですが、なんとこのファイルのドライブ上の容量は0バイト。
つまりドライブ容量を使うことなく、OCRデータを保存することができるのです。

普通OCRで文字データすると、元ファイル + 変換後ファイルで単純に２倍のファイルサイズが必要になります。変換データの内容によってはファイルサイズが膨らむこともしばしばです。
それを１ファイル分の容量で作成できてしまうのですからありがたいことこの上ない。Googleドライブが大容量とはいえストレージは有限なので、こうした細かな節約はとてもありがたいです。