Googleはこうして膨大な数の本をスキャンしているようだ

言うまでもなくGoogle Books Library Projectでは、図書館の膨大な蔵書をスキャンしてOCR処理をしてテキスト化するという作業が必要になります。ここではOCRの認識率などの問題もありますが、何と言っても最大の課題は物理的なスキャン作業でしょう。

一般に本をフラットベッド・スキャナーやコピー機でスキャンするのは相当面倒くさいですし、特に本が厚い場合にはうまく読み取れないこともありますね。最後の手段として本をばらすという方法もありますが、そもそもGoogle Books Library Projectでは図書館の貴重な蔵書を扱っている以上、それも非現実的と思われます。

で、Techmeme経由のブログ経由で知りましたが、Googleは書籍のスキャン手法に関して米国で特許を取得しています(米国特許7508978)。

本の上方から2つのカメラでページを撮影し、ページの凹凸の画像補正をかけて正確に読み取るという特許です。いかにも先行技術がありそうな感じですが、どんなもんなんでしょうか（まだ、明細書の中身はちゃんと読んでないですが）。

この特許の出願は2004年で、ちょうどLibrary Project開始の時期にも重なりますので、このような技術的裏付けがあってプロジェクトを始めたのだなと推定されます。

追加：ブック検索のヘルプでは、

スキャン処理によって図書館の書籍は損傷を受けますか。
スキャンによって損傷を受けることは一切ありません。 Google は、書籍を傷つけることなく内容をスキャンできる革新的な技術を開発しました。さらに、提携図書館側で、非常に傷つきやすいと判断された書籍についてはスキャンしません。また、スキャンした書籍についてはスキャン後速やかに図書館へ返却しています。

と書いてあります。この「革新的技術」が上記特許発明いうことでしょう。

追加^2：この話はTechCrunch（日本語版）で1週間前に既にカバーされてましたね。ちょっと速さが足りなかったようです orz

Googleはこうして膨大な数の本をスキャンしているようだ

コメントを残す

このブログについて

サーチ

リンク

ブログ最新記事

書籍のご紹介

アーカイブ

RSS