k-takahashi's blog

個人雑記用

「一石二鳥」書籍デジタル化プロジェクトの仕組み

スパム対策によく使われる「CAPTCHA」。通常はランダムな文字列だが、これを書籍のデジタル化にも利用する方法がある。

http://www.itmedia.co.jp/enterprise/articles/0705/28/news020.html

コメントを書き込んだり、申し込みをしたりするときに、歪んだ文字を読み取って入力するという仕組みがある。それが引用部にあるCAPTCHA


 引用記事によれば、世界中で1日の6000万回使われているそうで、これを有効利用しようという発想らしい。

 無作為な文字と番号の入力で時間を無駄にする代わりに、書籍の一節を入力して時間を有効活用してもらい、ユーザーが機械でないことを確認するとともに、オンラインで検索可能なテキストを取り出すプロセス促進を支援する方法を、カーネギーメロン大学の研究者が開発した。

http://www.itmedia.co.jp/enterprise/articles/0705/28/news020.html


 OCRでうまく読み取れなかった部分を画像として多くの人に読み取って貰い、充分な数が揃ったらそれを正解とみなそうという考え方。そもそも最初の正解候補をどうするのかというところに実装上の工夫が必要だが、発想は非常に面白い。


 日本語の古い記録の電子化に使えるかな、と思ったが、草書で書かれたらほとんどの人が読めないから、ダメか。