2012年07月09日

◆ 古い書籍の電子化

 古い書籍の電子化をするのは、認識率が低いので、困難だ。ならば、人間が CAPTCHA で認識すればいい。 ──
 
 図書館の古い書籍の電子化をしよとしているが、OCR による認識率が低いので、困難だそうだ。
 国会図書館がテキスト化の実験をしたところ、「ば」と「ぱ」の判別もできない段階だそうで、テキスト化の予定はないようである。日本語の宿命とはいえ、公的アーカイブが近代デジタルライブラリーの段階でとどまるのだとしたら、諸外国との差は開くばかりだ。
( → ほら貝 2012年5月30日
 この問題には、すでに解決方法が知られている。こうだ。
 「 Wikipedia にあるような CAPTCHA にもぐりこませて、判別を人間にやらせる」

 たとえば、「こんばんは」と「こんぱんは」のどちらかわからないような画像があったら、その画像を、CAPTCHA にして、人間に判定させる。9割以上の人が「こんばんは」と文字入力したら、それは「こんばんは」であると判定される。人間がそう見ているんだから、間違いないでしょう。

 これで問題は解決する。

( ※ たとえば、日本語版 Wikipedia に、その CAPTCHA を組み込んでもらう。その代償として、 Wikipedia の財団に年間1億円を払う。これで win-win 関係となる。)
 


 [ 付記 ]
 画像を見て、何が正解かわからないと、認証機能としては役立たずだ。そこで、すでに正解がわかっている画像と組み合わせて、2つ以上の画像で認証すればいい。

 なお、これで認証するのは、特に問題のない認証に限る。たとえば、
  ・ Wikipedia の編集。
  ・ ブログのコメント投稿



  【 関連サイト 】
 お役立ち情報
  → Googleの読めないCAPTCHAは片方だけ入力すればよいことが明らかに

 Google の CAPTCHA は、読みにくい(というかもともと解読不可能)であることが多いが、実は、読めない方は入力しなくてもいいのだった。一つだけ入力すれば大丈夫。
 つまり、Google は、いやがらせをやっていたわけ。「いやがらせ」というか、「いじめ」というか。 (^^);
posted by 管理人 at 22:19 | Comment(0) | コンピュータ_03 | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

  ※ コメントが掲載されるまで、時間がかかることがあります。

過去ログ