図書館の古い書籍の電子化をしよとしているが、OCR による認識率が低いので、困難だそうだ。
国会図書館がテキスト化の実験をしたところ、「ば」と「ぱ」の判別もできない段階だそうで、テキスト化の予定はないようである。日本語の宿命とはいえ、公的アーカイブが近代デジタルライブラリーの段階でとどまるのだとしたら、諸外国との差は開くばかりだ。この問題には、すでに解決方法が知られている。こうだ。
( → ほら貝 2012年5月30日 )
「 Wikipedia にあるような CAPTCHA にもぐりこませて、判別を人間にやらせる」
たとえば、「こんばんは」と「こんぱんは」のどちらかわからないような画像があったら、その画像を、CAPTCHA にして、人間に判定させる。9割以上の人が「こんばんは」と文字入力したら、それは「こんばんは」であると判定される。人間がそう見ているんだから、間違いないでしょう。
これで問題は解決する。
( ※ たとえば、日本語版 Wikipedia に、その CAPTCHA を組み込んでもらう。その代償として、 Wikipedia の財団に年間1億円を払う。これで win-win 関係となる。)
[ 付記 ]
画像を見て、何が正解かわからないと、認証機能としては役立たずだ。そこで、すでに正解がわかっている画像と組み合わせて、2つ以上の画像で認証すればいい。
なお、これで認証するのは、特に問題のない認証に限る。たとえば、
・ Wikipedia の編集。
・ ブログのコメント投稿
【 関連サイト 】
お役立ち情報
→ Googleの読めないCAPTCHAは片方だけ入力すればよいことが明らかに
Google の CAPTCHA は、読みにくい(というかもともと解読不可能)であることが多いが、実は、読めない方は入力しなくてもいいのだった。一つだけ入力すれば大丈夫。
つまり、Google は、いやがらせをやっていたわけ。「いやがらせ」というか、「いじめ」というか。 (^^);
