2015年05月30日

◆ Google 類似画像検索の難点

 Google 類似画像検索には、難点がある。PDF の画像には対応していないのだ。 ──

 Google の類似画像検索という機能は便利だ。

 ただし、これには難点がある。 PDF の画像には対応していないのだ。
 PDF でも、文字ならば、検索に対応している。実際、何らかの語句で検索すれば、その語句を含む PDF ファイルがヒットすることが多い。
 ところが、語句でなく画像で検索すると、PDF は検索対象からはずされてしまうのだ。

 ──

 実例を示す。

kourei4.gif

 
 この画像は、次の PDF ファイルから取り込んだ画像だ。
  → 世帯属性別にみた貯蓄・負債の状況(PDF)

 したがって、上の画像について類似画像検索をすれば、該当の PDF ファイルがヒットするはずだ。しかし現実には、ヒットしない。つまり、PDF ファイル内の画像は、類似画像検索の対象からはずされている。
 
 ──

 これはどういうことか? 単に類似が造形策でヒットしないだけか? 違う。画像そのものが画像検索の対象となっていないのだ。だから、次のような結果となる。
  ・ 政府の 古い 文書(HTML ファイル) → 画像は検索でヒットする。
  ・ 政府の新しい文書(PDF ファイル) → 画像は検索でヒットしない。

 政府の公式文書でも、古い文書は画像検索でヒットするのに、新しい文書は画像検索でヒットしない。なぜなら、古い文書は HTML で公開されているが、新しい文書は PDF で公開されているからだ。そして、Google の画像検索では、PDF ファイルの画像は、画像検索の対象からはずされているのである。

 ──

 これは、政府が悪いというよりは、Google が悪い。私個人としては、PDF よりも HTML ファイルの方がいじりやすいので好きなのだが、PDF には「画像を含めた全内容を単一ファイルにまとめる」という美点もある。だから、政府が PDF ファイルを多用するのも、悪くはない。(特に画像を多用する文書はそうだ。ただの文字だけの文書を PDF にするのは馬鹿げているが。)
 ともあれ、政府がこういう態度を取っているのであれば、Google もまたそれに従って、PDF の画像を検索対象に含めるべきだ。「 Web 上の全情報を検索対象に含める」というのが、Google の本来の目的なのだから、それをまさしく実行するべきだ。
 Google は、スマホ対応みたいなことばかりを考えず、本業の Web検索の分野をきっちりとやってほしい。現状では、その能力がお寒い限りだ。

 ──

 ともあれ、現状では、政府の公式文書のうち新しいものは、画像検索の対象から はずされる。そのせいで、検索結果が好ましくならない。
 たとえば、前項では、近年のデータを得ようとしても、近年のデータが得られない。山本一郎推奨の文書については、彼の指摘によって PDF 文書を得たが、私が独自に調べたときは、画像検索を用いたので、古い画像データしか見つからなかった。政府の公式文書から、新しいデータを抽出できないのだ。これはとても困ったことだ。
 
( ※ 対策は [ 付記2 ] で。)



 [ 付記1 ]
 類似画像検索は、Google の他に、他社でもやっている。ただしいずれも、PDF の類似画像検索はやっていないようだ。(とりあえず5社ぐらいで確認したが、いずれも駄目だった。)

 [ 付記2 ]
 ユーザーとしても、本項のことを理解しておくといい。さもないと、求める画像が見つからなくて、四苦八苦することになる。
 前項では、どうしたか? ここでは、特に新しいデータを取得する必要はなかったから、古いデータのまま画像を掲載した。
 一方、どうしても新しい画像データを取得したいこともある。その場合は、どうするか? Google の対応を待つか? いや、とりあえず、次の対策がある。
 「その画像のタイトルを取得して、そのタイトルで語句検索をする。同時に、時間指定をして、近年の PDF ファイルのみを対象として探し出す」
 これでかろうじて、求める画像が見つかりそうだ。
 たとえば、「世帯主の年齢階級別貯蓄」というタイトル名を取得して、この語で検索する。時間指定もする。
  → 世帯主の年齢階級別貯蓄 - Google 検索
 これで、いろいろと文書が見つかるから、そこから求める画像を拾い上げればいい。
posted by 管理人 at 09:56| Comment(0) | コンピュータ_04 | 更新情報をチェックする
この記事へのコメント
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

過去ログ