メールマガジン発行中

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

● モーニング娘とドナドナで検索エンジンを分析する 
                              −−人による評価をロボットで集めよ

                   諸野脇 正@インターネット哲学者
                  【e-Mail】 ts@irev.org
                  【Web Site】 http://www.irev.org/
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

■ だまされるロボット
 
 次のようなページをインターネット上につくる。
 ページのタイトルは「モーニング娘」である。
 

 モーニング娘

 
 ある晴れた昼下がり
 市場へ続く道
 
 モーニング娘
 
 荷馬車がゴトゴト
 子牛を乗せていく
 
 モーニング娘
 
 かわいい子牛 売られていくよ
 悲しそうな瞳で 見ているよ
 
 モーニング娘

 ドナドナドナドナ 子牛をのせて
 ドナドナドナドナ 荷馬車が揺れる

 モーニング娘
 
 …………

 
 
 気が狂ったのではない。
 ロボット型の検索エンジンをだましたいのである。実験をしたいのである。(注1)
 このページをインターネット上で公開したら、どうなるであろうか。
 ロボットは、このページをモーニング娘のページと認識するであろう。ロボットは、単語を集めにくる。タイトルは「モーニング娘」である。また、「モーニング娘」という単語がページのトップにある。さらに、「モーニング娘」という単語が頻繁に出ている。ロボットは、このページを間違いなくモーニング娘のページと認識する。
 このページは、「モーニング娘」で満ちている。だから、ロボットは、このページをモーニング娘の重要なページと判断する可能性がある。だまされる可能性がある。「モーニング娘」での検索結果の上位に、この「モーニング娘・ドナドナ」のページが表示される可能性がある。
 ロボットは、だまされる。しかし、人間ならどうであろうか。だまされない。人間は、このページをモーニング娘のページとは判断しないであろう。人間は、単語ではなく、文章の意味を認識しているからである。だから、ヤフーなどの人手型の検索エンジンでは、このページは検索結果に表示されないであろう。
 つまり、人手型の検索エンジンでは、人間によって意味に踏み込んだ評価がされている。それに対して、ロボット型の検索エンジンでは、字面だけの表面的な評価しかされていない。だから、だまされるのである。
 
 
■ だまされないグーグル
 
 一般的なロボット型の検索エンジンがだまされる「モーニング娘・ドナドナ」のページ。
 グーグル(Google)は、だまされるであろうか。(グーグルはロボット型である。)
 だまされない。
 グーグルは、なぜ、だまされないのか。
 グーグルが、次のような斬新なアプローチをしているからである。
 

 ロボットを使って、人による評価を集める。
 
 
 あるページを評価する時、グーグルは、そのページに張られたリンクの数を数える。ロボットを使って数える。言いかえれば、ロボットを使って人による評価を集める。グーグルは、リンクをいわば「投票」とみなす。そして、その「投票」が多いページほど重要なページとみなす。検索結果の上位に表示する。
 つまり、グーグルは次のような方法を発見した。
 

 張られたリンクが、そのページの評価をしていると考える。
 
 
 グーグルは、リンクの数でそのページの重要性を判断する。リンクが多く張られているページほど重要なページとみなす。(注2)
 「モーニング娘・ドナドナ」のページへは、さほどリンクは張られないであろう。(私は、モーニング娘とドナドナの魅力を融合させたよいページだと思うが。)モーニング娘の主要なサイトよりリンクを集めることはありえない。だとすば、検索結果の上位には表示されない。
 グーグルはロボット型でありながら、人手型のような検索結果を出す。それは、このように人による評価を集めているからである。
 リンクは評価である。リンクは人による評価である。そして、リンクはロボットによって認識できる。だから、リンクならば、ロボットで集めることが出来る。
 グーグルはこの事実に気がついたのだ。発見したのだ。
 
 
■ 検索エンジンの種類
 
 ここで念のために検索エンジンの種類を確認しておこう。
 検索エンジンには、おおざっぱに言って二つの種類がある。
 

 人手型(サイト検索)   ヤフー、オールアバウトジャパン など
 ロボット型(ページ検索) グーグル、インフォシーク、グー など
 
 
 人手型は、人手でサイト(ホームページ)を登録する検索エンジンである。人手で登録するので、役に立ちそうなサイトを評価して登録することが出来る。しかし、人手なので、そう多くのサイトは登録できない。また、当然、サイト内の一つ一つのページは登録できない。
 ロボット型は、ロボットでページを登録する検索エンジンである。インターネット上にロボットを巡回させ、特定の単語があるページを次々に登録していくのである。大筋で単語を見るだけなので、役に立つ情報かどうかの評価はあまりされていない。しかし、たくさんのページが登録されている。
 
 
■ 検索エンジンの一般的な使い分け
 
 だから、一般的には、これらを使い分けてきた。
 メジャーな単語を調べる時は人手型を使い、マイナーな単語を調べる時はロボット型を使う。つまり、「モーニング娘」ならば人手型を使い、「ドナドナ」ならばロボット型を使う。
 モーニング娘のオフィシャルサイトはあるに決まっている。しかし、ドナドナのオフィシャルサイトがあるとは思えない。
 オフィシャルサイトをロボット型で探すと、見つけにくい。ロボット型の場合、オフィシャルサイトが一番上に表示されるとは限らない。その他大勢の一般ファンのサイトにまぎれてしまう。
 
 
■ 検索エンジンのジレンマ
 
 つまり、検索エンジンは、次のようなジレンマをもっていた。
 

 人手型は、評価されたページを表示する。しかし、数が少ない。
 ロボット型は、たくさんのページを表示する。しかし、評価が中途半端である。
 
 
 だから、一般には、両者を使い分けていた。
 しかし、グーグルが、このジレンマをかなり解決した。
 つまり、グーグルは、次のような特徴をもつ。
 

 グーグルは、評価されたページを表示する。しかも、数が多い。
 
 
 なぜ、「評価」できるのか。人による評価を集めているからである。
 なぜ、「数が多い」のか。ロボットで集めているからである。
 グーグルは、人による評価をロボットで集めるという方法によって、ジレンマをかなり解決した。
 だから、使い分けの必要性は少なくなった。グーグルだけを使っても、大筋で問題は感じないほどである。(注3)
 
 
■ 表示されないオフィシャルサイト
 
 さらに難しい実験をしてみよう。
 「明和電機」を検索してみる。
 アートユニット明和電機のオフィシャルサイトは次のところである。
 
  ■□■ MAYWADENKI ■□■
  http://www.maywadenki.com/
 
 このサイトが検索結果として表示されるか。
 ロボット型のインフォシークではどうか。
 
  http://www.infoseek.co.jp/Titles?qt=%96%BE%98a%93d%8B@&col=JW&lk=noframes&qp=0&nh=25&svx=100600
 
 表示されない。
 検索結果を何ページ見ても、表示されていないのである。〔2001年11月当時の話である。さすがに現在では表示される。何らかの改善がなされたのであろう。2003年9月に加筆。〕
 オフィシャルサイトが表示されないのは異常である。ファンならば、まずオフィシャルサイトを見たいはずである。
 インフォシークは、この重要なサイトを登録できていない。
 なぜか。
 

 ロボットが馬鹿だからである。
 
 
 明和電機のオフィシャルサイトのトップページには「明和電機」というテキスト形式の単語が無いのである。タイトルは、「■□■ MAYWADENKI ■□■」である。「MAYWADENKI」は、「明和電機」とは違う。また、トップページに大きくある「明和電機」はロゴである。画像で作ってある。
 ロボットは、テキスト形式の単語を探している。画像は認識できない。
 だから、上のサイトは、オフィシャルサイトであるにも関わらず、表示されなかったのである。ロボットは、「明和電気」と大きく書いてあるにもかかわらず、明和電機のサイトであると認識できなかったのである。
 人間なら、このような間違いはしない。
 しかし、ロボットは、指示したことしか出来ない。ロボットは、テキストの単語を探すように指示されている。だから、その単語がなければ、登録しない。登録されていないのだから、検索しても表示されない。
 
 
■ 人による評価をロボットで集めよ
 
 グーグルならば、どうか。「明和電気」を検索しよう。
 
  http://www.google.com/search?q=%96%BE%98a%93d%8B@&btnG=Google+%8C%9F%8D%F5&hl=ja&lr=lang_ja&num=20
 
 見事にオフィシャルサイトが表示される。
 最初に表示される。
 グーグルは、画像を認識しているのか。
 本当にロボットなのか。
 ロボットの着ぐるみの中に人間が入っているのか。
 そんな訳はない。(注4)
 グーグルは、もう一つ斬新な方法を発見したのである。
 

 リンク元の語句がリンク先のページを表していると考える。
 
 
 つまり、明和電気のオフィシャルサイトにリンクを張る時は、「明和電気のオフィシャルサイト」などと書くであろう。この語句が青くなっている。そして、この語句をクリックすると、明和電気のオフィシャルサイトに飛べる。
 グーグルは、このような語句がリンク先のページを表していると考える。
 「明和電気のオフィシャルサイト」と書いてあれば、リンク先は明和電気のオフィシャルサイトに決まっている。確かに、リンク元の語句は、多くの場合、リンク先のページを表している。
 つまり、リンク元の語句自体が、リンク先を評価しているのである。人による評価なのである。
 このようにグーグルは、リンク元の語句を調べている。だから、そのページに「明和電気」という単語が一つも無いサイトを、正しく明和電気のサイトと認識できるのである。
 このような語句もロボットで集めることが出来る。評価を集めることが出来る。
 もう一度、原則としてまとめておこう。
 

 人による評価をロボットで集めよ。
 
 
 いろいろ応用がきく、重要な原則である。
 インターネット上の情報を人手で評価するとコストがかかる。だから、多くの情報を評価することは出来ない。
 しかし、インターネット上には、既に人による評価がさまざまにある。それを集めることを考えればよい。
 ロボットを使って、大きく集めることを考えよう。
 広く集めることを考えよう。
 
                     (2001年11月8日)
 
 
(注1)
 
 もちろん、実際にダミーのページを作って実験をする訳ではない。論の展開のために、そう書いただけである。
 実際にダミーのページを作って実験しているサイトを発見した。興味深い。
 ご興味のある方は、次のサイトをご覧いただきたい。
 
  検索エンジンのしくみ教えます
  http://web.archive.org/web/20011005035837/http://www.mars.sphere.ne.jp/engine/index.htm
 
 その他では、次の調査が興味深かった。
 
  検索デスク 「検索の視点」
  http://www.searchdesk.com/view.htm
 
 
(注2)
 
 実際におこなわれているのは、もう少し複雑な方法である。
 
 「……Googleは単に票数、つまりリンク数を見るだけではなく、票を投じたページについても分析します。『重要度』の高いページによって投じられた票はより高く評価されて、それを受け取ったページを『重要なもの』にしていくのです。」
 
 リンクがたくさん張られているページからのリンクは「高く評価され」るのである。リンクの重みづけをする訳である。
 グーグル自身による説明は次のページである。
 
  http://www.google.com/intl/ja/why_use.html
 
 
(注3)
 
 ヤフーよりグーグルの方が優れている点も多い。実は、明和電機のオフィシャルサイトをヤフーのサイト検索は表示できなかった。登録の担当者が見落としたらしい。グーグルならば、もちろん見落とさない。グーグルの評価は、インターネット上の多くの人による評価だからである。一人が見落とすことはありえる。しかし、千人が全員見落とすことはありえない。
 
 
(注4)
 
 一般には、ロボットの着ぐるみの中に人間が入っていることがある。ロボットは、重要なサイトを見落とすことがある。それは問題である。だから、人手で登録するのである。ロボットで登録できないものを人間が補うのである。(ちなみに、グーグルは、人手による操作はしていないと言っている。)
 だから、実験の単語としては「明和電機」がよい。適度にマイナーであるため、人手で登録されていないのである。
 

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 ◆インターネット哲学【ネット社会の謎を解く】◆ 13号掲載
  メールマガジンの登録・解除・バックナンバー閲覧は次のページから。
   http://www.irev.org/file/touroku.htm
  この文章は、転載、大歓迎です。変更を加えず、ご転載下さい。(改行等の
 レイアウトの変更は、していただいて結構です。)
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
────────────────────────────────────
 この文章の転載は、ご自由にどうぞ。出来れば、上の奥付まで一緒に、ご転載
いただければ幸いです。ご転載の後に、ご連絡いただければ、うれしいです。
────────────────────────────────────