[コレが気になる!]
新規ページ、掲載までは1週間
Yahoo!のロボット型検索エンジンがGoogleからYSTに変わって調べなければなら
ないことだらけです。特に気になるのがクロールと掲載のタイミングです。検
索結果に表示される日付はいったい何なのか、YSTが最後にクロールした際の対
象ページの更新日なのか(そうだとしたら、それ以降はクローラーはそのペー
ジを取得していない)、それともYSTがそのページを更新したと見なされなけれ
ばクロールされても古い日付なのか(そうだとしたらクローラーは来るが更新
はされない)。まずはこれらの日付情報とクローラーの動きについて調査して
みることにしました。
弊社の情報提供サイト「eNatural.org」にちょっとした仕組みを入れます。
・YSTのロボットがクロールしてきたら個別にログに残す(DB化)、
・HTML内に閲覧時の時間を出力する(HTMLのコメント機能を使っていますので
表示はされません)
これでページ別にクロールされたタイミングはわかります。あとは実際に
YSTの結果(キャッシュ)を見て、いつクロールされたものかを確認するだけ
です。
その結果、検索結果に表示されている日付とキャッシュされたファイルの日付
は別物でした。Aというページは6/6に更新されたと検索結果には表示されてい
ますが、キャッシュされたファイルは次の日の6/7のものでした。いくつか確
認した結果、キャッシュと表示結果の差は今のところ1日が最高でした。また、
検索結果に表示されている日付はクロールの結果を反映した日の様です(自分
のサイトのファイル更新日ではありません)。
さて問題のクローラーの訪問ですが、このAというページは6/2に公開され、そ
の日に1回クロールされました。(そのサイトのトップページは1日10回以上
クロールされ、そこからページAに対してリンクがあります)その後しばらく
検索結果に掲載されず、6/7になって2度クロールされました。そして6/8に掲
載が確認されました。ちなみに検索結果に表示されている日付は6/6となって
おり、キャッシュは6/7でした。同日に公開されたページでまだ検索結果に未
掲載のものもあります。そのページ対する外部リンクなども調べましたが、特
に掲載されたページとの差はありません。まだデータが少ないので、クロール
後掲載される条件についてはもう少し調査が必要そうです。
とりあえず新規ページでも公開から1週間程度で検索結果に反映されることが
確認できたのでほっとしました。キャンペーン用のページが掲載検索結果に表
示されるのが、キャンペーン終了後なんてことにならずに済みそうです。
2004.06.09