Botからのアクセスを除外しよう

posted Apr 27, 2013, 1:29 AM by Makoto Shimizu   [ updated Apr 27, 2013, 1:43 AM ]

実は増えているボットからのアクセス

ビーコン型のWeb解析ではJavaScriptを実行しないとデータを取得できないのでボット(スパイダー)によるアクセスは計測されない、というのが数年前までの定説でしたが、最近はJSを実行するボットが増え、Web解析のレポートに不自然なアクセスが含まれるようになってきました。

ボットと言うと検索エンジンのクローラーが頭に浮かびますが、最近多いのはページのプレビュー画像を作成するボットです。たとえばGoogleの検索結果に、ページのサムネイル画像が表示されることがあります。このサムネイル画像を作成するため、ボットがリンク先ページにアクセスしてスクリーンショットを作成します。GoogleだけでなくBingやFacebookもこのようなプレビュー系のボットを持っています。

簡単になったボットの除外

このようなボットからのアクセスを除外するため、Googleアナリティクスの場合はUAを正規表現でマッチさせるフィルタを作成する必要があります。SiteCatalystには、最新のボット情報を使ってサーバー側でフィルタする機能が2012年4月に導入されました。ただし、デフォルトはOFFなので、レポートスイートごとにONにしないと有効になりません。

ボット除外機能をONにする方法

管理コンソール>レポートスイート>一般>ボットルール にアクセスします。

IABボットフィルタリングルールを有効にする」のチェックボックスにチェックを入れ、「保存」ボタンをクリックします。

  • IABが販売しているInternational Spiders & Bots ListのデータとUA情報を照合してフィルタされる
  • UAやIPアドレスを指定するカスタムルールも作成可能
  • フィルタが有効になるのは、「保存」した時点から(過去データはフィルタされない)

レポートの見方

フィルタされたデータは「サイト指標>ボット」の二つのレポートで確認できます。

「ボット」レポート

ボットごとのページビューを確認できます。通常の粒度でデータが収集されているわけではないので、クロス集計や他の指標追加はできません。どの程度フィルタできたかを確認するための単純カウンターとしてのレポートです。

  • Google Web PreviewはGoogle検索結果に表示されるサムネイル画像生成のボット
  • BIngPreviewはBing検索結果に表示されるサムネイル画像生成のボット
  • facebookexternalhitはFacebookにURLを投稿すると表示されるサムネイル画像生成のボット

1年分を週単位でトレンド表示してみました。

小さなサイトなのでトラフィックは少ないですが、増えています。

「ボットページ」レポート

ボットがどのページにアクセスしたのかを確認できます。

注意点

  • VISTAルールの適用後にフィルタが実行される
  • フィルタされたデータはDataWarehouseやData Feedからも一切除外される

参照

Comments