このページで使っている用語について。

こんな暇なページに興味を持つ人で、ここに書いてあるぐらいの事を 知らなかった人ってまずいないと思いますが......一応。 ちなみにためしにRFC2145 訳して見ました。機械翻訳並の読みにくい訳でよければどうぞ
ロボット(Web ロボット)
これは、いろいろ定義があると思いますが、Web上のオブジェクトを 自動的に取得するプログラムという意味で使っています。でもODINあたりで 検索してもただ単にロボットって検索したら、機械工学関係の物で うまってしまいます。(爆笑)←って書くのが最近のfjの流行りだね。
User-Agent:,Referer:
HTTP 1.1 のヘッダ。telnetによって、直接HTTPを 喋ってやればWeb上のオブジェクトを拾って来れます。 これらは、サーバにそれぞれ「どういうクライアントを使っているか」 「どこのリンクをたどってきたか」を伝えるのに使います。ただロボット の場合Referer:はほとんどの場合、本来の意味で使われる事は無く、全く つけて来ないか、または連絡先とか(検索エージェントなら)検索のページを 指すことが多いです。また最近ではUser-Agent:がMozilla (Netscape Navigatorの内部名)かそうでないかで違う情報を渡すページもある せいか他のプログラムも(M$IEなど)もMozillaを名乗る事があります。ここでは Mozillaって名乗って来た場合は全てこのページには載りません。
#だって余りに多くてsort(1)がファイルをブチ切ってくれるもの。
一般的にCGIからはHeader-Name:というリクエストヘッダはHTTP_HEADER_NAME という環境変数で参照できます。つまりUser-Agent:ならHTTP_USER_AGENT。
From:
HTTP/1.1のリクエストヘッダ。これはクライアントを操作している人のメール アドレスなどのコンタクトを取るための情報をサーバに伝えるために 使います、普通のクライアントはこのヘッダをまず吐かない筈ですが、 (でも、昔のemacs-w3は吐いていたような.....)ロボットエージェント はこのヘッダを必ずつけるべきであると、書かれています。この度、当 ホストでもこれのログをとることにしました。 Robotのページでは文章の最後に(From:....)の形で、送って来る From:ヘッダを書いています。
GET,HEAD,POST
HTTP 1.1 のリクエストヘッダ。基本的にまずこれの後にサーバのドキュメントルート からの仮想パスをいれてそのファイルからの情報を取得する。普通はGETを 使うが、CGIなどで、サーバ側のオブジェクトが変更されるような時 POSTを使うが、単にCGIのQUERY_STRING変数に入り切らない程多くのデータを 扱うからって理由で使ってる場合も在る。(普通は両方の理由)HEADは、 更新チェッカなど内容にあまり興味のない時に良く使われる、が、HEADだけで 情報を取得しきることが出来ずに(特にCGIとかSSI使ってるページ)結局GET をする場合も在ったりして、IMS(If-Modified-Since:HTTP/1.1のヘッダ) 使えよとか突っ込まれることも在る。
/robots.txt
Robot Exclution Ruleにしたがっているロボットに、行動を 制限させるためのファイル。ロボットが初めてそのサイトを 訪れた時にこのファイルを読む。よってこのファイルを用意していない サイトでも読みに行くのでエラーログを見て知らない人は首をひねる事になる。 書き方はロボットを動かしているサイトにある場合が多い。 ちなみにうちのサイトでは以下のようになってます。 User-Agent:の部分には識別子を(User-Agent:の値であることが多い) 全てのrobotの場合は*を書き、侵入して欲しくないURIのディレクトリを Disallowで指定します。(つまり実体のパス名とは別)個人的な意見としては 再帰的動作をしないのならばかえって無駄なトラフィックを増やすだけで はないかという気がしますが。あと、アクセスする前毎にってのもねえ。 言っときますが個々のディレクトリに置いても読まないんで効果は ありません
text/x-server-parsed-html
NCSA HTTPDのMagic MIME Type。 このMIME Typeの文章はサーバーサイドインクルードを使うファイルとして 扱われる。デフォルトの拡張子は.shtmlだが設定によりオーバーライド する事が出来る。これを使えばCGIをそのページを読み込む度に実行させる 事が出来るので、罠をはることができる。
agent_log
NCSA HTTPDによって 生成されるログ。このログにはHTTPセッションで送られて来た User-Agent:の値が入る。ただこれには時間や発行もとなどが ついてこないため、身元や、どういうファイルを持って行ったか を推理するのが結構面倒臭い。Apache だと、自由書式のログなんかがサポートされてて良いんらしいけど...... インストールしなおすのめんどくさいのでそのままにしてる。
custom_log
Apache で追加された機能で自由自在にログを取る事ができます。 ここでのログフォーマットは
CustomLog logs/custom_log '%t %h %{User-Agent}i %{from}i %{referer}i %U'
になってます。リクエストヘッダのログを取るときは%{Request-header}iで リクエストされた時間をとるときは%tリモートホストは%h リクエストされた オブジェクトは%Uとなってます。
戻る。 リンクは御自由に。