私の探知したロボット君

Note: This is written in Japanese (iso-2022-jp encoding).
私がサーバをNCSA/1.5にしたため、いろいろなlogがとれるようになりました。 とくにreferer_logは、長年の疑問(と言っても数ヵ月)を氷解させることが できました。ただagent_logはMozilla君ばっかりなので面白くなかったの ですがMozilla君Mozaic君Lynx君MSIE君等に去っていただく事によってロ ボット君を探知してみました。ただわからない物も多いのでわかったら 知らせて下さい。 ちなみに Database of Web Robotsなんかもおすすめ。ただ日本国内のロボットは あまり知らないみたい。やーっぱ、robot(ミラープログラム、検索エンジン、 リンクチェッカ)を作ったらここに登録するのは礼儀でしょうね。そのページの 作者は一般にもロボットの技術を使った物が入って来てデータベースも だんだん有用で完全な物では無くなってきているみたいなことを書いてましたけど。 そういうエンドユーザー向けのロボットというか自動巡回ツールについては 自動巡回ソフトの 選び方っていうのが参考になります。サーバ側の意見も取り入れられてて 良いです。またこれはagent_logを元にしたため、User-Agent:を名乗らないロボットは 探知されていません。またロボットじゃないやつもいます。 そのうち/robots.txtのMIME-Typeをtext/x-server-parsed-html にして、もうちょっと正確なログをとろうかな? WWWロボットの不思議な世界ってやつも趣旨は同じようです。 あと同様なのでkabeさんのUser-Agentについてのたわごとてのもあります。良く調べられていて おすすめ。ほかにも、うえいぶなびには ブラウザ統計 なんて階層が出来てます。近田サン(yahho/うえいぶなびの運営者。)も好きだねえ。 感動して思わず登録しに行きましたよ。「もー」で。 Robot visitors on this serverってのは/robots.txtにアクセスして来たサイトをすべて挙げている みたいです。こういうシンプルなのもいいなあ。 あと私のところに私の好きなブラウザ? のページもあります。まえにこのページに書いてあった物でブラウザと 判明した物はそっちに移しました。 日本語全文検索エンジンソフトウエアのリストには集めたデータから 検索するためのソフトのリストがあります。わたしは、その方面にはくわしく ないです。 日本語全文検索システムの構築と活用という本をお出しになったようです。 (逆リンク:-P) また、再帰Web取得ツールはこういうページなんかもあります。 ちなみに最近は、検索エンジンがあってロボットサイトらしくて,ろくに ロボットの事について書いてないサイトにはメールを送る事にしました。 別に抗議の意味とかそんな事ではなく、好奇心を 満たす為(80%)と、サイト運営上の情報を得たいが為(20%)です。またメール が来ればそういう事についてFAQとしても書く事であろうという効果も狙っています。 送りつけられた方、ぶしつけなメールをお許し下さい。
そーいや、User-Agent:吐かないみたいだけど、*.datalytics.comからのアクセスも 何かロボットっぽい....ひょっとしてこれ? ちょっと試してみようかな?でもでかすぎるよー.....
97/9/1遂に私もApache族になりました。custom_logを使ってログをとるので これまでよりも精度の高い調査ができるようになる筈です。が、基本的には 憶測がかなり入る私の独り言なページです。

そもそもロボットって何?User-Agent:, Referer:って何?

Big Brother (http://pauillac.inria.fr/~fpottier/)
シェアウエアのリンクチェッカ。うちにも来ました。やっぱ、リンクチェッカもロボットに入れて 良かったんですね。安心した。
AIRbot/0.90 libwww-perl/0.40
発行元不明 名前からしてロボットでしょう。
ArchitextSpider
URL:http://www.atext.com/ (From:spider@atext.com)
CACTVS Chemistry Spider 2.3 Multiprocess Version
Robot Listをあさってみたところ、登録されていた。サーチエンジン。Identifierは cactvschemistryspiderらしい。
Choral-Search-Engine/1.0
不明
Japan Cache Prefetch via Harvest Cache version 1.4pl2
Harvest Cashe。どうもWebのキャッシュのために来たらしい。
Lycos_Spider_(T-Rex)/1.0
Lycos Spider (Rex)/TEST v1.0 libwww/3.1
Lycosのロボット。Alta vistaよりも古いだけあってここに行って 見つからない物は先ずないでしょう。
Merritt/1.1
これ確かmckinleyからきていた マゼランだったと思う。 (ログ廃棄しちゃったから分かんなくなった)
MetaCrawler/1.2b libwww/4.0D
MetaCrawler/1.2b libwww/4.1
Meta Crawler。知らん 。使った事ない。
OTI_JPSpider/OTWR:002p116 libwww/2.17
OTI_Rebot/0.1 libwww/2.17
OTI_Robot/OTWR:002p116 libwww/2.17
OpenText-bot C0.5/nolib
Open Text Site Crawler V2.0
こいつらはOpenTextの手先らしい。 最近はロボットの問い合わせ窓口としてhttp://index.opentext.net/を 置いているようだ。
PerManSurfer/1.0 (Win95; I)
これって、「波乗野郎」ってやつらしい。ミラープログラム。
Rcaau/1.0
京大で走っているサーチエンジン Rcaau/Mondou。 リンクトレースが得意。あと日本語の文法を解釈するそうな。 (From:infocom-w3-search@kuamp.kyoto-u.ac.jp)
Scooter/1.0 scooter@pa.dec.com
Altavista Dec パロアルト研究所の威信をかけたサーチエンジン。 そんじょそこらのサーチエンジンと気合いが違うようで、 サーバからロボットまで全て自作で、DECの機械が総出演だそうな。 ところで最近HEADしかこないぞ。(From:scooter@pa.dec.com) 後、vscooter.av.pa-x.dec.comから、画像のみを拾いに来る。
Slurp/1.0 (http://www.inktomi.com/slurp.html)
AnzwersCrawl/2.0 (anzwerscrawl@anzwers.com.au; http://faq.anzwers.com.au/anzwerscrawl.html)
Slurp/2.0(http://www.inktomi.com/slurp.html)
BSE-Slurp/0.6
inktomiのロボット。 UCBの学生が作った会社らしい。えんえんと歴史を書いてるけど とりあえずパス。最近はinfosphereと組んで、http://beta.goo.ne.jp/で 検索サービスをやってるらしい。そちら方面からこいつはよくながれてくる。 (From:slurp@inktomi.com)Anzwers.com.auからくるやつは昔はSlurpって名乗 ってたけどAgent名を変えたらしい。実体は同じらしいけど。 ところで、gooから名なしの変なAgentがながれて来てるけど一体 なんだろ。しかもURLの最後の1文字が欠けてるんでエラー吐くし。 何の為のUser-Agent:,From:フィールドだとおもっちょる。
xy561ts5pp/11.7
日本ネットここのロボットは robots.txtもとって行かない。全く礼儀知らずな!第一、何処にでも 山のようにあるファイルをとって行ってどうすんだ。そのうち httpdを書き換えてそのクライアントからの要求を拒否するぞ。
Termite/1.22
不明。
Infoseek Robot 1.17
Infoseekのロボット。 最近eccosys.comからも来てるんだけど、infoseekと手を結んだのかな? (From:tedo@infoseek.com)(From:dlarsson@infoseek.com)
Valkyrie/0.97 libwww-perl/0.40
東大で動いているサーチエンジン ODIN日本国内のサーチなら一番良かったんだけど...やっぱ個人の 限界かな。こいつと千里眼とrcaauと info bee がうちによくくる。そう言えば著者の方 サーチエンジンの本お書きになったそうですね。そこに、 このページのURLが載るんだそうで。買いました。 感想はこちら。ロボットではなく検索エンジンの方は公開してるようです。 また、彼の修了の準備の為かロボットホストはodin.ingrid.orgに移動 してます。まだ、いきのこるのかな。
Senrigan/19960520 Java/1.0.1 (Linux; ix86; )
早稲田のサーチエンジン千里眼 こいつも結構有名。でも 管理者が学校出てしまった為完全にデータベースの 更新などが止まってます。これの後継で分散Webロボットのプロジェクト なんかもやってたらしいけど(原田氏の情報による)それも進んでない らしいです。 あきれたページに載っちゃうようじゃおしまいですね。まあ 仕方ないけど。(下手したらODINも仲間入りしそうだなあ。 彼修了しちゃうし。)
WhoWhere Robot
Who Where これはすこし毛色が変わっていて普通のサーチエンジンはWebページを 探すのだけれども、これはE-Mailアドレスを探す。自分を検索してみたけど 載ってなかった。おかしいなあ。ロボット来てるのに。
NEC-MeshExplorer
fjでアナウンスのあったMeshnetのロボット。 ロボットの動かし方はともかくこれぐらい礼儀正しいと良いんだけど..... (From:web-dir@bcs.biglobe.ne.jp)
Wobot/1.00
どうも、The Web Robots Databaseによると、こっちがマゼランだったらしい。
webs_v1.0
リクルートのロボット。サーチエンジンらしい。
iSpi/3.0
best.comから来てるロボット.良く知らない。 何でもhole-in-one検索のためのエンジンらしい。(kabeさんによる). ちなみにinterNICのレコードを調べたらhole-in-one.comの技術担当者 はbest.comのアカウントを持っていた。何故かiSpi/2.0ってなってるのが hole-in-one.comからきてた。バージョン下がってるのかな?
BackRub/0.6
BackRub/2.1 backrub@google.stanford.edu http://google.stanford.edu
refererを名乗って来たので調べたら、どこからどれだけ リンクされているかを調べる為の者らしい。 また最近活動を始めたらしいが今度は身元をUser-Agent:で名乗っている。 こいつはサーチエンジンとのことです。 (From:backrub@google.stanford.edu)
Googlebot/1.0 googlebot@googlebot.com http://googlebot.com/
↑のやつの商用化バージョン。とりあえずまだ準備中でスタンフォード 大のサイトへのリンクしか無い。
Infoseek Sidewinder
Infoseekのロボットらしい。
WWW-Collector
Prefetch Proxy ServerのWWW colector( wcol) どーりでイカを通した 奴がある訳だ。(そーいう使い方もホームページに書いてあった。) Robot Databaseの、「ロボットらしい」ってやつのところにWWW Collectorって 出てたけどたぶんこれでしょう。教えてやれば良かったかな。 (ソースも少し読んだ)
testrank/0.3 libwww-perl 0.40
RankLinkのロボットらしい。 良質のリンクのみを提供すると言う触れ込みだけど.. 5分間待ってくれっていったい...と思ったら、なあんとまあキーワードで 要求されると同時にリンクチェックに来る時のエージェント名らしい。まあメタサーチでしょ。 ちなみに、日本語ではキーワードがポピュラーじゃないって探してくれなかった。けっ。(From:unknown@)あのー入れるんだったらまともに入れて欲しいっす。
ia_archiver/1.5
Internet Archive: Building a Digital Library for the Futureってとこから来てる ロボット。なんでも、「WWW,NetNews,オンラインソフトを かきあつめ、貯め込み、アクセスできるようにして、歴史家、 や学者等の人に広く永く情報に提供する」ことを目的としているそうな。 後、/robots.txtのほかに、/sitelist.txtってファイルを拾いに来る。 あとalexa.comってとこからも来る。 リンクが外れて無くなったファイルもほらここにって事らしいけど.... ちなみに、このアーカイブ使うにはalexa.comからクライアントをダウンロード してくる必要があるようです。うーん。しかもパソコン用だけだし....
Falcon/1.4 libwww-perl/0.40
どうも発行元は、 東京大学地震研究所らしい。リンクページのリンクチェックに来てるのかな ?
fido/0.9
philips.comから来ているロボット。(多分。robots.txtを取って行った。) これは、Philips Multimedia Centerの運営するPlanet Searchだそうな。
MOM-Spider libwww-perl 0.40
うちの知り合いの とこからきているロボット。ロボットプログラム自体はどっかでFree で出回ってるらしい。うちの大学のサーバを検索する予定だそうな。 ロボットも流行ってきたねえ。
SafeSearch Robot/1.0 libwww/unknown
intergo.comから来てる ロボット。名前見ても分かるように、有害なページから子供を まもるためにサーチしてるんだそうな。
Microsoft URL Control - 5.00.3609
tide09.microsoft.comからHEAD要求が来てるんだけど....80番ポートは生きてるんだけどなー。 なぜ中身を返さない????????エラーすら返さんぞ...しゃーねーから URLでhttp://tide09.microsoft.com/MicrosoftSUCKS!とか落書してやった。(笑)きっと 相手には"GET /MicrosoftSUCKS! HTTP/1.0"ってなログが残ってる筈。 http://tide01.microsoft.comとかやると 403(アクセス禁止)を返して来るけどなんなんだろう。ひょっとしてぜんぶWebServerが 動いてるとか 。あとそういえば、nslookupでMXレコード引こうとしたら、 SOAレコードみたいなのが帰って来るし一体何なんでしょう。
w3mirror
多分ミラーリングスクリプト。
TestApp/1.0 libwww/5.0a
NetScoop/1.0 libwww/5.0a
access_logと比べて見ると、ほぼ同じ行数(名を名乗らないけしからぬ奴も いるので行数はずれる事がある)のとこにalpha.is.tokushima-u.ac.jpから/robots.txtへの アクセスがある事を確認した。その研究室に検索エンジンがあるようなので そこのからのアクセスと思われる。うーんしかし安直な名前だ...とおもったら名称はめでたく決まって NetScoopだそうな。その名前で来ている事を確認したので上に上げておく。Active Robots にも登録されていた。さすが。
追記:メールを上のWebサイトの管理者に送って見た所、確かにこれであっているらしい。
追記2:なにー!?libwwwの例題 のagent名だって??????
Iron30
filetta.ueda.info.waseda.ac.jpから来ているロボット。 Vernoってサーチエンジン。info.waseda.ac.jpの人は、 千里眼といい、好きだねーって関係ないか。 しかし....ううドキュメント書いてーお願い。って書いたり、メール 送ったりしたら、返事もらう前に ドキュメントは増えてた。......ちと、このページで 嫌味に書きすぎたかな(反省)。丁寧な返事も頂いたし。 今気付いたけどこれって もしかして鉄人30号って意味?これだったら 前のバージョンが29だったのもうなづける。(うちには来なかった) まだきてないけど、いまIron33という名前で、後輩に引き継がれているようだ。 ソースがあるので、それを東大方面で動かしている人がいるようだ。 もうちょっと巡回頻度少なくしてもらいたい物だ。>東大方面。 (From:gaku@ueda.info.waseda.ac.jp)
Informant
Informantから来ている。 まだ/robots.txtは拾って行かない仕様になってるけど1/15までにはなんとかするそうな。 名前はこれで決定だそうな。なんでもキーワードを登録しておくと、いろんな サーチエンジンから検索して教えてくれ、定期的に一番良くマッチした物から10個 教えてくれるそうな。
httpdown using http.cc
ページをディレクトリ構造ごと落して来るプログラム。 名前はこうですけどhttpdをdownさせない工夫はしている みたいです。
LWP::Simple 5.04
libwww-perl 5.04(だったかな)の中のライブラリを使うと デフォルトのuser-agentはこうなる。ちなみにlwp-request とかいったプログラムもついて来る。これはlibwww-perl 0.40では そのままメソッド名だったようだ(つまりGET POST ....)
Four11 Web Crawler
Four 11のサーチロボット。 メールアドレスを漁っているらしい。ちなみにTakanori Watanabeで 検索すると一杯いることいること...しかもMSNの人ばっかり。 よほどビルにだまされたんだな。(おいおい)
WebWhacker 32 Version 1.0J
Mozilla/3.0 (WebWhacker)
パソコン用Mirroring Program。新しい奴は、偽もぢら名乗るけどFrom: フィールドをいれる事が出来るようになったみたい。よしよし。
WebAuto
パソコン用Web巡回プログラム。詳しくは上のWebページ参照。 こいつにもサーバーサイドイメージマップ探索機能があるらしい。 いやあん。
NetJet
どうも「プリフェッチャ」(kabe氏による)らしい。とっても行儀が 悪いらしく、 あるサイトで注意報がでている
CISSpider/OTWR:002p116 libwww/2.17
CISってのはCareer Information Systemの略のようである。しかし...... あれれ?OTWRってOpen Text Web Robotの略じゃないの?とにかく、 学術情報センターからきているロボット。なんかここにアクセスすると 、研究者公募情報って出て来るけど、人物情報を 優先して探すんでしょうかねえ?
追記:メールを送ったところ学術情報センターの担当者から、返事が かえって来て、試験的に立ち上げたロボットで、ロボット自体はOpenText が頒布しているLivelink Spiderという製品だそうな。
無名の検索エンジン
合唱関係のページを検索しているらしい。たのむからUser-Agent:つけてくれ。 べつに/robots.txtは読まんでかまわんけど。Referer:つける事が出来るぐ らいだからそれも出来る筈だ。
(From:jun-kit@yo.rim.or.jp) #結局SSIで罠張って調べた。そもそもの「長年の疑問」ってのはここからの アクセスのせいだったんです。
Vegas95/0.96
国産ミラーリングツールVegas95。うーん増えて来たねえ。 HEAD要求を出す。ちなみにサーバ側からすれば やめてくれーっていいたくなるような機能まで入ってる。
#サーバーサイドクリッカブルマップなんてあきらめなさいって。 そんな事の為に絨毯爆撃されてはたまらん。その機能使って来た奴いたら、 即刻、そいつと同じネットワークに属しているホストからのアクセス 拒否したる。
追記:どうもこれを使ってきた愚かものがいたらしい。Mozillaを名乗って たけど、たぶんVegas95がコントロールしてたと思われる。次やったら絶対 アクセス拒否してやるからな...>*interlink.or.jp,ncc.go.jp (160.190.10.0/24)
WebCompass 2.0
Quarterdeck社製のメタサーチ/リンクチェックツール。 世界中のサーチエンジンを検索してその結果をまとめて表示して、 そのリンクのリストが生きているかどうかをチェックするそうな。 わたし英語苦手なのでわかったのこれだけ。
Linkbot/2.0
リンクチェッカ。死リンクを削る事ができるそうな。(←ってまんまやんけ)
WWWC/0.09
不明だったが、作者からメールがきた。Win95/NT用更新チェッカ。 どうも0.24-0.34はReferer:に作者のホームページのURLを埋め込む ようにしたみたい。0.35-はInktomiのSlurpとかBig Brotherみたいに 括弧の中に作者の連絡先をいれるようにしたみたい。(うちには 公開しているより新しいバージョンが来ている<-テストに来てるな... 前口上に書いているようなホストにも全部来てるみたいだけど...) HEAD要求を送り、Last-modified:を得る事ができない場合(文章がCGIとか 、.htmlでSSIを使える設定にしている場合)、GET要求を送って来るようです。 Cacheにもよくないので、必要以上にSSIを使える設定はやらない方が 良いでしょう>サーバ管理者。0.78以降では、更新日時等を知らせるのに、 ページの先頭で独自プロトコルの<META>タグが使えるように なったようです。こういうのどっかで統一された話って無いんですかね。 そうそう。ここ でWinsockによるWebクライアント作成講座やってるけど。その例題クライアントは httpc/0.0っていうUser-Agent:を吐く。
WebCopy/0.98b7
ミラーツール。perlで書かれているそうな。まああとは一般的な特徴が 並んでるけど......少なくともこれは作者はロボットと認識しているようです。 どこにリンク張るか迷ったけど、結局一次配付元に張りました。
TITAN/0.1
多国籍検索エンジンTITAN。多分これ来たのはじめてだけど...... nttcsa.tas.ntt.co.jpからのアクセスは一体なんだったんだろ?ところで 一回一回/robots.txt読みに行くけど、そんなに読まんでも良いと 思いますが....(From:titan-admin@isserv.tas.ntt.co.jp)
yahoo-fetch
Yahooに登録すると来るようだ。 リンクチェッカ。
Teleport Pro/1.24
ミラーリングツール。ついでに、自分のディスクにため込んだモノから サーチができるそうな。
Symantec WebFind Page Validation
リンクチェッカだそうな。
EMC Web Hopper
WiseWire-Widow-1.0
Spider5
wisewire.comから来たロボット(でしょう。) Empirical Mediaのサーチロボット と思われる。特にロボットの事について書いてないし、EMC Web Hopperは /robots.txtも 読まない様です。WiseWire-Widow-1.0の方は/robots.txtを読むようです。(From:spiderman@wissewire.com) 遂に、名前がSpider 5に変わったようです。
CyberSpyder
microsys.comからきたロボット(でしょう)。 Cyber Patrol のRatingのために来たと思われます。 ひょっとしてこの名前衝突しまくり?
indexpert/1.00
東芝のロボット。FJでアナウンスがあった。上記のサイトが発行元に なっている。ここには今検索エンジンがある。
Inosoft SearchAgent
とりあえずわかったのは、ドイツ製のソフトらしい。 Inosoftってサイト見付けたけど 全部ドイツ語(;_;)いかに母国語のみで書かれたページが外国人に絶望感 を与えるかがよおおおく分かりました。/robots.txt 読まないし。ぐちぐち。
#でも「自覚はすれど反省はせず」(スレイヤーズより)
Love And Chaos_Special Edition
うーんなんだろ。
Flashnavi/0.37
うむむ。これはロボットかどっちにいれるべきだろ。まあスクリーンセーバ 型自動巡回ソフトらしい。
InfoNavirobot/2.1
Infowebの検索ロボット。しかし....../robots.txtだけじゃなくて、 何と下の方のディレクトリのとこからもrobots.txtを探そうとしている。 個人個人のアクセス制御は、<META>タグの方が良いと思うんだけどねえ。 まあ、本人による登録が主でリンクチェッカ的な性格がつよいからこれでも 良いと思うけど。
平成10年1月の時点で、このロボットは全階層?を漁るようになり、 個人用のrobots.txtは読まなくなってます。METAタグによる制御が出来る ようです。なかなかぱわふりゃーなようで。ちなみに検索エンジンは 富士通で日本語化したwaisかなあ?フォームのソースを見たらフィールド名 がWAISなんたらってなってたけど。(From:navistaff@web.ad.jp)
(User-Agent:無しまたはMozilla) 202.221.214.204からのアクセス。
何かロボットっぽい。サーチエンジンもあるようだし、ちとメール送りつ けちゃろ。(NO RESPONSE)
Web21 CustomCrawl bert@web21.com
どうも、良くリンクされているページを探すために使っているロボットの ようだ。
Phantom/2.0gm2 i-robot
うーん これでしょう?ログにいたのに見落としてた。MacとWindoze用が あるらしい。パソコン用ロボット。まあバッチダウンロード+サーチ ってとこみたい。
NetRecorder/1.0
Mozilla/4.0 (compatible; MSIE 4.0 NetRecorder3.0 ; Windows 95)
「ホームページをまるごと録画」だそうです。 「ホームページ」だけにしとけば良いのにねえ。:-)<-そういう意味じゃ ねーよな。最近の奴はすげー名乗り方してます。あまり偽もぢらはいれな いんですけど。
Microsoft_WebMapper/awruusz4yww (end-user robot)
M$製のエンドユーザ用のロボット。Backoffice製品の一つらしい。 Internet-Friendly Spiderなんて書いてるけど、それらしい/robots.txtへの アクセスって見付けられなんだなあ。挙動はおとなしいけど。
TestApp/0.9 libwww/unknown
DragonBot/1.0 libwww/5.0
207.221.222.33 から飛んできている。Netscoopとは別。念のため。 http://www.paczone.com/ってとこから来ている。(同じネットワーク) ったく、ロボット走らせるなら逆引きぐらい出来るようにしとけよな..... (-_-#)。サーチエンジンの準備をしているようです。つまりまだ検索 出来ない。メールを送ったら返事が来て、プログラムのミスでlibwww のデフォルトのUser-Agent:が出て行ってしまったとのことです。。 あと、あんましまだ詳しい事書かないでねってメールで言われたので、 ちょっと情報を削ってます。(公開情報しか書いてないのでこれでいいの じゃないかな)
/home/guilloti/Internet/Spider/GetPages/0.1 libwww-perl/5.08
これ.....別にディレクトリの名前じゃないです。エージェント名です。 うーんどーせだったら、自分のメールアドレスでもいれたら一意性が 保証できるのに:-)発行元はmpngate1.ca.us.ibm.comのようですが 、しょっちゅう落ちるゲートウエイみたいです。 robots.txtは拾って行きません。
QueryN Metasearch
こいつは、メタサーチツールで、主要なサーチエンジンから検索した結果から リンクチェックしに来る時のUser-Agent:名のようである。エンドユーザー用の ロボット。
InfoLink/1.6a
名前を見ての通りリンクチェッカ。シェアウエア。ブラウザ付き。 ま、何の変哲もないリンクチェッカのようですね。
BSpider/1.00 libwww-perl/0.40
BSpider is crawling inside of Japanese domain for indexing. (Robot Listより)だそうです。カバーページもNot Yetなようなので 検索はまだできそうもないようです。だからRobot Listにリンクを張りました。 でもなんで空のReferer:ヘッダつけるんだろ? (From:okumura@rsl.crl.fujixerox.co.jp)
Gets
Win用バッチダウンロードツール。
EirGrabber
バッチダウンロードツール。まあオーソドックスな機能があるようですね。 ま、この手のモノってユーザーインターフェイスに凝るか、それとも サーバ側を怒らせるような機能を付けるぐらいしか工夫のしようが無いと いえばそれまでなんですけど。
doctitle.pl/0.3 libwww-perl/0.40
うーん分からん。
SIAM_Gateway_MAC_3.02.03/1.0 libwww/5.0a
うーん....わからん。
MitemoIIkana/1.0 tcl/8.0a2
これロボットぢゃないです。/robots.txtを見てRobotが排除されるかどうか だけをチェックするツールです。作者は 「 User-Agentについてのたわごと」のkabe氏です。
ZerOIn Web Agent
ほとんど情報は無い。発行元が199.2.24.150であることと、そのホストが Win95/NTである事ぐらい。どうやって調べたかって?smbclient(極悪)。
KO_Yappo_Robot
作者からメールが来たので。ロボットのバグ取りに付き合っちゃったよ。..... ったく。規格もーちょい読んで下さいね。悪いけど。
Onocchi/0.95
nicgw.nic.co.jpから飛んできている。なんとなくバッチダウンロードツール って感じがするけど......わからん。とりあえず、gooでは統計情報が引っか かったので配布されているツールの可能性もある。
ww Experamental system
206.181.238.145から来ている。/robots.txtを拾っているので多分ロボット。
Executive Re-Search
何故か、私のこのページをチェックに来ている。チェック用のUser-Agent:は 不明。多分吐いてないと思われる。そのあと手動で内容チェックするようだ。 サーチ+リンクチェックサービスみたいだけど....これWebWhackerの 開発元と同じとこがやってるサービスらしい。 なになに?1回チェックするのに$50であと毎日チェックだと一日$20だって?
もじらん/T.H おりじなる (まっきんとしゅ; I; LC630, まっくふぁいど!)
......なめとんのか、われ。(-_-#)凸とりあえずHEAD要求を出して来ている のでこれは、単純なUser-Agent:変えただけのブラウザでない気がするので こちらにのせました。kgum1bl.sainet.or.jp から来ているけど、 こんなもん配布しとったらけつの穴から手突っ込んで奥歯ガタガタ いわしたるぞ。でも、まじでSJISのUser-Agent:はやめてね。
Archnoidea(リンク先間違えてた)
ヨーロッパ専門の多国語サーチエンジン。 ぬわーにがBest view with Micro$oft Internet Exprolerだ.... Lynxでも見えなきゃあかんだろうが。それに、
Future implementations will include UNICODE char sets such as Kanji, Kata, Japanese, Chinese, Hindi, Arabic, Persian, etc. (将来の実装では漢字カタカナ日本語中国語ヒンズー語アラビア語 ペルシャ語などのUNICODEキャラクターセットも含める予定です)
だと?んなもんでページ書く奴がいるかい。ほんとに1バイト文字の事しか 考えてないんだから....
Gulliver/1.2
とりあえず、うちにも来ました。一応検索を目的にしてるみたいだけど、 まだ検索できないどころか、ここ は認証がかかってるし(けち.....ってkabe氏も言ってたな)ロボット ホストである http://gulliver.northernlight.com/は、デブいおっさんと おばはんの絵が(多分開発チームなんでしょう)貼ってあるだけだし....けっ。
追記:8月現在検索できるようになりました。本格運用モードに入ったん でしょう(From:crawler@northernlight.com)
Rabit-Autopilot/1.0 (jperl)
何か、大学生の出会いのページとかいうのがありましたけど....... メールを出して訊いて見たところ、メールアドレス収集エージェント ということでした。まあ、それだったら挙動がおとなしいのも 納得できますね。ま、あつめて何をするかは今は言えないそうですが..... (From:mikage@gala-net.co.jp)
追記:をいをい。もろSPAMじゃねーかよ。ゑぶ頁の宣伝ならNetNewsの然るべき グループでやっとくれ。
WebHarvester/1.0
ham.dtc.netから来てますけど、ちょっと良く分かりません。 dtc.net自体はプロバイダのようですけど。
Cherry/1.2 ( MaidenCircuit/1.2 )
From:にメールを出して訊いてみたところ、yahooみたいなサイトを 自動的に構築する研究のためのデータ収集ということです。 (From:cherry@galaga.jaist.ac.jp)
WMWebReader
Digimarc WebReader
Digimarc DigiComb/1.0 Digicomb@digimarc.com
206.102.3.0のネットワークから拾いに来る。interNICで調べると Digimarcの云々って書いてありますけど digimarc.comあたりはネットワーク違うし....しかもご丁寧にも 一回一回IPが違うんでやんの。でもページの内容とアクセスの振舞( jpgだけを拾いに来る)から見るとこれっぽいようなきがする。 上にリンクしたプレスリリースから見てもかなり可能性は高い。 どうも、絵に著作権情報が透かし絵(Water Mark)のようにいれてあって、 それをチェックするようです。 個人的にはせちがらい世の中になったもんだなって気分がしますが.....
9/15からはDigimarc WebReaderって名前になったようです。 なんか一番下の奴ディレクトリは探って行ってる見たいだけど。 Referer:には、各々のディレクトリを指定されます。 (From:WMReader@digimarc.com)
Challenger ver.0.0.0.1 魁
うーん。うちの大学のプロキシーサーバから来てる。わざわざこのページ アクセスしに来てるし.....誰がつくったか心当たりある人が約1名居る んですけど.....頼むから8バイトコードをUser-Agent:に入れるのは 止めてね。あと、RFC読んでね。 同じような事言われてた人居るし
B-Collector/0.3u (Linux2.0; i586)
Referer:のところに行くと、Webで グループウエアを構築した商品があるんですけど.....もともとWebなんだから Lotus Notesみたくわざわざゲートウエイソフトウエアなんか要らない筈だし.... で、そのグループウエアで構築したデモ掲示板できいてみたら、 「申し訳ありませんが、製品ではありませんので詳しくは申し 上げられません。単なるURL収集プログラムだとお考え下さい」 とのことです。ふんふんロボットなんだね。愚痴ってきました
EchO!/2.0
ロボット。目的についてはとくに書いてません。 ねえ。アクセス間隔って知ってる?(-_-;;;見事爆撃モード入ってるん ですけど。
Alexa Verify
調査中。
Vnet
調査中。
WwwFetch/0.93b7
なんかfjに告知(しかも相当前に)あったみたいですね。英語の記事 ゴミ記事が多いから読み飛ばしてたけど。サーチしてその結果をまとめて 後でまるごとダウンロードできるらしい。
Excalibur Internet Spider
どうもiSpiの後身らしい。どーしたんだろ。URLはispiって入ったままだし。 hole-in-one.com方面から。ひょっとして名前ぶつかったから変えたのかな? (From:info@interpix.com)
Octopus/0.1
celica.comp.ae.keio.ac.jpから来てる。多分ロボット。
URL-Binder
本来はPCでNetscapeとIEとでBookmarkを共有するためのソフト。 で、そのブックマークのチェックをするときのAgent名。
WebCrawler/3.0_Robot
Robot listで有名なWebCrawlerのロボットだけど...なんで、exciteが 運営してるんだろ?あそこってatext.comってドメイン名ももってて、 そこからロボット流してる筈なのに
Getweb
ミラーツール。偽もぢら。基本的には偽もぢらはこのページに載せないん ですけど.......特定の条件下で不思議なリクエストライン を吐く習性がある。 バグレポートだした所、どうもObsoleteな規格との互換性のために でこうなったようだ。
GET /~takawata/ HTRQ/V1.0
User-agent:Mozilla/3.0 (Getweb/1.5.2)
LinkQuest/0.96(Windows)
分からない。
MitakeWebIndexer/1.00
サイトインデクシングが出来るMitakeSearchのWebロボットの ようです。実物で確認した訳ではないので分からないんですが、 ロボットつきとか書いてあるんでたぶんこれでしょう。ちなみに altavistaの日本語版ではないと書かれているのでお間違い なきよう。...何考えてイントラネットからロボット漏らしたんだろ.
Bunny/0.2d libwww-perl/5.13
何か研究用のデータ収集のロボットらしい。いやあ、来る前から存在知って たんですけど....Referer:で:-)。
fe~/1.1j rho/4.2c
nitechからきてる。ネットニュースの記事に書かれているURLを基にそれの リンクチェックに来るようである。多分わたしの記事に書かれているPGP Public Key をチェックしに来たんでしょう。 (From: DeaAquae@mcn.ne.jp)
GAIS Robot/1.0B2
gais2.seed.net.twから。サーチエンジン構築のためらしい。 メールを送って確認しました。
ロボットホストが変わりました(index3.openfind.com.tw) (From:ssc85@cs.ccu.edu.tw)
WBI-Client (via WBI Proxy Server 2.0)
なんかIBMのAgentらしい。WBIとかいてWebbyとよむ。ヒストリ保存、 リンクチェック、自動巡回などの機能の揃ったWBI (Web Browser Intelligence) Personal Web Agentなんてものは拾って見たけど、 まだ試してない。でもこれ自体ではなさそう。
GAIA/0.5
131.113.216.150から来ている。comp.ae.keio.ac.jpのドメインの下らしい。 fingerをつかってしらべたんだけど。ほとんどrobots.txtしか拾ってない。
vspider/3.0
私のページを中心に検索しようと動かしたようです。 オムロンアルファテック などで扱ってるようです。結構リクエスト爆撃して くれるんでサイトインデクサとして使うべきでしょう。
どうも、あちこちの会社で日本語処理技術を付加して売っているようで.... #動かす前に教えて欲しかったです。
Wget
Gnuなバッチダウンロードプログラム。ある理由によりWin32版を試用 して見ましたが、 From:等のヘッダを送るようにサンプル の設定ファイルで勧めていたり、/robots.txtを読むなど色々 配慮しているようです。
INinja LDCIE30
どっかで見たなあと探しに行って、見付けてから思い出した。パソコン ショップだった。画像の整理機能を強化したバッチダウンロードプログラム。
NetCrawler/biX/gwX/Win32 <ncie@guru.dircon.co.uk>
今の所わからない。ロボットホスト行って見たら石油会社関連のリンク集が あったんですが....折角User-Agent:にメールアドレス書いてあるから 送って見ようかな?
EmailSiphon
これだって?なめとんのか。まあ、これ自体はEmail Addressに 特化したメタサーチみたいですけど。(つまりサーチエンジンから ページを拾ってメールアドレスを吸い出す。)
LinkWalker
どうもロボットっぽいけど、/robots.txtは一応読むけど何だか無視されてる ような。それに普通言われんでも/cgi-bin/ディレクトリは拾わんよなあ。 phf まで拾おうとするし....(-_-#)発行は209.167.50.0(tracerouteするとそこの ネットに入る一つ上流はtpci.comというとこらしいがWebサーバは見付 けられない。)方面から。あちこちのサーバ統計には現われてるけど、 現在の所分からない。DTP関係でそういう名前のソフトはあるらしいけど 関係なさそうだし。なんか、tpci.comの責任者の方と話したけど、 うちにはそんなルータおいた覚えないとか言うし....謎だ。
Inforia Quest 97
最近良くある、メタサーチツール。この手の奴だから当然リンクチェックにも くるでしょう。
Crescent Internet ToolPak HTTP OLE Control v.1.0
M$ Visual Basic用のHTTPライブラリ(OCX)。これって、User-Agent:名 変えられないんですかねえ。ToolPakのなかには、様々なProtocolに 対するライブラリがあります。
Loki/0.11
発行元東京ウェブ内のホスト。 /robot.txt拾う時Referer:ROBOTってのはなんだかなあ。おいっっ。robot.txt ぢゃなああああい。ちなみにLokiってのはアメコミの Spidermanに出て来る奴が語源かなあ、それとも原田氏の回し者 (北欧神話系)かなあ。でも原田氏がそんなポカするわけないし。 のようです、
CherryPicker/1.0
どうも、帯域幅を統計的に平均化する為の、プロキシーサーバらしい。
AddressBooker/1.0 with libwww-perl-5.16
分からない。ただFrom:ヘッダはつけてるみたいだけど。 (From:webmaster@cb21.co.jp)
InterGET1.37
バッチダウンロードツール。それ以上でもそれ以下でもないとおもふ。
MMP-WebExplorer
research[2-3].gate.nec.co.jpから来てる。目的連絡先不明。sendmail 動いてるし、メール出そうかなあ。
zzZ
なにこれ?なんかdynalabから来てたけど。HEAD要求。
CyberSpyder Link Test/2.1
すげー安直な名前だなあ。名前通りのモノなんだろうけど。 多分、Cyber Patrolとは無縁のものと思われます。
Nocturne/1.05
バッチダウンロードツール。....#を付けたリクエストを吐くのは やめてね。(1.06では直ってるらしい)
GET /~takawata/#intro HTTP/1.0
しかもHTMLのパーズ間違ってるし。(本来はこの#は目次として使ってるはず)
(ななし)
何か、自社の評判や勝手に商標使われてないかとかを検索する為の サービスらしい。(From: mwuser@)←これもまともなやつ付けてくれない かなあ。
LinkCrawler
リンクチェッカ。読んだ所サイト管理用ではなく、 結合グラフを作る実験みたいなもののようです。
AltaVista Intranet V2.0 dec.com webmaster@dec.com
これ かなあ。どーでもいいけど、なんで、うちのサイトまで、こんなの ながれてきたんだろ。開発元っぽいとこから。
PIG/0.02 NTT Software Labs.
「モーバイルサーチエンジン」らしいけど、どうロボットの情報を使うんだろ? (From:yokoji@slab.ntt.co.jp)
Kaede's HTTP Rader Version: 0.09a by hachikun@hokkai.or.jp
更新チェッカ。WWWCの設定ファイルを読み込んで、使えるらしい。 #でも、こちらのFreeBSD,SunOS4マシンじゃ動かんかったぞ:-P
Asahina-Antenna/1.914
日記系の更新チェッカ。詳しくは上のリンクを参照。あ、をれのとこも チェックが来るようになった。
EmailWolf 1.00
EmailSiphonと同様。メールアドレス専用メタサーチエンジン。
InetDown/1.2
うーん分からん。ひょっとしてプリフェッチプロキシかな?
Marvin v0.5
いわゆるディレクトリ型のサーチエンジンだけど、Fromはここ指してるよね。
JCrawler/0.3 (robot; webmaster@netimages.com)
まあ、リンク先にこのロボットについての情報は無いですけど、 http://www.netimages.com/services/web-design.htmlなんて見ますと コンサルト内容にE-mail botsなんてありますからやっぱこういう技術って 広がってるのだなあと感じます。
DNAbot/3.0.8b1http://xx.dnainc.co.jp
新潟県限定のサーチエンジンだそうな。メールで返事を頂いた。
JTPC JTOPICrobo/1.0
Vality社と組んで作ったNEC製サーチエンジン。
AyuHttp/1.0 (Swady-chanSX Lot.1)
IEのショートカット(要はURLへのポインタの入ったファイル)メンテナンス用 プログラム。From:に サポートページへのURLを入れて来る。なるほど。
Potato/1.9.1.1
荒井さんの作られた 再帰Webミラーリングツール。
Eule Robot v3.00 (www.eule.de)
わたしドイツ語わかんないですけど、多分検索サービスですね。
Pockey/5.3.1(WIN32GUI)
再帰ミラーリングツールっぽい振舞。
FAST-WebCrawler/0.3 (crawler@fast.no)
ノルウェーの検索サイト。
suke/0.3
peach.satellite.info.waseda.ac.jp から流れて来ている。 Ringing 日本語ドキュメントの 全文検索エンジン Ringing用のもの。それまではwgetを 使っていた覚えがある。
Marcator-1.0
DECの新たなロボット。Altavistで使われている物とは違うそうな。 効率よくWebを回って統計をとることを目的にしているらしい。
SHLMHA/1.0
韓国の検索エンジン....をれさま韓国語読めん. ち、せっかく研究のネタの参考にしようと思ったのに。 (From:ajc@irtech.soongsil.ac.kr)
N2H2-BirdDog/flyingace-1.042
フィルタリングとページの評価のために、巡回するロボットらしい。
Lockon/0.405(Test version sasazuka & ohmori)WebSize Edition
jupiter.hitech.tuis.ac.jp より。From:search@rsch.tuis.ac.jp。要調査。
gazz/1.0 (gazz@nttrd.com)
"gazz" is a web robot developed and operated by NTT Cyberspace Laboratories. だそうです。これを流している所では infobee.ne.jpというドメインをとっているのですが、 Infobeeの後継かな?
PRS-Robot/19990609 Java/1.2.1 (SunOS/5.6; sparc; http://www.etl.go.jp/~yamana/DWR/)
分散検索ロボット。これは第二次実験らしいです。第一次の実験では たいして広くは集めなかったらしく、うちには来ませんでした。 ODINの原田氏に聞いてはじめて存在を知った程度です。
Mothra/126-Paladium
うーむ。ロボットっぽい。どうもサーチエンジンがあるようなので これのためでしょうけど、ほとんどrutgers大学内のみのようです。 うちに来たのは多分誰かの((彼|彼女)自身のかも)リンク集に あるからでしょう。(From:hseo@cs.rutgers.edu)
QILM/2.61
いわゆるリンクチェッカ。
Openfind Robot/1.1A2 hph82@openfind.com.tw
とりあえず情報も何も書いてないけどサーチエンジンらしい。ちなみに アクセスする時は数秒(<10Sec)おきと結構短いインターバルで拾いに来る。 これでCGIを爆撃してくれたらアクセス制限リストの仲間入りだな。
Jerky/4.10 Java/1.2.2 (http://odin.ingrid.org/odin.html)
ODINのロボットの後継と思われる。まだ、ODINのページには情報はない。
WDB/1.09 (WWW-Dancing-Bee; )
更新チェッカ。他の朝日奈アンテナ互換の更新チェッカから 情報を取得する事も出来るらしい。
nttdirectory_robot/0.9
多分ここっぽいけど、ロボットに関する情報はない。
search-*.xift.com(エージェント名等一切無し)
WWWサイト等も無い素性が分かんないので私のコントロール出来る範囲では シャットアウトしました。403が返るようになってます。
DIIbot/1.0
Robot Database参照。
Mozilla/4.51 [en] (X11; I; Linux 2.2.5-15 i686) ←Linux用のNetscape CommunicatorとAgent名だけでは区別がつかない。
上記のサーチエンジンやサービスの為に使用しているらしい。Fromには ferret@webtop.com http://www.webtop.com/ と言うものを送っているらしい。 叩き落す事にしました。←でもしつこく来る。
moget/1.0 (moget@goo.ne.jp)
GOOの新しいサーチロボットみたいだけど....うげ、秒間2-3アクセス来るよ。 うっとおしい。
Mozilla/3.01(compatible;)
どうも、CacheFlowがアクティブ キャッシング技術とやらで、一度来た場所をしばらくの間チェックする時に このエージェント名を使う事があるらしい。
(エージェント名無し)kk-gw.netfilter.ne.jp
どうもこれ関係らしい かぎ回り屋に渡す情報なんぞありませんので捨て捨て!それでなくても Rapid Fireして来るのでうっとおしいし。

リンクは御自由に。

書いたやつのホームページ(日本語版)へ。