1read 100read
2011年10月1期Web制作Baiduspiderウザすぎ!! ヽ(`Д´)ノ TOP カテ一覧 スレ一覧 削除依頼
・ 次のスレ
危険なタグ書いて行こうぜ
未来のインターネット
もしも自分のサイトと同名のサイトがあったら・・・
検索サイトに媚びすぎ


Baiduspiderウザすぎ!! ヽ(`Д´)ノ


1 :07/02/12 〜 最終レス :11/02/19
オレの鯖にBaiduspiderアタックしてくるんじゃねぇぇ!!!!

2 :
しゃぶれよ

3 :
#最新版 百度弾き推奨 .htaccess
DirectoryIndex index.html index.htm .ht
ErrorDocument 403 http://www.baidu.com/
SetEnvIf User-Agent "Baiduspider" deny_bot
SetEnvIf User-Agent "sogou spider" deny_bot
order allow,deny
allow from all
deny from env=deny_bot
# Baiduspider_ip
deny from 60.24.0.0/13
deny from 220.181.0.0/16
deny from 61.135.0.0/16
deny from 122.152.129.
deny from 122.152.128.

4 :
Baiduspiderってrobots.txt読んでるから安心してたら
image.baidu.comやらasd.tj.cnやら仲間がワラワラいるんだな…。
最初から素直にIPではじいておけば良かったよ。
先月は中国からの訪問客が30%越えだった。

5 :
2chもBaiduにやられたっぽい。
ここ数日の鯖不安定はどうもBaiduが原因らしい
http://qb5.2ch.net/test/read.cgi/operate/1168100274/587-

6 :
.htaccessと併用して、robots.txtも念のため
置いておきましょう
User-agent: baiduspider
Disallow:

7 :
ここのロボット1日5000アクセスとか異常

8 :
sage

9 :
確認してみたら、うちのサイトにはまったくボット来てなかった。
なんか疎外感・・・

10 :
百度の検索画面はまんまGoogleのパクリ
この民度の低さから行くとmp3の次は
・日本の画像系根こそぎ(のパッケージも使う貪欲さ)
・YouTubeの様な動画系サイト(勿論そのまんま盗用)
ホストを変え(悪質)、時間を空けずアクセス。頼むもう来ないでくれ。
ついでに↓も来てる。firefoxでの目視だと思う。反体制かどうかの判別か?
別に心配しなくてもテメーらの国なんて相手にしてねーよ
xd-22-132-a8.bta.net.cn

11 :
ここのとこ2chやwikipediaが不安定だったのは
コイツのせいらしい

12 :
Baiduに限らずapnicで確認できる中韓への割り当てIPアドレスを全部弾けば良いんでないの?
日本国内で当該アドレスを使っているプロバイダがいるかも知れんけど、それは仕方ない。
欧米向けのサイトを運営している身では、この措置で特に問題は感じられないけど…

13 :
yodaoもウザい

14 :
baiduにアクセスさせておいて、突然チベット民主化のHPに
してみようかな(w

15 :
>>14
robots,txt読まないでクロールしまくりのbaibuでもそれは効きそうだな
二度と来なくなったりしてww
中国が嫌がるキーワードってなんだろう
文字色背景色にして埋め込んでみるかな

16 :
>>15
天安門事件、天皇陛下万歳、ダライ・ラマ、中印戦争

17 :
天安門事件、中国民主化、チベット・ウイグル解放、法輪講とかかなぁ?
繁体字とEnglishも用意してあげるといいかもね。

18 :
繁体字じゃなくて、中国本土は簡体字か

19 :
>>15
中国公安に目付けられてアクセス増大の悪寒

20 :
百度は行儀悪すぎ
3段構えくらいで対処しないと
.htaccessでIPで弾き
.htaccessでUAで弾く
robots.txtで弾く
これを全部やってもIP変えて、UA偽装してやってくる
最悪じゃ・・・・

21 :
Baiduからアクセスされたらkeywordタグに天安門事件って入れとけば良いかな?

22 :
>21
一中一台などのNGワードを入れていても、取りあえずはクロールして情報収集はしていくんじゃないかな。

23 :
http://up00.hyperbit.info/up/trash-box/file/20070212174652262.jpg
http://up00.hyperbit.info/up/trash-box/file/20070212174625261.jpg

24 :
>>21
実験してみる価値はあるかもね

25 :
もうファイアーウォールとかパケットフィルタレベルで無反応にするしかないね。
反応しなければ相手もタイムアウトまで動けないから。

26 :
これ俺のところにも来てサイト中の画像に恐ろしい数の絨毯爆撃していったんだけど
一体何をしたいんだ?Googleimageみたいな画像検索インデックスでも作ってるの?

27 :
判明してるUAってどれくらいあるの?

28 :
>>26
image.baidu.com参照
すぐにそこから検索掛けて人がやってくるようになるよ。

29 :
>>28
うちはbaidu経由で人が来たことないよ
SPAMは来るようになったけど

30 :
来てないと思ってたら
www39/76/78/80/36/41/82/51/61/50/55/60/56/57/62/79/74/77/109/102.asd.tj.cn
Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Baiduspider+(+http://www.baidu.com/search/spider.htm)
からものすごいアクセスがあった
あとxd-22-75-a8/xd-23-177-a8.bta.net.cnからもアクセスあったけど、これもbaidu?
リファラーを確認すると一応image.baidu.comからアクセスあるけど…

31 :
>>30
bta.net.cn

これもbaidu
>>10を参考に

32 :
>>29
うちは画像沢山持っていかれてから毎日かなりのアクセスがある。
しかも見せないように制限してたら、メルフォから文字化けで、
なんかよく分からないメールが山ほど来た。
その数 1分間に4通、全部で約100通。今はこっちも制限してる。

33 :
2000枚近い画像置いてある俺のサイトは((((((;゚Д゚))))))ガクガクブルブル
.htaccessで弾いてるけどきりがねー

34 :
http://www.baidu.com/search/spider_jp.html
これ、ちょっと信じてしまったんだがウソなのか?

35 :
俺は嘘だと思っている

36 :
>>34
何から何まで嘘だ。
baiduは確かにrobots.txtを読んだが、image.baidu.comなどの
baidu内コンテンツ用ロボットはrobots.txtを読まない。
またサーバーにも負荷をかけまくる。
関係ないが、34の3を読んでも分かるとおり
baiduが成りすましをふせぐのは「ポームページ」だ。ホームページではない。
付け加えると、成りすましをしているのはbaidu自身である。

37 :
まぁ、ふつうのロボットなら大目に見るんだけどね・・・
1日5000hitとか異常でしょ
どう見ても・・・
しかもUA偽装でIPもコロコロ変えてさ
これじゃマジで荒らしです

38 :
>>35-36
thx!
勉強になった

39 :
search.live.com(MSN)もかなり糞
流石にbaiduほどは無いけど。

40 :
うちはアクセス数だとGoogle>baidu>yahoo>msn>他諸々
転送量でいくとbaidu>google>yahoo>msnなんだけどね(baiduだけ桁が3桁違う)
やっぱ画像ばっかり重点的にねらってるのかね

41 :
俺の所は3ヶ月前ぐらいから
リクエスト数TOP4クローラーに取られてる
robots.txtぐらい読んでくれよ…
http://up2.viploader.net/pic/src/viploader416345.jpg

42 :
100歩譲ってインデックスするなら許すが、負荷かけまくって
インデックスしないって最悪。

43 :
負荷かけまくってインデックスしてそれが原因で更に負荷が掛かるよりはマシ

44 :
>>41
それクロールってレベルじゃねーだろ
攻撃されてんじゃね?

45 :
どや、参ったか。w
http://up2.viploader.net/pic/src/viploader416384.gif

46 :
>>45
全然閲覧者いないんだから百度のクローラーにぐらい見せてやれよ

47 :
オマエの全然ってゼロじゃないんだな。

48 :
>>46
エロサイトじゃないからこれで十分なんだよ。w

49 :
http://up2.viploader.net/pic/src/viploader416557.png
(´・ω・`)ショボーン
(´・ω・,';,';,',
(´・ω,';,';,',
(´,';,';,',
(,';,';,
';,,

50 :
>>41のは酷いな

51 :
百度訴えた方がいいんじゃね?
やりすぎ

52 :
>>41 なんでロボットだけで2G近くも帯域食われテンの、ヒデー

53 :
訴えるとなるとどういった法に違反してんの?
これだけきてるとなるとsakuraが訴えたら負けるってことはなさそうだけど

54 :
威力業務妨害とかどうなんだろう。
サーバーをダウンさせるわけだし。

55 :
さくらに直訴したらルーターかipfwで弾いてくんないかな

56 :
>>55
それをすると逆に訴えられそうな予感
まず無いと思うが

57 :
相手は中国だから公平なが出来る設備がありません。

58 :
>>53
迷惑してるのはsakura以外にもあるとおもうから他社と協力して何とかしてくれたらなぁ

59 :
>>53
派手にサーバがったら、電子計算機損壊等業務妨害なんかもいけると思う
威力業務妨害よりちょっとだけ罪が重い

60 :
xreaで地味にやってんのにBaiduのせいで鯖内の転送量トップ10入りですよ。
弾いたら転送量4分の一に落ちて一安心。

61 :
今更だけど読み方はバイドゥでいいんだよね?

62 :
俺はって呼んでる

63 :
俺はベイヅって読んでる

64 :
そうかバイじゃなくてベイって読んだほうがいいのかな

65 :
俺はシナクローラーって読んでる

66 :
梅毒ローラーだよ

67 :
田代マニア

68 :
おれは、あるあるクローラー

69 :
韓国のnaver検索が日本再上陸といううわさがあるけど
ここのロボットもBaidu並にタチが悪いぞ

70 :
>>69
むしろnaverとの過去の戦いを見れば、baiduが雑魚に思える。

71 :
シナチョンのロボットってろくなの無いよな

72 :
先行者とかな

73 :
先行者は土地のエネルギー量によってパワーが変化するから一概には言えない

74 :
なんか言ってるぞ
http://baidu.jp/

75 :
>>74
爆撃で取り終わったって事だろ、弾かれてるからほとぼりが冷めるまで、って所
俺は絶対解除しないがなw
今の子は知らないかもしれないが昔料理人でチャーハンの達人 周さん
と言うのがいたんだけど億近い脱税?で追徴食らった時、ワイドショーの記者に
「中国ではそんな(法律)の無い」って言ってた。たかが料理でも極めると
儲かるんだな〜と思った。Baiduさんここは日本ですよ・・・( ゚д゚)、ペッ

76 :
>>74
珍しいね、謝るなんて。よほど日本のサイトから弾かれたんだろうな。
または苦情が到したか…。
しばらくは設定はそのままで様子見するかな。

77 :
UA偽装の件はどうなってんの?
前科者がいまさら何言っても信用出来ないね

78 :
>>74
今までの大陸クローラーの行動を考えても信用しない方がいいね
弾くのが一番
http://faq.sakura.ne.jp/wiki/wiki.cgi?%2ehtaccess#i11

79 :
outfoxbotっての最近多いんだけどこれなに?

80 :
百度 日本法人、「Baiduspider問題」への対応を表明
GoogleやYahoo!で「Baiduspider」と検索してみよう。
検索結果にざっと目を通すと「出入り禁止」「〜がやってきた」「行儀が悪い」などと否定的な言葉が並ぶ。
Baiduspiderとは中国の検索エンジン「百度(baidu)」のWebページ収集ロボット(クローラ)の名称だが
総じてウェブマスターからの評判は悪い。実際、私自身も運営するサイトでは Baiduspider を弾いている。
要は、クロール頻度が高くサーバに多大な負荷をかけてしまうことが問題なのだ。
http://blog.japan.cnet.com/takawata/archives/2007/02/_baiduspider.html

81 :
最近はbaiduと同じぐらいにAskが凄いw

82 :
ウチは最近baiduしか来ないorz
もっと他のロボットも来いよ

83 :
百度は中国の最大の検索エンジンです(ネットユーザの約7割)。
海外初の進出となった日本市場へは2006年の12月に本格的に参入致したばかりです。
さて、弊社はまもなく日本語版検索サービスを開始致しますが、それにあたり現在日本語サイトの情報収集Spiderのリサーチを実施しております。
それにより御社のサイトに過剰なアクセスが発生したため、管理者の方には多大なるご心配をおかけ致しました。
私はこの百度Spiderの作業管理担当者としてこの度百度Spiderが御社のサイトにご迷惑をおかけしましましたことに関して誠に申し訳なく思っております。
今後はこの問題について会社全体が真摯に受け止め、日本のインターネット業界におけるルールに従い、このようなことが二度とないように努めていく所存でございます。
弊社はここまで現れた問題について以下のように調整しました:
(1) 各サイトにクローラー負荷を下げさせています。Baiduspiderの最大クローラー頻度は9回/秒から1回/3秒までに下げさせました。以前クローラー頻度の1/27になりました。
(2) 各サイトの規模とIP負荷に対し、それぞれ対応できるクローラー対策を設定し、中小のサイトに対し、クローラー頻度は20秒/回以内にコントロールしています。
(3) サイトに対し圧縮クローラー機能を追加して、同じ負荷でサイトにのアクセス量はもともとの1/3に下げさせます。
(4) 各サイトに対し、毎日のクローラー総量をコントロールし、もしサイトの最大制限を超えると、当日で調整させます。
(5) もし各サイト管理者はBaiduspiderに対し、何かご質問がございましたら、たいへんお手数ですが、webmaster-jp@baidu.comまでにご連絡して頂きたいと思います。
百度はこの様な努力し、御社のページビューにも役に立つよう最適なネットワーク構築や、より一層の協力関係を築けるよう、日々全力をあげてまいります。
そしてユーザーがより良い体験をでき、弊社のリソースを日本のユーザーの皆様にご提供できれば幸いでございます。

84 :
baidu、日本語下手すぎだよ、baidu…

85 :
謝罪と賠償!!

86 :
>>79
中華系
もちろん遮断

87 :
中国割当のIPアドレスを全てdenyすれば良いんでないの?
俺のサイトでは全く問題ないけど、みんなのサイトはそんな単純なことじゃないのかな?

88 :
>>87
それがベストだろうけど
割り当てが変更されると国内の利用者も弾いてしまう可能性が…
それと国内から百度のクローラーにアクセスされたって報告も有る

89 :
日本でサービス始めたら、天安門とかチベットとか
検索できるのかな?

90 :
>>89
出来るけど中国公安にマークされます

91 :
>88
俺みたいにdenyIPアドレスリストを毎日更新するほど暇な奴は少ないか…もう日課になっているけどw
完全自動化できれば良いんだろうけど、それでもタイムラグで国内からのアクセスができなくなる可能性はあるのか。
国内からのクローラってのも気になるね。

92 :
>>91
こののIPから来てるみたい
122.152.128.0 - 122.152.191.255
descr: Asia Netcom Corporation
descr: Internet Service Provider
country: JP
http://pc10.2ch.net/test/read.cgi/hosting/1166860563/542,544,560

93 :
いや〜、ほんとこの中国人死んでくれないかなぁ〜
死ななくてもいいから、日本上陸はあきらめてほしいな
マジでウザ過ぎる

94 :
Googleでさえ日本上陸はYahooがいるせいで困難だと言っていた
そこにbaiduごときが入ってこれるわけがなかろう

95 :
>92
ここはさくら共用スレから派生したものだったのですね。
ありがとう、早速deny指定しました。

96 :
中華系クローラー遮断リストみたいなのあれば便利なのに

97 :
百度、2006年通年の決算を発表--CEOは「日本への投資の回収には我慢が必要」とも
ttp://japan.cnet.com/column/china/story/0,2000055907,20343629,00.htm?ref=rss
我慢というかクンナ

98 :
日本企業ですら国内市場の将来性を悲観的に考えている所が
多いのに、なんでわざわざ海外から参入するのかね・・・・

99 :
NaverとかBaiduは、特にクズで困るね。
朝鮮人や中国人は、「ページを集めてやってるんだ」とか思い上がってるのか?
GoogleとYahooとMSNのロボット以外は、askとかも全部弾いてる。
askからなんて、めったに来ないし。
他は東大が走らせてるクローラーとか、なんとかgo.jpの研究用クローラー。
行儀はいいけど、こっちにはなんのメリットも無いし、deny。w

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 削除依頼
・ 次のスレ
危険なタグ書いて行こうぜ
未来のインターネット
もしも自分のサイトと同名のサイトがあったら・・・
検索サイトに媚びすぎ