1read 100read
2012年6月プログラム163: 自動巡回ソフトを作りたい。 (376) TOP カテ一覧 スレ一覧 2ch元 削除依頼
最も美しいプログラミング言語は? Part6 (328)
音声合成プログラムを作りる (316)
【注意】STLの落とし穴【危険】 (852)
BREW(Binary Runtime Environment for Wireless) 11 (512)
ヘタなコードの書き方 (737)
WebObjects 質問スレ (414)

自動巡回ソフトを作りたい。


1 :02/01/18 〜 最終レス :12/06/23
俗に言う、インターネットの希望のページを自動巡回して
オフラインで見るオートパイロットソフトを作りたいの
ですが、何をしていいのやら、手がかりすら分かりません。
オンラインソフト使えば?といわれるでしょうか、後学の為
どうしても、どうしても、ど〜しても自作で作りたいのです。

よきアドバイスを宜しくお願いします。

2 :
ドシロウトの私ですが、後学の為、完成するまであげ続けます。
ちなみに言語はCがいいです。
というよりコンパイラはそれしかないです。
レベルは文法が少しわかる程度。

この程度でも、いっぱしのプログラムが出来るようになる事を
証明したいのです。

ほんとにほんとにアドバイスお願いします。

3 :
3

4 :
まず、たしかどこかにソースコードを公開している
自動巡回ソフトがあった記憶があります。
どなたかよい情報をお待ちしています。
私も現在探しています。

5 :
このソース参考にすれば?
WWWC Ver 1.0.1 (2001/11/28)
http://www.nakka.com/wwwc/

6 :
ふつー、wget

7 :
>>5
有難う御座います。
本当に超ドシロウトなんて、早速ダウンしてみます。


8 :
>>6
禿同。度素人ならwgetの周りをサポートする
スクリプトでも書いたほうがいいんじゃないのか?


9 :
>>6>>8
ソースあげてあげれば?

10 :
>>6さん有難うございます。
wgetってこれでしょうか?でもUNIXですが・・・
WIN版ってあるんでしょうか?
やっぱりアプリ開発はUNIXのほうがやりやすい
んでしょうか?でもUNIXを走らせるパソコンがないんですよ。

http://www.vector.co.jp/soft/solaris/sources/se045585.html




11 :
>>10
ほい。
http://space.tin.it/computer/hherold/
あるいは Cygwin という Windowds 上で UNIX 環境を構築するソフトウェアもある。
http://sources.redhat.com/cygwin/

wget と Perl を組み合わせれば半日くらいで作れると思うよ。

12 :
>>11
有難うございます。

ちょっと忙しくなったので、少しだけ家を空けます。

>wget と Perl を組み合わせれば半日くらいで作れると思うよ。

私の場合、一年はかかると思います。
ほんと大昔にCの本を1冊読んだ程度のレベルです。

13 :
確かに C だけだと時間かかるかもね。
Windows だとライブラリ少ないし。
お勧めは、
C++ 覚えて BCC32 で IE コンポーネント使うか、
Delphi 覚えて Indy 使うか。

14 :
>ちなみに言語はCがいいです。
>というよりコンパイラはそれしかないです。
で、LSI-C試食版という罠。

15 :
>>1
適当に選んで読んでくれ。
これからはどの言語?
http://pc.2ch.net/test/read.cgi?bbs=tech&key=980326138
現在ある言語の中でどれが最高?
http://pc.2ch.net/test/read.cgi?bbs=tech&key=989508360
趣味でプログラムをするにはどの言語がいいかな?
http://pc.2ch.net/test/read.cgi?bbs=tech&key=994089166
実務に役立つプログラミング言語は?
http://pc.2ch.net/test/read.cgi?bbs=tech&key=997301916

16 :
つーか>>1よ。
固ハンかトリップを使ってくれ(藁

17 :
>>16
うむ。法則に反するからな(藁

18 :
あ、いいスレだ。参考にさせてください、過程を。

19 :
>>1
プログラム自体は参考にならんかもしれんが、スレの育て方として、
参考になるかも。
貴様ら!ブロック崩し作るので見てください
http://pc.2ch.net/test/read.cgi/tech/1004855513/l50

20 :
今日は何も出来なかったです。
とほほ・・・

21 :
>>1
GNU wget は、小規模なダウンロードなら問題ありませんが、
大規模ダウンロード (検索エンジン用ファイル収集)で使うと、
誤動作しまくりです。
とりあえず、プログラム作成することが目的であれば、
Active Perl をインストールして、
(1) LWP::UserAgent クラスで、HTMLファイルを取り寄せて、
(2) HTML::TreeBuilder クラスで、HTMLファイルをパース処理して
  リンクを抽出
(3) 各リンクについて、(1)へループ処理
というのを書いては、いかがでしょうーか?



22 :
202.221.45.130
俺のIPアドレスだ、おめーらの技量じゃハックデきね〜だろうけどw




23 :
>>22
やめろ、ケブ厨。

24 :
>>22
どうでもいいが、自動巡回とどう関係が?

25 :
マルチポストは気にしない

26 :
今帰ってきました。
スレ立てたものの、まだ何もやってない(泣
必ずやるんで見捨てないでください。
といいつつ、やらなきゃいけないことが帰ってからも
沢山あるんで、一時間後ぐらいに戻ります。


27 :
おれperlでいいスクリプト見つけたんで、
それ改造して使ってる。有名になって露骨に制限されるの
嫌だから所在教えないけど。
やっぱこういうのはスクリプト系が便利だよ。
あと、ページによって各ツールには向き不向きがあるから、
おれは2,3種類組み合わせて使ってる。

28 :
みなさん色々な情報有難うございます。
一時間でも勉強するつもりでしたが、雑用を済ませたら
こんな時間になってしまいました。
明日こそ必ず始めたいです。。。
もう寝ます。

29 :

    Λ_Λ!   / ̄ ̄ ̄ ̄ ̄ ̄ ̄
__( ;´Д`)__< ゆ、夢かっ…!
|  〃( つ つ   |  \_______
|\ ⌒⌒⌒⌒⌒⌒\
|  \           \
\  |⌒⌒⌒⌒⌒⌒|
  \ |______|






30 :
スマン誤爆(;´Д`)



31 :
話が微妙に繋がってないこともないような。

32 :
>>1 はダイヤルアッパー


33 :
>>32 ダイヤラーアップ

34 :
>>1は結局巡回ソフトつくらないに1000モナー

35 :
自動巡回系ソフトって思った以上にやることがめんどくさいよね。
HTMLを解析して再帰的にファイルを拾うところとか、
ローカルで閲覧できるようにファイルのパスを相対パスに書きかえるとか。
これを作れるようになったらかなりのスキルの持ち主になれるよ!
ただし、途中で投げると>>29になるがな。

36 :
 | ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|
 |  ageときますね    |
 |____________|
        ||
        ||_   ___
        し\/´∀`;:::\
        \   /::::::::::::|
          |  /.:::::|:::::::|
         |/::::::::|::::::::|

37 :
      ∧_∧
     ( ´Д`)
     /⌒    ヽ
    / /    ノヽ    _ー ̄_ ̄)',  ・ ∴.'  , .. ∧_∧ ∴.'.'  , .
    ( /ヽ   | ) --_- ― = ̄  ̄`:, .∴ '      ((( #)゚Д゚) .∴ '
    \ /  _, -'' ̄  = __――=', ・,' .r⌒>  _/ / ・,' , ・,‘
      (   _~"" --  _-―  ̄=_  )":" .' | y'⌒ >>1⌒i .' .   ’
      |   /,,, _―  ̄_=_  ` )),∴. ).  |  /  ノ | ∴.'∴.'
      |  / /   ―= _ ) ̄=_)   _), ー'  /´ヾ_ノ
      (  ) )      _ _ )=  _) ,./ ,  ノ  '
      | | /          = _)   / / /   , ・,‘
      | | |.               / / ,'  , ・,‘
     / |\ \            /  /|  |
     ∠/   ̄            !、_/ /   )
                           |_/

38 :
まちゅ、ってだれ?ム技板の空気固定?

39 :
>>37
なんてぇナニだ・・・。

40 :
このスレはもう終わってますか?

41 :
口だけか……

42 :
.            ∩
      ∧_∧  | |    / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
      ( ´,,,,,,`)//  < 裸一貫から再建を目指す!!!
     /      /     \__________
    / /~| ゚  ゚ /
    | |  l    |
 \ ̄∪ ̄| ̄ ̄ | ̄ \
  ||\   | ㊚  |   \
  ||\|| ̄| ̄|~| ̄| ̄ ̄||
  ||  || ̄| ̄|~| ̄| ̄ ̄||
     .|| (_| |_).  ||

43 :
ヽ(`Д´)ノ ボッキアゲ

44 :
私も興味があったのですが、
1が作らないようなので、
勝手にPerlで始めてみました。
よかったらコメントください。
http://ice.prohosting.com/runway

45 :
>>44
perl知らない。CかC++でかけないの?

46 :
C で HTTP 通信するサンプルみつけた
http://www.mars.dti.ne.jp/~torao/program/socket/http-example.html

47 :
>>35
「かなりのスキル」って事は無いな。

48 :
>>45
Cでもいいですけれど、HTTPとかHTMLむけの手ごろな
ライブラリがあればやってみます。厳密な文法の
ない(あっても従っていない)テキストのパーサーを
作るのことにあまり興味がないので、このへんは
自分で書くのは面倒くさいです。タグがへんなHTMLでも
ブラウザーがちゃんと表示できるのはチェックをすごく
甘くしているか、適当にタグを補っているからだと思います。

49 :
IHTMLDocment2使っちゃえば解析の手間は省けるな。

50 :
>>46見ると、普通にWinSockで通信してるだけだなぁ・・・。
これ自体はなんの変哲も無いもんだけど、自動巡回プログラムとやらになると
「かなりのスキル」になるのかねぇ・・・?

51 :
>>48
libghttp libxml2

52 :
>>38
ム技板になんか書いたっけなあ?どっちにしても空気固定には間違いないよ。
>>47 >>50
いまの>>1からの状態からすればそれなりにスキルがつくよ、ってことでした。
おおげさすぎてすんません。
通信部分よりもパーサー部分はちょっと面倒なんじゃないかな。

53 :
>>51
thanks、googleで見てみます。
>>52
よく考えたらHTML内には<>は出てこないので、<とか>とかになって
いるので、<>をトークンにサーチするだけで簡単にできますね。
それも<a>と<img>だけしか見ないので、構文解析と言えるほどの
物もないですし。

54 :
&ltとか&gtとかと書きました。
Perlの勉強も兼ねているので、まずはPerl版を
完成させてみたいです。

55 :
昔作ったけど、ぶっちゃけた話、リンク生かしたままローカル保存するのはかなり難しいよ。
まともに見えるようにするだけでも A#HREF や IMG#SRC だけじゃ足りなくて
BODY#BACKGROUND, FRAME#SRC, BASE#HREF, LINK#HREF,
OBJECT#DATA, OBJECT#CODEBASE, EMBED#SRC, APPLET#CODEBASE,
APPLET#ARCHIVE, SCRIPT#SRC, META#(HTTP-EQUIV="Refresh" の時の CONENT の url 値)
なんかが必要だし、クリックで動かそうと思ったら AREA#HREF, FORM#ACTION なんかも
必要。JavaScript やスタイルシート中の URL はいじれないし、Cookie 実装しないと
取れないページがあったり、HTTP/0.9 で返してくる阿保 CGI があったり、https や
gopher とか抜かすページがあったり、URL の一部を全角で書いているパR屋が
あったりとそりゃぁもう (以下略)
まぁそこまでページの完全性にこだわらなければ良いのかもしれない。IE にページ保存
機能があるから、もしかしたら VC++ でもそれを呼び出せるかもしれない。Proxy とか
考えなくても良くなるし。

56 :
>>55
baseタグって知ってる?

57 :
>>55 >>56
mhtmlアーカイブって知ってる?

58 :
>>56
<BASE> タグ使ってもネットに繋がってなければフレームや画像、抜けるじゃん。
何のために自動巡回すんのよ。

59 :
>>1出てこーーーーーーい!!!
age

60 :
あのー少しご質問よろしでしょうか?
結局、自動巡回ってリンクを辿る方向しかないのでしょうか?
Irvi○eでは構造的に取得してませんでしたっけ?
そこから抜き取るとリンクを辿る事は一切しなくても良いような気が・・・
上記ソフトは実際どのようにされてるのでしょうか?
誰かご存知ないでしょうか?

61 :
age

62 :
>>60
そのソフトの事は知らんが、普通に考えて、
リンクをたどらなければ、どういうソースがあるか分からないのでは?

ある決まったページの構造の規格があってと言うのなら、
リンクをたどらなくても分かるけど、そんな規格なんて聞いたこと無いし。


63 :
>>62 thx!!
と言う事はIrvi○e(Ir○aの後継版)もリンクを辿ってるのか・・・
FTPで「List」って命令があるからてっきりそれかと思ってたYo
やっぱりそうか。FF○TPでも参考にしようか・・・

64 :
FTPとHTTPの違いぐらい判っておけよ‥‥

65 :
99 名前:名無し募集中。。。 投稿日:02/02/04 10:32
プログラム板で、かちゅ〜用閲覧時間規制ソフトを作ってもらうってのが
いいと思う。例えば、1日の閲覧時間30分以内に出来たりするソフト。
マジで誰か作って暮れ、頼む。
そうすれば、転送量が減るから運営側も助かると思うし。

66 :
>>65
kage に組み込めばいいんでないの。
単に他の2chブラウザに流れるか、
普通のブラウザに戻るかするだけだろうけど。

67 :
    ●━━ ∩━━━ ∩━━●
         //       | |
        //        | |
        | |      //
        | | ∧ ∧ // / ̄ ̄
        | |( ゚Д゚)// <  AGE!!
        \     |   \__
          |    |
          |    /
         /    /
          |   /
        ∫|  | |
         | || |
          | / | |
         // | |
        //  | |
       //   | |
       U    U

68 :
age

69 :
                 ┌─┐
                 |も.|
                 |う |
                 │来│
                 │ね│
                 │え .|
                 │よ .|
      バカ    ゴルァ  │ !!.│
                 └─┤    プンプン
    ヽ(`Д´)ノ ヽ(`Д´)ノ  (`Д´)ノ    ( `Д)
    | ̄ ̄ ̄|─| ̄ ̄ ̄|─| ̄ ̄ ̄|─□( ヽ┐U
〜 〜  ̄◎ ̄  . ̄◎ ̄   ̄◎ ̄   ◎−>┘◎
          ヽ(`Д´)ノ モウコネエヨ!!
            (  )   ウワァァン!!
            / ヽ

70 :

                     く  ̄i
                      〉 |
                      /  |
        /\           /  ノ
       /_,,ィ、.\          |   | 
         \ `ヽ,, -‐、    ,ノ  |
           \/ /⌒'' ー-'    |
         ゚ 。 / /ー 、,,_      ノ
        ゜   ,f  l∧_∧フ .    /
          / ,,( __ ) >>1  /
    ,, - 、  /   ヽ,,___,, 、__ノ  
 ,-、/'l,   \ノ       / \,,__,,ノ  ヒィー
 ヽ,_,/ \       /   ∨ ∨
      ヽ,,    ,ノ  。゚ ・
       ,,'' ̄ノ
     _/ /
      ヽ ノ
             ::::::::::::::::::::::::::::::::::::
   ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

71 :
ttp://isweb34.infoseek.co.jp/play/icelake/anime/one.swf

72 :
∧||∧
(  ⌒/
 ∪ / / ヽ>>33
    /  ノ
    ∪∪
         ∧ ∧,〜
        ( (⌒ ̄ `ヽ    _
          \  \ `ー'"´, -'⌒ヽ
         /∠_,ノ    _/_
         /( ノ ヽ、_/´  \
       、( 'ノ(     く     `ヽ、
      /`   \____>\___ノ
     /       /__〉     `、__>
   /        ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
なんてことを言うのだ貴様!!

73 :
このスレ、何度も答えが出てるのに、なぜか終わんないねぇ。

74 :
漏れら極悪非道のageブラザーズ!
今日もネタもないのにageてやるからな!
 ̄ ̄∨ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
  ∧_∧   ∧_∧    age
 (・∀・∩)(∩・∀・)    age
 (つ  丿 (   ⊂) age
  ( ヽノ   ヽ/  )   age
  し(_)   (_)J

75 :
ん〜
俺はVBしか使えん房なのであんま口出しできないんですけど。
自動巡回っていうか、前VBでメールアドレス収集ソフト作ったんですよ(w
それだとめちゃくちゃ簡単だったです。(当たり前だけど)
あるページのソース見てまずはメアドを検出。
さらにリンク先のアドレスを全てどっかに代入
そのリンク先のページを順に開いて、、、
とあとは階層分同じ作業しました。

76 :
test

77 :


78 :
       / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
       | >>77通報しますた!
       \
          ̄∨ ̄ ̄ ̄ ̄ ̄ ̄
                   ∧_∧      / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
         ∧_∧     ( ´Д`)    < 通報しますた!
         ( ´Д` )   /⌒    ⌒ヽ    \____________
        /,  /   /_/|     へ \
       (ぃ9  |  (ぃ9 ./    /   \ \.∧_∧  / ̄ ̄ ̄ ̄ ̄ ̄ ̄
        /    /、    /    ./     ヽ ( ´Д` )< 通報しますた!
       /   ∧_二つ (    /      ∪ ,  /   \_______
       /   /      \ .\\     (ぃ9  |
      /    \       \ .\\    /    /  ,、
     /  /~\ \        >  ) )  ./   ∧_二∃
     /  /   >  )      / //   ./     ̄ ̄ ヽ
   / ノ    / /      / / /  ._/  /~ ̄ ̄/ /
  / /   .  / ./.      / / / )⌒ _ ノ     / ./     (゚д゚) < ツウホウシマスタ!
  / ./     ( ヽ、     ( ヽ ヽ | /       ( ヽ、    ゚(  )−
(  _)      \__つ    \__つ).し          \__つ   ./ >


79 :
4ヶ月以上経ったけど、結局>>1はなんか作ったのか?

80 :
子供作りますた。

81 :
そいつはめでたい。1よ、おめでとう!
ところでどうやって作ったんだい?
全コード公開してほしいのだが。

82 :
                     /    |    |    |
                 |     |    |    |
                   |ー |   l ー-  l
           /⌒ヽ   |    |   l     l
           l   l    |    |  |  0   |
            |   l   | ー-  |  l⌒) - l 
             |  -‐|    |    |   | 丿   |    /⌒ヽ
           |   |    |    |  |ノ     l   |    ヽ
             l    _!   |    !__,! ‐  一 |   l     ヽ、
         /⌒ヽ l ‐ \  |, ノ⌒) ()     l    〉-‐  l
         l〉   )ヽ、   ヽノ (ノO (ノ  (つ ヽ、 | ノ)  |
        /  人 ヽ、   __  (⌒)    __  ヽノ (ノ  |
          l     ヽ、\, - '"-ゞ'-'  )丿'"ゞ'-'ノ/ o     l
        ヽ  ノ \,/     /  (ノ       () ヽ  l
         \    /      ( ,-、 ,:‐、   (⌒ヽ    |
          ヽ、       /  /   l      しノ      |
           ヽ、  /   __,-'ニニニヽ         l
            ヽ、       ヾニ二ン"        /
             ヽ、            |          /
              ヽ          l        /
         1は既にこのスレから逃亡したと見抜ける人でないと
      (こすっていた手で発射された液体を受け止めるのは)難しい。

83 :
          __,,,,_
            /´      ̄`ヽ,
            / 〃  _,ァ---‐一ヘヽ
         i  /´       リ}
          |   〉.   -‐   '''ー {!
          |   |   ‐ー  くー |
           ヤヽリ ´゚  ,r "_,,>、 ゚'}
         ヽ_」     ト‐=‐ァ' !
          ゝ i、   ` `二´' 丿
              r|、` '' ー--‐f´
         _/ | \    /|\_
       / ̄/  | /`又´\|  |  ̄\
皇太子様がこのスレに興味を持ったようです。

84 :
   >>81
              「 ̄ ̄了
              l h「¬h
       / ̄ ̄\__,ト、Д/____    ハイハイどいてどいて!
     /   / ̄Yi. /  jテ、      f ̄ヨ
    /   ./:::' / /  /.i l iー――‐u' ̄
   ./   /ー'' / /  / / l l
   i'  /   l ヽ../  レ'  l l
.  /  _/ \  !、 lヽ____」 l
.  !、/ \. \ \l      ト./
   ト、__\/ト、/ト、  y   l
   l    ̄(  )y )  /l   i
   l   l   Y''/ー'  / .l   l
   !、  l  l./   /  l   l
   /  /  l/   ,/  i'    l
  /_  ./l   l`ー‐〈   ト.__」
  L_``^yト._」、ー"   `ヽ_」
   `ー' `ヽ_」

85 :
>>84
sageてても見逃さない。

86 :
現実にあったらしょっぱいなぁオイ



87 :


88 :
ageるなカスども

89 :
>>82
かおにみえる

90 :
そりゃ顔だからなぁ

91 :
>89
あなた危険よ。

92 :
airWebのAir C じゃ駄目ですか?
通信関係(とHTML解析)のライブラリがそれなりに揃ったC言語です。
「オフラインで見る」部分は用意されているので、巡回部分だけ書けばおっけー。

93 :
 | ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|
 | 笑う所ですよ!!  |
 |_________|
   ∧_∧ ||
   ( ´∀`)||
   / つ つ||

94 :
h

95 :
>>1
>> 75が一番の近道だよ。

96 :
http://2next.net/swf/R3_temp.swf?inputStr=%8EQ%8Dl%8F%91%82%CD%83G%83%8D%96%7B%81B

97 :
http://2next.net/swf/R3_temp.swf?inputStr=%83X%83%7D%83%93%8C%EB%94%9A%28%3B%81L%84D%81M%29%0D%0A%0D%0A%0D%0A%0D%0A%0D%0A%0D%0A

98 :
ロッシのモミage

99 :
俺に聞け

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
【最速へ】LowLevelVirtualMachine【LLVM】 (473)
パR、パチスロの基盤のプログラム 2 (492)
英語は、訳さずに読もう with 英英辞典 (236)
やってて楽しいプログラミング言語は? 3言語 (935)
データベースプログラミング全般スレ (376)
ネトゲ開発なら俺に聞け! (374)
--log9.info------------------
バナー広告 (855)
2000名に聞いたウザいCM、トヨタ社がトップ3を独占 (263)
2010年不愉快CM大賞 (269)
CM板総合質問スレ (655)
《カルビー》蒼井優がキモすぎる《ポテチ》 Part.2 (417)
懐かCM どこで見られる (202)
戸田恵梨香 (418)
ACの新しいCMもうざい (650)
日本生命のCMに出てほしい人 (235)
いい加減グリーとモバゲーのCMがウザイ (357)
ストライド (607)
【乙黒えりタン】イオン感謝&ワクワクデー【5%オフ♪】4 (739)
斎藤佑樹をCMに起用した企業は半価値になる part2 (891)
使用上の注意 (315)
復活!!大分むぎ焼酎二階堂スレ (216)
【デキ婚】木村カエラがうざい2 (665)
--log55.com------------------
65歳〜69歳の奥様(ID梨)
【朝鮮統一】「統一朝鮮が日本侵略戦争開始も」 政治・経済的混乱から自暴自棄になり…[09/30]
親韓、ネトウヨ叩きスレにレスしてるのにガン無視されてる哀れなバカウヨ無職www★26
嫌韓ゴキブリニート怒りの半島替え歌熱唱wwwwwwwwwwww
激増するチョッパリの性犯罪を警戒する奥様 ★50
来年の手帳のスレッド見当たらないんですけど
体力がない、寝てばかり4
■■家を建てた奥様より家を建てる奥様へ 183軒目■■