1read 100read
2012年6月プログラム163: 自動巡回ソフトを作りたい。 (376) TOP カテ一覧 スレ一覧 2ch元 削除依頼
メガデモを語る fr-08 (623)
C++11/C++1y 15 (612)
Microsoft Silverlight その9 (321)
(^ω^) JScript .NET スレッド Part2 (613)
【統計分析】機械学習・データマイニング【集合知】 (966)
C++11/C++1y 15 (612)

自動巡回ソフトを作りたい。


1 :02/01/18 〜 最終レス :12/06/23
俗に言う、インターネットの希望のページを自動巡回して
オフラインで見るオートパイロットソフトを作りたいの
ですが、何をしていいのやら、手がかりすら分かりません。
オンラインソフト使えば?といわれるでしょうか、後学の為
どうしても、どうしても、ど〜しても自作で作りたいのです。

よきアドバイスを宜しくお願いします。

2 :
ドシロウトの私ですが、後学の為、完成するまであげ続けます。
ちなみに言語はCがいいです。
というよりコンパイラはそれしかないです。
レベルは文法が少しわかる程度。

この程度でも、いっぱしのプログラムが出来るようになる事を
証明したいのです。

ほんとにほんとにアドバイスお願いします。

3 :
3

4 :
まず、たしかどこかにソースコードを公開している
自動巡回ソフトがあった記憶があります。
どなたかよい情報をお待ちしています。
私も現在探しています。

5 :
このソース参考にすれば?
WWWC Ver 1.0.1 (2001/11/28)
http://www.nakka.com/wwwc/

6 :
ふつー、wget

7 :
>>5
有難う御座います。
本当に超ドシロウトなんて、早速ダウンしてみます。


8 :
>>6
禿同。度素人ならwgetの周りをサポートする
スクリプトでも書いたほうがいいんじゃないのか?


9 :
>>6>>8
ソースあげてあげれば?

10 :
>>6さん有難うございます。
wgetってこれでしょうか?でもUNIXですが・・・
WIN版ってあるんでしょうか?
やっぱりアプリ開発はUNIXのほうがやりやすい
んでしょうか?でもUNIXを走らせるパソコンがないんですよ。

http://www.vector.co.jp/soft/solaris/sources/se045585.html




11 :
>>10
ほい。
http://space.tin.it/computer/hherold/
あるいは Cygwin という Windowds 上で UNIX 環境を構築するソフトウェアもある。
http://sources.redhat.com/cygwin/

wget と Perl を組み合わせれば半日くらいで作れると思うよ。

12 :
>>11
有難うございます。

ちょっと忙しくなったので、少しだけ家を空けます。

>wget と Perl を組み合わせれば半日くらいで作れると思うよ。

私の場合、一年はかかると思います。
ほんと大昔にCの本を1冊読んだ程度のレベルです。

13 :
確かに C だけだと時間かかるかもね。
Windows だとライブラリ少ないし。
お勧めは、
C++ 覚えて BCC32 で IE コンポーネント使うか、
Delphi 覚えて Indy 使うか。

14 :
>ちなみに言語はCがいいです。
>というよりコンパイラはそれしかないです。
で、LSI-C試食版という罠。

15 :
>>1
適当に選んで読んでくれ。
これからはどの言語?
http://pc.2ch.net/test/read.cgi?bbs=tech&key=980326138
現在ある言語の中でどれが最高?
http://pc.2ch.net/test/read.cgi?bbs=tech&key=989508360
趣味でプログラムをするにはどの言語がいいかな?
http://pc.2ch.net/test/read.cgi?bbs=tech&key=994089166
実務に役立つプログラミング言語は?
http://pc.2ch.net/test/read.cgi?bbs=tech&key=997301916

16 :
つーか>>1よ。
固ハンかトリップを使ってくれ(藁

17 :
>>16
うむ。法則に反するからな(藁

18 :
あ、いいスレだ。参考にさせてください、過程を。

19 :
>>1
プログラム自体は参考にならんかもしれんが、スレの育て方として、
参考になるかも。
貴様ら!ブロック崩し作るので見てください
http://pc.2ch.net/test/read.cgi/tech/1004855513/l50

20 :
今日は何も出来なかったです。
とほほ・・・

21 :
>>1
GNU wget は、小規模なダウンロードなら問題ありませんが、
大規模ダウンロード (検索エンジン用ファイル収集)で使うと、
誤動作しまくりです。
とりあえず、プログラム作成することが目的であれば、
Active Perl をインストールして、
(1) LWP::UserAgent クラスで、HTMLファイルを取り寄せて、
(2) HTML::TreeBuilder クラスで、HTMLファイルをパース処理して
  リンクを抽出
(3) 各リンクについて、(1)へループ処理
というのを書いては、いかがでしょうーか?



22 :
202.221.45.130
俺のIPアドレスだ、おめーらの技量じゃハックデきね〜だろうけどw




23 :
>>22
やめろ、ケブ厨。

24 :
>>22
どうでもいいが、自動巡回とどう関係が?

25 :
マルチポストは気にしない

26 :
今帰ってきました。
スレ立てたものの、まだ何もやってない(泣
必ずやるんで見捨てないでください。
といいつつ、やらなきゃいけないことが帰ってからも
沢山あるんで、一時間後ぐらいに戻ります。


27 :
おれperlでいいスクリプト見つけたんで、
それ改造して使ってる。有名になって露骨に制限されるの
嫌だから所在教えないけど。
やっぱこういうのはスクリプト系が便利だよ。
あと、ページによって各ツールには向き不向きがあるから、
おれは2,3種類組み合わせて使ってる。

28 :
みなさん色々な情報有難うございます。
一時間でも勉強するつもりでしたが、雑用を済ませたら
こんな時間になってしまいました。
明日こそ必ず始めたいです。。。
もう寝ます。

29 :

    Λ_Λ!   / ̄ ̄ ̄ ̄ ̄ ̄ ̄
__( ;´Д`)__< ゆ、夢かっ…!
|  〃( つ つ   |  \_______
|\ ⌒⌒⌒⌒⌒⌒\
|  \           \
\  |⌒⌒⌒⌒⌒⌒|
  \ |______|






30 :
スマン誤爆(;´Д`)



31 :
話が微妙に繋がってないこともないような。

32 :
>>1 はダイヤルアッパー


33 :
>>32 ダイヤラーアップ

34 :
>>1は結局巡回ソフトつくらないに1000モナー

35 :
自動巡回系ソフトって思った以上にやることがめんどくさいよね。
HTMLを解析して再帰的にファイルを拾うところとか、
ローカルで閲覧できるようにファイルのパスを相対パスに書きかえるとか。
これを作れるようになったらかなりのスキルの持ち主になれるよ!
ただし、途中で投げると>>29になるがな。

36 :
 | ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|
 |  ageときますね    |
 |____________|
        ||
        ||_   ___
        し\/´∀`;:::\
        \   /::::::::::::|
          |  /.:::::|:::::::|
         |/::::::::|::::::::|

37 :
      ∧_∧
     ( ´Д`)
     /⌒    ヽ
    / /    ノヽ    _ー ̄_ ̄)',  ・ ∴.'  , .. ∧_∧ ∴.'.'  , .
    ( /ヽ   | ) --_- ― = ̄  ̄`:, .∴ '      ((( #)゚Д゚) .∴ '
    \ /  _, -'' ̄  = __――=', ・,' .r⌒>  _/ / ・,' , ・,‘
      (   _~"" --  _-―  ̄=_  )":" .' | y'⌒ >>1⌒i .' .   ’
      |   /,,, _―  ̄_=_  ` )),∴. ).  |  /  ノ | ∴.'∴.'
      |  / /   ―= _ ) ̄=_)   _), ー'  /´ヾ_ノ
      (  ) )      _ _ )=  _) ,./ ,  ノ  '
      | | /          = _)   / / /   , ・,‘
      | | |.               / / ,'  , ・,‘
     / |\ \            /  /|  |
     ∠/   ̄            !、_/ /   )
                           |_/

38 :
まちゅ、ってだれ?ム技板の空気固定?

39 :
>>37
なんてぇナニだ・・・。

40 :
このスレはもう終わってますか?

41 :
口だけか……

42 :
.            ∩
      ∧_∧  | |    / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
      ( ´,,,,,,`)//  < 裸一貫から再建を目指す!!!
     /      /     \__________
    / /~| ゚  ゚ /
    | |  l    |
 \ ̄∪ ̄| ̄ ̄ | ̄ \
  ||\   | ㊚  |   \
  ||\|| ̄| ̄|~| ̄| ̄ ̄||
  ||  || ̄| ̄|~| ̄| ̄ ̄||
     .|| (_| |_).  ||

43 :
ヽ(`Д´)ノ ボッキアゲ

44 :
私も興味があったのですが、
1が作らないようなので、
勝手にPerlで始めてみました。
よかったらコメントください。
http://ice.prohosting.com/runway

45 :
>>44
perl知らない。CかC++でかけないの?

46 :
C で HTTP 通信するサンプルみつけた
http://www.mars.dti.ne.jp/~torao/program/socket/http-example.html

47 :
>>35
「かなりのスキル」って事は無いな。

48 :
>>45
Cでもいいですけれど、HTTPとかHTMLむけの手ごろな
ライブラリがあればやってみます。厳密な文法の
ない(あっても従っていない)テキストのパーサーを
作るのことにあまり興味がないので、このへんは
自分で書くのは面倒くさいです。タグがへんなHTMLでも
ブラウザーがちゃんと表示できるのはチェックをすごく
甘くしているか、適当にタグを補っているからだと思います。

49 :
IHTMLDocment2使っちゃえば解析の手間は省けるな。

50 :
>>46見ると、普通にWinSockで通信してるだけだなぁ・・・。
これ自体はなんの変哲も無いもんだけど、自動巡回プログラムとやらになると
「かなりのスキル」になるのかねぇ・・・?

51 :
>>48
libghttp libxml2

52 :
>>38
ム技板になんか書いたっけなあ?どっちにしても空気固定には間違いないよ。
>>47 >>50
いまの>>1からの状態からすればそれなりにスキルがつくよ、ってことでした。
おおげさすぎてすんません。
通信部分よりもパーサー部分はちょっと面倒なんじゃないかな。

53 :
>>51
thanks、googleで見てみます。
>>52
よく考えたらHTML内には<>は出てこないので、<とか>とかになって
いるので、<>をトークンにサーチするだけで簡単にできますね。
それも<a>と<img>だけしか見ないので、構文解析と言えるほどの
物もないですし。

54 :
&ltとか&gtとかと書きました。
Perlの勉強も兼ねているので、まずはPerl版を
完成させてみたいです。

55 :
昔作ったけど、ぶっちゃけた話、リンク生かしたままローカル保存するのはかなり難しいよ。
まともに見えるようにするだけでも A#HREF や IMG#SRC だけじゃ足りなくて
BODY#BACKGROUND, FRAME#SRC, BASE#HREF, LINK#HREF,
OBJECT#DATA, OBJECT#CODEBASE, EMBED#SRC, APPLET#CODEBASE,
APPLET#ARCHIVE, SCRIPT#SRC, META#(HTTP-EQUIV="Refresh" の時の CONENT の url 値)
なんかが必要だし、クリックで動かそうと思ったら AREA#HREF, FORM#ACTION なんかも
必要。JavaScript やスタイルシート中の URL はいじれないし、Cookie 実装しないと
取れないページがあったり、HTTP/0.9 で返してくる阿保 CGI があったり、https や
gopher とか抜かすページがあったり、URL の一部を全角で書いているパR屋が
あったりとそりゃぁもう (以下略)
まぁそこまでページの完全性にこだわらなければ良いのかもしれない。IE にページ保存
機能があるから、もしかしたら VC++ でもそれを呼び出せるかもしれない。Proxy とか
考えなくても良くなるし。

56 :
>>55
baseタグって知ってる?

57 :
>>55 >>56
mhtmlアーカイブって知ってる?

58 :
>>56
<BASE> タグ使ってもネットに繋がってなければフレームや画像、抜けるじゃん。
何のために自動巡回すんのよ。

59 :
>>1出てこーーーーーーい!!!
age

60 :
あのー少しご質問よろしでしょうか?
結局、自動巡回ってリンクを辿る方向しかないのでしょうか?
Irvi○eでは構造的に取得してませんでしたっけ?
そこから抜き取るとリンクを辿る事は一切しなくても良いような気が・・・
上記ソフトは実際どのようにされてるのでしょうか?
誰かご存知ないでしょうか?

61 :
age

62 :
>>60
そのソフトの事は知らんが、普通に考えて、
リンクをたどらなければ、どういうソースがあるか分からないのでは?

ある決まったページの構造の規格があってと言うのなら、
リンクをたどらなくても分かるけど、そんな規格なんて聞いたこと無いし。


63 :
>>62 thx!!
と言う事はIrvi○e(Ir○aの後継版)もリンクを辿ってるのか・・・
FTPで「List」って命令があるからてっきりそれかと思ってたYo
やっぱりそうか。FF○TPでも参考にしようか・・・

64 :
FTPとHTTPの違いぐらい判っておけよ‥‥

65 :
99 名前:名無し募集中。。。 投稿日:02/02/04 10:32
プログラム板で、かちゅ〜用閲覧時間規制ソフトを作ってもらうってのが
いいと思う。例えば、1日の閲覧時間30分以内に出来たりするソフト。
マジで誰か作って暮れ、頼む。
そうすれば、転送量が減るから運営側も助かると思うし。

66 :
>>65
kage に組み込めばいいんでないの。
単に他の2chブラウザに流れるか、
普通のブラウザに戻るかするだけだろうけど。

67 :
    ●━━ ∩━━━ ∩━━●
         //       | |
        //        | |
        | |      //
        | | ∧ ∧ // / ̄ ̄
        | |( ゚Д゚)// <  AGE!!
        \     |   \__
          |    |
          |    /
         /    /
          |   /
        ∫|  | |
         | || |
          | / | |
         // | |
        //  | |
       //   | |
       U    U

68 :
age

69 :
                 ┌─┐
                 |も.|
                 |う |
                 │来│
                 │ね│
                 │え .|
                 │よ .|
      バカ    ゴルァ  │ !!.│
                 └─┤    プンプン
    ヽ(`Д´)ノ ヽ(`Д´)ノ  (`Д´)ノ    ( `Д)
    | ̄ ̄ ̄|─| ̄ ̄ ̄|─| ̄ ̄ ̄|─□( ヽ┐U
〜 〜  ̄◎ ̄  . ̄◎ ̄   ̄◎ ̄   ◎−>┘◎
          ヽ(`Д´)ノ モウコネエヨ!!
            (  )   ウワァァン!!
            / ヽ

70 :

                     く  ̄i
                      〉 |
                      /  |
        /\           /  ノ
       /_,,ィ、.\          |   | 
         \ `ヽ,, -‐、    ,ノ  |
           \/ /⌒'' ー-'    |
         ゚ 。 / /ー 、,,_      ノ
        ゜   ,f  l∧_∧フ .    /
          / ,,( __ ) >>1  /
    ,, - 、  /   ヽ,,___,, 、__ノ  
 ,-、/'l,   \ノ       / \,,__,,ノ  ヒィー
 ヽ,_,/ \       /   ∨ ∨
      ヽ,,    ,ノ  。゚ ・
       ,,'' ̄ノ
     _/ /
      ヽ ノ
             ::::::::::::::::::::::::::::::::::::
   ::::::::::::::::::::::::::::::::::::::::::::::::::::::::::

71 :
ttp://isweb34.infoseek.co.jp/play/icelake/anime/one.swf

72 :
∧||∧
(  ⌒/
 ∪ / / ヽ>>33
    /  ノ
    ∪∪
         ∧ ∧,〜
        ( (⌒ ̄ `ヽ    _
          \  \ `ー'"´, -'⌒ヽ
         /∠_,ノ    _/_
         /( ノ ヽ、_/´  \
       、( 'ノ(     く     `ヽ、
      /`   \____>\___ノ
     /       /__〉     `、__>
   /        ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
なんてことを言うのだ貴様!!

73 :
このスレ、何度も答えが出てるのに、なぜか終わんないねぇ。

74 :
漏れら極悪非道のageブラザーズ!
今日もネタもないのにageてやるからな!
 ̄ ̄∨ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
  ∧_∧   ∧_∧    age
 (・∀・∩)(∩・∀・)    age
 (つ  丿 (   ⊂) age
  ( ヽノ   ヽ/  )   age
  し(_)   (_)J

75 :
ん〜
俺はVBしか使えん房なのであんま口出しできないんですけど。
自動巡回っていうか、前VBでメールアドレス収集ソフト作ったんですよ(w
それだとめちゃくちゃ簡単だったです。(当たり前だけど)
あるページのソース見てまずはメアドを検出。
さらにリンク先のアドレスを全てどっかに代入
そのリンク先のページを順に開いて、、、
とあとは階層分同じ作業しました。

76 :
test

77 :


78 :
       / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
       | >>77通報しますた!
       \
          ̄∨ ̄ ̄ ̄ ̄ ̄ ̄
                   ∧_∧      / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
         ∧_∧     ( ´Д`)    < 通報しますた!
         ( ´Д` )   /⌒    ⌒ヽ    \____________
        /,  /   /_/|     へ \
       (ぃ9  |  (ぃ9 ./    /   \ \.∧_∧  / ̄ ̄ ̄ ̄ ̄ ̄ ̄
        /    /、    /    ./     ヽ ( ´Д` )< 通報しますた!
       /   ∧_二つ (    /      ∪ ,  /   \_______
       /   /      \ .\\     (ぃ9  |
      /    \       \ .\\    /    /  ,、
     /  /~\ \        >  ) )  ./   ∧_二∃
     /  /   >  )      / //   ./     ̄ ̄ ヽ
   / ノ    / /      / / /  ._/  /~ ̄ ̄/ /
  / /   .  / ./.      / / / )⌒ _ ノ     / ./     (゚д゚) < ツウホウシマスタ!
  / ./     ( ヽ、     ( ヽ ヽ | /       ( ヽ、    ゚(  )−
(  _)      \__つ    \__つ).し          \__つ   ./ >


79 :
4ヶ月以上経ったけど、結局>>1はなんか作ったのか?

80 :
子供作りますた。

81 :
そいつはめでたい。1よ、おめでとう!
ところでどうやって作ったんだい?
全コード公開してほしいのだが。

82 :
                     /    |    |    |
                 |     |    |    |
                   |ー |   l ー-  l
           /⌒ヽ   |    |   l     l
           l   l    |    |  |  0   |
            |   l   | ー-  |  l⌒) - l 
             |  -‐|    |    |   | 丿   |    /⌒ヽ
           |   |    |    |  |ノ     l   |    ヽ
             l    _!   |    !__,! ‐  一 |   l     ヽ、
         /⌒ヽ l ‐ \  |, ノ⌒) ()     l    〉-‐  l
         l〉   )ヽ、   ヽノ (ノO (ノ  (つ ヽ、 | ノ)  |
        /  人 ヽ、   __  (⌒)    __  ヽノ (ノ  |
          l     ヽ、\, - '"-ゞ'-'  )丿'"ゞ'-'ノ/ o     l
        ヽ  ノ \,/     /  (ノ       () ヽ  l
         \    /      ( ,-、 ,:‐、   (⌒ヽ    |
          ヽ、       /  /   l      しノ      |
           ヽ、  /   __,-'ニニニヽ         l
            ヽ、       ヾニ二ン"        /
             ヽ、            |          /
              ヽ          l        /
         1は既にこのスレから逃亡したと見抜ける人でないと
      (こすっていた手で発射された液体を受け止めるのは)難しい。

83 :
          __,,,,_
            /´      ̄`ヽ,
            / 〃  _,ァ---‐一ヘヽ
         i  /´       リ}
          |   〉.   -‐   '''ー {!
          |   |   ‐ー  くー |
           ヤヽリ ´゚  ,r "_,,>、 ゚'}
         ヽ_」     ト‐=‐ァ' !
          ゝ i、   ` `二´' 丿
              r|、` '' ー--‐f´
         _/ | \    /|\_
       / ̄/  | /`又´\|  |  ̄\
皇太子様がこのスレに興味を持ったようです。

84 :
   >>81
              「 ̄ ̄了
              l h「¬h
       / ̄ ̄\__,ト、Д/____    ハイハイどいてどいて!
     /   / ̄Yi. /  jテ、      f ̄ヨ
    /   ./:::' / /  /.i l iー――‐u' ̄
   ./   /ー'' / /  / / l l
   i'  /   l ヽ../  レ'  l l
.  /  _/ \  !、 lヽ____」 l
.  !、/ \. \ \l      ト./
   ト、__\/ト、/ト、  y   l
   l    ̄(  )y )  /l   i
   l   l   Y''/ー'  / .l   l
   !、  l  l./   /  l   l
   /  /  l/   ,/  i'    l
  /_  ./l   l`ー‐〈   ト.__」
  L_``^yト._」、ー"   `ヽ_」
   `ー' `ヽ_」

85 :
>>84
sageてても見逃さない。

86 :
現実にあったらしょっぱいなぁオイ



87 :


88 :
ageるなカスども

89 :
>>82
かおにみえる

90 :
そりゃ顔だからなぁ

91 :
>89
あなた危険よ。

92 :
airWebのAir C じゃ駄目ですか?
通信関係(とHTML解析)のライブラリがそれなりに揃ったC言語です。
「オフラインで見る」部分は用意されているので、巡回部分だけ書けばおっけー。

93 :
 | ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄|
 | 笑う所ですよ!!  |
 |_________|
   ∧_∧ ||
   ( ´∀`)||
   / つ つ||

94 :
h

95 :
>>1
>> 75が一番の近道だよ。

96 :
http://2next.net/swf/R3_temp.swf?inputStr=%8EQ%8Dl%8F%91%82%CD%83G%83%8D%96%7B%81B

97 :
http://2next.net/swf/R3_temp.swf?inputStr=%83X%83%7D%83%93%8C%EB%94%9A%28%3B%81L%84D%81M%29%0D%0A%0D%0A%0D%0A%0D%0A%0D%0A%0D%0A

98 :
ロッシのモミage

99 :
俺に聞け

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
【Lua】組み込み系言語総合 その5【Squirrel】 (596)
C++でXML(主にxerces)やろう! (673)
Google Maps API 質問箱 (317)
Rubyについて Part47 (697)
HTAをもっと流行らせる計画 Part2 (621)
Microsoft IronPython 1.0 (848)
--log9.info------------------
★定時制高校★ (570)
【学校風の塾?】サポート校スレ Part3 (900)
サポート校の採用情報交換スレ (474)
日教組に加入を拒否すれば年収10万アップ! (255)
運動部・体育会は右翼・軍国主義の温床 (410)
姫路で教師が犯罪したい放題 でも創価だから微罪 (661)
【小学校】大阪市 教員採用試験【一年目】 (402)
教育学部の廃止・無駄 (237)
【社会人向】教員資格認定試験Part10【国家試験】 (207)
栃木県の高校を語りまくるスレ (364)
TOSSについて語るスレ 6 (781)
兵庫県教育委員会の不祥事について (526)
俺らが学生の頃は先生によく殴られてたよな。 (494)
ブルマを復活させるべきか考えてみよう。 (208)
[宮城]教育委員会を晒すスレ[教員] (707)
神奈川県教員採用試験13 (734)
--log55.com------------------
Rこ
おR判定
あああああちんちんおちんちんちんこおちんこRRこおRおRこ丹久枝ななしちん.
ななしちん.の知らないアナルビーズの世界
血の華まりぃが最高や〜
ななしちん.ダンス
クルド人×ななしちん.
ななしちん.com