1read 100read
2012年5月WebProg224: Namazu全文検索システム (364) TOP カテ一覧 スレ一覧 2ch元 削除依頼
アプリケーションサーバって必要? (209)
GoogleWebToolkit[GWT]について語ろう (223)
Webでオブジェクト指向プログラミング (431)
【総合】 Webprog板質問雑談スレッド 1 (734)
実力主義のCGIスクリプトは? (286)
【激速】mod_perl SpeedyCGI FastCGI【激速】 (849)

Namazu全文検索システム


1 :01/06/14 〜 最終レス :11/12/14
全文検索システム Namazu
http://www.namazu.org/
日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
前スレ http://tako.2ch.net/test/read.cgi?bbs=perl&key=981352718

2 :
いか焼きそば

3 :
namazuはカスタマイズがやりにくいのが嫌いだ。
作り直しきぼん。

4 :
http://64.124.197.202/main.htm
namazuってやっぱり負荷かかるのかな。

5 :
>>4
index作る時にはCPU使用率100%になります。
項目がいくつもあるとかなりツライです。
↓うちのNamazu
http://2ch.dyn.to/

6 :
100%?(w
すご・・・

7 :
>>5 ん、それは負荷テストに参加してくれというお誘いかな (w

8 :
ここ見てユーザーディレクトリにインストしちゃっていいもんでしょうか?
http://www.amays.com/~mizusawa/namazu_kaisetu/noSUinstall.html
当方レンタルサーバー 専用サーバー持つ金ありません。
C言語は使えます。負荷のかからないように、自分のマシンでindex作ればいいかな。
っていうかレンタルサーバー会社に聞かずにやっちゃって、かまわんかしら(汗

9 :
インデックス構築中に検索かけられるとCGI TimeOut出ちゃうことが多々あります・・・
http://www1.odn.ne.jp/mimizun/

10 :
nice で優先度落とせばいいじゃん。

11 :
windowsだし。

12 :
WIN2Kに入ってるインデックスサービスってどーなん?

13 :
>>12
穴。まさぐられると逝ってしまうぞ。

14 :
2.0.6 release age

15 :
NAMAZUのインデックスにはたくさんファイルがありますけど、
いらないファイル(テンプレート等)も多いと思います。
結局必ず必要なファイルってどれなんですか?

16 :
>>15
んー俺もそう言えばわからん、
もともと、俺にとって、このNamazu初めの頃難しすぎた。
その前に、うなぎ食いたいんだよね。腹減ってきた・・・

17 :
namazu2.0.5なんだけど、共有サーバにインストールしたんですよ。
でも、さすがにインデックスの作成は共有サーバでやるのも申し訳ないので、ローカルで作ってあげてます。
そういう場合って、namazu.cgi, .namazurc, Template, Index以外は全部テデリっても問題ないですかね?
それと、やっぱ、インデックスをcrontabで定期的に共有サーバで作ったら迷惑でしょうか?
マジレスお願いします。

18 :

ばれなければ問題無い。
┐(´ー`)┌
┏━━━━━━━━━┓
┃('Д')y ─┛~~ ┃
┃むぎ茶      ┃
┃mugicha@360.cc  ┃
┗━━━━━━━━━┛

19 :
>>17
負荷はかからないけど、ローカルは、めんどくせぇ(涙

20 :
Namazu.pm使ってperlでCGIを作りたいんですが…
Namazu.pmってあまり人気がないんですか?
参考スクリプト(書籍・サイト)がなかなか見つからなくって
何かありませんか?

21 :
>>20
ない、と思う。
まあしかし機能はシンプルなことこのうえないので、
利用にあたってそんなに難しいこともないと思うけど。
Ruby 用のモジュール rbnamazu.rb の方機能は多そうだ。

22 :
どう?namazu使ってつくったやつ。
とりあえず2ちゃんねる全板検索可能です。
http://mimizun.mine.nu/

23 :
お奨め本おしえte

24 :
>>22
これ、すげぇじゃん。

25 :
>>24
どこが?

26 :
namazaってCGIやSSIで出力する内容も検索するんですか?

27 :
namazaは知りませんが
Namazuで検索できるのは「ファイル」だけのようです。

28 :
はやくpostgresqlのテーブルの中身を検索できるようになっておくれ。

29 :
>>22
みずずん大丈夫?

30 :
みみずんか(藁

31 :
XMLの検索ってどうなの?

32 :
>>31
filter 書いてくれ。

33 :
>>28
Namazuシステムの構築と活用, ソフトバンク
やっぱこれじゃない?

34 :
>>28 PostgreSQLスレッドで誰かやってなかったっけ?

35 :
>>34
よく知らないけど、pgnmz はPostgreSQLにNamazuのインデックスを
入れておいて、DBにクエリー投げて検索結果を出すという感じっぽいので、
テーブル内容検索とはちがうっぽい。
ttp://search.namazu.org/ml/namazu-users-ja/msg01550.html

36 :
PHPファイルを検索できるようにするにはどうすれば良いんですか?
ソースがまんま出ちゃうんですけど。

37 :
>>36
PHP の出力を検索させたいのなら出力した結果をファイルにして
それにインデックスをかけるとかしないと無理。

38 :
>>37
「出力した結果をファイルにする」ってのは、phpでですか?
なんかそこら辺のこと詳しく書いてあるサイトが無いんで…。
Namazuシステムの構築本に書いてないかなー

39 :
>>38
php のことよく知らないけど
php scriptname.php ってやったら出力されないかな?
ところで俺も質問なんだけど、namazu.cgi って検索後は
ファイルへのリンクを http://hostname/hogehogeで出力するけど、
こいつを file://hogehoge にする方法って無い?
windows でローカルファイルの検索に使いたいんだけど WEB で
探しても見つからなかった。

40 :
>>39
php scriptname.phpだとコマンドすら無いって言われてしまう。
指定先は.namazurcってファイルで設定できる↓参照
http://village.infoweb.ne.jp/~fwnk1502/data/howto2.htm#namazurc

41 :
コマンド版のPHPがないとダメじゃないかねえ。
>>39 はインデックス作成時に
mknmz --replace='s#^#file:///'
とかでもいけそうだけどどうよ。

42 :
2chNo1(と思える)過疎板にて反応があって感動。
>>40
.namazurc で
Replace http://localhost/ file://
と指定してみてたんだけど、どうやら無効の模様。
この部分(http://hostname)は固定で出力してるのかな?
>>41
やってみたけどだめっぽい。
でも他にそれらしいオプションも見つからないね・・・
こういう変な事やる時は cgi 改造しか無いのか、とほほ。
pnamazu か rbnamazu に挑戦してみよう。
ところで >>40 はうまくいったかな?
アパッチのモジュール lib_php3.so (だっけ?) しか
インストールされてない時は >>41 の 言う通りコマンド
ラインで使えるようにしよう。手動で最初からやってみ
たこと無いので詳しい説明できなくてごめん。

43 :
返事遅れてスマソ。
>> 39
うちは
Replace /C\|/docume~1/admini~1/mydocu~1/mywebs~1/ http://ark/
みたいな感じになってる。ちなみにこの行と
Lang ja_JP.SJISと書かれた行以外は全てコメントアウト
php検索はコマンドラインで使えるように設定してみます。
というかコマンドラインで使えるようにする方法すら知らないんだけど。
どこか書いてるとこ知りません? 本でも良いんですけど。

44 :
このサイトはみなさんのインターネット環境の
スピードを計ってくれます。また、遅いと思う
人は設定を少し変えることによって無料で
スピードを早くすることができます。
お金を出す前に一度試してみては
いかがでしょうか。上がりの計測も可能です。
http://cym10262.omosiro.com/

45 :
http://www.max.hi-ho.ne.jp/~http/

46 :
だめだ〜Out of Memory!で止まっちゃうよ〜。
一応FAQに書いてあることは試したつもりなんだが・・・。
どうも特定のファイルの時にそうなってるみたい。
なんか落ちやすい文字とか、そういうのあるんかな?

47 :
設定の問題かどうか

48 :
ulimit がらみだと思うけど > Out of Memory
もしくは本当にメモリ(+仮想メモリ)が足りないか。

49 :
use POSIX 'strftime';
print strftime "%Y%m%d\n", localtime;
こう書くと年月日が出るじゃないですか。
この日付けに7を足す事ってできます???

50 :
>49
マルチうざい
資ね!

51 :
>>49
逝って良し。
■解説■
 マルチは下げ進行で微妙に煽りつつシカトします
 上記例のように古典的な煽りは「逝って良し」
 他にアスキーアートを使ったものなど多彩ですが、
 サーバーの不可を考慮してかあまり好まれません。
 やはりシンプルに「」など短文なものがベストです。

52 :
あげ

53 :
age

54 :
もう、、下げといてやれよ。。

55 :
>>54
再利用というか、もっかい盛り上がることが出来ないスレなんですか?(笑)

56 :
半年で、50位か。1000までいったら感動するな。あげ

57 :
age

58 :
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。

59 :
age

60 :
関連スレ
全文検索エンジンNamazu @ Unix板
http://pc.2ch.net/test/read.cgi/unix/1009715036/l50

61 :
namazuの検索、なんか使いにくいんだけど。。
変に文節で区切らずに、googleみたいに普通に検索してくれたら
それでいいのに。。

62 :
>>61
うん。

63 :
>>61
これのこと?
>日本語がでたらめにわかち書きされてしまう
>{ [ 最: 1 ] [ 新: 0 ] [ 情: 0 ] [ 報: 0 ] :: 0 } のように、
>でたらめにわかち書きされることがあります。
>これは、そもそも最新情報という言葉が検索対象に含まれないことを意味します。
>検索はあきらめましょう。
それとも、インデックス作るときの分かち書きをしないでほしい、ってこと?
それって実現できるのか?

64 :
googleはユーザーにあまり意識させないだけで、分けて探してるよ

65 :
googleわけてるかな?
日本語は解析していないように見えるけど…。
英語はスペースでわけるだけだから楽だね。
それにしてもgoogleはスペルミスの修正判断も出してくれたりすごい。
つーか20億ページを0.1秒で検索できるのが単純にすごいと思うのだが。
ローカルでほしい、、

66 :
>>65
googleも分かち書きしてるらしい、という実験結果がある。
検索エンジンのしくみ教えます
http://www.google.com/search?hl=ja&ie=Shift_JIS&oe=Shift_JIS&q=cache%3AALmw0POy8V4C%3Awww.mars.sphere.ne.jp%2Fengine%2Fchap_g1.htm+site%3Awww.mars.sphere.ne.jphl%3Dja+Google&lr=lang_ja
なんか 403 forbidden になってるんでgoogleのキャッシュで見てね。

67 :
>>66 さん、ありがとうございます。
ほんとだ。分かち書きしてる、、
うむ、googleはちゃんと各言語ごとにチューンしてるんですね。

68 :
逆に言えば、分かち書きエンジンの精度さえ向上させれば、
google並みのことはできるってことだよね
(もちろん、PageRank とかは抜きにして)。
いつも kakasi だけど、Chasen を使ってみようかなあ・・・。

69 :
個人で使うような件数の多寡が知れているようなシステムだったら、純粋に全件マッチ検索の方が便利だよね。

70 :
>>68
googleの肝は結果の表示順序。(pagerankもそれを支える情報の一つ)
なので、namazuに少し手を入れたぐらいではgoogle並にはならないよ。
ヒット数が少ない場合、関係ないけど。

71 :
>>70
その点は激しく同意。
ただ、分かち書きの精度を上げることで、
>>61 のやりたいことは実現できるんじゃないかな、って思った。

72 :
(´_ゝ`)フーン

73 :
Namazu使ったPDFの全文検索でページしていとかできますか?

74 :
Namazu使ったJPGの全文検索でページしていとかできますか?

75 :
>>70
いまさらだが、NamazuへのPageRankの実装は、この論文が有名。
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html

76 :
>>75
まだ、このスレが生きていたとはね
興味深い文章サンクス。
改めて深入りできない、しちゃいけない分野だと再確認したよ

77 :
77ゲットオォォォォ!!
 ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄       (´´
     ∧∧   )      (´⌒(´
  ⊂(゚Д゚⊂⌒`つ≡≡≡(´⌒;;;≡≡≡
        ̄ ̄  (´⌒(´⌒;;
      ズザーーーーーッ

78 :
(・∀・)イイ!

79 :
類似スレッド
WWW検索エンジンサイト
http://pc.2ch.net/test/read.cgi/esite/973436559/l50

80 :
ひさしぶり!

81 :
コレ、namazuの対抗馬になれるか?
http://freshmeat.net/projects/snatcher/

82 :
mp3用のフィルタって誰か書いてないかしら?

83 :
Namazuでmp3用のフィルタ???
わからん、俺がアフォなだけか?

84 :
>>82
ID3タグでも検索するのか?
そういうのは ふつー DB 使うだろ。

85 :
>>83-84
自分のホームヂレクトリをクロンで毎晩なめてるんだけど、
どうせなら、ID3も見てくれないかなと。
変かなぁ。

86 :
って、WEBプログラミングとは、違いますな。
スレ違いスマソ。

87 :
>>86
なるほど、mp3 の中に埋め込まれたテキストも「文書」として扱い、
検索対象としたい、ってわけね。全然変じゃない。むしろ面白い。
やってることは google のイメージ検索みたいな感じかな。
perl でサクッと書けそうな雰囲気。
ぜひトライしてみて。
あと、Web プログラミングとは関係ないけど、
Namazu に関係あればいいと思うよ。

88 :
いや、それをWebから使えるようにすりゃWebプログラミングと
むちゃくちゃ関係あるじゃん。
> やってることは google のイメージ検索みたいな感じかな。
イメージ検索は外部から関連性を持ってくるのでちと違うような。
内部のID3だけだったらPDF検索くらいに対応するだろう。
ぜんぜんNamazuじゃなくても良さそうだけど、他と串刺し検索するなら
やっぱり便利かも。

89 :
うなぎ食べたいね。

90 :
ナマズマズー

91 :
ウマー

92 :

検索結果で表示されるファイルの先頭部分のサイズを変更できますか?
やりかたを教えて下さい。

93 :
wget
でURLテキスト-iで、ディレクトリ作成-x
しながらページ拾ってくると、
稀にディレクトリ作成(www.aaa.xxx)されなくて
関係ないディレクトリ(www.bbb.xxx)にページを
格納してしまいます。
このままindex作るとURLリンクが関係ないところに。
どうしてだろう。困った。

94 :
Office XPファイルは、インデキシングできないのかなぁ。

95 :
    @ノハ@
 ピュー( ‘ д‘)
  =〔~∪ ̄ ̄〕
  =◎−−◎


96 :
   @ハヽ@
  (' д ‘)ピュー
   〔~∪ ̄ ̄〕=
   ◎−−◎=
づかれたゾイ

97 :
↑車輪がずれたゾイ

98 :
ウマー

99 :
Chasen を使ったインデックス作成が出来ません
http://www.namazu.org/ml/namazu-win32-users-ja/msg00671.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00672.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00692.html
を見ると、2001/05 時点で chasen を使ったインデックス作成は
cygwin 環境で行うことができるようですが、
現在も chasen を使おうとすると cygwin 上で行うのが妥当でしょうか?

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
第二回 自作スクリプト発表会【PHP】 (106)
KENT WEB 総合スレ Part2 (934)
【読み方】Open Laszlo スレ【わからん】 (181)
PukiWikiスレ Part7 (402)
=== MediaWiki 管理者の集い 第3版 === (434)
【PHP】フレームワークPharonスレ (292)
--log9.info------------------
フレンチ・ロックの巨匠、ポール・モーリア氏逝く (584)
【CD】続・買いすぎだ〜 持ちすぎだ〜【LP】 (632)
『正統派』日本のプログレについて語ろう (359)
プログレッシブ (154)
King Crimson 総合18 (185)
Gent Giant ジェントル・ジャイアント (224)
ヌメロ・ウエノとは? (846)
スマイレージ前田憂佳卒業はPガブリエルジェネシス脱退以来の大事件 (332)
友達がいないプログレオタ・・・ (265)
【鳥人間】Samla Mammas Manna【踊る】 (606)
ジョン・ウェットン 6 〜UK、ASIA、その他いろいろ (470)
プログレAAスレ その4 (506)
【問題作?】YESの「海洋地形学の物語」のみを語るスレ【最高作?】 (712)
FRANK ZAPPA (840)
=YMO part3= (597)
【The All Four】 ASIA part2 【Original Members】 (794)
--log55.com------------------
卑弥呼ちゃんにまかしときいや!7
戦国無双Chronicle総合part116【クロニクル】
真・三國無双7愚痴スレ14
【ナポレオン】ランペルール5
まだ不如帰を語ろうぜ(part10)
三國無双を始めようと思うんだがどれがオススメ?
三国志11 改造スレ part7
戦国無双2 Empires 43討