1read 100read
2012年2月WebProg122: Namazu全文検索システム (364) TOP カテ一覧 スレ一覧 2ch元 削除依頼
PHPでオークションサイトを作ろう! (286)
Google App Engine for Python 4アプ目 (673)
KENT WEB 総合スレ Part2 (930)
tDiaryスレッド その1 (431)
=== IIS === (287)
Perlのオブジェクト指向って無理やり実装だなw (266)

Namazu全文検索システム


1 :01/06/14 〜 最終レス :11/12/14
全文検索システム Namazu
http://www.namazu.org/
日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
前スレ http://tako.2ch.net/test/read.cgi?bbs=perl&key=981352718

2 :
いか焼きそば

3 :
namazuはカスタマイズがやりにくいのが嫌いだ。
作り直しきぼん。

4 :
http://64.124.197.202/main.htm
namazuってやっぱり負荷かかるのかな。

5 :
>>4
index作る時にはCPU使用率100%になります。
項目がいくつもあるとかなりツライです。
↓うちのNamazu
http://2ch.dyn.to/

6 :
100%?(w
すご・・・

7 :
>>5 ん、それは負荷テストに参加してくれというお誘いかな (w

8 :
ここ見てユーザーディレクトリにインストしちゃっていいもんでしょうか?
http://www.amays.com/~mizusawa/namazu_kaisetu/noSUinstall.html
当方レンタルサーバー 専用サーバー持つ金ありません。
C言語は使えます。負荷のかからないように、自分のマシンでindex作ればいいかな。
っていうかレンタルサーバー会社に聞かずにやっちゃって、かまわんかしら(汗

9 :
インデックス構築中に検索かけられるとCGI TimeOut出ちゃうことが多々あります・・・
http://www1.odn.ne.jp/mimizun/

10 :
nice で優先度落とせばいいじゃん。

11 :
windowsだし。

12 :
WIN2Kに入ってるインデックスサービスってどーなん?

13 :
>>12
穴。まさぐられるとってしまうぞ。

14 :
2.0.6 release age

15 :
NAMAZUのインデックスにはたくさんファイルがありますけど、
いらないファイル(テンプレート等)も多いと思います。
結局必ず必要なファイルってどれなんですか?

16 :
>>15
んー俺もそう言えばわからん、
もともと、俺にとって、このNamazu初めの頃難しすぎた。
その前に、うなぎ食いたいんだよね。腹減ってきた・・・

17 :
namazu2.0.5なんだけど、共有サーバにインストールしたんですよ。
でも、さすがにインデックスの作成は共有サーバでやるのも申し訳ないので、ローカルで作ってあげてます。
そういう場合って、namazu.cgi, .namazurc, Template, Index以外は全部テデリっても問題ないですかね?
それと、やっぱ、インデックスをcrontabで定期的に共有サーバで作ったら迷惑でしょうか?
マジレスお願いします。

18 :

ばれなければ問題無い。
┐(´ー`)┌
┏━━━━━━━━━┓
┃('Д')y ─┛~~ ┃
┃むぎ茶      ┃
┃mugicha@360.cc  ┃
┗━━━━━━━━━┛

19 :
>>17
負荷はかからないけど、ローカルは、めんどくせぇ(涙

20 :
Namazu.pm使ってperlでCGIを作りたいんですが…
Namazu.pmってあまり人気がないんですか?
参考スクリプト(書籍・サイト)がなかなか見つからなくって
何かありませんか?

21 :
>>20
ない、と思う。
まあしかし機能はシンプルなことこのうえないので、
利用にあたってそんなに難しいこともないと思うけど。
Ruby 用のモジュール rbnamazu.rb の方機能は多そうだ。

22 :
どう?namazu使ってつくったやつ。
とりあえず2ちゃんねる全板検索可能です。
http://mimizun.mine.nu/

23 :
お奨め本おしえte

24 :
>>22
これ、すげぇじゃん。

25 :
>>24
どこが?

26 :
namazaってCGIやSSIで出力する内容も検索するんですか?

27 :
namazaは知りませんが
Namazuで検索できるのは「ファイル」だけのようです。

28 :
はやくpostgresqlのテーブルの中身を検索できるようになっておくれ。

29 :
>>22
みずずん大丈夫?

30 :
みみずんか(藁

31 :
XMLの検索ってどうなの?

32 :
>>31
filter 書いてくれ。

33 :
>>28
Namazuシステムの構築と活用, ソフトバンク
やっぱこれじゃない?

34 :
>>28 PostgreSQLスレッドで誰かやってなかったっけ?

35 :
>>34
よく知らないけど、pgnmz はPostgreSQLにNamazuのインデックスを
入れておいて、DBにクエリー投げて検索結果を出すという感じっぽいので、
テーブル内容検索とはちがうっぽい。
ttp://search.namazu.org/ml/namazu-users-ja/msg01550.html

36 :
PHPファイルを検索できるようにするにはどうすれば良いんですか?
ソースがまんま出ちゃうんですけど。

37 :
>>36
PHP の出力を検索させたいのなら出力した結果をファイルにして
それにインデックスをかけるとかしないと無理。

38 :
>>37
「出力した結果をファイルにする」ってのは、phpでですか?
なんかそこら辺のこと詳しく書いてあるサイトが無いんで…。
Namazuシステムの構築本に書いてないかなー

39 :
>>38
php のことよく知らないけど
php scriptname.php ってやったら出力されないかな?
ところで俺も質問なんだけど、namazu.cgi って検索後は
ファイルへのリンクを http://hostname/hogehogeで出力するけど、
こいつを file://hogehoge にする方法って無い?
windows でローカルファイルの検索に使いたいんだけど WEB で
探しても見つからなかった。

40 :
>>39
php scriptname.phpだとコマンドすら無いって言われてしまう。
指定先は.namazurcってファイルで設定できる↓参照
http://village.infoweb.ne.jp/~fwnk1502/data/howto2.htm#namazurc

41 :
コマンド版のPHPがないとダメじゃないかねえ。
>>39 はインデックス作成時に
mknmz --replace='s#^#file:///'
とかでもいけそうだけどどうよ。

42 :
2chNo1(と思える)過疎板にて反応があって感動。
>>40
.namazurc で
Replace http://localhost/ file://
と指定してみてたんだけど、どうやら無効の模様。
この部分(http://hostname)は固定で出力してるのかな?
>>41
やってみたけどだめっぽい。
でも他にそれらしいオプションも見つからないね・・・
こういう変な事やる時は cgi 改造しか無いのか、とほほ。
pnamazu か rbnamazu に挑戦してみよう。
ところで >>40 はうまくいったかな?
アパッチのモジュール lib_php3.so (だっけ?) しか
インストールされてない時は >>41 の 言う通りコマンド
ラインで使えるようにしよう。手動で最初からやってみ
たこと無いので詳しい説明できなくてごめん。

43 :
返事遅れてスマソ。
>> 39
うちは
Replace /C\|/docume~1/admini~1/mydocu~1/mywebs~1/ http://ark/
みたいな感じになってる。ちなみにこの行と
Lang ja_JP.SJISと書かれた行以外は全てコメントアウト
php検索はコマンドラインで使えるように設定してみます。
というかコマンドラインで使えるようにする方法すら知らないんだけど。
どこか書いてるとこ知りません? 本でも良いんですけど。

44 :
このサイトはみなさんのインターネット環境の
スピードを計ってくれます。また、遅いと思う
人は設定を少し変えることによって無料で
スピードを早くすることができます。
お金を出す前に一度試してみては
いかがでしょうか。上がりの計測も可能です。
http://cym10262.omosiro.com/

45 :
http://www.max.hi-ho.ne.jp/~http/

46 :
だめだ〜Out of Memory!で止まっちゃうよ〜。
一応FAQに書いてあることは試したつもりなんだが・・・。
どうも特定のファイルの時にそうなってるみたい。
なんか落ちやすい文字とか、そういうのあるんかな?

47 :
設定の問題かどうか

48 :
ulimit がらみだと思うけど > Out of Memory
もしくは本当にメモリ(+仮想メモリ)が足りないか。

49 :
use POSIX 'strftime';
print strftime "%Y%m%d\n", localtime;
こう書くと年月日が出るじゃないですか。
この日付けに7を足す事ってできます???

50 :
>49
マルチうざい
資ね!

51 :
>>49
って良し。
■解説■
 マルチは下げ進行で微妙に煽りつつシカトします
 上記例のように古典的な煽りは「って良し」
 他にアスキーアートを使ったものなど多彩ですが、
 サーバーの不可を考慮してかあまり好まれません。
 やはりシンプルに「氏ね」など短文なものがベストです。

52 :
あげ

53 :
age

54 :
もう、、下げといてやれよ。。

55 :
>>54
再利用というか、もっかい盛り上がることが出来ないスレなんですか?(笑)

56 :
半年で、50位か。1000までいったら感動するな。あげ

57 :
age

58 :
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。

59 :
age

60 :
関連スレ
全文検索エンジンNamazu @ Unix板
http://pc.2ch.net/test/read.cgi/unix/1009715036/l50

61 :
namazuの検索、なんか使いにくいんだけど。。
変に文節で区切らずに、googleみたいに普通に検索してくれたら
それでいいのに。。

62 :
>>61
うん。

63 :
>>61
これのこと?
>日本語がでたらめにわかち書きされてしまう
>{ [ 最: 1 ] [ 新: 0 ] [ 情: 0 ] [ 報: 0 ] :: 0 } のように、
>でたらめにわかち書きされることがあります。
>これは、そもそも最新情報という言葉が検索対象に含まれないことを意味します。
>検索はあきらめましょう。
それとも、インデックス作るときの分かち書きをしないでほしい、ってこと?
それって実現できるのか?

64 :
googleはユーザーにあまり意識させないだけで、分けて探してるよ

65 :
googleわけてるかな?
日本語は解析していないように見えるけど…。
英語はスペースでわけるだけだから楽だね。
それにしてもgoogleはスペルミスの修正判断も出してくれたりすごい。
つーか20億ページを0.1秒で検索できるのが単純にすごいと思うのだが。
ローカルでほしい、、

66 :
>>65
googleも分かち書きしてるらしい、という実験結果がある。
検索エンジンのしくみ教えます
http://www.google.com/search?hl=ja&ie=Shift_JIS&oe=Shift_JIS&q=cache%3AALmw0POy8V4C%3Awww.mars.sphere.ne.jp%2Fengine%2Fchap_g1.htm+site%3Awww.mars.sphere.ne.jphl%3Dja+Google&lr=lang_ja
なんか 403 forbidden になってるんでgoogleのキャッシュで見てね。

67 :
>>66 さん、ありがとうございます。
ほんとだ。分かち書きしてる、、
うむ、googleはちゃんと各言語ごとにチューンしてるんですね。

68 :
逆に言えば、分かち書きエンジンの精度さえ向上させれば、
google並みのことはできるってことだよね
(もちろん、PageRank とかは抜きにして)。
いつも kakasi だけど、Chasen を使ってみようかなあ・・・。

69 :
個人で使うような件数の多寡が知れているようなシステムだったら、純粋に全件マッチ検索の方が便利だよね。

70 :
>>68
googleの肝は結果の表示順序。(pagerankもそれを支える情報の一つ)
なので、namazuに少し手を入れたぐらいではgoogle並にはならないよ。
ヒット数が少ない場合、関係ないけど。

71 :
>>70
その点は激しく同意。
ただ、分かち書きの精度を上げることで、
>>61 のやりたいことは実現できるんじゃないかな、って思った。

72 :
(´_ゝ`)フーン

73 :
Namazu使ったPDFの全文検索でページしていとかできますか?

74 :
Namazu使ったJPGの全文検索でページしていとかできますか?

75 :
>>70
いまさらだが、NamazuへのPageRankの実装は、この論文が有名。
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html

76 :
>>75
まだ、このスレが生きていたとはね
興味深い文章サンクス。
改めて深入りできない、しちゃいけない分野だと再確認したよ

77 :
77ゲットオォォォォ!!
 ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄       (´´
     ∧∧   )      (´⌒(´
  ⊂(゚Д゚⊂⌒`つ≡≡≡(´⌒;;;≡≡≡
        ̄ ̄  (´⌒(´⌒;;
      ズザーーーーーッ

78 :
(・∀・)イイ!

79 :
類似スレッド
WWW検索エンジンサイト
http://pc.2ch.net/test/read.cgi/esite/973436559/l50

80 :
ひさしぶり!

81 :
コレ、namazuの対抗馬になれるか?
http://freshmeat.net/projects/snatcher/

82 :
mp3用のフィルタって誰か書いてないかしら?

83 :
Namazuでmp3用のフィルタ???
わからん、俺がアフォなだけか?

84 :
>>82
ID3タグでも検索するのか?
そういうのは ふつー DB 使うだろ。

85 :
>>83-84
自分のホームヂレクトリをクロンで毎晩なめてるんだけど、
どうせなら、ID3も見てくれないかなと。
変かなぁ。

86 :
って、WEBプログラミングとは、違いますな。
スレ違いスマソ。

87 :
>>86
なるほど、mp3 の中に埋め込まれたテキストも「文書」として扱い、
検索対象としたい、ってわけね。全然変じゃない。むしろ面白い。
やってることは google のイメージ検索みたいな感じかな。
perl でサクッと書けそうな雰囲気。
ぜひトライしてみて。
あと、Web プログラミングとは関係ないけど、
Namazu に関係あればいいと思うよ。

88 :
いや、それをWebから使えるようにすりゃWebプログラミングと
むちゃくちゃ関係あるじゃん。
> やってることは google のイメージ検索みたいな感じかな。
イメージ検索は外部から関連性を持ってくるのでちと違うような。
内部のID3だけだったらPDF検索くらいに対応するだろう。
ぜんぜんNamazuじゃなくても良さそうだけど、他と串刺し検索するなら
やっぱり便利かも。

89 :
うなぎ食べたいね。

90 :
ナマズマズー

91 :
ウマー

92 :

検索結果で表示されるファイルの先頭部分のサイズを変更できますか?
やりかたを教えて下さい。

93 :
wget
でURLテキスト-iで、ディレクトリ作成-x
しながらページ拾ってくると、
稀にディレクトリ作成(www.aaa.xxx)されなくて
関係ないディレクトリ(www.bbb.xxx)にページを
格納してしまいます。
このままindex作るとURLリンクが関係ないところに。
どうしてだろう。困った。

94 :
Office XPファイルは、インデキシングできないのかなぁ。

95 :
    @ノハ@
 ピュー( ‘ д‘)
  =〔~∪ ̄ ̄〕
  =◎−−◎


96 :
   @ハヽ@
  (' д ‘)ピュー
   〔~∪ ̄ ̄〕=
   ◎−−◎=
づかれたゾイ

97 :
↑車輪がずれたゾイ

98 :
ウマー

99 :
Chasen を使ったインデックス作成が出来ません
http://www.namazu.org/ml/namazu-win32-users-ja/msg00671.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00672.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00692.html
を見ると、2001/05 時点で chasen を使ったインデックス作成は
cygwin 環境で行うことができるようですが、
現在も chasen を使おうとすると cygwin 上で行うのが妥当でしょうか?

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
ColdFusion (721)
こんなCGI探してます 23 (975)
tDiaryスレッド その1 (431)
新しい掲示板の仕様を考える (427)
フリーCMSツールについて語るスレ3 (404)
一番汚いコードでHello Worldを書いたやつが勝ち (202)
--log9.info------------------
石川遼が義捐金商法? (200)
可愛い 有村智恵 キュート専用! (676)
京都限定練習場・ゴルフ場 (765)
キチガイアンチw (236)
今日、開眼したことをカキコするスレ PART24 (440)
何処まで飛ばせるか?inゴルフ板52 (213)
石川遼は本当にスピードラーニングで英語覚えたの? (380)
【国内限定】石川遼 総合 No4【タレントゴルファー】 (1001)
愛の一行リレー小説@ゴル板 (859)
【TOURSTAGE】ブリヂストン総合【BRIDGESTONE】 (569)
ドライバーがまったく打てません 21 (805)
LPGA of JAPAN 日本女子ツアー 182 (256)
【可愛い!むぞらしか】有村智恵【ヒラメ筋♪】 (341)
【MIZUNO】総合スレ PART-15【ミズノ】 (392)
【インプレス】 YAMAHA 3 【ヤマハ】 (580)
【打ちっ放し】初心者Part5 (269)
--log55.com------------------
【芸能】シュワルツェネッガーさん、男に飛び蹴りされるハプニング 南アでのイベント中
【サッカー】酒井宏樹が1ゴール1アシスト!昌子源との日本人対決を制す
【芸能】狩野英孝、初のプロ野球観戦を報告「“にわか”とか叩かれたりしますが」
【テニス】大坂なおみを訴えたコーチが暴露「問題はハイチ人の父親だ」
【高校野球】バスケ日本代表・渡嘉敷来夢の弟、聖光学院の渡嘉敷乾(ほし)が高校野球デビュー…長身196センチも悔し3回2失点
【調査】業界人が選ぶ「嫌いな女子アナ」15人のうち8人がフジテレビ
【ボクシング】井上尚弥の強さに長谷川穂積氏「強い、以上です」
【テレビ】TBS・山本里菜アナ、"赤ベンツ王子”との交際認めるも「同せいはしていません」