1read 100read
2012年4月WebProg186: Namazu全文検索システム (364) TOP カテ一覧 スレ一覧 2ch元 削除依頼
インストールマニアックス3 Hyper-V祭 Part2 (650)
【PHP】PEAR Part3 (665)
天才WEBプログラマの方々に一生のお願い… (120)
初心的な質問なのですが・・・・ (207)
現在最速で最軽量のプログラムの組み合わせはなんだ (107)
【Perl】何をやれば「出来る」といえる?【PHP】 (180)

Namazu全文検索システム


1 :01/06/14 〜 最終レス :11/12/14
全文検索システム Namazu
http://www.namazu.org/
日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
前スレ http://tako.2ch.net/test/read.cgi?bbs=perl&key=981352718

2 :
いか焼きそば

3 :
namazuはカスタマイズがやりにくいのが嫌いだ。
作り直しきぼん。

4 :
http://64.124.197.202/main.htm
namazuってやっぱり負荷かかるのかな。

5 :
>>4
index作る時にはCPU使用率100%になります。
項目がいくつもあるとかなりツライです。
↓うちのNamazu
http://2ch.dyn.to/

6 :
100%?(w
すご・・・

7 :
>>5 ん、それは負荷テストに参加してくれというお誘いかな (w

8 :
ここ見てユーザーディレクトリにインストしちゃっていいもんでしょうか?
http://www.amays.com/~mizusawa/namazu_kaisetu/noSUinstall.html
当方レンタルサーバー 専用サーバー持つ金ありません。
C言語は使えます。負荷のかからないように、自分のマシンでindex作ればいいかな。
っていうかレンタルサーバー会社に聞かずにやっちゃって、かまわんかしら(汗

9 :
インデックス構築中に検索かけられるとCGI TimeOut出ちゃうことが多々あります・・・
http://www1.odn.ne.jp/mimizun/

10 :
nice で優先度落とせばいいじゃん。

11 :
windowsだし。

12 :
WIN2Kに入ってるインデックスサービスってどーなん?

13 :
>>12
穴。まさぐられると逝ってしまうぞ。

14 :
2.0.6 release age

15 :
NAMAZUのインデックスにはたくさんファイルがありますけど、
いらないファイル(テンプレート等)も多いと思います。
結局必ず必要なファイルってどれなんですか?

16 :
>>15
んー俺もそう言えばわからん、
もともと、俺にとって、このNamazu初めの頃難しすぎた。
その前に、うなぎ食いたいんだよね。腹減ってきた・・・

17 :
namazu2.0.5なんだけど、共有サーバにインストールしたんですよ。
でも、さすがにインデックスの作成は共有サーバでやるのも申し訳ないので、ローカルで作ってあげてます。
そういう場合って、namazu.cgi, .namazurc, Template, Index以外は全部テデリっても問題ないですかね?
それと、やっぱ、インデックスをcrontabで定期的に共有サーバで作ったら迷惑でしょうか?
マジレスお願いします。

18 :

ばれなければ問題無い。
┐(´ー`)┌
┏━━━━━━━━━┓
┃('Д')y ─┛~~ ┃
┃むぎ茶      ┃
┃mugicha@360.cc  ┃
┗━━━━━━━━━┛

19 :
>>17
負荷はかからないけど、ローカルは、めんどくせぇ(涙

20 :
Namazu.pm使ってperlでCGIを作りたいんですが…
Namazu.pmってあまり人気がないんですか?
参考スクリプト(書籍・サイト)がなかなか見つからなくって
何かありませんか?

21 :
>>20
ない、と思う。
まあしかし機能はシンプルなことこのうえないので、
利用にあたってそんなに難しいこともないと思うけど。
Ruby 用のモジュール rbnamazu.rb の方機能は多そうだ。

22 :
どう?namazu使ってつくったやつ。
とりあえず2ちゃんねる全板検索可能です。
http://mimizun.mine.nu/

23 :
お奨め本おしえte

24 :
>>22
これ、すげぇじゃん。

25 :
>>24
どこが?

26 :
namazaってCGIやSSIで出力する内容も検索するんですか?

27 :
namazaは知りませんが
Namazuで検索できるのは「ファイル」だけのようです。

28 :
はやくpostgresqlのテーブルの中身を検索できるようになっておくれ。

29 :
>>22
みずずん大丈夫?

30 :
みみずんか(藁

31 :
XMLの検索ってどうなの?

32 :
>>31
filter 書いてくれ。

33 :
>>28
Namazuシステムの構築と活用, ソフトバンク
やっぱこれじゃない?

34 :
>>28 PostgreSQLスレッドで誰かやってなかったっけ?

35 :
>>34
よく知らないけど、pgnmz はPostgreSQLにNamazuのインデックスを
入れておいて、DBにクエリー投げて検索結果を出すという感じっぽいので、
テーブル内容検索とはちがうっぽい。
ttp://search.namazu.org/ml/namazu-users-ja/msg01550.html

36 :
PHPファイルを検索できるようにするにはどうすれば良いんですか?
ソースがまんま出ちゃうんですけど。

37 :
>>36
PHP の出力を検索させたいのなら出力した結果をファイルにして
それにインデックスをかけるとかしないと無理。

38 :
>>37
「出力した結果をファイルにする」ってのは、phpでですか?
なんかそこら辺のこと詳しく書いてあるサイトが無いんで…。
Namazuシステムの構築本に書いてないかなー

39 :
>>38
php のことよく知らないけど
php scriptname.php ってやったら出力されないかな?
ところで俺も質問なんだけど、namazu.cgi って検索後は
ファイルへのリンクを http://hostname/hogehogeで出力するけど、
こいつを file://hogehoge にする方法って無い?
windows でローカルファイルの検索に使いたいんだけど WEB で
探しても見つからなかった。

40 :
>>39
php scriptname.phpだとコマンドすら無いって言われてしまう。
指定先は.namazurcってファイルで設定できる↓参照
http://village.infoweb.ne.jp/~fwnk1502/data/howto2.htm#namazurc

41 :
コマンド版のPHPがないとダメじゃないかねえ。
>>39 はインデックス作成時に
mknmz --replace='s#^#file:///'
とかでもいけそうだけどどうよ。

42 :
2chNo1(と思える)過疎板にて反応があって感動。
>>40
.namazurc で
Replace http://localhost/ file://
と指定してみてたんだけど、どうやら無効の模様。
この部分(http://hostname)は固定で出力してるのかな?
>>41
やってみたけどだめっぽい。
でも他にそれらしいオプションも見つからないね・・・
こういう変な事やる時は cgi 改造しか無いのか、とほほ。
pnamazu か rbnamazu に挑戦してみよう。
ところで >>40 はうまくいったかな?
アパッチのモジュール lib_php3.so (だっけ?) しか
インストールされてない時は >>41 の 言う通りコマンド
ラインで使えるようにしよう。手動で最初からやってみ
たこと無いので詳しい説明できなくてごめん。

43 :
返事遅れてスマソ。
>> 39
うちは
Replace /C\|/docume~1/admini~1/mydocu~1/mywebs~1/ http://ark/
みたいな感じになってる。ちなみにこの行と
Lang ja_JP.SJISと書かれた行以外は全てコメントアウト
php検索はコマンドラインで使えるように設定してみます。
というかコマンドラインで使えるようにする方法すら知らないんだけど。
どこか書いてるとこ知りません? 本でも良いんですけど。

44 :
このサイトはみなさんのインターネット環境の
スピードを計ってくれます。また、遅いと思う
人は設定を少し変えることによって無料で
スピードを早くすることができます。
お金を出す前に一度試してみては
いかがでしょうか。上がりの計測も可能です。
http://cym10262.omosiro.com/

45 :
http://www.max.hi-ho.ne.jp/~http/

46 :
だめだ〜Out of Memory!で止まっちゃうよ〜。
一応FAQに書いてあることは試したつもりなんだが・・・。
どうも特定のファイルの時にそうなってるみたい。
なんか落ちやすい文字とか、そういうのあるんかな?

47 :
設定の問題かどうか

48 :
ulimit がらみだと思うけど > Out of Memory
もしくは本当にメモリ(+仮想メモリ)が足りないか。

49 :
use POSIX 'strftime';
print strftime "%Y%m%d\n", localtime;
こう書くと年月日が出るじゃないですか。
この日付けに7を足す事ってできます???

50 :
>49
マルチうざい
資ね!

51 :
>>49
逝って良し。
■解説■
 マルチは下げ進行で微妙に煽りつつシカトします
 上記例のように古典的な煽りは「逝って良し」
 他にアスキーアートを使ったものなど多彩ですが、
 サーバーの不可を考慮してかあまり好まれません。
 やはりシンプルに「」など短文なものがベストです。

52 :
あげ

53 :
age

54 :
もう、、下げといてやれよ。。

55 :
>>54
再利用というか、もっかい盛り上がることが出来ないスレなんですか?(笑)

56 :
半年で、50位か。1000までいったら感動するな。あげ

57 :
age

58 :
このスレッドは1000を超えました。
もう書けないので、新しいスレッドを立ててくださいです。。。

59 :
age

60 :
関連スレ
全文検索エンジンNamazu @ Unix板
http://pc.2ch.net/test/read.cgi/unix/1009715036/l50

61 :
namazuの検索、なんか使いにくいんだけど。。
変に文節で区切らずに、googleみたいに普通に検索してくれたら
それでいいのに。。

62 :
>>61
うん。

63 :
>>61
これのこと?
>日本語がでたらめにわかち書きされてしまう
>{ [ 最: 1 ] [ 新: 0 ] [ 情: 0 ] [ 報: 0 ] :: 0 } のように、
>でたらめにわかち書きされることがあります。
>これは、そもそも最新情報という言葉が検索対象に含まれないことを意味します。
>検索はあきらめましょう。
それとも、インデックス作るときの分かち書きをしないでほしい、ってこと?
それって実現できるのか?

64 :
googleはユーザーにあまり意識させないだけで、分けて探してるよ

65 :
googleわけてるかな?
日本語は解析していないように見えるけど…。
英語はスペースでわけるだけだから楽だね。
それにしてもgoogleはスペルミスの修正判断も出してくれたりすごい。
つーか20億ページを0.1秒で検索できるのが単純にすごいと思うのだが。
ローカルでほしい、、

66 :
>>65
googleも分かち書きしてるらしい、という実験結果がある。
検索エンジンのしくみ教えます
http://www.google.com/search?hl=ja&ie=Shift_JIS&oe=Shift_JIS&q=cache%3AALmw0POy8V4C%3Awww.mars.sphere.ne.jp%2Fengine%2Fchap_g1.htm+site%3Awww.mars.sphere.ne.jphl%3Dja+Google&lr=lang_ja
なんか 403 forbidden になってるんでgoogleのキャッシュで見てね。

67 :
>>66 さん、ありがとうございます。
ほんとだ。分かち書きしてる、、
うむ、googleはちゃんと各言語ごとにチューンしてるんですね。

68 :
逆に言えば、分かち書きエンジンの精度さえ向上させれば、
google並みのことはできるってことだよね
(もちろん、PageRank とかは抜きにして)。
いつも kakasi だけど、Chasen を使ってみようかなあ・・・。

69 :
個人で使うような件数の多寡が知れているようなシステムだったら、純粋に全件マッチ検索の方が便利だよね。

70 :
>>68
googleの肝は結果の表示順序。(pagerankもそれを支える情報の一つ)
なので、namazuに少し手を入れたぐらいではgoogle並にはならないよ。
ヒット数が少ない場合、関係ないけど。

71 :
>>70
その点は激しく同意。
ただ、分かち書きの精度を上げることで、
>>61 のやりたいことは実現できるんじゃないかな、って思った。

72 :
(´_ゝ`)フーン

73 :
Namazu使ったPDFの全文検索でページしていとかできますか?

74 :
Namazu使ったJPGの全文検索でページしていとかできますか?

75 :
>>70
いまさらだが、NamazuへのPageRankの実装は、この論文が有名。
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/pagerank.html

76 :
>>75
まだ、このスレが生きていたとはね
興味深い文章サンクス。
改めて深入りできない、しちゃいけない分野だと再確認したよ

77 :
77ゲットオォォォォ!!
 ̄ ̄ ̄ ̄ ̄∨ ̄ ̄ ̄       (´´
     ∧∧   )      (´⌒(´
  ⊂(゚Д゚⊂⌒`つ≡≡≡(´⌒;;;≡≡≡
        ̄ ̄  (´⌒(´⌒;;
      ズザーーーーーッ

78 :
(・∀・)イイ!

79 :
類似スレッド
WWW検索エンジンサイト
http://pc.2ch.net/test/read.cgi/esite/973436559/l50

80 :
ひさしぶり!

81 :
コレ、namazuの対抗馬になれるか?
http://freshmeat.net/projects/snatcher/

82 :
mp3用のフィルタって誰か書いてないかしら?

83 :
Namazuでmp3用のフィルタ???
わからん、俺がアフォなだけか?

84 :
>>82
ID3タグでも検索するのか?
そういうのは ふつー DB 使うだろ。

85 :
>>83-84
自分のホームヂレクトリをクロンで毎晩なめてるんだけど、
どうせなら、ID3も見てくれないかなと。
変かなぁ。

86 :
って、WEBプログラミングとは、違いますな。
スレ違いスマソ。

87 :
>>86
なるほど、mp3 の中に埋め込まれたテキストも「文書」として扱い、
検索対象としたい、ってわけね。全然変じゃない。むしろ面白い。
やってることは google のイメージ検索みたいな感じかな。
perl でサクッと書けそうな雰囲気。
ぜひトライしてみて。
あと、Web プログラミングとは関係ないけど、
Namazu に関係あればいいと思うよ。

88 :
いや、それをWebから使えるようにすりゃWebプログラミングと
むちゃくちゃ関係あるじゃん。
> やってることは google のイメージ検索みたいな感じかな。
イメージ検索は外部から関連性を持ってくるのでちと違うような。
内部のID3だけだったらPDF検索くらいに対応するだろう。
ぜんぜんNamazuじゃなくても良さそうだけど、他と串刺し検索するなら
やっぱり便利かも。

89 :
うなぎ食べたいね。

90 :
ナマズマズー

91 :
ウマー

92 :

検索結果で表示されるファイルの先頭部分のサイズを変更できますか?
やりかたを教えて下さい。

93 :
wget
でURLテキスト-iで、ディレクトリ作成-x
しながらページ拾ってくると、
稀にディレクトリ作成(www.aaa.xxx)されなくて
関係ないディレクトリ(www.bbb.xxx)にページを
格納してしまいます。
このままindex作るとURLリンクが関係ないところに。
どうしてだろう。困った。

94 :
Office XPファイルは、インデキシングできないのかなぁ。

95 :
    @ノハ@
 ピュー( ‘ д‘)
  =〔~∪ ̄ ̄〕
  =◎−−◎


96 :
   @ハヽ@
  (' д ‘)ピュー
   〔~∪ ̄ ̄〕=
   ◎−−◎=
づかれたゾイ

97 :
↑車輪がずれたゾイ

98 :
ウマー

99 :
Chasen を使ったインデックス作成が出来ません
http://www.namazu.org/ml/namazu-win32-users-ja/msg00671.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00672.html
http://www.namazu.org/ml/namazu-win32-users-ja/msg00692.html
を見ると、2001/05 時点で chasen を使ったインデックス作成は
cygwin 環境で行うことができるようですが、
現在も chasen を使おうとすると cygwin 上で行うのが妥当でしょうか?

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
PHPとJAVAさぶれっと (316)
【スレッド】2ch型掲示板 15 【フロート型】 (357)
セキュリティースレッド (239)
一番汚いコードでHello Worldを書いたやつが勝ち (210)
一人で始めるWEB起業何が一番面白いかな? 5案目 (136)
【ECサイト】Live Commerce1号店 (389)
--log9.info------------------
【ニコニコ生放送】FX総合スレ 265枚目 (1001)
【チョン】マネーパートナーズ工作員 オチ1【無職】 (225)
【クレジットカード】 iFOREX★40 【入金】 (933)
【日足】スイングトレード総合6【週足】 (242)
【NY原油】誰かが凄い勢いでリアルを書くスレ$400 (926)
どうせ暇だからIDに通貨を出してみようぜ 18 (674)
【日経CNBC】総合実況スレ part134 (220)
【1万から】FXすごろくやろうぜ【気付けば1億】 (377)
【USD/JPY】ドル円専用スレ Part19304【$\】 (1001)
トータル480万負けた。手取り17万。しにたい。3 (749)
【FX】IGマーケッツ証券part12【CFD】 (812)
【AUD】豪ドルのレートに一喜一憂するスレpart2318 (1001)
ドル円ショートは助かるのか・・・・・・・・ (148)
【FX】税金相談Part10【確定申告】 (832)
FX 糞アフィブログを叩き潰すスレ (124)
【EUR/USD】ユーロドル専用スレ Part1【コテ禁止】 (748)
--log55.com------------------
【コロナin米国】ニューヨーク市長、「医療品が10日以内に枯渇」 新型ウイルスの死者増加を警告
【電通案件】「ワニ」作者「本当に自分1人で始めました」「そのうちに色々な方が付いてきてくれました」★4
【速報】トヨタグループ、国内5工場操業停止へ ★3
【コロナin豪州】オーストラリア、パブやジムの閉鎖開始 新型コロナ感染者急増で 感染者1600人超 クルーズ船乗客らの下船を拒否
【コロナ速報】メルケル独首相、陰性!
【東京オリンピック】独、英も延期を要求 独「少なくとも1年以上延期」英「延期なければ選手参加せず」
【バカ】海外で「コロナウイルスチャレンジ」と称し、ドアノブやトイレの便座などを舐める悪ふざけが流行る
【今週の最大の敗者】バフェット、ゲイツ、その他8人の億万長者合計570億ドル損失