1read 100read
2012年6月UNIX359: 全文検索エンジンNamazu ver2 (296) TOP カテ一覧 スレ一覧 2ch元 削除依頼
自分の情報整理スタイルを晒そうよ 4 (591)
【へぇ】トリビアの泉@UNIX板【へぇ】 (652)
CTCテクノロジーのSolaris美人講師 (378)
Exim (388)
BSDバブルを仕掛けるスレ 第2案 (416)
ItaniumをUNIXで使うスレ (779)

全文検索エンジンNamazu ver2


1 :05/04/11 〜 最終レス :11/09/18
全文検索エンジンNamazuについてアレコレ
http://www.namazu.org

2 :
削除依頼よろ

3 :
3ちしげ3ゆ3様が電光石火の3ゲットなの!
                         >>1番かわいいのはさゆなの!
                    ノノハヽヽ〃ノハヾ /) >>2じ本はハゲすぎなの!
  後>>10は落ち目すぎなの! ∩*・ 。.・)从*・ 。.・)/ミ
                 〃ノハヾノノハヽヽノノハヽヽつ  い>>4川は黒すぎなの!
>>9ちもフケすぎなの!⊂(。.・从(・ 。.・*∩ノノノハ 。.・)ノハヽ
              ((  (\ゝノノノハノハ〃ハ v)っ彡*・ 。.・)
>>8やはフケすぎなの! ⊂`ヽ从*・ 。.・)・ 。.・))ノノノハヽつ ))>>5んのは顔ふくれすぎなの!
大の大人が>>7っちとか(プ⊂\  ⊂ )  _つ从*・ 。.・)
                   (/( /∪∪ヽ)ヽ)/ U  つ モー>>6すは売れなさすぎなの!
                   ∪ ̄(/ ̄\) ゝし'⌒∪              
              >>11-1000さゆのかわいさの前にひれ伏すの!

4 :
    ,,r 、,r'"⌒`゙゙ヽ、     +
   /  "~ ヽ、    `ゝ    +
. ./ ,r彡"   、ノ彡' ヽミ`\   +
 r、r.r 、 ソ/ノ     ヽ `ゝ   + 
 _ ,|_,|  ノ   ⌒    ⌒ヾ|ミヾ   + 
 ノ ノノノノ--<-●>-,(-●>ミ ミ    + 素敵な微笑とともに4様上陸!
 ノ ノノノノ   ""    )  " ミ    +
ノ .彡| |     トーー/| | ミ   
   ∧ | \  ..ヾ____/  ..|
   |ノ \  \  "⌒  ノ\
   ヽ 《   ..~ ー--/   /

5 :
【日産】 NOTE ノート Part9 【普通で素直】
http://hobby7.2ch.net/test/read.cgi/auto/1113087118/
孤独な日産信者、通称「ネット版劇団独り」。
相次ぐノートの酷評記事、酷評レスの結果にもめげず、叩かれ役として大活躍w
気が向いたら燃料でも投下してあげてください。
◆◇◆◇◆◇◆◇◆◇◆◇ネット版劇団独りの特徴◇◆◇◆◇◆◇◆◇◆◇◆
>ノート信者はやたらと若者向けと思わせたがる。
>ノート信者はやたらと女に人気があると思わせたがる。
>ノート信者はやたらと個性という単語を強調したがる。
さらに
捏造した燃費データを報告。
ノートについて論点は存在せず、私怨で追いかけ回すざま。
>>229,232などでわかるように、悔し涙で文字が読めないほど常時興奮。
ID変えまくって仲間がいると思わせたいらしいw
執念だけはルパンを追う銭形以上。
やられっぷりはトムとジェリーのトム以上。
本人へのアドバイス
「IDを変えて必死か?」というレスに対する反応が、毎回ビックリするほどワンパターンw
ID変えの際に書き込み時間が集中しすぎ。文体が似すぎw厨房レベルw
◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆◇◆

6 :
namazuって、滅びた?

7 :
しばらくは現役でしょ。今でもいろんなとこで使われている。
日本語全文検索エンジンを普及せしめたという歴史的役割は終えつつある
と思うけど。

8 :
いやいや、開発コミュニティがさ。
サイトの復旧が途中で止まってる。

9 :
FreeWnn化進行中?

10 :
>>9
あそこまでひどくはないだろう。せめて引き合いに出すならCannaってところだ。
まあ作る方も使う方もフィルタ増やすことくらいしか頭にないからな。
それとUTF-8化。

11 :
でもなんだか今年中に hyperestraier だの rast だのがリリースされそうだし、
寂れる一方なのかもしれない。

12 :
企業関係のメイン検索システムに入ってるんで
そうそう簡単に捨てられることはないんじゃないの?
やっぱ、オフィス、PDFなんかがまとめて行けるのは大きい。
あと、インストールや設定の資料が豊富だし。
ただ、Namazu Proj.はセキュリティ関連アップデートとか
フィルタまわりのソフトウェアバージョンアップに伴う修正
ぐらいしかやってないから、進化は止まっちゃったよね。
良い意味でも悪い意味でも、枯れてしまった。

13 :
茶筌でUTF8を使おうと思って、茶筌のHPの説明にあるとおりにしたんですが、
エラーがでてます。
それに関係しているようなのですが、英語の単語の認識が、例えばHelloだったら
h e l l o のように解析されてしまうんですが、一単語として認識させるには、
何が問題かわかる方いらっしゃいますか。

14 :
あげときますです。。。

15 :
ChaSenのバージョンはいくつよ。

16 :
前スレくらい貼っとけばいいのに
http://pc5.2ch.net/test/read.cgi/unix/1009715036

17 :
a name ごとにインデックス作成するのでやってるんですが、
特定の a name を対象外に指定することってできますでしょうか?
具体的には、ページトップ戻り用の<a name="top">てのをはずしたいんですが…

18 :
あげてみた

19 :
ヒットした検索結果毎に表示される日付のフォーマットって変更することできますか?
テンプレには無いのでcのソースかなと思ったんですが、該当箇所が見当たらないので。。
それと、
------------------------
参考ヒット数:[***:10]
検索式にマッチする10個の文書が見つかりました。
------------------------
の前後に挟まる謎の<p>,<dl>タグと
------------------------
現在のリスト: 1 - 3
ページ: [1]
------------------------
の前後に挟まる謎の<p>タグの消し方ご存知でしょうか?
#namazuの仕様にうんざり…

20 :
うんざりしてるなら,つかわなきゃいいじゃん。

21 :
> namazuの仕様にうんざり…
って高飛車なこと書けるならsrcみて直せるんじゃないの?

22 :
namazuにケチつけるとひたすら叩かれる件。

23 :
たたかれてないじゃん?
うんざりしてるんなら使わなければいいじゃん?
いまだったらEstraier みたいな高機能なのもあるしさ。

24 :
他のを使えと言うのならこのスレはなんなんだ?

25 :
>>24
意味不明

26 :
すいません、色々物議をかもしてるようで…
namazuの仕様にうんざりしたのは、色々と
試行錯誤していてもなかなかうまくいかなかったのでつい…。
修正する方法が無いのであれば仕方ないのかもしれませんが、
もしご存知の方がおりましたらご教授いただければ幸いです。

27 :
>>19
> <p>,<dl>タグと
src以下で grep すりゃ一瞬で見つかる。
output.cの
print_hlist()
print_hitnum()
あたり。

28 :
あと、日付の書式は NMZ.field.date を読んでるだけだから,
そっちを直す。 NMZ.*を手で修正した場合は,rfnmz で
NMZ.field.*を再構築すること。

29 :
>>27,28
ありがとうございます!
もう少し頑張ってみます。

30 :
namazuをWindows2000で動かしています。Apacheを使ってnamazu.cgiもできましたし、
すべてが順調にすすんでいるかのように思いました,,,が、pdfを検索対象にするにあたって
インデックスを作成すると、
検索対象のファイルを調べています...
1個のファイルがインデックス作成の対象として見つかりました
1/1 - /C|/aaa/tsunaba_abst.pdf Unable to convert pdf file (maybe copying protect
ion)
[基本]
日付: Wed Jul 13 14:21:42 2005
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 1
ファイル/秒: 0.00
システム: MSWin32
Perl: 5.00503
Namazu: 2.0.14
となり、インデックス作成できませんでした。
だれか解決法教えてください

31 :
ttp://www.namazu.org/FAQ.html.ja#xpdf

32 :
>>31
それも設定しました!説明などに書いてあるものはすべてしました!mknmz -Cを実行すると、
一応application/pdf: pdf.plが対応になっています。

33 :
>>30
>(maybe copying protection)
元のPDFにprotectionがかかってる?

34 :
>>30
PDFのセキュリティで文字のコピーが許可しないになってる

35 :
そのまんまやんけ

36 :
平和な世の中やなあ。

37 :
>>36
どこが平和だ!!
イラクではアメリカ軍の攻撃で毎日毎日100万人ものイラク人が
虐殺されているのに、よくも平和だとかほざけるもんだな!!

38 :
一日100万ならたいしたことないな。

39 :
もし日本なら130日で日本人全滅か

40 :
rastはWindows版がないから駄目。

41 :
ないなら作r(y

42 :
作る能力ない。誰かキボンヌ。
>>41
> ないなら作r(y

43 :
>>42
> 作る能力ない。誰かキボンヌ。
じゃあ、わたしが作りますから、みなさんは手を出さなくていいです(ニヤニヤ)

44 :
Namazu邪悪だなwww

45 :
>>43は、どう見ても、名乗りだけあげてあとは放置犯。

46 :
IPAで同じことやるよりはいいだろ。

47 :
namazuのフレーズ検索を利用しているのですが,
"New Order"で検索をかけても100%New Orderというフレーズ
がでるわけでなく,ときどきnewとorderが分離してても
結果としてはじきだしちゃう場合があります.
そういうミスをできるだけ減らしたいのですが,なんかいい
テクニックありますでしょうか?
フレーズ検索とはそういうものでしょうか?
googleだとNew-Orderとして検索するとほぼ100%でフレーズとなって
結果がでてくるのですが..

48 :
というか,いまいろいろ調べてたら,
"New Order"で検索をかけてもand検索にしかなっていない事が
判明しました.
フレーズ検索ってどうやってやるの?
環境はFedora4でnamazu of Namazu 2.0.14
です.
よろしくお願いします.

49 :
できました

50 :
>>49
どうやって?

51 :
"{New Order}"
でよかったです.

52 :
>>51
っていうか 「検索式について」 嫁や。

53 :
JAVAでretrievalWordという変数にModern Artsというような文字列をいれて,
下記のような検索プログラムにより,検索エンジンnamazuの
入力として渡しています.
この場合,namazuには,
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0
という入力が渡される事になります.
なおnamazuは,"{Modern Arts}"という検索がいった場合,
"{}"で囲まれた文字列がフレーズとして検索されるという機能をもっています.
つまりターミナルから
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0
と入力するとModern Artsの検索としてうまく行くのですが,
java経由で下記のプログラムからnamazuへ検索要求をしても
namazuでは,
"{Modern Arts}"という文字列の検索を行ってしまい,
Modern Artsの検索がうまくいきません.
String proscmd = "namazu --max=2000000 ";
proscmd = proscmd + "\"{" + retrievalWord + "}\" " + indexdir;
System.out.println("proscmds : " + proscmd);
Process process = Runtime.getRuntime().exec(proscmd);
結果
namazu --max=2000000 "{Modern Arts}" /home/jikken/index_0
この原因がどういう点にあるのかを教えて頂けないでしょうか?
もう長いことこれに時間をかけています。でもわかりません。
宜しくお願い致します.

54 :
>>53
結果だけ見ると、
proscmd = proscmd + retrievalWord + indexdir;
でいいような希ガス。

55 :
メール本文のインデックスを作ってくれるのはありがたいんですけど、
メールに添付されている PDF や、Excel, Word ファイルについても
インデックスを作ることはできませんか?

56 :
>>55
使ってるメーラーによる。

57 :
e-mail の milti-part がそのまま保存される、mh形式です。

58 :
>>57
multi-part部も
2.0.15ではインデックスに含めるようにできると思われる
ttp://www.namazu.org/pipermail/namazu-devel-ja/2005-July/000487.html
2.0.15pre1が出ているから試してみては?

59 :
ナマズのブログ
http://namazu.asablo.jp/blog/

60 :
>>59
密かに kakasidict の寺西版があるね。
http://www.asahi-net.or.jp/~yw3t-trns/namazu/kakasi/

61 :
s/kakasidict/kanwadict/g

62 :
gj
でも何が増えたのかわからないし、独自加工もしにくいので
mkkanwaする前のソースデータもうpきぼんぬ。GPLだし。

63 :
かなり困った。。。
PHPモジュールでmaxhit超えたやつに Too match hitとか出したいんだが
resultが全部0で帰ってくる・・・
どうしたらいいものだろうか

64 :
Too many documents hitだな・・・お恥ずかしい

65 :
会社でUNIX畑の人に「とりあえずなまずって検索してみて」といわれたので
OHPとかこのスレとか見てみました。
日本語全文検索ってほぼGoogleでカバーできてるのでは?
Winではあまり普及していないらしいし、導入に面倒がありそうだし
これからのNamazuの役割って一体なんです?

66 :
>>65
McDonald's があれば、モスバーガー、ロッテリアは必要ない、とかそーゆーこと?

67 :
フレッシュネスうまうまだよもん。
駅前広場はのかわりにはならないんだよもん。

68 :
>>65
UNIX畑の人に聞いてみたら?
ってか色々なサイト見てきたんだったら役割は自ずと見えてくるだろうと思うけど
まぁちょっと設計が古かったりするところはあるとはおもうけど
自分に必要な機能が満たされていればNamazuでも十分だとか
そういうことを判別できれば役割はかなりあると思うよ
まぁ役割は自分が必要と思えばあるし、無ければ無いんだよ

69 :
>>66
> McDonald's があれば、モスバーガー、ロッテリアは必要ない、とかそーゆーこと?
McDonald'sがあれば、家庭に台所は必要ない、って言ってるんだろ。

70 :
というか最初は釣りかと思ったが、>>65がリアル素人な気がしてきた。

71 :
>>65です。たくさんレスありがとうございます。
実際自分はWinしか触ったことのないリアル素人で、OHPや主だった関連サイトを
いくつか見てみましたがいまいちピンときませんでしたが
>>69氏の譬えが的を射ているのかな。
つまりGoogleとかはロボットに「検索してもらう」という受動的な検索だけど
なまずは自分で全文を検索に引っ掛けるように設定するという能動的検索
という理解でよろしかろうか。
なんか新しく入った会社で雑務のひとつとして、なまず検索の更新も担当する
ということらしいです。
まだ具体的には本物の鯰なのかcgiの鯰なのかよくわかりませんが、
これからも何かとお世話になるかも知れません。
どうぞよろしくおながいします。

72 :
ぇ、>>54 で言ってる Google って GoogleDeskTop のことじゃなかったのか。

73 :
> なまず検索の更新も担当
これも謎だよなー
ふつうは更新されたファイルを探し出て、インデックスも更新する
スクリプトを自動的に動かすもんだし。

74 :
>>71
> なんか新しく入った会社で雑務のひとつとして、なまず検索の更新も担当する
> ということらしいです。
UNIX畑の人がいるのに素人にこんな雑務をやらせるこの会社って一体…

75 :
OHPってなんだ?

76 :
Obsoleted Home Page だよもん
webブラウザを立ち上げたときやホームボタンで表示されるページだよもんが、
メンテされないのでリンク切れ多発でよく使うのにリンクしてないサイト
多数出現だよもん

77 :
>>75
> OHPってなんだ?
エロゲー方面の隠語

78 :
>>74
UNIX畑の人が抜けるんで、自分が引継ぎということらしいです。
なにしろ社員3人で他SOHOスタッフしかいないんで勘弁してやってください。
>>77
エロゲ用語だったのですか。ふつーに公式サイトの意味で使われているものとばかり(w
>>73
なるほどー。それがふつうなのですね。
昨日全体の業務引き継ぎ内容を大雑把に説明されただけなので
まだ具体的なことはよくわからないのですが、鯰のこともうちょっと
調べてみるです。

79 :
>>75
ドラクエだと棺おけがついてきている状態

80 :
がーん
ttp://www.ki.nu/OHP/
このことかと思ってた俺って。。。。

81 :
Namazu 2.0.14 for Win32 (Beta) を導入したのですが、
C:\namazu\share\namazu\filter\win32 の中に oleword.pl が見当たりません。
Office 2000ではダメで, 2003が導入されている必要があるのでしょうか?
wvWareのWindows版を導入しようとしたのですが、コマンドがシェルスクリプトに
なっているようです。cygwinがいるのでしょうか?

82 :
>>81
俺は cygwin + Namazu-2.0.14.tar.gz を
ソースコンパイルなので環境がだいぶ違うが、
Namazu 本家の namazu-2.0.14.tar.gz を解凍したら
namazu-2.0.14/filter/win32/ 以下に
olemsword.pl があるよ。
後半の方は俺には質問の意味が分からんのでパス。

83 :
なるほど! ソースなら入っていそうですね。試してみます。

84 :
olemsword.pl と olemcle.pl なら入ってるよ。
c:\Namazu\share\namazu\filter\win32 以下

85 :
ミス
s/olemcle.pl/oleexcel.pl/

86 :
Namazuで検索キーワードの該当部分を
検索結果に反映する方法はありますか?
たとえば、デフォだと該当キーワードがHTMLの末のほうにあっても、
検索結果のプレビューではHTMLの上のほうから表示されてキーワードが
出てきませんよね?
それを、キーワードの該当部分の前後文を表示するようにある方法が
あるらしいといわれたので探しているのですが、わかりません。
もしかして指示者が別の検索エンジンと混同してるかも知れないので、
Namazuにそういう機能があるのかどうか だけでも教えていただければ
幸いです。

87 :
estraier にはそういう機能があった。

88 :
>>87
大ヒントありがとうございます!!
超感謝であります!

89 :
>>86
Namazuはインデックスに単語の出現位置を記録していない。

90 :
>>89
指示者もうろ覚えだったようなので、Esterierと混同していたのですね。
そのように報告しました。
どうもありがとうございます(´∀`)

91 :
Webサイト内の商品検索に使用したいと思うのですが
namazuの検索結果に画像を表示させることは可能ですか?

92 :
>>91
どこかのサイトで検索結果のサムネイル画像をやろうとしてた希ガス。
template の NMZ.result.normal.?? を変更すれば出来るっけか。

93 :
>>91
検索結果に見合った画像を出すのはテンプレ変更だけじゃ無理かも。
「可能か」の問いには、オープンソースだからね。出来るさ。

94 :
ありがとうございます。私のスキルでは簡単には出来そうもないですね。
調べてみたところkabayakiなら出来そうな感じですね。
Vineなんですが導入できるんだろうか。

95 :
>>91 >>94
ML 探したらみつかった。
http://www.stellar.ac/~komai/software/namazu/research/namazu_play/

96 :
>>95
ありがとうございます!
他のどの方法でやるのか悩んでいたので助かりました。

97 :
ビバ・オープンソース!

98 :
i Adios Amigos !

99 :
Namazuで動的ページに対してインデックスを作ることはできますか?
DBから取得した情報をHTMLで出力するPHPプログラムがあるとして、
そのHTMLを検索対象にしたい場合が結構でてくると思うんですが、
やっぱりHTMLファイルを生成するしかないんですかね?
wget 等で一度プログラムをたたいてその結果をインデックスすれば
いけないこともないと思うんですが…。
そのようなNamazuモジュールや設定があればご教示いただけると助かります。

100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼
/dev/null (271)
〓〓〓いつまでも次世代 IMAP その2〓〓〓 (428)
誰でも使える InternetFacsimile (510)
ホロンの X on Windows はどうよ (676)
■■■X11不要論■■■R4■■■ (333)
お前ら*BSDのカーネルをハックしますか? (355)
--log9.info------------------
【受動喫煙】 喫煙者超迷惑 3 【薬物依存者】 (960)
【ディアブロ】譲 刃  漸【禍魂法】 (824)
【R改】U・S・レーシング専用スレ【痛車】 (508)
ガンダムEXTREME VS 初心者集まれ【EXVS】 (470)
【頭文字D6】一家(笑)団欒【黙祷】 (543)
スピリッツオブジオン~修羅の双星~【ザク】2号機 (819)
【BBH】猫専【2011】 (330)
【QMA】正解率が高い問題を晒すスレ6【易問】 (947)
機動戦士ガンダム00 ソレスタルビーングVS地球連邦 (240)
【遊戯王】デュエルターミナルスレ21台目【ZEXAL】 (518)
頭文字D6晒しスレ ネオ乙w (748)
【コンマイ】HORSERIDERS追加カード議論スレ【見ろよ】 (861)
【BBH2】BASEBALL HEROES GR・OT報告スレ4枚目 (863)
【QMA】クイズマジックアカデミー6 居残り1時間目 (651)
頭文字D5痛いチーム晒し (400)
ょぅι゛ょスレ チョコゲット19個目 (273)
--log55.com------------------
【反日左翼】原口一博「あなた方が僕らが政権の時にいたら真っ先に役所から去ってもらうリストに入る、脅しじゃない」 ネット「恐怖政治
【食糞パヨク悲報】朝日新聞社、中間決算で「単体赤字」に転落 ネット「身から出た錆ざまあああ」「さらに極左に先鋭化するんかな
【反日左翼】サンモニ・浜田敬子「就職率が良くなったのはアベノミクスの成果ではない」 ネット「民主党時代に10%以上もいた失業者…
【高齢左翼】田嶋陽子「もし日本から米軍がいなくなると想定すると、日本は中国と仲良くして…」 ネット「鳩山由紀夫グループに入った
【反日左翼】沖タイ阿部岳「在日コリアンと沖縄は差別されている。沖縄にも差別を根絶する条例が必要だ」
【自民党ネトサポ問題】週刊ポストが、安倍政権の大規模「ネット工作」を特集!デマや誹謗中傷を駆使して”安倍賛美”の世論を形成!
【反日左翼完敗】NHK世論調査 特定野党、 『桜を見る会』で支持率を下げる 立憲5.5%(-0.8) 共産3.0%(-0.5) ネット「国民を舐めすぎ
【反日左翼憤死】麻生大臣「韓国が徴用工判決で差押えしている資産の現金化を実行したら、貿易を見直したり、金融制裁に踏み切ったり…