1read 100read
2012年07月Linux292: オープンソースの全文検索ソフト (211)
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▼
_P2P____lt;lt; BitTorrent gt;gt;____P2P_ (282)
【視聴・録画】Linuxでテレビ総合7【デジタル/アナログ】 (678)
おまえらのLINUXマシンのスペック教えて (615)
おまえらのLINUXマシンのスペック教えて (615)
Linuxプログラミング 2 (282)
SSDでLinuxを運用するスレ (660)
オープンソースの全文検索ソフト
- 1 :02/11/01 〜 最終レス :2012/08/12
- オープンソースの全文検索エンジン全般を扱うスレッドです。
ソフトウェアによっては固有のスレッドが立てられている場合もあります。
それらについては適宜リンクを張ります。
Namazu http://www.namazu.org/
Glimpse http://webglimpse.org/
SWISH++ http://homepage.mac.com/pauljlucas/software/swish/
ht:/Dig http://www.htdig.org/
Comparing Open Source Indexers
http://www.infomotions.com/musings/opensource-indexers/
関連スレッド
全文検索ユーティリティ統一スレッド
http://pc.2ch.net/test/read.cgi/bsoft/1006680403/
ビジネスソフト板のスレッドです。
主に Windows のパッケージソフトについてのようです。
Microsoftの全文検索ソフト(Indexing Service等)
http://pc3.2ch.net/test/read.cgi/win/1035387243/
- 2 :
- Namazu は専用スレがあります。
Namazu 固有の話題はそちらの方がいいでしょう。
他の全文検索エンジンとの比較などはこちらのスレが良いかも。
【UNIX板】全文検索エンジンNamazu
http://pc.2ch.net/test/read.cgi/unix/1009715036/
【Linux板】namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/
【Webプログラミング板】Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/php/992477868/
【Webプログラミング板過去スレ】Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/perl/981352718/
- 3 :
- オープンソースに限りませんが、全文検索ソフトのリストがこちらにあります。
日本語全文検索エンジンソフトウェアのリスト
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html
THX to 馬場さん@宇物
- 4 :
- >>1 スレ立てありがとうございました。
- 5 :
- Namazu など、日本語を扱うことができる全文検索ソフトの多くは、
kakashi や chasen などの補助ソフトを使っています。
KAKASI - 漢字→かな(ローマ字)変換プログラム
http://kakasi.namazu.org/
Morphological Analyzer ChaSen
http://chasen.aist-nara.ac.jp/
○参考リンク
日本語全文検索での索引作成・検索アルゴリズム
http://www-6.ibm.com/jp/software/data/cm/txt.html
ASCII24 デジタル用語辞典 - 形態素解析
http://yougo.ascii24.com/gh/60/006070.html
- 6 :
- 渋さの漂うスレですな。
- 7 :
- Snatcher Full-text Search System ver. 3
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher.html (English)
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html (Japanese)
Copyright (c) 2002 Mikio Hirabayashi. All rights reserved
概要(上記サイトより引用)
Snatcherは、全文検索システムです。
GoogleやAltaVistaをご存じの方は、それが個人向けに簡単になったものだと思ってください。
検索フォームに検索語を入力すると、その語を含む文書の情報を一覧することができます。
検索結果は、該当文書の検索条件への適合度(スコア)の順で、文書の要約とともに表示されます。
Snatcherは、中規模(文書数100000、総容量1GB程度まで)のWebサイトやファイルサーバでの運用に適したシステムです。
それ以外に、メールボックスやオンラインマニュアルの検索にも使うことができます。
- 8 :
- 入力ファイルから日本語部分を削除するのに使えそうな方法。
【Linux板】namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/357n
Namazu, Snatcher などでは日本語を扱うことができます。
しかし多くのオープンソースの全文検索ソフトでは日本語を適切に扱うことができません。
無理やり日本語ファイルをインデックス化すると、
2バイトコードのかけらなどを単語として認識してしまい、
インデックスファイルのサイズが異常に大きくなってしまうことがあります。
- 9 :
- ファイル形式の判別には、拡張子あるいはパス名と正規表現のマッOで行っているものが多いようですが、
Namazu など Perl ベースで書かれているものは File::MMagic を使っているようですね。
http://search.cpan.org/dist/File-MMagic/
- 10 :
- Namazu の mknmz で ~/Mail/inbox をインデックス化してみました。
分かち書きには kakasi -w を使っています。
[Append]
Date: Fri Nov 1 21:02:37 2002
Added Documents: 981
Deleted Documents: 2
Size (bytes): 10,434,220
Total Documents: 981
Added Keywords: 61,229
Total Keywords: 62,044
Wakati: module_kakasi -ieuc -oeuc -w
Time (sec): 447
File/Sec: 2.19
System: linux
Perl: 5.006001
Namazu: 2.0.10
real 7m28.223s
user 1m57.340s
sys 0m3.600s
- 11 :
- できたインデックス (NMZ.* ファイルたち) の大きさは、合計で 3200KB でした。
- 12 :
- >>5 こんなのも。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
Mhttp://cl.aist-nara.ac.jp/~taku-ku/software/mecab/
C++ で書かれていて ChaSen よりも高速らしい。
他言語への binding も豊富。
- 13 :
- >>12
情報ありがとうございます。
しばらく namazu をいじってました。
独自フィルタを作る方法を知りたくって。
namazuでサーバーを立てたい
http://pc.2ch.net/test/read.cgi/linux/989179375/
- 14 :
- Windows で namazu + chasen を使ってみました。
namazu も chasen もそれぞれ Windows 用バイナリが用意されているのですが、
組み合わせて使おうとすると cygwin 上でソースからコンパイルしたものが必要です。
Namazu全文検索システム
http://pc.2ch.net/test/read.cgi/php/992477868/99-102
- 15 :
- こんなの、どーよ? http://geta.ex.nii.ac.jp/
- 16 :
- namazu + kakashi/chasen で決まりでしょう。
んでもってapache上でnamazu.cgi動かす。
glimpseって有料じゃなかったかな?
ht://dig は日本語とおらないし。
- 17 :
- ねえ、日本語ってどう処理すればいいの?
- 18 :
- 保全age
- 19 :
- >>15 GETA って scheme や Haskell との interface も考えてたりして、 ちょっとマニアックかも
- 20 :
- >>17
まず形態素解析器で形態素を解析します。(Chasen, Juman, MeCab)
その後、必要であれば、どの文節がどの文節に係っているか(係り受け構造)を構文解析器にて、解析します。(CaboCha, KNP)
構文解析器に関しては、以前はKNPが良く利用されていたようですが、最近は CaboCha が良く使われるようです。
# SVM を使用していて精度が高い (らしぃ
- 21 :
- >>19
FreeBSDをベースに開発している所からしてマニアックdayo!
- 22 :
- ひさびさにmknmzちう...たぶん今日中にはIndexができているだろう。
@@ Processing gzip file ... (using Compress::Zlib)
70/27876 - /usr/share/doc/HOWTO/en-txt/Encourage-Women-Linux-HOWTO.gz [text/plain]
71/27876 - /usr/share/doc/HOWTO/en-txt/Enterprise-Java-for-Linux-HOWTO [text/plain]
@@ モジュール: html.pl
@@ Processing html file ...
72/27876 - /usr/share/doc/HOWTO/en-txt/Esperanto-HOWTO [text/html]
@@ モジュール: gzip.pl
@@ Processing gzip file ... (using Compress::Zlib)
73/27876 - /usr/share/doc/HOWTO/en-txt/Ethernet-Bridge-netfilter-HOWTO.gz [text/plain]
74/27876 - /usr/share/doc/HOWTO/en-txt/Ethernet-HOWTO [text/plain]
インデックスを書き出しています...
- 23 :
- 所要時間 8.5h でした。
インデックスを書き出しています...
[追加]
日付: Mon Jan 6 19:44:54 2003
追加された文書の数: 22,453
削除された文書の数: 2,890
更新された文書の数: 4,916
サイズ (bytes): 275,352,781
合計の文書数: 40,141
追加キーワード数: 840,373
合計キーワード数: 2,874,103
わかち書き: module_kakasi -ieuc -oeuc -w
経過時間 (秒): 30,674
ファイル/秒: 0.89
システム: linux
Perl: 5.006001
Namazu: 2.0.12
- 24 :
- IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/
1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。
27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か?
38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。
73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l
>ところで、IPが抜かれて何か今までと変わることってあるのでしょうか?
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。
- 25 :
- >>292
>245
>働かざるもの食うべからず。
ということで、ひろゆきちゃんが保存(w
- 26 :
- >>417
一人釣れたようだぜにょろゆき
- 27 :
- ひろゆきさまお疲れ様また会える日まで
- 28 :
- IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/
1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。
27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か?
38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。
73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l
>ところで、IPが抜かれて何か今までと変わることってあるのでしょうか?
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。
- 29 :
- ウェー、ハッハッハ・・・
- 30 :
- 2chは全部IP表示すればよい
- 31 :
- >97
2chやってるからヒッキーって責任転嫁が既に敗北者っぽ・・。
- 32 :
- (^^)
- 33 :
- さげ。
- 34 :
- あげ
- 35 :
- 原田さんの(odinじゃないやつ)http://www.ingrid.org/~harada/interface/
- 36 :
- QDBMあげ
- 37 :
- http://hoshizawa.no-ip.com/suzaku/index.html
これみたいにロボットとセットになったやつって他にないかな。
- 38 :
- ニヤニヤ(・∀・)
- 39 :
-
☆^〜^★「探し物とくとくページ」☆^〜^★
http://sagatoku.fc2web.com/
あなたの探し物きっとみつかります
ほぼ毎日 新着情報追加 毎日更新
新着情報メールでお知らせ
- 40 :
- QDBMいいね。http://qdbm.sourceforge.net/
結構簡単に全文検索エンジン作れそう。
- 41 :
- ★男はココを見るべし★女と金とサンプルムービー★
↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓
http://www.pink-angel.jp/betu/linkvp2/linkvp.html
- 42 :
- http://www.agemasukudasai.com/bloom/
- 43 :
- >>40
perlの言語バインド希望
- 44 :
- (^^)
- 45 :
- ∧_∧
( ^^ )< ぬるぽ(^^)
- 46 :
- age
- 47 :
- 良スレあげ。
- 48 :
- http://mnogosearch.org/doc/msearch-cjk.html
( ´_ゝ`)フーン
- 49 :
- http://homepage.mac.com/hitomi18/
- 50 :
- 糞スレsage
- 51 :
- >>43
Perl用APIあるみたいよ。
- 52 :
- http://homepage.mac.com/hitomi18/
- 53 :
- おい、聞いてくれ!
リナックス板の自治厨が、一切規定に反していない
ディストリスレを、通告もなく一方的に削除しやがった!
これは、そのディストリを発売した会社に対する
侮辱であり、1の言論の自由を侵害し
ユーザーに対する差別的行為だ!
まじで、どうにかしてくれ!
2ちゃんねるは、削除人が横暴すぎる!
革命を起こそう!正常化を図るのだ!
- 54 :
- >>51
Ruby用APIも入ったみたいだね。
あとメジャーどころでサポートされていないのは
PHPとPythonくらいか。
- 55 :
- ━―━―━―━―━―━―━―━―━[JR山崎駅(^^)]━―━―━―━―━―━―━―━―━―
- 56 :
- 保存age
- 57 :
- ∧_∧
ピュ.ー ( ^^ ) <これからも僕を応援して下さいね(^^)。
=〔~∪ ̄ ̄〕
= ◎――◎ 山崎渉
- 58 :
-
__∧_∧_
|( ^^ )| <寝るぽ(^^)
|\⌒⌒⌒\
\ |⌒⌒⌒~| 山崎渉
~ ̄ ̄ ̄ ̄
- 59 :
- ∧_∧ ∧_∧
ピュ.ー ( ・3・) ( ^^ ) <これからも僕たちを応援して下さいね(^^)。
=〔~∪ ̄ ̄ ̄∪ ̄ ̄〕
= ◎――――――◎ 山崎渉&ぼるじょあ
- 60 :
- ( ・∀・) | | ガッ
と ) | |
Y /ノ 人
/ ) < >__Λ∩
_/し' //. V`Д´)/
(_フ彡 / ←>>57-59
- 61 :
- http://slashdot.jp/journal.pl?op=display&uid=64&id=145402
mnoGoSearchがChaSen使えることは知っていたけど、MeCabにも
対応してたのか...
- 62 :
- (⌒V⌒)
│ ^ ^ │<これからも僕を応援して下さいね(^^)。
⊂| |つ
(_)(_) 山崎パン
- 63 :
- 保守
- 64 :
- >>15
8/28 に GETA の微修正があったらすぃ
- 65 :
- 外国産検索ソフトを日本語化してるようなプロジェクトって無いの?
- 66 :
- >>65
http://www.kusastro.kyoto-u.ac.jp/~baba/wais/index.html
- 67 :
- (・∀・)renice!
- 68 :
- grep使え
- 69 :
- Snatcher Full-text Search System
http://www.arc.ritsumei.ac.jp/kachina/mikio/snatcher-ja.html
これ使ってる人いる?
- 70 :
- んで、何でこのスレがLinux板なの?
- 71 :
- >>70 ほかに適当な板が無かったから…
あと、ビジネスソフト板とウィンドウズ板にはすでにスレッドがあったけど、
そっちはパッケージソフトの話題がメインだったから。
- 72 :
- >>69
それの後継が出たみたいよ。日本語には対応してないっぽいが
http://qdbm.sourceforge.net/cgi-bin/qfts.cgi
- 73 :
- ソフトウエア板を知らないのか?
- 74 :
- ソフト板に立てたら、オープンソースという言葉だけで変なのが沸いてくるよ。
- 75 :
- なぜ Unix 板じゃないのか、と。
- 76 :
- インデックス作るのが面倒なんでインデックス作らないソフトでのお勧めは何ですか?
- 77 :
- grep
- 78 :
- migemo
- 79 :
- QDBM日本語化期待あげ
- 80 :
- Snatcherの掲示板より
> とりあえず、QDBMの全文検索機能を日本語化しただけのものを作ってみました。
> 以下の場所に置いてあります。
>
> http://estraier.sourceforge.net/
全然気がつかなかったけど、キテタ━━(゚∀゚)━( ゚∀)━( ゚)━( )━( )━(゚ )━(∀゚ )━(゚∀゚)━━!!!!!
- 81 :
- もつかれさん
- 82 :
- >80
人柱&報告よろ。
- 83 :
- うへ、QDBMもEstraierもリリース頻繁杉…
いや、まあいいことなのかもしれないけど、人柱になるのも大変だな。
- 84 :
- とか言ってる間にもまた新しいバージョン出てるし。
ハングルの需要とかあんのか?
- 85 :
- > ハングルの需要とかあんのか?
少なくとも日常的にハングルの読み書きをしている人たちには
需要はあるんじゃない?
- 86 :
- mhtに対応してほしいところだな。
- 87 :
- >>86
もう対応したらしい。早っ!
- 88 :
- Snatcher掲示板がなくなっとる。_| ̄|◯
- 89 :
- Estraierに移行するからSnatcherの保守は停止するって掲示版に書いてあった。
それはいいとして、代わりにできたMLが英語だけっぽいのがどうにもこうにも。
- 90 :
- msearch使ってるひといる?
namazuより導入簡単だしカスタマイズも簡単だし。
- 91 :
- >1 は、「全文検索」と「Index検索」を間違えてないか?
namazuは全文検索じゃないぞ。
スレタイ見たときに、「grepの話か?」と思ったんだが。
- 92 :
- うわあ……サムイやつが出現したな……
- 93 :
- >>91は日経Linuxのアレな記事を鵜呑みにしているアフォ。
平河町の書き換えも困ったものだ。
- 94 :
- >>93
で、全文検索の正確な定義って何?
俺は当時あの記事みて考え込んだYO
- 95 :
- 全文検査君ソフト
- 96 :
- 記事のことは知らんけど、
ファイル名や更新日などから特定のファイルを見つけ出すのと違って、
ファイルの内容からキーワードを拾ってファイルを探すのが全文検索。
全文検索にとってINDEX検索とは、検索の一手段ということになる。
って感じか。
- 97 :
- >>96
その定義だと「全文」の言葉を使うのはおかしいんでねーの?
むしろ「ファイル検索」というのがふさわしいと思う
あくまでテキストすべて(全文)を検索するから「全文検索」じゃないの?
だったらやっぱりINDEX検索だけだと全文検索の要件を満たさないと思うなー
NamazuがINDEX検索だけなのかどうかは分かりませんが
- 98 :
- ナンセンスな方向に逝く悪寒...
- 99 :
- インデックスを作るにあたって記事の全文を対象にしてるわけだから、全文検索と言えるでしょ。
やたら狭義に解釈してもしょうがない。
- 100read 1read
- 1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▲
どうしてUbuntuは衰退したのか? (238)
chumby 3匹目 (202)
縦書きエディタはないか (421)
Samba全く使えないのはなぜか? (254)
galeon (676)
Slackware 4.0 (807)
--log9.info------------------
矢沢永吉と長渕剛が喧嘩したらどっちが強い?2 (531)
堀川とかいうビーイングのアンチ (513)
長渕剛の音楽はR以下 (388)
反町隆史は日本最高のロックスターだ☆ロト6 (387)
巧いこと言ってるようでよくわかんない歌詞 (312)
L'Arcファンによるハイドに対する愚痴不満スレ (673)
二代目J Soul Broters (502)
GARNET CROW 曲名合体 (225)
中島みゆきが、未だ歌詞に使ってない言葉 (292)
空耳Perfume〜漢は歌詞カードなんて見ない!〜 (416)
さくらまやvs大橋のぞみどちらがいい (257)
絢香が嫌いな人どのアーティスト好き? (678)
EXILE・ネスミスアンチスレ・1 (666)
解散して欲しいバンド・引退して欲しいアーティスト (737)
志方あきこヲチ4 (451)
三大過大評価バンド「UVER」「GLAY」あと一組は? (206)
--log55.com------------------
JK×釣りというおっさん入れ食い間違いナシのきらら漫画「スローループ」、3巻発売!これが次にアニメ化するきららだ!(多分) [425612722]
【画像】 PS5、おっきいよぉ… [471488408]
【許した】山添「なんで山口のいち支部に電通が献金してるん?普通こんなことないよ?」安倍「わからん…😌」 [663933624]
シャーマンキングが新作アニメ化。原作の最後までを描く。旧アニメはひどかったね… [192334901]
乙武洋匡おこ。「多目的トイレでセックスしてんじゃねーよ! ここしか使えない人の事を考えてるのか?」 [571598972]
【悲報】ワイの元カノ、ワイと別れて一週間で彼氏ができる [893566662]
賭け麻雀をした疑いで暴力団幹部ら5人を逮捕 [176626128]
【極悪】家出の女子中学生2人を自分で管理する家の個室に住まわせ、3食お小遣い付きで宅建の勉強をさせていた不動産業の男に有罪判決 [597533159]
-