形態素解析と日本語処理

1 ：05/01/25 ～最終レス：11/12/22: 日本語はご存じの通り、文章が単語で区切られていません。
そこで検索のインデックスを作る際には、まず単語や品詞に分ける必要があります。
これを形態素解析といいます。
このスレでは、その形態素解析について語っていきましょう。

2 ：: Prolog屋なのですが、この分野の知識は全くありません。
勉強させてください。
3 ：: 自然言語処理スレッド
http://pc5.2ch.net/test/read.cgi/tech/1011988273/
4 ：: お、茶筌ネタかい？いいねぇ。
5 ：: まずは、漢字、ひらがな、カタカナ、句読点、記号などで分ける。
それから?
6 ：: 分けるとどうなるんだろう？
試してみますかね。
7 ：: それくらいなら頭ん中で試せば十分だろ。
8 ：: 次に品詞でわけてみるる。
今日は良い天気ですね。
↓
今日|は|良い|天気|です|ね|。
(は(今日((天気 (良い ) です)ね)))
「今日は」は２通りの解釈がある。
こんにち|は|良い|天気|です|ね|。
きょう|は|良い|天気|です|ね|。
9 ：: もう1通りあるんじゃない？
こんにちは|良い|天気|です|ね|。
10 ：: 漢字かな混じりの文章はわかりやすいですが、ディクテーション情報(音素から組んだ文章、要は全部ひらがなとかローマ字）から形態素分析って可能なんでしょうか？
人はどのように判断しているんでしょうかね？
11 ：: 何か良い死霊ないの？
12 ：: ここではきものをぬいでください
13 ：: あしがりのわをかけやまのかずのきのわをかずさねもかずさかずとも
あれもしかしてあしがらだったか
14 ：: 大原ゆきが華麗に2get
15 ：: ?
16 ：: http://www.unixuser.org/~euske/doc/postag/index.html
17 ：: きょうはいしゃにいく
今日歯医者に行く
今日は医者に行く
18 ：: こっちは初心者スレ？
19 ：: >>18
どちらかというと、より特化したスレ。
20 ：: すもももももももものうち
21 ：: 最初に区切りとなる文字を探すところから始める?
22 ：: プロが来ないと駄スレの予感…
23 ：: 形態素解析システム茶筌
ttp://chasen.naist.jp/hiki/ChaSen/
24 ：: はんかくかたかなはやめろ
半角カタカナ早めろ
半角カタカナは止めろ
単なる誤変換スレ化？
25 ：: >>22
すでに研究されつくされたテーマって気がするが。
1はスレ立ててないで、論文探した方がいいんじゃないの？
26 ：: >>25
本当にそうかな？
もしそうなら完璧にできるソフトが存在するはずだ。
27 ：: そうとも限らんだろ。
完璧にできるソフトが作れるはずの論文が存在するはずだ、
ならいえるかも知れないが。
28 ：: もしくは完璧に作るのは不可能だ、という論文な。
29 ：: >>28
その手の論文は数十年後に破られるのがありがちな話なので、それはなんとも。

30 ：: >>29
> その手の論文は数十年後に破られるのがありがちな話なので、
実例キボン
31 ：: 完璧に出来てるだろ
茶筅とか
あとは辞書を増やすだけ
32 ：: 統計推論型のはまだ全然
33 ：: なんつーか先が無さそうでかわいそうな分野だよね
34 ：: じゃあこのスレで日本語変換システムを一つ作るってのはどうだ？
かんなやうんぬは丸っきりクソだろ？
35 ：: 名前は「ぬるぽ」
36 ：: >>34
Windows用なら参加する。
37 ：: 形態素解析のアルゴリズムさえできれば、WindowsでもXでも使えるだろう。
38 ：: UnicodeかShift_JISかeuc-jpか。文字コード多いよ。低レベルの処理ではデータ構造を抽象化すると遅くなるから、高位のメソッドを抽象化しないと。
gchは抽象化された符号なし文字。
typedef unsigned int uint;
inline gch*GchNext(gch*);
inline gch*GchPrev(gch*,gch*);
inline uint GchLen(gch*);
39 ：: まず、お前のエロ雑誌に出現する品詞をKAKASIかCHASENかJUMAN使って統計してくれ。
40 ：: >39
をっさん、何を統計するだ？
品詞の数、品詞の並び方のパターン、パターンのパターン…。
文法上の属性か？
41 ：: まあどうがんばってもATOKには勝ち目ないし
42 ：: まずはどういう設計にするのかを決めないと。データだけあっても仕方がない。
43 ：: いや、データさえあれば簡単だ。俺なら１日で組める。
44 ：: >>43
それだったら君個人で作ればいいじゃない。
45 ：: ごめん、全言撤回。
46 ：: だからデータがねえっつってんだろ。
日本語わからねえのか？
おまえこそ形態素解析勉強して日本語読めるようになれよ。
47 ：: ×全
○前
48 ：: >>46
どんなアルゴリズムにするつもりなの？
データが豊富にあったら良い物ができるの？本当に？
49 ：: アルゴリズムなんて問題じゃない。
何度も言うが、必要なのはデータとデータ構造だ。
50 ：: 文法データならCHASENとKAKASIからXMLパーサ使って借りてこい。
他のちまちましたデータは辞書.comや省庁回ってこい。
51 ：: ポータルサイトも膨大な情報を分類しているだろ
52 ：: 細かい実装はうんぬの公開情報見ればいいだろ。今は変換先読みとWeb辞書連携が主流だ。
53 ：: なんでそんなに堅実に作ろうとするんだろう。
新規性はないの？
54 ：: 日本語ワープロの元祖では変換候補を木構造でしぼりこんでいく単純なものだ。それこそデータがあれば一日で作れる。
大学のwebにけば変換方法の論文は腐るほど見付かる。ぐぐれ！
55 ：: >>54
うん、知ってる。
56 ：: ここで作れるのは、特定の用途に特化した入力補助エンジンと概念データベースくらいだろ？違うか？
57 ：: いちいち探すのマンドクサイ。誰か秘密基地作れよ
58 ：: ａを任意の名詞節とする。文「ａを食べる」をJUMANやKAKASIなどで統語的に調べ、機械的に品詞並びにする。
文「ａを食べる」が真の場合、ａは食べ物に分類される。このように、その文の真偽から食べ物かどうかを知ることができる。
文が偽の場合、その文はどんな文脈にあるか？
59 ：: >58
夢や空想、憶測などの心の中の出来事や会話などの文脈に多い。～と思う、～と言う、考える。
また、物語や体験談などでは以前の勘違いを打ち消すことが多い。

60 ：: このように、比較的規則的に書かれた文書から概念の意味や分類法を抽出できるはずだ。
61 ：: >60
要するに、２ちゃんねるみたいな不規則なソースから知能を作るのは無理そうだな。
62 ：: >>61
2ちゃんねるは日本語としておかしい文章が多いけれど、規則性がないとは言えない
と思うような気がするでそ
63 ：: そこで「知能とインターフェースの段階的進化法」を唱える！
64 ：: 「ん」を「そ」に変えれば２ちゃん語っぽくなる
65 ：: 形態素解析された誤りの含まれた文章を、文字マルコフ連鎖で誤りの場所を
探したのですが上手く誤りの場所を探すことができませんでした。
何かいい方法はないでしょうか？アドバイスください、よろしくお願いします。
66 ：: >>65
出来の良い売り物を買えばよいです
67 ：: >>65
総当たり
68 ：: >>33
> なんつーか先が無さそうでかわいそうな分野だよね
ある手法のことをウェブで比較的あっさり批判してる人がいて、批判された方
がマジでキレてるのには笑った。同じ専門分野の研究者として悲しいとか恥か
しい、みたいなことまで書き連ねてた。
批判の内容が正当なのか間違ってるのかは自分は門外漢だから判断できん。で
も研究の上で不当な批判を受けるのなんか当たり前。誤解や不当な評価があっ
たら、無視したっていいし、冷静に反論してもいい。
細かいことを感情的にウジウジつつくようになってるのはタコツボ化してる何
よりの証拠だね。
69 ：: >>65
単純にマルコフ連鎖だけを頼りにすると、助詞が邪魔になってうまくいかないって意味？
70 ：: つーか、どんなレベルの誤りを検出しようとしている？
71 ：: >>70の文章だと全体に下線がつくレベル。
72 ：: >>65
ベイズ推定使え。
73 ：: >>72
bayesはどう考えても無茶だろ(藁
74 ：: 音声認識装置によって書籍を何文か出力させて、これをマルコフ連鎖モデル
にかけて置換誤りなどの誤りの場所を探したいのですが誤りのある部分が閾値を
下回ってくれず上手くいきませんでした。これは音声認識装置は単語区切り（形態素解析）
で文章を出力しているので文字マルコフでは有効ではないということなのでしょうか？
上手く探すいい方法はないでしょうか？（構文解析とか使うのかなあ？）
詳しい方、アドバイスもらえないでしょうか。長文でゴメンナサイ。
75 ：: 閾値を厳しくする
76 ：: 誰かがいぜんやってたが、２ｃｈのスレを形態素解析する。そしてマップを作る。
そこまではそいつがやってたが、精度をあげ、リンクなども絡めて
新しい掲示板のトップメニューとして確立したらどう？
まったく新しいインデックスになるよ。KnoppixのHPで紹介されてる
ウェブの中での自分の位置みたいな地図を
掲示板に特化して作るわけ。
そうするとインデックスからスレ同士の関係が把握しやすい。
例えば総合の質問スレにレスつけるか専用の質問スレにレスつけるかどうか
検索せずに目的のスレの大体の場所がわかる。そのスレから引用されてる、
もしくは言及されてる単語が載っているほかのスレも判る。
って、WebProgの新しい掲示板作るスレで言ったらまったく相手にされなかったよ
77 ：: それと同じことはベイズ推定を利用したメールのフィルタリング機能やWikiの機能として
既に実現されてるけどな。
78 ：: このスレ全体的に他のスレよりレベル高杉。
もう少しかみ砕いて、わかりやすく説明してください
79 ：: マルコフとかベイズとか日本語の解析するなら日本人だしてこいや。
名前出せるほどのものがあるかどうかはしらんが…。
80 ：: >>78
2・3の専門用語が出ているけれど、この世界では当り前だから、要は慣れです。
知っているか知っていないかの違いですね。
しかも、それほど複雑でも無いので、自分で調べてください。
81 ：: >>76
スレタイ検索に実装して、関連スレを検索可能にするのも楽しそうだけど
82 ：: >>76
カキコしている人が無意識のうちにやってるカテゴライズを
もう一回やり直すのね。
83 ：: >>76
形態素分析なんかしないで、スレの内容を適当にベクトル化して
クラスタリングでもしてみるのも面白いかもしれない。
84 ：: >>83
自分で何言ってるかわかってないだろ。
ベクトル化の前に形態素解析(でもn-gramでもいいけどさ)があるんだろ。
85 ：: 形態素解析せずにスレの内容をベクトル化する方法を教えてください
86 ：: >>85
文字種でベクトル化
日本語の場合、結構いけるかもよ
87 ：: 例
http://www.touchgraph.com/TGGoogleBrowser.php?start=unit.aist.go.jp/it/knoppix/
88 ：: 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
用いれば簡単にできます。
ただし、問題は、そのためには、各種辞書とかが必要です。
もちろん、それに伴う、確率値とか、コストとか。
さらに、連語とか、複合語とかをどのようにあつかうかとか、
未知語(辞書にない言葉)とかをどのように扱うとか、
いろいろな問題があります。
そこらあたりをなんとかかいぬぐり実用に達しているのが、茶筅とか
その部類の有名な形態素解析な感じです。
研究的にはやりつくした感はありますが、実用にはほど遠いと思います。
これはもはや情報処理というよりは言語学の力を借りないと難しいな
と、個人的には思います。
89 ：: >>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
「ヴィタビ」(もしくはビタビ)ってんだよ。
90 ：: えっと、kakasi のいわゆる「お知らせ問題」は、
もうどうしようもない事実として受け止めるしかないんでしょうか？
http://ofo.jp/osakana/diary20030522.phtml
POPFile とかも kakasi を使ってるんで、
なんとか解決方法 & パッチは無いものかと思っているんですが。
91 ：: >>88
> 形態素解析自体は、ラティス構造を用いたヴィテルビアルゴリズムを
> 用いれば簡単にできます。
理屈としてはヴィタビがいいけど、実際に使われるのはA*が多いだろ。
92 ：: >>90
「お知らせ」なら「知らせ」で検索させた後で
「お」が付く文脈かどうか判定するフロントエンド作れ。
93 ：: おまいら、教えて下さい。
漏れのマシンは別に一太郎やらATOKやらはインスコしてないのに
C:\Program Files\Justsystem\JSLIB32\AddWord2.exe
なんてものがあります。で、バージョン情報を見たら
「Js形態素解析登録ﾌﾟﾛｸﾞﾗﾑ」とかってなってますた。これってなんですか？
どうしてこんなもんが入ってるか調べる方法とかありますか？
94 ：: スレ違い
95 ：: 　　　　〃〃∩ 　_, ,_
　　　　　⊂⌒（　つД｀）
　　　　　　｀ヽ_ ノ ⊂ノ
　　　　　　　　　　　　　　グスグス・・
　　　　　　　∩
　　　　　⊂⌒(　　_, ,_）　ｸﾞｽﾝ・・・。
　　　　　　｀ヽ_つ ⊂ノ
96 ：: 取りあえずそれを立ち上げて
http://www.sysinternals.com/ntw2k/freeware/procexp.shtml
こういうのでどのプロセスが他に起動するか見てみればどう？
もしくは他のソフトを一個一個試してみてその形態素解析の奴が一緒に
立ち上がった瞬間を見ておくしかないな。
サービスの一つに関連付けられてるかもしれんし。
わかったら何のためのプログラムか、何に使えるのか報告ヨロ
97 ：: 教えてください。
昨年からJuman-4.0を使っています。
これはどのような特徴を持ったソフトなのですか。
98 ：: >>97
http://chasen.org/~taku/blog/archives/2004/02/chasen_2.html
99 ：: 文楽の義太夫なんか聴く場合、7・5調の音数律のような意識を
働かさないと理解しがたい。少なくとも私には。
こういうものがメインにはなりえないだろうが、並列処理で
音数律解析が働いている、なんてことはできないものだろうか。
100read 1read
1read 100read TOP カテ一覧スレ一覧削除依頼 ▲ ・　次のスレ C言が全く分からない俺を神が救ってくれるスレ 【Lisp】プログラミング言語 Clojure #2【JVM】 スレを勃てるまでもないC/C++の質問はここで 20 文字コードの種類は何故複数あるのでしょうか？