2012年09月プログラム57: 自然言語処理スレッド　その３ (617) TOP カテ一覧スレ一覧 2ch元削除依頼 ▼
くだすれC++Builder（超初心者用）その5 (328)
Androidアプリ制作依頼スレ (618)
【初心者歓迎】C/C++室 Ver.80【環境依存OK】 (550)
メガデモを語る fr-08 (663)
Ruby 初心者スレッド Part 50 (489)
Visual Studio 2008 Part 21 (721)

自然言語処理スレッド　その３

1 ：2009/02/20 ～最終レス：2012/11/02: このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点をおきたいので、
学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。

前スレ：自然言語処理スレッド　その２
http://pc11.2ch.net/test/read.cgi/tech/1173105287/
次スレは>>980

2 ：: 形態素解析
- Juman: http://nlp.kuee.kyoto-u.ac.jp/nl-resource/juman.html
- ChaSen: http://chasen.naist.jp/hiki/ChaSen/
- KAKASI: http://kakasi.namazu.org/
- MeCab: http://mecab.sourceforge.net/
依存構造解析
- KNP: http://nlp.kuee.kyoto-u.ac.jp/nl-resource/knp.html
- CaboCha: http://chasen.org/~taku/software/cabocha/
Namazu
- namazu: http://www.namazu.org/
3 ：: 関連スレ
形態素解析と日本語処理
http://pc11.2ch.net/test/read.cgi/tech/1106606281/
4 ：: 拠り所にする文法規則ってあるじゃん
めかぶならIPAとか
でも諸説あってどれか定められない
どの文法が機械処理に向いてるんだろう

ってずっと考えてるだけで実装が進まない
5 ：: 　　　　　　　／/
　　　　　／　 /　　　ﾊﾟｶｯ
　　　　 //⌒)∩＿＿∩
　　　　/.|　.| ノ　　　　　ヽ
　　　 /　|　| 　●　　　● | 　　　　
　　　/ 　|　彡　　( _●_)　ミ　まピョーん☆
　　 /　　|　ヽ　　|∪|　　/＿
　　/／　│　　　ヽノ　　＼／
　　"￣￣￣￣￣￣￣（..ノ
6 ：: mecab の ipa (naist-jdic) は文法体系ってか品詞体系だと思うけど、
あの体系自体は機械処理に向けて作られたものなので、
考えて進まないくらいならあれでやっていいと思うが。
7 ：: 文書の重要度　(まともらしい、スパムらしいなど)　はどう計ればいいですか。
人間が学習させると、未知の文書、外国語の文書に対応できません。
圧縮してサイズが激減する物は、重要でないと言えると思いますが
減らない物が重要とは言えないです。JPGが重要文書になってしまいます。
もし日本語の特徴を学習してしまうと、アラビア語、バルト語、ムー大陸語に対応できません。
人間が認識可能であるらしいこと、価値ある文書であるらしいことを判別したいんです。
8 ：: 無理
9 ：: 無理って事は無いと思うんです。
たとえば、英語なら使われる文字は40文字程度、日本語なら6000文字程度など限定的ですし、
平仮名や、「は」「が」が良く出現するとかの特徴で言語らしい判別は出来そうですが。
10 ：: 教師付き学習でもカオスになりそうだな
11 ：: もともとの目標を書きます。
全文検索エンジンを作ろうとして、その性能を評価したいんです。
重要文書が上位に検索されるように、インディックス作成時のパラメータを調整したいんです。
そこで重要文書を別の方法で得点づける必要が出てきます。
12 ：: ＞もし日本語の特徴を学習してしまうと、アラビア語、バルト語、ムー大陸語に対応できません。
特定の言語に最適化するつもりは無いんだろ？
＞たとえば、英語なら使われる文字は40文字程度、日本語なら6000文字程度など限定的ですし、
＞平仮名や、「は」「が」が良く出現するとかの特徴で言語らしい判別は出来そうですが。
だったら特定の言語の特徴は関係ないだろ。
13 ：: ランダムに打たれた文字、AA、普通の文書くらいの判別ならできるが
スパムとまともな文書(これらは主観的な判断)を見分けるには
重要度について客観的に評価できる形で厳密に定義する必要がある
14 ：: >>12
それは、例で出したんです。　多言語でも、頻出する語がある程度の割合ででるはずです。
「a」「the」「is」など。
15 ：: >圧縮してサイズが激減する物は、重要でない
うそ臭いな
16 ：: 14のいうスパムは意味のない文書のことではなくて
言語の体をなしていない文書のことなのか？
それだとDMや文章系のコピペは重要で詩性の強い文学や歌詞は
重要ではないことになるぞ
17 ：: 想像する重要でない文書は、同じ単語、文が頻繁に現れる物、どんな人間も理解できない文書です。
コピペ文も理解できるなら重要と見なします。　
コピペが同一文書に連続すれば、たとえば圧縮することで情報量が少ない事がわかります。
歌詞や文学もほぼ誰にも理解できないなら、価値を減らしたいです。
古代文字で現在解読されていなくても、古代人には理解できるなら価値を高めたいです。
18 ：: 仮に可能であったとして完成したとしたら
これほど無用なものは無いな
19 ：: 下準備として、辞書無しで単語分割したいのですが良い方法ありますか。　あと類似単語を見つける方法ありますか。
類似文書については、たとえば3byteの固定長語の出現回数を測定してベクトル空間法を使えば簡単そうです。
20 ：: >>18
グーグルの方法だと、リンクの入力を計測しますから
新規の文書の価値は低く、名の知れたサイトの価値は高いです。
新規の文書や、リンクのない検索で使えると思いますが。
21 ：: エントロピー次第って事か
22 ：: 重要度とかいう俺様指標をきちんと定義しろよな。
あとは情報検索の入門書でも読め。
23 ：: 文書の重要度ではないのですが、自分で考えた重要単語( indexに登録すべき語 )の求め方を書きます。
3-gramで全文検索して、不要単語は登録しない物を目指してます。
たとえばabcが、全100万文書中20文書出現するとします。x=100万/20　or　log(100万/20)とおきます。
abcが多くの文書で出現すればxは小さい値になり、abcはそれを含む文書を特徴づける単語ではありません。
もし大きい値であれば、abcは重要単語と見なせます。そしてその周囲の語も重要である可能性が高いです。
本来の区切りが3バイトとは限らない為です。そこでbを中心に左右に　(線形的に)　値を減らながら値を割り振ります(加算します)。
これを全単語に対して行うことで、indexに登録すべき文書範囲が決まります。
24 ：: 23の方法である単語に対し、文書ごとの重要度が求められるのですが
この結果がホントに重要文書順を出力するのか調べたいんです。
たとえば、x = C + (100万/20) ^ r とした方がいいとか、
値を割り振るときに等比的に減少された方が良いとか、
考慮すべき所があります。
25 ：: 頼む。
辞書無しで単語分割すること。　
辞書無しで類似単語を見つけること。
知識無しで文書がスパムでないことを定量化すること。
文書の分類(言語、エンコード、分野などで分類)すること。
単語分割にはViterbi 、A*がいいらしい。
26 ：: 全文検索するにはエンコードを特定しないと駄目だな。　
SJISとEUCでN-gramで登録しても一方の検索がHITしない。
登録時はそのままにして
検索時に、全てのエンコードに変換して検索かけるという手はあるが
世界各国対応とすると検索回数が10回以上になる。
エンコードを決めて、N-gramするなら全ての言語の知識がいる。
どうすればいい?
27 ：: 知識無しでエンコードする方法考えた。
ベクトル空間法で文書を分類し、つながりの確率から単語分割する。
頻出単語の昇順に番号を付ける。
もし同一言語でエンコードが異なる物は、単語のつながり方に関係があるはずで
上で付けた番号どおしで変換できる。
28 ：: しかし手間かかるから現実的でない。自動判別できるソフトを使うべきか
29 ：: サポートする全言語の知識はどうやろうが必要だと思うけど……。
スパムかどうかは普通読む人次第(読む人に関係なくスパムと見なされて
いるのはRかアフィリエイトかな、現在のところ。)だから、
読む人と無関係な基準を作れたとして、それが意味あるとは思えない。
「重要度」というオレオレ単語をどうにかしる

30 ：: 文書、言語として成り立っている物は正常なんです。
Rでも文法が正しく読めるならいいんです。
日本人の多くはアラビア語はわかりませんが、文法が正しく理解可能ならいいんです。
JPGファイルは情報量は多いですが、人間が理解できません。
適切なエントロピーである事が一つの条件になると思いますが厳密な定義はわかりません。
31 ：: いま試しに、言語の知識なしで、まともな文書を生成する事をやってます。
文書データは使いますが、文法や分かち書き辞書などは使いません。
32 ：: よー分からんが
Colorless green ideas sleep furiously.
というのは文法的には正しいのに意味をなさない文として有名だけど、
これは OK ってことだよね。
単語分割くらいならがんばればできると思うけど、それ以上は難しいかも。
単語分割はエントロピー的なもので教師なしに分割するという話は腐るほど
あるので、検索すれば出てくると思うけど……
最近の話だったら
ttp://nl-ipsj.r.dl.itc.u-tokyo.ac.jp/NL190program.html
ベイズ階層言語モデルによる教師なし形態素解析
○持橋大地, 山田武士, 上田修功(NTTコミュニケーション科学基礎研究所)
言語の文字列を階層Pitman-Yor過程による文字-単語階層nグラムモデルの
出力とみなし, ベイズ学習を行うことで, 教師データや辞書を一切用いな
い形態素解析を可能にする。これにより, 教師データの存在しない古文や
話し言葉,口語体などの形態素解析と言語モデルの作成が可能になる。
だと思う
33 ：: たとえば、　私　俺　わたくし　オレ　が似ていることを決定することもなかなか難しい。
プログラマは、国語学の知識は無いとして、品詞分解や文法として正しい文を組み立てられる物か。
34 ：: >>33
それは周辺の文脈を使って単語クラスタリングすればある程度分かるし、
そこまで言語学の知識なくても、周辺の N 単語を使うとか、
bag-of-words を使うとかすればいいし。
品詞を決めようとすると正解タグづきコーパスがないと難しいんじゃないかなぁ
35 ：: 品詞名は決まらなくて良いんです。
本来、動詞、名詞と分類されるグループに含まれるっぽいという事がわかれば。
そのほか、英文とドイツ語が混在している文書ならは、英語っぽい、ドイツ語っぽいとかいう分類もあります。
でも今は単語分解してます。　辞書無しで短時間で分解したいんですが難しいです。
たとえば2バイトごとのつながりの計測はすぐに済みますが、
その統計を使ってabcdeというつながりが高確率であり得ると出ても、2語しか比較してないので
実際に文書から出現回数を求めてみないとわかりません。　このチェックを毎回していたら大分時間掛かります。
36 ：: 繋がる部分は長めになるけど、分割部分は2バイトあればわかるか。
たとえば、abcxyが、本来abcとxyにわかれるならば、bcとxyのつながりに比べてcxのつながりは弱い。
37 ：: だから品詞名が必要ないなら単語分割したあとクラスタリングすればいい、
って言っているんだが。。。それが動詞っぽいクラスタであるか名詞っぽい
クラスタであるかは人間が見て分かるだけで、クラスタリングでは自動で
クラスタのラベルはつけないし。
あと前も書いたけど辞書なしで単語分割する手法も研究レベルでは
たくさんあるし、そういうの参考にすればいいんじゃないの？　
短時間でできるかどうかは自分で実装したことないので分かんないけど。
どちらかというと暗号解読系の技術に近いことがしたいのかもね。
サイモン・シンの「暗号解読」はちょうど未知の言語の判別問題について
どんな手法があるか書いてあるね。古代の言語(文字)の解読の話題も
書いてあったと思うので、そういうの読んでみたらいいんじゃない
38 ：: 重要度順に並べるとどうなるか脳内でシミュレーションできない？
たとえばこのスレで重要度が高くなって欲しいレスと低くなって欲しいレスは
どういうの？
39 ：: ほとんど空白ばかりの文書、JPGの中身をコピペした文書は重要でありません。
エントロピーが適度で、人間が先を予測出来る文書が重要らしいと思うのですが厳密にはわかりません。
そこでまず人間に重要らしいと思わせられる文書を自動生成されてみようと思いました。
>>37
ﾄﾝ。　サイモン・シン読んでみます。　
もともとの目標が全文検索エンジンを作る事なので、知識0のままで高速にindexを作りたいんです。
40 ：: 言語と絵の境界は曖昧だよ。
41 ：: >>39 ああ、そうするとデータ圧縮系の話が興味あると思う。
どのように符号化すれば圧縮限界に近づくかとかそういうことだよね。
でも自然言語はあえて冗長な部分があったり
(70% 削っても人間は元の文が復元できるとかいう実験結果があった。
数字はいいかげん)、一次元の尺度ではうまくいかないんじゃないかなぁと思う。
機能語は単純な頻度とか圧縮率で抽出できると思うけど、
内容語は頻度もそんなにないし曖昧性もあるし。
機能語だけに着目して言語判定できるかというとそういうものでもないし。
前文字コード判別でバイト列の N グラムを作って判別したことあるよ。
この場合単語分割する必要すらないんで……。
知識ゼロで作るのは研究としては意味あるけどねー
精度的にはまだまだなんで、かなりブラッシュアップが必要だと思うよ
42 ：: スレ違い
43 ：: は？
44 ：: >>43
しね
45 ：: つながりの確率を求めて単語分割したいんだけど2バイト同士のつながりの統計を取ろうとすれば、
4バイト(int) * 2の32乗　の記憶域が必要になる。(出てこない文字を削れば減るが)
単語は、2語より長くなるから、もっと記憶域を使うことになる。
たとえば、「プログラ」のあと、「ム」「ミング」が来やすいという統計を取ろうとすれば
相当の記憶域が必要。　どうすればいいんでしょうか?
x,y,z,v,wを16bit数とし、「プログラム」の個数を数えるには sum[x][y][z][v][w]という配列にアクセスするようなものと思うのですが。
46 ：: 全角で8語くらいまでの統計が求められれば、たくさん自動学習させることで、
どんな既存の辞書も使う事無しに精度はかなり良いと思います。
PPM圧縮を調べたのですが、長い単語の対処方法がわかりません。
47 ：: 頻出する　(2語、4バイトの)　単語が求め、それに2バイトを割り当てて
再び、4バイトの単語の統計をとれば、長い単語が求められそうです。
48 ：: 特徴語、重要語の求め方教えて。　
辞書による単語分割は使わず。
中国語、漢語でも可能な方法。
49 ：: 何度もデータを読みに行くのは辞めたい。　一度のロードで済ましたい。時間食うので。
例えば、一度目の読み込みで単語辞書を決定し、2度目で単語の回数を測定するとか。
5Gのデータ群だと、2回読めば10Gになり時間食う。
読み込みは、一度だけでいい方法ありますか。
50 ：: >>49
64bitOSで32GBくらいRAMを積めばOK。
51 ：: 再読み込み、巨大メモリを使って
試行錯誤せず　(計算多くせず)　済む方法が知りたいです。
辞書無しの方法がいいです。
52 ：: 5Gを全て使わずとも適当にさっぴいてやればいい
53 ：: 具体的には、500Mを利用して単語辞書を作成するとかですか?
5Gは複数ファイルの合計値です。　
各ファイル毎に特徴語を求めたいです。
辞書に漏れた単語のランク付けがうまくいかないと思うのですが?
54 ：: 単語辞書だと、「単語」「辞書」に分かれますが、「語辞」と間違えて抜き出したら
「単語」や「辞書」が一つも出現せず、「語辞」が多く出る文書の特徴語と同じになってしまいます。
これをどのように回避するのかが重要と思うのですが?
55 ：: クラスタリングで、文書のドメイン特定してから
そのドメインにおいて、単語辞書　を　単語　辞書　とすべきか　単　語辞　書　にすべきかを
HMMなり使って最大になる分割を決めればいい。

と、素人ながらに思ったが。
特徴語が同じになるって話だから、そもそもクラスタリングがうまく行かない可能性が高いかｗ
56 ：: 短時間、辞書無し、何言語でも、特徴語を抜き出したいです。
HMMは、確率的に最も有り得る単語分割を決定するって事でしょうか。
これを行ってからだと相当時間食いそうなのが難点です。
57 ：: それは無理。
辞書ありの形態素解析器ですら、使ってるんですから。
確率使わずに、最適な分割例を決めるとか、無理でしょｗ
58 ：: 確率は使うのは良いんですが、膨大な時間を使うのを回避したいです。
59 ：: 特徴語を決定するのに、全ての単語の単語分割が必要なのかどうかも疑問です。

60 ：: まずビタピ(ビーム)サーチやってみます。　ABCDはそれぞれ1語(16bit)としたとき
分割方法は8とおりありますが、Aが1000回出現してABは5回出現ならABが繋がる確率は1/200でしょうか?
一方でBが10回しか出現しないとすれば1/2になりますが、これは少ない方(確率の高い方)を採用すれば性格でしょうか?

ABCD
ABC-D
AB-CD
AB-C-D
A-BCD
A-BC-D
A-B-CD
A-B-C-D
61 ：: 2語の統計とっても、ABCDなど3語以上の出現確率が不明だ。
3語、4語、5語と統計取るのはメモリ容量から実現難しい。　
2語(16bit)でやる人は多いと思いますが、3語以上の確率はどう求めますか?
62 ：: >45辺りから全力で間違った方向に進んでいるような気がする。
疎行列とか連想配列とか使えよ。
63 ：: 便乗の質問です
>>60
A 1000回
AB 5回
B 10回
こんな場合だとAとABとBを単語として認識することになるんでしょうか。
もしABがあった場合、これはどの単語が出現したとカウントするんでしょう。
AとABとB、三つともカウントですか？
64 ：: >>63
カウントは、出現したやつは全部カウントしないと統計取る意味ないじゃないですか。
よく繋がる語を、単語と見なすんです。
同じ語の繋がりでも文意によっては変わるんです。日本語変換と同じです。
65 ：: なるほど。
語Aと語Bの複合語ABがあった時にもA, B, ABを全部カウントですね。
辞書ありの形態素解析なんかでは最長一致の事が多いから、ABだけですよね。
66 ：: 必要と思うので、グーグルのメモリ管理、mapとicuの導入方法をここに記す。
いまから調べる。　windows XP 32bit visual c++ 2008を元にする。
67 ：: 文章のクラスタリングをするために適当な固定次元の特徴ベクトルで表現できないかと思っています
どんなベクトル表現が適切でしょうか
68 ：: 日本語処理はrubyが充実しててpython使ってる人があまりいない気がする
69 ：: それは完全に気のせいです
70 ：: I18Nのハンドリングは自然言語処理と基本的に関係ありませんから。
71 ：: >>67
2文字か3文字(32-48bit)ごとの統計を取って、2の32乗のベクトルと見なす。
そのベクトルのうち直交しているものをいくつか選び出す。
たとうば、20個選べば、20次元の座標に、それぞれの文書を特徴づけられる。
72 ：: 自然語処理って強化学習と相性よさそうなのに
あんまり話を聞かないのは，ダメだってことかな
73 ：: >>67
一緒に作るか?前から文書分類しようと考えていた
74 ：: ベイジアンスパムフィルタは、判定結果（あるいはその判定を人間がさらに判定した結果）に
もとづいて学習させてるじゃない？
75 ：: >>71
意味通じない
76 ：: >>75
ABCDEFG・・・は2バイト文字とする。
ABC、BCD、CDE・・はそれぞれ一回ずつ出現する。出現した物をカウントする。
すると、2の48乗次元ベクトル空間が得られる。
似ている文書では、同じ箇所がカウントされやすくそのベクトルの類似がはかれる。
これでは、計算量の点から、クラスタリングが困難なので
直行している基底をいくつか選んで射影をとってクラスタする。
すると、20次元くらいなどにおさえられる。
77 ：: 文字コードが一文字nビットm文字単位だとだと(mn)^2次元ですか。
どうしてそう無駄なパラメータ入れるかな。
78 ：: 高速クラスタリング考えた。偶然良いクラスタに入る法、良いクラスタを選択する法の2つ。
※クラスタの中心を求めるコストは無視できるとする。
前者。
データを100個、1000個など一定数になるように等分する。N等分されたとする。
クラスタnの中心を求めてそれと離れている　(関係が薄い)　ものをクラスタn+1へ移す。
n=Nのときだけ、クラスタ0へ移すか、新規クラスタへ移すかを選択する。
次クラスタへ移す条件=悶値を徐々に上げていくことで分割が完了する。
後者。
始めにクラスタの中心を関係が薄いもの　(直行しているベクトル)　同士で選び出す。
0 < a < b < 1を適当に設定して、クラスタの中心との内積値がbを超えたら、そのクラスタに属すものとする。
すべてのクラスタの中心との内積値が、a未満ならどこにも属さない新規クラスタとする。
こっちは一度の走査で分割が完了する。
79 ：: 後者は、内積値が最大になるクラスタへ移すのが最善だけど、
時間食うので、bを超えたらそこにしてしまいます。
より良いクラスタがある可能性はあります。
後者で荒く分割　(a,bは0に近い)　してから前者を用いるのもいいかもしれません。
80 ：: >>78
どこが高速なの？
81 ：: 前者をK-means法と比較すると、
クラスタに合わないもの(悶値以下のもの)は、そのまま次のクラスタへ入れてしまう所。
たまたまそこが良かったらそのままにする。
K-means法は合うところを試行錯誤して選ぶ。
後者は、一度の走査で入る場所を確定できる。
82 ：: >>81
前者は収束が鬼のように遅くなるだけの気がするけど？
83 ：: 文書分類するやついま作ってる。それを動かしてもらうとわかりやすいはず。
84 ：: >>78 >>81
悶値って何？
閾値じゃなくて？
85 ：: まちがえて似た字を当てはめたかも?
86 ：: ｽﾏﾝ
いきち　= 閾値は、字だけみた事あって読みを知らなかった。
87 ：: 閾値の読み方
閾値の本来の読み方は「いきち」で、「しきいち」は慣用読み。「閾」の字は日本人になじみが薄く、第二次大戦後、当用漢字外とされたため、字義である「敷居（しきい）」の語を当てたものと思われる。「閾」の訓読みは「しきみ」。

しきい値 - Wikipedia
88 ：: 日本語の判定テストレポート
対象ソフト。
universalchardet-1.0.3 http://code.google.com/p/juniversalchardet/
icu4c-4_2_1 http://site.icu-project.org/
nkf-2.0.9　http://sourceforge.jp/projects/nkf/releases/
libguess-0.2.0-d7　http://www.honeyplanet.jp/download.html
対象サンプル。
一部文字化けを含むネット上ニュースまたはwindowsXPのバイナリファイル。
個数　バイナリ　2300、　UTF8 5200、　SJIS 4100、　JIS 3800、　EUC-JP 2000
速度。
libguessがもっとも速くこれを1としたときの比較。　ICU 185、 nkf 30、　universalchardet 10
正解率。
libguess　0.99971(5個)、　ICU 0.9996(6個)、 nkf 0.998567(25個)、　universalchardet 0.969221(537個)
まとめ。
libguess( 関数　guess_jp)とnkfは日本語限定の判定。　
ICUとuniversalchardetは判定可能な全ての言語での判定。
ICUは一致率60未満でバリナリと判定しこのとき4つのバイナリが西ヨーロッパ言語、2つのEUCが中国語となった。中国語と判定されたケースはもともと漢字が多く言語判定ではICUがもっとも正確といえる。
nkfの25個はSJISをバイナリと誤認した。universalchardetは、バイナリを言語、言語をバイナリなど間違えるケースが多発した。
日本語限定であればlibguess。　世界各国語が対象なら判定速度は遅いがICUがいい。
89 ：: ↑
正解率の括弧は、間違えた個数です。
90 ：: >>83
おい、はやく報告しろ。
91 ：: アイデアのみで実装してないけど、自然言語処理にウェーブレット
使ったらどうだろう？
92 ：: >>90
クラスタリングは諦めた。
それほど関連のある文書は多くない。
正しい分類が出来たところでほとんどは関連がない。
対象はたとえば世界中の文書。
ある一つの文書を指定したとき、関連する文書をサーチするのでいいや。
これは少ししたら上げる
93 ：: やっと悪金解除された・・・
>>92
それはデータが少ないからじゃないのか？
どの位のデータなんだ？
94 ：: 100万件を10個程度ずつ10万個に分類したところで意味があるか。
人間にとって価値がないと思う。
いかに速く分類できたという数値測定は意味あるだろうが・
95 ：: 100万件の分類には相当時間かかるから、人間がデータを与えたら
それと似た文書を高速で検索できれば十分という考えになった。
100万などやったら、数時間～一日とかかかるだろ。ずれなく分類使用した場合。
96 ：: >>90
重要そうな文書を指定個数だけ勝手に判断して、
それと類似する文書を抜き出すのは出来た。
クラスタリングは全てを分類しなければならず大変だが
これなら短時間で可能。
97 ：: ふう、悪金解除されたと思ったらまたされて、ようやく解除された・・・
お、ちゃんと進めてるみたいじゃん。
それってk-NN検索だね。
でもそれを効率良く(高速に)行なおうとすると索引が必要になって、
索引作りって半ばクラスタリングしてるようなもんになってない？
ところで100万文書というとかなりのもんだけど、やっぱウェブ？
98 ：: 昨日まちがえて Tully's cafe でキャラメルマキアート頼んでしまったが
店員さんは適当にキャラメルトッピングのホットコーヒーを作ってくれた
99 ：: 特徴ベクトルを抜き出す部分までは言語処理だけど
クラスタリングは別分野になるな。
画像でも、ベクトルさえ抽出できていたら
分類するのは言語でも共通するから。
100 ：: ファイル群の特徴ベクトル抽出に一時間掛かったとしても
ほぼ無視出来るほどの時間だろう。
これに比べて分類は数倍-数十倍掛かるだろうから。
あと、クラスタリングより類似画像抽出のほうが困難と思った。
大きな分類だけではなく、ひとつひとつの対応まで必要だから。
これを高速で行えれば言語でも使える。
101 ：: 基底となるベクトルを3つ、4つなど数個を設定して
それとの類似度を計算して3次元、4次元座標に移し替えれば
クラスタリングしやすいと思った。
これを計算量は3n、 4nで分類に比べた無視出来る程度。
これで距離が近い物は元々似ている可能性があり
離れていれば、元々似ていないことが決定する。
102 ：: わかち書きってどのようなアルゴリズムでやるんですか。
辞書は与えられたとして最長一致にしたいのですが。
103 ：: 簡単かと思っていたら、LZH ZIPなど圧縮法と関係あるみたいですね。
圧縮は辞書から最長一列を求めることなので。
104 ：: ChaSenのソース読めばわかるよ。
色んなやり方があるけど、
基本的には当然、辞書の中の単語で文を切っていく
切っていくときに、単語の出現頻度を加味しながら、評価関数をmax(min)する組み合わせを探すだけ。
ChaSenなんかは、単語の頻度だけじゃなくて、品詞も見てて、
ある品詞が来たときに次の品詞は何になるかって情報を使ってるのね。(条件付き確率ってやつ)
(もしかすると、品詞情報を使って解くと言うより、品詞を当てるために使ってるのかもしれんが・・・)
で、ここまで書いてて俺がわかんなくなったんだけどｗ
あれってHMMをモデルに使ってるらしいけど、一体何を隠れ状態にしてるの？
品詞？単語？
あと、HMMつっても、解くときってどうやってるの？
確かMeCabがViterbiを使って高速に解くように改良したってどっかで書いてたけど
逆に、ChaSenの時は、HMMを何で解いてたの？まさか全探索してないよね？ｗ
105 ：: それは最もあり得る探索では
最長一致を高速に求めたいのですが
106 ：: 最長一致を高速に求めるなら、全文検索のお話じゃだめなの？
多分、SuffixTree(or Array)なりを作るような感じになると思うけど・・・
多分そっちだと、どうやって高速に作って、枝刈りしてリソース押さえるかって問題になるけど・・
でも、ちょい研究としては古いかな・・・。
107 ：: ここいくとそれほど古い話でもないようだけど。
研究は知らないけど、コピーと同等の速度で分かち書きを出力できればいいけど。
DO++: LZ法再び
DO++: 最長一致文字列の話
http://hillbig.cocolog-nifty.com/do/2008/10/lz-5ed2.html
http://hillbig.cocolog-nifty.com/do/2008/07/post_2e1d.html
108 ：: ほほー、これは知らなかった。
BWT法とかよりいけそうなのか・・・。
うちはSuffixArrayで色々やってきたんだけど、
Treeに比べればメモリ的には優しいけど、それでも大変なんだよな・・・
なんせ一切端折らずに全ての位置情報を付加すれば、
文字数分のintなりlongの位置情報が必要になっちまうから・・・
109 ：: 全文検索に使いたいんですけど、結局の所、
分かち書きしなくても、辞書に登録と検索は可能なんですよね。
N-gramでやれば。　
分割して無駄省けば、辞書サイズと検索精度は上がりますが。
検索目的で考えれば、品詞分解にやってる人は無駄だと思います。
それ以外で、MeCabやChaSen使うのはかなり少数な気がします
110 ：: SuffixArrayやBWT法は一時期きょうみ持ったけど、
大きな欠点として新規データの追加が行えないので離れた。
構築時間も掛かるし。zipなど定番と同程度、同圧縮になれば
全文検索出来る分のメリットはあるけど。
これ実現したら、世界標準の圧縮になり得るけど。
111 ：: Suffix Array、BWTは、O(n)で実現できるようですけど、
10nでも100nでも、O(n)ですからね。
圧縮と書き込み完了までの合計がコピーの5倍以内だったらいいけど。
112 ：: 　　 ┏┓┏┓ 　　　　　┏━━━━━━┓ 　┏┓ 　┏━━━━┓┏━━┓
　　 ┃┃┃┃ 　　　　　┗━━━━━┓┃ 　┃┃ 　┗━━┓┏┛┃┏┓┃
┏━┛┗┛┗━━━┓ 　┏━━━━━┛┗┓┃┃ 　┏━━┛┗┓┃┗┛┃
┃┏┓┏┓┏━━┓┃ 　┗━━━━━━┓┃┃┃ 　┗━━┓┏┛┗━━┛
┃┃┃┃┃┃ 　　┃┃ 　┏━━━┓ 　　┃┃┃┃ 　┏━━┛┗┓
┃┃┃┃┃┃┏━┛┗┓┃┏━┓┃ 　　┃┃┃┃ 　┃┏━┓┏┛
┃┃┃┃┃┃┃┏┓┏┛┃┃ 　┃┃ 　　┃┃┃┃ 　┃┃ 　┃┃
┃┗┛┗┛┃┃┗┛┃ 　┃┗━┛┗━━┛┃┃┗┓┃┗━┛┃
┗━━━━┛┗━━┛ 　┗━━━━━━━┛┗━┛┗━━━┛
113 ：: >>2 にある依存構造解析というのは、構文解析 (下記) とは意味が異なるの？
ttp://ja.wikipedia.org/wiki/%E6%A7%8B%E6%96%87%E8%A7%A3%E6%9E%90
114 ：: 形態素解析も依存構造解析も構文解析の一種
115 ：: ここって随分低レベルになったり、
逆に、自然言語処理の研究者(M、Dr含む)が書き込んでるっぽいなぁってレスがあったりで
波がすごいなｗ
116 ：: >>114
ありがとう。同じグループとして繋がりました。
>>115
すみません。まったくの素人です。
たまたま検索エンジンでこちらががヒットして、気になったことを質問しました。
大量にある文書から個人情報の箇所を自動的に隠蔽したく (例：鈴木様 <<人名>>様)、
そういう技術を探していました。市販の商品もあるようですが、手元のマシンで動かして確かめ
たり、理解を進めたいと思っています。
もし形態素解析で「人名」が特定できるなら、その部分を除去して元に戻すことで望む動作に
ならないかと期待しています。　
実データを用いてどこまでできるか、何はできないか知りたいと思っています。
117 ：: >>101
よくあるのは特異値分解していくつかの特異ベクトルを基底に選んで低次元に投射するってのだね。
そういうオーソドックスな事はやってみた？
118 ：: (つд⊂)ｴｰﾝ
119 ：: dosita
120 ：: 俺も今泣きたい。
121 ：: nasite?
122 ：: なにが
123 ：: 部外者です。
つまらない質問なんですけど、例えば「住んでいて」という言葉を「住んでて」と略したりしますよね？
これは文法的には間違っているけど、通じますよね？
こういった言葉の翻訳の場合、どのような処理をするもんなんでしょうか？
普通に考えると、辞書的な処理とか、略す規則を求めるとかなんでしょうけど、
もっと別の方法ってあるんですかね？
124 ：: い抜き言葉とか、ら抜き言葉とか
一応決まった規則があるから、それで処理するだけかと
もっと本気で分析するなら、音素関係を見て
どういう音素の繋がりがあった時に、どの音を抜くかとか
そういうのもあるとは思うけど
125 ：: >>123
間違ってないよ。
君の知らない文法があるってだけ。
126 ：: >>123
音素コーパスから統計処理。
127 ：: >>117
特異値分解が、クラスタリングで重要なことがわかったけど
これを実行することが難しい。
128 ：: でかい疎行列の特異値を計算するライブラリないですか?
129 ：: 特異値分解が、全ての相関度を計算するコストより
かかったら意味ないな。
経験的に、多くのベクトルと関連があって直行に近い数個のベクトル
を選んでおく方が良いか。
130 ：: 特異値分解できれば、相関度に影響の少ない次元を
数値的に削れるけど、時間がかかりすぎる気がしてきたから
これはやめるか。
131 ：: っていうか、どうやってお前ら特徴ベクトル作ってんの？
片方の軸は単語として、もう片方は各文？
中身は頻度かtf・idfだと思うけど・・・
132 ：: 直交基底を始めに適当に作って
その基底でいくつかのサンプルをプロットしたときに
良く分布するものを選ぶことにした。
これなら次元を落とす作業の準備はほぼ一瞬ですむ。
133 ：: 卒論か何かかなぁ。
学部生が一人でやってるなら仕方ないけど、サーベイしなさ過ぎだぞ。
大規模疎行列の特異値分解についてはsvdpackcを探せ。
この中のlanczos法プログラム(las2.c)を使え。
具体的な使い方については茨大の新納先生の↓が参考になる。
http://nlp.dse.ibaraki.ac.jp/~shinnou/papers.html
他にも色々言いたいことはあるが面倒だからやめとくw
134 ：: おっとすまん、そこの「SVDPACKCとその語義判別問題への利用」という論文だ。
135 ：: サンクス
136 ：: SVDPACKCの使い方みたのですが大規模疎行列は無理みたいでした。
1-3万　*　2000くらいが限度だと厳しいです。
シュミットの直交化を使って、正規直交基底を沢山作っておき、そこへサンプルをプロットして
分散(標準偏差)の良い上位k個を選んで、k次元に落とすことにしました。
137 ：: 研究屋が言う「大規模」と、実務屋が必要とする「大規模」は
字面は同じでも意味が全然違うというわな
138 ：: まったく、ほんとに出来の悪い学生だな。
ちったぁ自分で工夫しろ。
仮にsvdpackcをそのまま使うにしても、25000x2000でダメだったのは512Mのメモリの場合と書いてあるだろ。
今時数十GB位のメモリ使えるだろ。

>>137
計算機の世界では数字さえ出てくれば意味は同じですよ。
賢い実務屋さんなら人をクサすような事ばかりじゃなくて、こういう時にはみんなどうしているのか教えてやってよ。
139 ：: とりあえず64bit環境用意しないと、話が進まないけどな
>>138
単一のハードウェアに数十GB単位のメモリが仮に載せられたとして
それをそのまま利用できると思ってるのは所詮解説論文しか書けない実装出来無い奴の頭だ
どこかの頭の悪い文系SEと同じ
ちなみに、大規模計算機の数十GBは、分散型だから、単一ではせいぜい数GB程度のメモリ
これを分散型にする場合、SVDをそういうアルゴリズムに落とさないといけないと言う問題が待っててだなｒｙ
140 ：: おっとそれは俺が4年前に通った道だ
141 ：: 個人のPCで他アプリを同時に動かす環境で使いたいのですが。メモリは多くて200Mが限度と思います。
142 ：: >>141
誰かが答えを呉れるのを待ってるのかもしれないけど、自分で調べた事柄と
自分の考えたをそれぞれ説明して、疑問点を明確にしないと
もう誰も答えないと思うよ。
143 ：: メモリが200しかないんだろ？
200しかない所に300はつっこめないだろ？
じゃあどうするの？
魔法使いじゃないんだから、メモリにツッコむには
・データを何らかの前処理で圧縮する
・メモリ以外を活用する
・サンプリング
の3つしか無いと思うんだが
144 ：: メモリを買ってくる
145 ：: 仮想記憶？
146 ：: 疎な10万次元ベクトルを、100次元以下に縮めたら、
0ベクトルになる率が多くて使えなかった。
何の変換もしない元のデータのままて゜頻度の少ない単語を無視して
次元圧縮するのが確実に有効っぽい。
147 ：: 目的が何か知らないけど（潜在的な意味繋がりを使いたいとかならともかく）
次元圧縮そのものが目的なら、頻度で切って
そこから更に次元圧縮するのって、何か無駄に見えるが・・・
頻度で切るなら圧縮意味なくね？
148 ：: 100万　-　1000万件ほどの文書のクラスタリングをしたいのですが。
計算量を減らすために次元を減らしたいのですが。
149 ：: この分野を勉強してみたいと思うのですが、入門書とかおすすめのサイトを教えていただけませんか？
150 ：: とりあえず、ずばり「自然言語処理」がタイトルに入ってる本が何冊かある。
151 ：: 自然言語処理って、ぶっちゃけ何でも屋だからなぁ・・・
漠然と自然言語処理を勉強するっていったって・・・
ちなみに、今世間で騒がれてる
検索エンジン、日本語入力、機械翻訳、なんて言うメジャーな自然言語処理の応用例と言われてるツールは
どっちかと言うと、この分野じゃ本流じゃないからな。
152 ：: > 日本語入力、機械翻訳
これが専門の人から教わったので、俺にとっては自然言語処理というとこれなんだがw
153 ：: 最近はGoogleや集合知ブームのせいか知らないけど
統計的な言語処理が流行ってるなぁ・・・
統語的な話しとか、生成文法とかの話はどこへやら・・
154 ：: 「計量」言語学なんて用語もあるように、統計的な手法も歴史はあるんだけどね。
155 ：: K-meams法の最適解(最適な中心)は固有値(ベクトル)計算で決まるみたいだね。
ここに書いてあった。普通のK-meamsで試行錯誤するより固有値計算した方が
かかる時間は半分になるそうだ。

スペクトラルクラスタリング
http://d.hatena.ne.jp/mrcarrot/20100117/1263735597
スペクトラルクラスタリングは次元圧縮しながらKmeansする手法
http://d.hatena.ne.jp/mamoruk/20090128/p1
156 ：: こんな線形代数の初歩しかやってない事が2001-2003年頃まで知られて無かったらしい。当たり前すぎて誰も論文かかなかっただけかも。
157 ：: 日本語で書いてあるより詳しい資料見つけてきた。
固有ベクトル求めてK-meamsやるソフトウェアは無いと思うんで作りたんだけど実力がない。
だれか。

スペクトラルクラスタリング
http://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2008/Rclustering/r-motegi-0624.pdf
部分時系列クラスタリングの理論的基礎
http://www.research.ibm.com/trl/people/ide/2006_JSAI_Ide.ppt
縮約類似度行列を用いたスペクトラル手法によるクラスタリング結果の改善
http://nlp.dse.ibaraki.ac.jp/~shinnou/paper/sig-kbs-07-79.pdf
158 ：: 逆に言うとK-meansが正確に高速にとけると
固有値、ベクトル計算できるってことだな。特殊なやつだけだけど。
いまかんがえたやつだけど、1万個なら100クラスタ*100個に分けて
クラスタの中心とそのノルムを計算して、
ノルムはクラスタの散らばり度を表すから
その小さい物を、ほかのクラスタの散らばり度を無くす様に配置転換していけばいとおもうな。
ここで、良い場所がなければ101個目のクラスタを作って良いとする。
1つのクラスタが一番散らばりが少なくなるからどこかで止めないといけないが。
159 ：: みなさん、どれくらいの機械使ってるもんなのかな。
スペック足りないからもっとゴツいの買ってほしいんだが、
「お前のコードがヘボいからだ！」と言われそうだ。
ヘボいのは（たぶん）事実だから、あんまり強気に出られない。
運用の方のスペックは割と情報があるけど、開発の方のスペックがどうなっているのか
見たことがない。
160 ：: >>159
用途やデータの規模によるところが大きいかと。
161 ：: いやそりゃ重々わかってるんだけどさ…
162 ：: 趣味である言語の自分用の機械翻訳ツールを作ってみようと思ってるんですが、
どこから勉強すべきか分からないんです。
自然言語処理の基礎から勉強するのは遠回り過ぎますか？
163 ：: >>162
楽しむだけなら、
http://www.amazon.co.jp/dp/4766501101/
なんか読むだけでいいんじゃないか。
164 ：: >>153
日本語限定のことはあまり価値無い
全世界や未知語や宇宙語でも共通するのが良い
165 ：: 671番さん
57行目でclassまたはinterfaceがありません。
です。
すみませんがよろしくおねがいします。
166 ：: 対話コーパスの隣接対について、自動的にタグ付けするアルゴリズムってどこかで研究されてる？
167 ：: >>139
今時数十GBがそんな特別なもんかよおい・・・
ていうか、それをそのまま使えない環境なんて捨てちまえよ、おい・・・
いずれにせよサーベイしなさすぎだな、みんな。
168 ：: >>163
レスが遅れましたがありがとうございます。
読んでみます
169 ：: ググることをしないIR専門家(自称)
170 ：: むしろググるな
論文探すって言う意味なら良いけど、
それなら、もっと良い方法あるだろ。
IR専門家なら、参考にするのは、査読付き論文のみにするだろｊｋ
171 ：: >>167
サーベイでどうにかなるもんだいじゃないだろ
元論文だって、結果の裏で細かい実装上の苦労があんだよ
そのノウハウ蓄積無しに、サーベイサーベイ言ってもなぁ・・・
172 ：: サーベイばっかしてて研究進まない香具師
173 ：: サーベイと言ったらとりあえずはIEEE-CS DLとACM DLは常識だと思った俺が悪かった。すまん。
174 ：: >>173
そいつら、やたら使い難いじゃん。ググルスカラのほうが遥かにマシ。
175 ：: >>159
Core i7にメモリ8GB。
マシンパワーで片付くものなら片付けちゃった方がいい。
開発用ならなおさら、ちょこっと試したい事をイージーに試せる方がいい。
もっともっとメモリ欲しいとおねだり中。
176 ：: もうみんな64bit化はデフォなんだ。
ところで、複数マシンで処理する場合、みんな何使ってる？
やっぱMPI？
177 ：: >>148
亀レスで悪いけど、もともとかなりの疎行列だと思うんだけど、どうして次元削減する必要あるの？
178 ：: >>177
？？？あまりにも疎だから次元減らしたいんじゃね？
179 ：: >>178
疎ならコンパクトに表現できんじゃん。
次元減らして何がしたいんだろ。
180 ：: 表現がコンパクトなだけで空間としては全然コンパクトじゃない罠
181 ：: 知識なし、形態素分解なしでキーフレーズ抽出できるもの?
まず候補の分解までいければ、統計的手法で重要語を選べそうだけど。
知識なしで、単語分解と連結する語の特定するにはどうすればいい?
182 ：: 文書から学習したら連結する単語のいくつかは判明するけど
すべて網羅は無理。漢字・カタカナのみで最長部分を選べばよさげだけど。
ひらがな・数字をどうするか。漢数字でない数字を含むキーワードやひらがなを含むものもある。
1月18日などはスルーしたいところ。
183 ：: 辞書もコーパスもなしなら文字種の変わり目で区切るしかないんじゃないの
まあ「できる。」とか「のだった。」が最頻出になるのがオチだとおもうけど
184 ：: >>181
ぱっと思いついた方法。
まず、n-gramをN=1からN=10ぐらいまで取る。
次に、低位の出現率のchainと高位の出現率を比べてみて
大きな差があったらそいつは単語っぽいと思っていいのでは。
185 ：: ちゃんと論文読めｗ
ノンパラメトリックの形態素解析はもう研究され尽くしてる
今更そんなレベル低い事やっても意味がない
186 ：: >>185
自分は言語処理やってる人間じゃないんだが、とある事情で形態素解析をやる必要が出てきた。
もちろん辞書の類は無しで。
もしよかったら参考になる文献か論文を教えてほしい。
そのまま実装に持っていけるくらいのアルゴリズムまで示されているとさらにありがたい。
187 ：: >>185
機械学習だろ。
文書が1つ～10つくらいの少しでも出来るのか。
188 ：: 出来るか出来ないかはともかく
既に先行研究がたくさんあるのに、今更１から原始的な方法を取る意味はない
189 ：: 少ない文書で知識なしで分解するソース上げてから言ってもらおう
190 ：: ベイズなんとかを有意に計算できるくらいにはコーパスが必要なんじゃないの
191 ：: 何でもいいから一冊くらい本を通読してから質問しろよ。
とある企業のサーバシステムをまかされました。良い本を教えてください。
とか言われて、まともな回答ができると思うのか。
192 ：: 技術屋によくいるタイプなんだけど、ちょっと質問すると「うーん」とうなって「それだけじゃなんとも…あれは？これは？それは？」と逆に質問されまくる。
そういう時は「あんたコミュ能力不足だね」と言ってやる。
193 ：: >>192
お客様扱いされたいなら、コンサルに金を払え、池沼。
194 ：: >>192 コミュ能力不足は、一発で回答を期待してるのに、十分な情報を与えてないおまえだ。
195 ：: つーか、「とある事情で形態素解析をやる必要が出てきた」だけなら
「めかぶでも使っとけお前の仕事なんてねーよ」で終わるレベル
196 ：: >>195
>　もちろん辞書の類は無しで。
コミュ力不足ｗ
197 ：: 辞書不可とか「辞書作るのとかめんどくせーし」ってだけだろ。おまえのコミュ力が心配だわ
198 ：: >>197
そういう決め付けはコミュ不足の典型例だな
199 ：: >>185
といいながら、具体的なアルゴリズム名や文献を例示できるほどには詳しくないのですねw
200 ：: 決めつけも何も事実だし
201 ：: 事実と推測の区別がつかない人がコミュ力とかwww
202 ：: 久々に見たらなんか盛り上がってて嬉しいぞ
203 ：: 論理的には同じことを言っている文章を検出する方法はないのでしょうか
日本語を論理式に変換するようなものがあるといいのですが
204 ：: あるといえばあるしないといえなくもない
205 ：: >>204
検索キーワードだけでも教えていただけませんでしょうか
206 ：: 専門業者に頼んだほうがいいんじゃないの
自分で同義語辞書作ってたら何年かかることやら
207 ：: >>203
英語ならあるのかな？
208 ：: I'll be back.
と
See you later.
は論理的には同じ？
209 ：: 最後は人出で探すから大まかに検出できるだけでいいんだ
210 ：: mecabを日本語のhtmlにかけると、htmlのタグまで処理してしまうんだけど
日本語文字列だけ判別して処理する方法はないの？
kakasiはあったみたいだけど
211 ：: http://d.hatena.ne.jp/niitsuma/20100416/1271403446
P2P web検索エンジン　yacy http://www.yacy.net/　を日本語でも使えるようにしてみた
212 ：: 　京都大霊長類研究所（愛知県犬山市）人類進化モデル研究センターで昨年
３月～今月までに、飼育中のニホンザル１５頭が急死していたことが２８日、
かった。
　死因は不明で、感染症の疑いもあるという。
　同センターによると、死んだニホンザルは昨年６頭、今年９頭。いずれも血液中の
血小板や赤血球、白血球の数が減少する「再生不良性貧血」を発症していた。ただ、
病気と急死の因果関係がはっきりせず、死因は特定できていないという。
　また、一つの飼育室で複数のサルが発症していることなどから、感染症の疑いも
あるという。２００１～０２年にも再生不良性貧血の症状があった６頭が急死したが、
死因は分かっていない。
　同センターでは約１０００頭を飼育しているが、ニホンザル以外での発症例はなく、
平井啓久センター長は「今夏以降、死因を本格的に調べている。分かり次第、
公表したい」と話している。
読売新聞　2009年12月28日19時56分
http://www.yomiuri.co.jp/science/news/20091228-OYT1T01061.htm
213 ：: いまこのスレ見つけて、ｗｋｔｋしながらみてみたのだが、、
質問してるやつらが、痛すぎるなあ。
214 ：: 2ｃｈはそんな場所。そこが面白いところでもある
215 ：: 未知言語に対して、ほぼ必ず区切りになる部分の見つけ方わかりますか?
例えば、英語だと空白やDOT、日本語だと、。が区切りなりますが。
たとえば　「。」　→　「丸」　と置き換えた場合でも、言語の構成・仕組みから
「丸」は特別で区切りと判明できる方法です。
216 ：: あげます。
217 ：: ABCと語が出現したとき。
Aの総数と、ABの総数
Bの総数と、ABの総数
Bの総数と、BCの総数
Cの総数と、BCの総数
などを比較して、
ABとBCはどちらも繋がりにくい事を判定すればいいか。
= AB、BCは単語を構成しない(らしい)としてBが区切りと判定する。
218 ：: 上のほうで辞書なしとかノンパラメトリックとかいってるのがそれだ。あとはぐぐれ。
219 ：: サンクス
220 ：: 周辺確率でぐぐれ
221 ：: 遅レスですまん。
>>123
> つまらない質問なんですけど、例えば「住んでいて」という言葉を
> 「住んでて」と略したりしますよね？
> これは文法的には間違っているけど、通じますよね？
補助動詞「行く」「置く」「居る」の三つは省略がある。
ex.「ずっと住んでく」「とりあえず住んどく」「いま住んでる」
222 ：: >>181
> 知識なし、形態素分解なしでキーフレーズ抽出できるもの？
可能ではあるが精度が上がらんから、辞書作ったほうが早い。
頭っから見てって、ひらがなから非ひらがなに変わるところで切り、
ひとつ前を見て「お」「ご」だったら接頭語かどうかチェックする、
という手で相当いける。
まあ、そこまでやらんでも、すでにフリーの辞書があるから
それ使え。
ゲーム製作技術板の『人工知能or人工無脳作ろうぜ』スレ参照。
223 ：: >>203
> 論理的には同じことを言っている文章を検出する方法はないのでしょうか
> 日本語を論理式に変換するようなものがあるといいのですが
様相論理が役に立つかもしれん。
坂井秀寿『日本語の文法と論理』勁草書房とか。
224 ：: UTF16LE UTF16BEを検出出来るソフトはないようだ。
判定方法判ったので、ソフトで間違えた場合の応急処置として使ってみてくれ。
このyの値が1/2より下回ればUTF16LE、上回ればUTF16BE。

int n; int cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<s.size(); n++) cnt[n%2]+=s[n]<32?1:0;
double y=(double)cnt[0]/cnt[1];
cout<<y<<endl;
225 ：: 訂正。
このyの値が1/2より
→
このyの値が1より

上位ビット、下位ビットが不均衡になる所に注目する。
226 ：: UTF16LEとUTF16BEが間違えるな。
文字化けがあれば大小関係がかわるし。
227 ：: ボム無しUTF16LEとUTF16BEの判定方法判りますか
228 ：: UTF16の判定は0の個数だけ判定したらうまくいった。ただし英数字が十分にあること。

int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[0] > 0.7*cnt[1] ) return 2; // UTF-16BE
return 0; }
229 ：: ヒューリスティックだねぇ
230 ：: 修正
int utf16chk( const char *p , unsigned int size ) {
unsigned int n, cnt[2]; cnt[0]=cnt[1]=0;
for(n=0; n<size; n+=2) { cnt[0]+=(p[n]==0); cnt[1]+=(p[n+1]==0); }
if(cnt[0]==0 || cnt[1]==0 ) return 0;
if( cnt[0] < 0.7*cnt[1] ) return 1; // UTF-16LE
if( cnt[1] < 0.7*cnt[0] ) return 2; // UTF-16BE
return 0; }
231 ：: 連続した文字が「同じ文字区分に属している確率」を見ればいいんじゃない？
232 ：: >>227
察するにＣかなんか使ってるようだが、
Ｊａｖａかなんかに乗り換えたほうが
たぶん長期的に見れば楽だと思うぞ。
Ｃの文字列はヌル・ターミネートだから、
文字列の中にヌル文字が入ってると結構ややこしいことになるし、
文字列のような可変長データの動的割当を気にしていると
開発効率があまりよろしくない。
Ｊａｖａが厄介な点も一つだけあって、
ｃｈａｒがｓｉｇｎｅｄであってｕｎｓｉｇｎｅｄじゃない。
高速ですべての部分文字列の辞書引き（直積検索という）を
行なうとき、Ｇｏｏｇｌｅでも使われてる
「ダプル配列法」（本当は、もっと素朴なトリプル配列法のほうが
面倒臭くないし効率もいいのでおれはそっちを使ってる）を
使おうとすると、配列の参照点→配列の参照点＋バイアスという
相対移動が出てくるときにマイナスの移動が生じ、
範囲外参照で落ちるということがある。
まあ、そこに配慮してコードを書けばいいだけの話なんだが、
文字コードのせいでプログラムとアルゴリズムの対応が直感的に
取りづらいというのはあまり気分がよろしくない。
233 ：: Javaのcharは符号無しですが何か?
234 ：: >>233
ごめん byte だ。
char はでかすぎてダブル配列法を使うと場所食ってたまらん。
235 ：: 文書の類似度計るのに多く出る単語は価値を低くして
滅多に出ない単語も価値を低くしたいのですが。
後者は、前者と対立して価値を高くすべきと思われますが、ここを無視すれば計算時間が短縮出来ます。
価値が一定値以下の単語はカットしたいのですが、上側と下側をカットするにはどうしたらいいですか。
236 ：: w_i = 0
これでバッチリ。
237 ：: 普通にヒストグラム取って25パーセンタイルと75パーセンタイルでカットするとかじゃ駄目なのか？
238 ：: サンクスです。
上と下も同一パラメータでカットしたかったのですが。
総量と分散でに分けてカットすることにします。
どの文書にも10個ずつ現れるなら分散0でカットして
合計数が少なすぎ多すぎでカットします。
239 ：: >>237
二十年以上昔から
駄目っぽいことが判ってるらしい。
上側は用言や副詞や動名詞
下側は固有名詞と
だいたい傾向が分かっていて、
類似度を計るときは、通称「百科語」と呼ばれる
単語を使うことになっているのだが、
ここんとこに漢語の合成語が入ってくるのが難物なのだ。
漢語の合成語を自動検出するシステムを作って
ふるいに掛けてみたら、
二十万語を越しても一向に頭打ちになる様子がないので
怖くなってやめたと、たしか高橋秀俊先生が
書いていらっしゃった。
最近ではシソーラスを作るのが基本だが、
手間が半端じゃねぇというので
あまり好かれない。
>>235 もたぶんそういった流れなんだろうと思う。
240 ：: 自分の場合は、単語は普通の単語でなくN-gramなんですが。
HTMLをテキストとして読み込むと、文書を特徴付けないタグ関連が上位にきて
ここら辺が精度のためにカットして、下位は精度より計算量削減のため削ります。
241 ：: 普通の単語では、長いものは短い物より現れにくく
経験としての単語同士の価値の補正が必要になり不便です。
いまは、UTF16　(上のレスは自分です)　で2語または3語で回数数えてやってます。
242 ：: >>239
今時の計算機ならいけるかもしれんな。
IPADICから合成語を除いた上で、2語で1語になるものを、ウェブ上で端から集めるとか
そんな方法ででけるかな。
243 ：: >>242
辞書がこなれてくるまでに
多少人手で編修する必要はあると思うが、
基本いけそうに思う。
「割愛する」が「割＋愛する」と
解析されてしまうとかいった類の
不測の事態っつーのがけっこうあったりするので。
244 ：: 割礼
245 ：: >>244
むしろ熱愛
246 ：: MeCabってどういう仕組みなんですか？
文字列abcがあり、辞書に[a], [b], [c], [a, b], [b, c], [a, b, c]の形態素情報があった場合、
もっとも繋がりの高い形態素の連鎖状況を見てそれを出力するんですか？
（例えば[a][b][c]よりも[a, b][c]となっている確率の方が高い場合、後者を選択）
品詞情報からp(x|y)を判断する方法もあると思いますが、特定の形態素に対してp(x|y)を算出するのに辞書情報を用いる方法が分かりません。
247 ：: >>246
CRF
248 ：: c++でmecab使ってるんだけど
直接stringを解析ってできないの？
今はいちいちstringからcharに変換してる
249 ：: >>248
なかったはず。
いちいち変換と言っても tagger.parse(str.c_str()) くらいだし、ユーティリティのマクロでも書けば？
250 ：: >>249
ありがと！
そうしてみる
それにしてもmecabをc++で書いてる人ってあんまいないね
みんなperl使ってるわ
251 ：: 統計ならR
画像ならOpenCV
みたいな定番があるけど
自然言語処理でこれが定番みたいなものはないの？
252 ：: Python
ツールが揃ってるのが大きい。
Perlはもう時代遅れ気味で
新しいツールはPythonばかり。
253 ：: >>252
質問(>>251)しているのは、プログラミング言語ではなくて
アプリケーションあるいはミドルウェアに属すソフトウェアだと思うんだが？
254 ：: >>251
めかぶ
255 ：: >>252
日本語でも大丈夫なのかな？
もしよかったら日本語OKなライブラリを教えて。
256 ：: でもネットに転がってるソースってまだPerlが全然多ないか？
参考にしたいから勉強しようと思ってたけど
遅れ気味って言われると今からやるのは抵抗あるな
257 ：: 今からperlやるのは
今からwin95使うようなもんだろ
258 ：: そりゃあ最近まではPerlが主流だったから既存のソースは多いよ。
ただ、これからはPythonが主流なので最先端の実装はPythonでリリースされるのが多い。
Perlでは新しいツールはあまり作られなくなるだろうね。
259 ：: POPFileを今も使ってる
perlはまだまだ現役
260 ：: 別にどっちでもいいよ。目的は、所望の処理ができることだから。
261 ：: とりあえず自然言語処理ではmatlabやRに相当するものはないということでいいんだね
262 ：: >>261
日本語ならNAISTが開発している一連の形態要素解析/言語解析ライブラリ群、
コーパス/辞書管理ツール群がmatlabやRに相当するものになるのではないかと。
ちなみに既出の形態要素解析ライブラリMeCab(そしてChaSen)もNAIST生まれ。
ただ、数学に無知な人がmatlabやRを使いこなせないのと同じ理由で、
統語的意味論とか統計的言語解析みたいな言語理論を理解していないと使えないけどね。
263 ：: NAISTの成果物 (MeCab, ChaSen等) と、京都大学の成果物 (JUMAN, KNP等) は
どちらが優れる？
264 ：: アイちゃん
265 ：: >>263
ナゼそこで個別のパッケージを比較せずに開発元組織を比較しようとする？
お前は本物のサルだな
266 ：: mecabをc++で使ってて、解析したnode->surfaceから表層系を取り出したいんだけど
charから指定した文字数を吐くような関数ってある？
char型の文字を指定した文字数だけstring型に移す関数でもいいんだけど
やっぱstrncpy使わないとダメか？
267 ：: 質問がよく判らんが、sprintf(destination, "%.*s", length, source)という話なのだろうか
268 ：: Natural Language Processing with Pythonの和訳本がようやく出るね
twitterでは5月ころ出るって言ってたのにｗ
でも日本語処理の章も追加されてるししょうがないのか
269 ：: 緊張浮上
270 ：: 日本語処理に関する、ゴミみたいな記事が追加されただけだろ
271 ：: とゴミが言いました。
272 ：: 読んだけどいい本だったよ
273 ：: 基本的に英語での処理?
英語ってスペースで区切れば簡単に英単語抽出できそうだよね。
274 ：: そう思ってる椰子はステマーの奥深さを知らない初学者。
275 ：: ステマー？
動詞の活用とか副詞のlyとか接頭語接尾語に関する用語か？
276 ：: ってかこの分野って需要ある？
277 ：: http://www.youtube.com/watch?v=fUsdOFlG7Rg
過疎りかたがはんぱない
278 ：: 機械翻訳の技術について書かれた本とかサイトとかないかな？
今どんなことが問題になっててどんなアプローチされてるのかとか知りたいんだけど
279 ：: ｸﾞｸﾞﾚ
280 ：: ググれは最強だからな
281 ：: Google Scholar で 1,770,000 件。
http://scholar.google.co.jp/scholar?q=Machine+translation
282 ：: >>278
誰かまとめてくれ。
自然言語処理の分野で。
283 ：: 自然言語処理では、
造語とか、略語とか、若者言葉とか、
特殊な言葉はどうやって処理してるんだ?
特別な辞書（キーワードリスト）でも作っておけばいいのか?
284 ：: 文部省的な「文法」（橋本文法とかね）に従ってきっちり処理できるような文は、
現実に通用してる文のごく一部でしかないので、自然言語処理ではもっと適当に
現実に合わせて処理しています。
つまり特殊な言葉とかそういうくくりはなくて、単に処理する必要がある（ありそうな）
単語は片っ端から辞書に登録されているわけ。
285 ：: 誤字脱字があっても平気？
286 ：: みんな言語処理でどんなことしようとしてるの？
287 ：: 金儲け
288 ：: 人工無能
289 ：: 英語の勉強に活用。
290 ：: >>289
どーやってんだ？
291 ：: ステマーの奥深さを知らないのか
292 ：: >>290
たとえば、
nltk.chat.chatbots()
を使うとbotと会話できるｗ
293 ：: どのアルゴリズムもパラメータサーチは結局は手動で勘なのか
全然進歩してないな
294 ：: そんなことないだろ。
295 ：: 四ヶ月ぐらい取り組んできた成果が出てきた
日本語限定だが自然言語処理を根本からひっくり返せるかもしれぬ
どこで発表すべき迷うな
296 ：: ここでもいいよ
すごそうだぬ
297 ：: 入門書の良い本紹介してくれませんか？
298 ：: 入門自然言語処理
299 ：: CRFって離散変数しか扱えないの？
300 ：: 本屋にpythonでテキストマイニングする本が積まれてた
ここみるとみんなrubyのような気もするんだけど
pythonの方が実は使われてたりするの？
301 ：: http://www.oreilly.co.jp/books/9784873114705/
これこれ
302 ：: >>300
少なくとも国際的には圧倒的にpythonが主流。
303 ：: Pythonは機械学習・データマイニングなどのライブラリが充実してる
304 ：: そういえばRってあんまりみないね
pythonなんだ
305 ：: 入門自然言語処理って面白い？
306 ：: おいしいよ
307 ：: どういうこっちゃねん
308 ：: 人工無能botを作りたいんですがおすすめの本とかありますか？
309 ：: 誰でもできるtwitterbotの作り方。
310 ：: tf,idfのidfの式に+1する理由って何ですか？
0にしないため？
311 ：: ラプラスさんに訊け
312 ：: 表記は tf*idf じゃないのかな？
313 ：: tf☆idf
314 ：: しょうもないことをいってすまんかった。話を続けてくれ。
315 ：: 皆さんは使っているのは
距離：コサイン類似度
クラスタリング：k-means
分類：SVM
って感じなのでしょうか？
どんなもの使用しているのか教えていただけませんでしょうか？
316 ：: 目的によるんじゃないの？どうしてそう特定できるのだろう？
317 ：: 他のスレでも書いていますが、小学校２年生ぐらいの算数の文章問題を
解析して答えを導きたいとき、どのような処理を行えばよいのでしょうか。
単純な計算は解けます。困っているのは日本語の処理です。
318 ：: 数学者が扱うようなかっちり定義された問題なら
まだわからなくもない
319 ：: >>317
具体例だしてよ
320 ：: すずめが　５わいます。　そこへ２わとんできました。
すずめは　みんなで　なんわに　なったでしょう。
321 ：: りんごが　３こ　あります。
さとしくんは　１こ　たべました。
りんごは　のこり　なんこに　なったでしょう。
322 ：: おすしを２こたべました。
今、さらに３こをたべました。
ぜんぶでなんこたべたことになりますか？
323 ：: しかもひらがなかよ！！
324 ：: >>322
それは難しすぎる
高騰プログラミング技術が必要だ
325 ：: 論理命題に落としこむとか対応付けたり出来ないか
食べる　→　マイナス
飛ぶ　→　マイナス
みたいに
326 ：: >>321 食べる→マイナス
>>322 食べる→プラス
プログラミングじゃなくて言語学を専門でやらないと無理
ちなみに >>322 の「さらに」は皿のことだからな、間違うなよ！！！
327 ：: いったん人の読める形に変換するとか。
おすしを２こたべました。
↓
私は2個のお鮨を食べた。
328 ：: 小学校低学年向けだとすると
文脈情報を極端にカットしてるケースも多いと思われ
あらかじめ問題作成者と連携を取って
使用可能な単語リストや文型が完全に定義された状態からのスタートなら
わからなくもない
329 ：: 少なくとも時系列記憶ができないといけない。
330 ：: 今、自然言語の本を読んでいるのですが、質問させてください
PythonでNLTKを使った解説がありますが、このモジュールは日本語でも使えますか?
関数など見ていると、英語圏のように、スペースにて文字を区切ることを前提にしている様ですし、
品詞タガーだけでなく、N-gram関数でさえも一単語（英語）と一文字（日本語）で、
日本語の場合と（仕方ないですが）挙動が違ってきますし
・日本語を解析する際にもNLTKが使用できるのか
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
を教えて頂けませんでしょうか?
331 ：: >>330
・日本語を解析する際にもNLTKが使用できるのか
自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
・もし出来ない or 厳しいのであればどのようなソフト、ライブラリを使って処理すればいいのか
日本語用のNLTKみたいなのはないと思うので大体は自分で書く
なにをするのかによるけどngramとかなんかだったらmecab + pythonですぐ書けるし（速度は別にして）
332 ：: >>330
書籍『入門自然言語処理』 O'Reilly Japan, 2010 の第12章「Python による日本語自然言語処理」
の内容が公開されてるよ。ChaSenやMeCabによる形態素解析とNLTKを連携させる話しが載ってる。
個人的にはこの章が追加されてるだけでも本書を買う価値があると思うよ。
http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html
333 ：: >自分の周りでは、日本語を対象にNLTK使ってる人はあまり見かけないな
なるほど、やはりそうですか
本を読んでいて、「これ日本語で使えるか？」と思っておりました
ストップワードを削除するとか言うRTEFeatureExtractorは元より、他の関数達も、（日本とかは世界では独特でしょうから当然ですが）欧米型の文書構造を考えているので
使うのは厳しいだろうなとは思いました
中には日本語でも使えるものもあるとは思いますが
自分は元々PHPでN-gramとかMecabとか書いたり使ったりしていたのですが、めんどくさくなってきた&自然言語はPythonみたいなものがあってPythonを学習しました
しかし、となるとPython使う意味がなくなったような気もしますが、Pythonは統計計算系のライブラリなど充実していると聞きました
自然処理として、入門的な所で言うと、ナイーブベイズなどのライブラリとかそういうのはやはり皆さんは使われているのでしょうか？
関係ないとは思いますが、この場合（ライブラリを使う場合）も日本語の問題はやはりあるのでしょうか？
334 ：: >>332
ありがとうございます
ネットにて検索いたしました
まぁ、読めば分かるのかもしれませんが、そのように形態素とNLTKを連携させた場合、上記で書きましたようなNLTKの関数などはやはり使えないのでしょうか？
335 ：: (´･ω･`)ｼﾗﾝｶﾞﾅ
336 ：: >>333
python以外あんまやったことないんで、間違った意見かもしれないけど
確かにライブラリは充実してると思う（自分はあまりつかわないけど）
ナイーブベイズくらいなら自分で書いちゃうけど、例えばSVMだったらlibsvmとか使う
まあこれはPHPでも使えるけど
だから、自分が使いやすければ言語はなんでもいいと思うよ
ただ、言語処理だとpythonとかrubyを使ってる人が多いから、
ネットに転がってるソースを見るときに楽ってのはある
337 ：: でもPythonやRubyってVBと同じくらい糞言語に見えると思うんだよな。
PHP使ってるところからして。
338 ：: 質問させてください
N-gramを使用した場合、形態素解析と違い、
自分で品詞タガー、チャンキングなど作成する実装をしないといけないと思うのですが、
それらのように、N-gramのその後に行うべき処理はどういうものがあるのかを教えていただけませんでしょうか？
N-gramを行えというのはどの本や資料でも書かれていますが、そのままだと、品詞も分からず、
そもそも["今日”, "日か", "から", "から"]など単語として成り立っていないので、
どのようにかして結合し、単語にしなければいけないと思います
欧米の場合はN-gramを使えば単語に分かれているのでそのままでもいいのでしょうが、
日本語の場合はそのように、N-gram後の事が書かれていません
N-gram後に何をどういう手順で行えばいいのかアドバイスを頂けないでしょうか？
また、そのような事の書かれているサイトや書籍などありましたら教えていただきたいと思います
339 ：: 文字に対するngramなのか、単語に対するngramなのか、
まずそこをはっきりさせないと。
340 ：: >>339
一般的にN-gramアルゴリズムでは文字N-gramが書かれていると思いますので、文字N-gramです
341 ：: で、文字ngramを使ったPOS taggerを作りたいの？
それとも文字ngramを使ったchunkerを作りたいの？
最終的に何をしたいのか不明のままでは
taggingやchunkingが必要かどうかすら不明なんだけ
342 ：: >>341
まずN-gramから単語に・・・と思ったのですが、
そもそもの問題として質問させてください（すみません）
皆さんはN-gramの後に単語に作り直さないのでしょうか？
タガー、チャンク作成は必須なのかなと勝手に思っていたのですが
Mecabなども品詞は出てきますし
例えば、ナイーブベイズとかピアソンなどで類似性をはかるにはまず単語にしなければいけないと思うのですが
違うのでしょうか？
自分は、ある文章をクラス（ジャンル）分けしようと考えているのですが、
その為には品詞、特に名詞（後は動詞）を使うのがいいと思いました
Mecabならば出来ますが、N-gramでやろうとすると、文字に分割した後が何をすればいいのかいまいち分かりませんで
とにかく、N-gram -> 相関性やクラスタリングなどの式に送る　ということをしたいと思っております
343 ：: 品詞使いたいなら素直にmecab使えよ
なんでn-gram使いたんだ？
344 ：: mecabがいいと自分は楽だと思ったのですが、新語や他国後を扱う機会が想定されまして
辞書の追加、インデックスなど後々めんどうだと思いまして
で、N-gramを使った実装をテストしてみようと思ったのですが、分割したものを単語にまとめなおすという情報が、検索の仕方が悪いのかもしれませんが出てきませんでした
単にN-gram テキストマイニングとか、その後処理とかいくつかやってはみたのですが
まず単語に直せさえすれば欧米のようにチャンク文法とかへ繋げる事が出来るとは思ったのですが
色々と考えてみたのですが非常に難しいでした
日本語でN-gramを使っている人やGoogleを始め、他の検索エンジンでもN-gramを採用しているところもあるという事実から出来ないことはないとは思うのですが
345 ：: N-gramは漏れなしで全て登録が基本。
346 ：: 知識なしの統計のみで単語分割はN-gramとは別の話題。
なんでもかんでもN-gramで解決すると思うな。
347 ：: 教師なし単語分割の最前線。ベイズ meets 言語モデル
http://d.hatena.ne.jp/mamoruk/20090325/p1

教師なし　統計　言語 - Google 検索
https://www.google.com/search?q=%E6%95%99%E5%B8%AB%E3%81%AA%E3%81%97%E3%80%80%E7%B5%B1%E8%A8%88%E3%80%80%E8%A8%80%E8%AA%9E
348 ：: 翻訳やIMEを作るのでなく、容量食ってでも漏れなし検索したいときに全パータンを登録するのがN-gram
349 ：: そもそもやりたいのは文章分類なんだよね？
それなら新語はそんなにクリティカルじゃないと思うんだけど
どうしてもn-gram使いたいんだったら、2から5くらいでn-gram作ってやって
それぞれでSVMで分類してやれば？
形態素で分類したほうが精度いいと思うけどね
350 ：: 長くなってすみません　m(_ _)m
教えて頂きたいのですが、「漏れなしで全て登録が基本」というのがちょっと分からなかったのですが、
日本語の場合は欧米系と違い、N-gramで単語単語が取得できません
で、自分など読んでる本とか、Web上の情報など欧米系のものが主になってきてしまっているので、
その感覚で考えてしまっているので混乱または難しく考えているのかもしれませんが、
日本語の場合はそもそも単語に戻す処理をするのでしょうか？
それとも、欧米系とは根本から異なり、上記のように["今日”, "日か", "から", "から"]のような構造を保持し、
それを（単語として戻さずに）検索などの処理に当てるのでしょうか？
その根本的な部分がまず分かっていないと思います
ただ、戻さないとナイーブベイズとか後処理へ持って行けないので訳が分からなくなります（苦笑）
形態素解析だけでは本当の意味でのテキストマイニングなど出来ないんじゃないかと思います
351 ：: おおっ、350書いてる間に大量の返答ありがとうございます
先にお礼を述べさせていただきたいと思います
今からレスを一つ一つ確認いたします
352 ：: 人間が理解可能な言語構造のない検索対象。
"n-gram"　dna配列 - Google 検索
https://www.google.com/search?q=%22n-gram%22%E3%80%80dna%E9%85%8D%E5%88%97
353 ：: なるほどッ！
皆さん、レスありがとうございます
自分の場合、まず検索エンジンの文章を読んだために形態素とN-gramが比較の対象になっていたのですね
（自分は検索エンジンを作るつもりではありませんでしたが）
形態素よりもN-gramの方がいいと書かれていた（メリットが強調されていた）為に、
まずN-gramが先に来てしまっていたのだと思います
それと何度も書いていますが、欧米系の処理方法が頭にあったので
日本語の場合はクラスタリングとか統計的に使う場合は形態素解析がメインで、N-gramは殆どないという事ですね
教師なし形態素解析というのは少し前に知って、ネット上でザッと目を通したのですが、
良く分からないから後回しにしようと思っておりました
関連にてやはりきちんと読んでみようと思います

"人間が理解可能な言語構造のない検索対象"というのは言葉の表現を聞いただけでとてつもなく難しそうな
感じがしますが、読んでみます
354 ：: 1～N Gramが最も確実な検索。
形態素は、そのうちで登録しないものを取り除いた検索。
検索されないだろう物を除外。
355 ：: 日本語相手にngramを使う場合、
検索なら文字ngram
分類なら形態素解析した後で単語ngram
ただし、文字ngramでも自動分類に使うことはできる。
もちろん形態素解析したほうが精度いいけどね。
多国語を同じスキームで処理することが目的なら、
文字ngramで自動分類やクラスタリングするのも
頭から否定してかかるほど的外れでもない。
この場合は文字ngramの種類数が莫大になるから
うまくfeature selectionしてやる必要があるだろうね。
がんばれ。
356 ：: 今、KNPにて
http://reed.kuee.kyoto-u.ac.jp/nl-resource/knp-form.html
文章打って試してみたのですが、Cabochaとか、こういう係り受け解析ってのは何に使うものなのですか？
何かグラフのように出力されましたが、これが何なのかな、と思います
基本的に何の目的で使うものなのでしょうか?
Juman
http://reed.kuee.kyoto-u.ac.jp/nl-resource/juman-form.html
とかは分かるのですが
357 ：: 特徴
KyTeaには以下の機能が揃っています：
単語分割：分かち書きされていないテキストを適当な単語または形態素に分割する。
読み推定・品詞推定：かな漢字変換や音声認識、音声生成のために単語の発音を推定することができ、品詞を推定することもできます。
線形SVMやロジスティック回帰などを用いてそれぞれの分割点や読みを個別に推定するため、部分的にアノテーションされたデータを利用してモデルを学習することも可能です。
<a href="http://www.phontron.com/kytea/index-ja.html">KyTea (京都テキスト解析ツールキット)</a>
358 ：: >>356
ついこないだからknp使い始めたにわかがマジレスすると、係り受け木を利用することで単語列よりは文の意味的なものを扱いやすくなります。
まず、係り受けっていうのは、語の修飾関係を表している、情報を付け足す向きを表しているものです。
私が本を読んだ、という文の係り受けは
私が→読んだ
本を→読んだ
これを木の形にするとknpとかの出力になります。
359 ：: そのうえで大量の文書の特定の固有名詞への係り受けをクラスタリングすると、特定の固有名詞に対する評価が分析できるとかじゃないかな
360 ：: >>358
なるほど
レスありがとうございます
私が→読んだ
本を→読んだ
のようなものの精度を上げるのは難しい仕事だと思いますが、コンピュータに文脈の意味を誤解させない・・・というか、
品詞分解などなどで間違わせないようにする機能と理解して宜しいのでしょうか？
>>359
なるほど
関連性、親密性のようなものも判断できるということですね
361 ：: かな漢字変換の実装を行なっていて
後ろ向き探索をA*アルゴリズムで行い、n-best解を求めたいのですが
どのように実装すればよろしいのでしょうか。
現在、前向き探索をコスト最小法で行なっていて、
ある文字で終わるノードのコストはわかっています。
できれば、Rubyでの実装法を教えていただけるとありがたいです。
スレ違いでしたら申し訳ございません。
362 ：: >>361
A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まるが？
363 ：: >>362
A*の実装法がよくわからないのです。
前向き探索を一度やっていると効率よくA*を出きるというのですが
具体的にどのように書いていけば良いのかわからなくて…
Ruby(というか、プログラム)初心者なもので、ご教授いただけるとありがたいです。
364 ：: >>362
「A*なら最適解を求めた後もそのまま探索を継続すればn-bestが求まる」ってのは本当なんかね・・・
ここにもA*でおｋって書いてあるけどいまいち信用出来ない・・・
http://d.hatena.ne.jp/tkng/20090302/1235958257
これって「k shortest simple paths 問題（コスト付きグラフにおけるk番目に短い経路（ループする経路は除く）を求める問題）」だよね。
365 ：: http://d.hatena.ne.jp/octech/20070712#1184210094
http://d.hatena.ne.jp/nitoyon/20100126/dijkstra_aster_visualize
http://d.hatena.ne.jp/gan2/20071127/1196157611
http://www.sousakuba.com/Programming/algo_root.html
http://efcl.info/adiary/%E3%83%80%E3%82%A4%E3%82%AF%E3%82%B9%E3%83%88%E3%83%A9%E6%B3%95%EF%BC%88%E6%9C%80%E7%9F%AD%E7%B5%8C%E8%B7%AF%E5%95%8F%E9%A1%8C%EF%BC%89
http://www.deqnotes.net/acmicpc/dijkstra/
http://www.me.sophia.ac.jp/or/lab/ishizuka/OC/spath_00.html
http://d.hatena.ne.jp/g940425/20100812/1281624557
http://ja.wikipedia.org/wiki/A*
http://www.infor.kanazawa-it.ac.jp/~koblab/home/d1504310/acm/dochtml/47_.html
366 ：: 自分の読んだ本には例えば「僕は今日高校生になります」と「僕は今日川に泳ぎに行きました」という２文があった場合、（簡単な為名詞、動詞だけにします）
　x(今日) = (n("僕"), n("高校生"), n("川"), n("泳ぐ")) = (1, 1, 0, 0)
とか、(n("今日"-1), n("今日"+1), ...) = ()
という様な色々な表現法でベクトルで表し、それらに文書の類似性として、ピアソン相関係数とかコサイン類似度などを使用するようですが、分からない点があります
文書の群があった場合、それらをまずクラスタリングや分類器にてクラス分けし、その後で類似性を上記の様に計算するのだと思いますが、
例えば、10個の文書群でも相互に計算する場合、9+8+....+1通りありますし、
文書自体も1000語とかあれば類似度計算自体も大変だと思います
これがもし文書が何千個もあれば、膨大な類似計算が必要になると思います
こういう場合、どのようにして対処すれば宜しいのでしょうか?
何か他にいい類似度を測る計算法だとか、アルゴリズムとかありましたら教えていただきたいのですが
367 ：: >>364
n個の到達解S1,...,Snを得た後で残された全ての可能な経路について
h()がadmissibleであれば、あとは自明だよね？
368 ：: テイラー展開がある大域的な領域の各点で可能な関数は、その領域において解析的である（またはその領域上の解析関数であるという）。
大方収束したと考えてよろしいのでは。
369 ：: A*もダイクストラもたいしてかわらない。
まずダイクストラで組むんだ。
違いは最短距離を予測するヒューリスティック関数の作り方が難しいだけ。
370 ：: A*よりもそれを適用するためのかな仮名漢字変換用データの収集・選択が難しいだろ。
371 ：: 361です。皆様、解説ありがとうございます。
まだ、全部に目を通せていない＆実装できる環境にしばらく行けないのですが
参考にまた、勉強してみようと思います。
372 ：: >>365
ありがと。
373 ：: 自然言語処理を１から勉強したいです。
いい本とかサイトとかあったら教えてください。
374 ：: >>373
大学に行きなよ。
375 ：: >>373
ネットで探してみなよ
私は大卒じゃないけれど、何とか勉強していけそう
あなたも興味があるなら、頑張って
376 ：: >>375
最初はいいんだけど、おそらくある程度のところになると大学で学ばないときつい
特に、プロの実践の場での使用となると・・・
377 ：: >>373
とりあえず、「入門自然言語処理」を読んで、自然言語処理の勉強会にいけ。TokyoNLPとか、DSIRNLPとか。
378 ：: 赤ちゃんプレイでしたら申し訳ございません。
379 ：: 勉強会はありがたいですよねー。
詰まったときは、聞くことも出来るしさ
大学行くか、独学か…お好きな方を
どちらにしても、目標あるって良いよね ;)
380 ：: >>374-379 皆さんありがとうございます。
381 ：: >>376
大学がじゃないと厳しいと思えるのは何ですか？
何か一つでもあげてもらえば参考になります
382 ：: >>381
最終的に何がしたいかにもよるけど、基礎をやろうとすると独学や企業では難しいかもしれない。
言語学よりな話とか、論文の読み方、研究の仕方、とかね。機械学習とかはよほどマニアックな話でなければ企業でもやれるんでないの。
あと、独学だとモチベーションの保ちかたとか趣味レベルを超えた時の目標とか難しそう。
383 ：: 何でみんなUnicodeを使わないの？ Lispで使えなかったから？
384 ：: どう考えても企業の方が上だろ。
アメリカのようにビジネス、実践を重視して、即戦力になる大学なら別だが。
日本の大学は、ちょっと知識がある程度になるだけ。
即戦力、リーダーなどに抜擢されたりしない。
385 ：: 社会人厨は巣に帰れよ。
だいたいの日本の企業はアメリカのように先端の研究をしない。
ほとんどの企業は世界と競争できる研究なんて全くしてない。
386 ：: ジャストシステムとか
富士通とか
ＮＴＴ系のどっか
387 ：: 日本企業が世界で戦えないレベルとしたらいまごろ外資に占領されてるだろう。
388 ：: 今自然言語の練習でニュースサイトの分類などしようと思っているのですが、この場合、クラスタリング、分類器などどんなものを使うのが一番いいのでしょうか？
ニューラルネットワークが一番いいのかもしれませんが良く分かりません
例えば、「野田総理が辞任しました」のような記事を同類にまとめるとか、スポーツ記事の中でもサッカーや野球にわけるとかです
SVMはナイーブベイズよりも精度が高いようですが、ある程度の記事数になると処理の重さなどにより逆にナイーブベイズの方が有利とかあるようです
自分はSVMがカーネルの所がまだハッキリと理解できないでいるのですが
今日R言語でのテキストマイニングの本を読んでみたのですが、なんとユークリッドで分けていました
ユークリッドで大丈夫なのかなとか思ったのですが、上記の場合どのようなアルゴリズムを使用するのが一般的には有利なのでしょうか？
実装や環境にもよるとは思うのですが、一応アドバイス頂けたらと思います
自分の名前も知らないアルゴリズムが最適だったりするかもしれないと思いまして
389 ：: >>388
内容からすると、分類よりもクラスタリングがしたいようなので、まずはk-meansから試してみるとよいのでは。
390 ：: >>388
アルゴリズムは主に速度を向上させるだけ。分類するための基準づくりが重要。
まったく違う物を同一と判定したらどんなアルゴリズムでも分類できない。
391 ：: たとえば類似画像検索で、どれを類似と見なすかを設定すれば
あとは効率悪くても総当たりで比較可能。
アルゴリズムで分類の効率化はできても、どれも同一と見なすかは人間の判断・指定がいる。
392 ：: 自然言語処理を１から勉強したいです。
393 ：: とりあえず>>390-391は自然言語処理もアルゴリズム論も全くの無知であることはわかった。
394 ：: 潜在意味解析は、ベクトル空間モデルを利用した自然言語処理の技法の1つで、文書群とそこに含まれる用語群について、
それらに関連した概念の集合を生成することで、その関係を分析する技術である。
出現行列では、各文書における用語の出現を表した文書-単語マトリクスが使われる。
この行列の各成分の重み付けには tf-idfが用いられることが多い。
この場合、行列の各成分はその文書でその単語が使われた回数に比例した値であり、単語はその相対的重要性を反映するために強く重み付けされる。
出現行列を用語と何らかの概念の関係および概念と文書間の関係に変換する。
したがって、用語と文書は概念を介して間接的に関連付けられる。
応用
この新たな概念空間は以下のような場面で利用される。
概念空間での文書の比較（データ・クラスタリング、文書分類、など）
翻訳文書群の基本セットを分析した後、異なる言語間で類似の文書を探す（言語間検索）。
用語間の関係を探す（類義性や多義性）。
用語群によるクエリを与えられたとき、それを概念空間で解釈し、一致する文書群を探す（情報検索）。
潜在意味解析 - Wikipedia

TF-IDFで遊んでみた - uncertain world
http://d.hatena.ne.jp/rin1024/20090926/1253940572
395 ：: 文書を特徴付ける語の選択が分類精度を決めるから
それがダメだったらどんなに高級なアルゴリズムを使ったとしても正確な分類はできない。
アルゴリズムは主に計算量、速度の差につながる。
396 ：: >>369 >>370と似通っているが、言語処理はアルゴリズムの優劣だけでは決まらないんだ。
ヒューリスティックな部分、機械的にはできそうにない特徴付けが本質的に重要。
397 ：: と言われていた将棋で、非ヒューリスティックが圧倒的に出し抜いた例を見ちゃったからなぁ
398 ：: >>397
ありゃでかい突破だよなあ。
言語学主流派のグランドセオリーからすりゃ、同じように機械的にいけるはずなんだよねえ。
399 ：: ボナンザは特徴の重みを機械的に決定したのであって、特徴抽出は手動だぞ。
400 ：: ボナンザは元にした6万局の棋譜データから、評価関数のパラメータを自動生成している。
ただし、パラメータは自動生成だが、何を評価するかは保木自身が決めている。
棋譜からパラメータを自動生成することで、開発者の主観を排除した評価関数は強みでもあるが、同時に弱みでもある。
当初、Bonanzaは序盤で大駒を切ることが多かったが、これは大駒の点数が他のソフトに比べて低く設定されているためであり、
人間の感覚に反するこの設定は、自動生成に由来するものであった。
Bonanza - Wikipedia
401 ：: Blunder のアルゴリズム
Blunder の評価関数は、以下の項目から成る 6668140個の要素を持つ特徴ベクトルを用いている。
http://www.computer-shogi.org/wcsc21/appeal/Blunder/Blunder.pdf
402 ：: で？
403 ：: 特徴量なんか、とりあえず考えられるだけ全部突っ込めよ。今の学習アルゴリズムは人が一つ一つ作った程度の特徴の数じゃ悪影響なんてまず出ない。それでだめなら特徴選択考えてみればいいだろ。
404 ：: 重要な特徴を入力し損なえば失敗だ。
機械学習でもヒューステリックが必要。
405 ：: あと単語・品詞分解がほぼ正確にできたとして、そのあとどうやって学習させるんだ?
文書の種類ごとに、単語の重要度は変化する気はするが。
学習させる方法が難しい。
406 ：: 寒中見舞いは、寒さのために相手の健康を気づかうたよりですが、
賀状の返礼や喪中の方への挨拶、賀状をくれた方への欠礼の知らせ
にも適しています。
モノの応用
407 ：: ドキュメント中に含まれる特定の単語2つの関連性を数値化したいんですが良い方法が思いつきません。
よければアドバイスお願い致します
408 ：: Tsujii Lab. Enshu3 -- Latent Semantic Analysis (LSA)
http://www-tsujii.is.s.u-tokyo.ac.jp/enshu3/lsa.htm

目次
http://www.gifu-nct.ac.jp/elec/deguchi/sotsuron/yoshimura/node1.html

潜在意味解析 - Wikipedia
http://ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90

pLSA(pLSI)用共起行列の作成 - かがぴーの雑記帳
http://d.hatena.ne.jp/kagamiuta/20110609/1307550239

うぃとげんしゅたいん: Probabilistic Latent Semantic Analysis : PLSA （Rで実装）
http://wg-stein.blogspot.com/2009/11/probabilistic-latent-semantic-Rysis.html
409 ：: 連続音声認識システムに使用するアルゴリズム
http://unicorn.ike.tottori-u.ac.jp/murakami/doctor/node6.html

ビタビアルゴリズム
http://www.yobology.info/text/viterbi/viterbi.htm

簡単なラティス構築とビタビアルゴリズム - Negative/Positive Thinking
http://d.hatena.ne.jp/jetbead/20111025/1319499732

Khafra - A Phrase-based DP Beam Search Decoder -
http://www.nlp.mibel.cs.tsukuba.ac.jp/khafra/

ソフトウェア特論講義資料グラフ探索，問題解決
http://www.jsk.t.u-tokyo.ac.jp/~inaba/soft4/soft4-search/soft4-search.html
410 ：: 【PC班】日本語入力ソフトの単語予測アルゴリズムに関する考察 : ブツリブログ
http://blog.livedoor.jp/eikophys/archives/51880269.html

Python による日本語自然言語処理
http://nltk.googlecode.com/svn/trunk/doc/book-jp/ch12.html

文節をどう区切るか
http://www4.airnet.ne.jp/koabe/com_inet/im/bunsetsu.html
411 ：: かな漢字変換システムのしくみ
http://web.archive.org/web/20040815062904/http://www.tomo.gr.jp/wakaru/1.txt
第３章　コンピュータで文章から単語を取り出す方法 - 長岡技科大自然言語処理研究室
https://sites.google.com/a/jnlp.org/lab/kajiwara/shu-ji-shao-jie-zi-ran-yan-yu-chu-likotohajime-yan-yewo-juee-hui-huanodekirukonpyuta/di3zhang-konpyutade-wen-zhangkara-dan-yuwo-quri-chusu-fang-fa

ビタビアルゴリズム - Wikipedia
http://ja.wikipedia.org/wiki/%E3%83%93%E3%82%BF%E3%83%93%E3%82%A2%E3%83%AB%E3%82%B4%E3%83%AA%E3%82%BA%E3%83%A0
412 ：: 特異値分解 - Wikipedia
http://ja.wikipedia.org/wiki/%E7%89%B9%E7%95%B0%E5%80%A4%E5%88%86%E8%A7%A3

潜在意味解析 - Wikipedia
http://ja.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E6%84%8F%E5%91%B3%E8%A7%A3%E6%9E%90
413 ：: このスレはおまえのお勉強ノートじゃねぇんだ
414 ：: 平仮名にすると区切るのが難しいと思うけど辞書なしでできる物なのか。

蜂は花の蜜を吸う
はちははなのみつをすう
415 ：: 文書の1～4バイトの出現回数をしらべてどこで区切るかの方法=アルゴリズムが判らん。
416 ：: 「iPhoneとiPadで動作するスマートな日本語入力システムを2013年までに
Appleに提案せよ。さもなくば日本人の生産性を10%低下させる。」
という脅迫状がJ社に届いた。あなたはJ社の営業部社員である。
あなたならどうする？
417 ：: JUST SYSTEMは、iPad用のIMEを開発できるのかなぁ。
418 ：: IDEの間違いじゃないの
419 ：: 「かな漢」って言えばいいやん
420 ：: ウェブサイト向け「NRI連想検索（銘柄）」サービスを開始
http://www.nri.co.jp/news/2008/080321_2.html
＞ウェブ上に公開されているリソース情報からキーワードを抽出し、独自のルールをもとに
＞上場企業との関連度及びキーワード間の関連度を定義したデータベース（連想辞書）を作成します。
動詞は語尾変化も含めて、助詞や助動詞（「～である」「～から」）も全て含めて、
国語辞典コーパスで「VF符号化」することは可能ですか。また「VF符号化」できない
ところは別表記にして、例えば「きゃりーぱみゅぱみゅ」のような過去には無かった
最新のキーワードがあれば、それはそれで別に編集しておくとか。
『VF符号化は、あらかじめ生成した辞書を用いて可変長の文字列を固定長の符号に
置き換えることで圧縮する（図5）。』
http://it.impressbm.co.jp/e/2012/01/16/4163?page=0%2C2
それからあらゆる分野の電子書籍百万冊を、年代別分野別に「共起語」を調べて統計化すると
いった試みは行われているのですか。例えば「選挙」と「出馬」について、「杉村太蔵は今年、
衆議院選挙に出馬する。」とかで一文ごとに区切って、共起率についての統計数字を算出
することは可能ですか。
『レンマ化とは，基本形（base form）あるいは辞書に載っている語形に，語尾変化している
語をまとめることである．レンマとは，つまり，語尾変化をする部分を除いて，変化をし
ない同じ語幹を持つ語のまとまりを指す.』
『まず，本研究では，共起語のレンジを bigram に限定して論文コーパスと雑誌コーパスの
データを取った．これはすべての語の組み合わせを対象とするため，レンジを広げると計
算が複雑すぎるからである．』
http://homepage3.nifty.com/yukie-k/publication/23.pdf
421 ：: なにがしたいん
422 ：: ステマだろ
423 ：: 動態保存
424 ：: FYI:
日本語入力を支える技術という本を書きました - 射撃しつつ前転
http://d.hatena.ne.jp/tkng/20120203/1328248554
日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界
http://www.amazon.co.jp/dp/4774149934
425 ：: ただのステマ
426 ：: 嫌儲にカエレ（・A・）
427 ：: 単語の重要度は一意的でないな。
たんなる「A」と「血液型はA」ではAの重要度が違う。
これを正しく認識できないものは駄目だな。
428 ：: 20周くらい周回遅れの人が来たよ
429 ：: http://www.ntts.co.jp/products/knowledgeocean/qanda.html
＞文章を単語（一般的に）に分割して、品詞情報や読みなどの情報を取得する処理のことです。
それでは格助詞「に」についての、以下のような詳細な分析は可能ですか？
また『大統領に選ばれる』の意味としては，「大統領として（誰かが）選ばれる」，
大統領によって（誰かが）選ばれる」，「大統領が選ぶことができる」の少なくとも３通りの解釈
http://www.adm.fukuoka-u.ac.jp/fu844/home2/Ronso/Kogaku/T83/T8300_0023.pdf
＞Knowledgeoceanでは、単語間の距離（単語の数）を指定して、共起度をカウントしています。
以下のような「主客関係」も考慮した共起度算定も可能ですか？
たとえば、以下の（８）においては「豚」と「人」との階層の違いによって
「豚が人をR」のではなく「人が豚をR」ことが明らかであるので能格構文を用い
ないが、（９）においてはそのような「有生性原理」が働かないので能格構文によって
主客関係を明示しなければならない。
http://www.lang.nagoya-u.ac.jp/proj/genbunronshu/22-1/kondo.pdf
また類義語にしても微妙に大きく違っていたりする場合もあるようですが、統計化できますか？
「起きる」と「生じる」
問題が起きるは84件、問題が生じるは63件。
事件が起きるは301件、事件が生じるは1件。
（毎日新聞記事　2003年）
http://www.ninjal.ac.jp/products-k/syokai/press/07_01/press07_01_2.pdf
430 ：: NTTソフトウェア　猪尾（いお）です。
お世話になっております。
このたびはお問い合わせいただきまして、ありがとうございました。
下記質問について確認いたしましたが、
弊社テキストマイニング製品（Knowledgeocean：ナレッジオーシャン）では、
簡易な共起抽出機能しかありませんので、
下記質問していただいた分析をできる機能がありません。
申し訳ございませんが、
よろしくお願いいたします。
431 ：: IME作れって言われても。専門外だもんなぁ。。。
432 ：: スーパーコンピュータを使って、百万冊の書籍を、文節単位に区切って、それら全ての共起関係を調べられないだろうか。
シソーラスやオントロジーがあると話しましたが、実はそれを作ること自体が大変なのです。
世の中には無数の単語があります。1万～ 2万ではなく、100万以上の単語がありますし、
フレーズの意味的関係も考えなくてはいけません。
フレーズまで考えだすと、恐らく億単位では収まらないくらいの表現があると思います。
http://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf
また共起関係と一口に言っても、どちらが主格でどちらが目的格になるのかについての統計も必要。
例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
433 ：: ＞例えば「ライオンはウサギに襲い掛かった」の逆、「ウサギはライオンに襲い掛かった」はありえない。
窮鼠猫を咬むの喩えでも判るように、有り得ないとは限らないから困る。
実際、ヌーなどの大型の草食動物は(撃退するために)ライオンを襲う。
434 ：: >>432
「ウサギはライオンに襲い掛かった」もありえることを>>432自体が証明している。
435 ：: >>434
>>433
千に一つ万に一つの稀有な例は除外ということで良いと思う。
とりあえず「ウサギ」と「ライオン」の関係についての、一般的な共起データベースを作っておきたい。
436 ：: 自然言語処理では、千に一つとか万に一つぐらいなら、
「いつも起こる」と同義なぐらい高い確率ですよ。
437 ：: ところで本当にライオンは「ウサギ」を狩ることがあるんでしょうかね。
438 ：: 「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。
「太陽が雲に隠れる」はあっても、「雲が太陽に隠れる」はありえない。
「机の上にリンゴを置く」はあっても、「リンゴの上に机を置く」はありえない。
「壁に貼られたチラシ」はあっても、「チラシに貼られた壁」はありえない。
共起関係と一口に言っても、動詞を介した主格と目的格についての区別ができたら良いと思う。
主格・目的格・動詞の三角関係を明らかにした共起データベースが見たい。
439 ：: >>438
あなたの言う「あり得ない」は、自然言語処理では十分にあり得る話ばかり。
せいぜい「十分なコーパスがあれば統計的に有意な差が出るだろう」程度です。
440 ：: >>438
形式概念分析(Formal Concept Analyze, FCA)でググると、ヒントが見つけられるよ
441 ：: >>438
頭の中で考えればそうかもしれないが、実際のデータは別だよ。
極端に言えば「意図的に作られた情報」として「あり得ないと考えたケース」が
登場するかもしれない。やると分かるが、それほど千差万別なので難しい。
442 ：: お、情報処理学会誌の特集が「不自然言語処理」だ
443 ：: >>438
＞「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。
下剤入りの正露丸
お昼のモーニングショー
イルカのわき毛
しっぽの無いヘビ
カバのかば焼き
夜中になると　台所を這い回る　タワシ
ミミズの骨折
カエルのクロール
アジの開き直り
七三にわけた　オシリ
脱毛に悩む毛虫
毛の生えたミートボール
つぶつぶ入りマムシドリンク
あったら怖い　あったら怖い
三三七拍子を打つ心臓
この世にそんな恐ろしいものが　あったら怖いよ
あったら怖い　あったら怖い　あったら怖いセレナーデ
あったらコワイセレナーデ　嘉門達夫：作
http://www.geocities.co.jp/MusicHall/6654/attarakowai.htm
444 ：: >>438
＞「ライオンがウサギを追う・狩る・襲う・食べる」はあっても、その逆はありえない。
例えば「食べた」という動詞に関する文がたくさんあります。
「せんべいとケーキを食べた」は「両方食べた」という意味なので、「ケーキ」にかかります。
「先生とケーキを食べた」は、「一緒に食べた」ことになります。
「クッキーとケーキを食べた」なら両方食べたという意味になります。
http://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf
「形式概念分析」は、今後ますます進化すると思う。
445 ：: 白い恋人とケーキを食べた
446 ：: >>444
「先生とケーキを食べた」は、
女教師をスイーツに誘った後でホテルにいったんだろ？
447 ：: 鴎の玉子を食べた
固有名詞と一般名詞でだいぶ事情が異なる
448 ：: >>446
そりは「先生を食べちゃった」という解釈っすか？w
それなら>>445も「(病弱で色白な)恋人と(一緒に)ケーキを食べた」という解釈もできる
これ、単なるダジャレやらヘリクツという意味で終わらず、
「自然言語処理における暗喩(あんゆ)の解釈」という難しい問題を提起することになるね
449 ：: >>448
そういうこと。
自由文には隠喩とか皮肉とか、単なる述語論理や係り受け構造では掬い取れない要素がいっぱいだよな。
それを分析できないというのは構わない。
しかし、ある手法を提案する時に隠喩や皮肉が無いことを前提にした手法というのは、
自然言語処理の技術としては、ちょっと不味い。
450 ：: 最近この手の話題が増えたよね。サービス品質、正誤は問われないのだろうか？
【話題/IT】ネットのつぶやきを解析、電車の遅れ速報--東芝が新サービス [02/18]
http://anago.2ch.net/test/read.cgi/bizplus/1329566810/
運行情報サービスのイメージ。遅れや運休があると判断した路線名に
「！」が付き、「つぶやき」の内容も確認できる
ttp://www.asahi.com/digital/internet/images/TKY201202180142.jpg
ttp://www.asahi.com/digital/internet/TKY201202180141.html
451 ：: 人間が一番安価なセンサー
問題はノイズ除去
２ちゃんねるやツイッターからノイズが除去出来れば
452 ：: >>451
なにも残らなかったり
453 ：: ゴミ情報を紛れ込ませることに喜びを感じるバカが必ず出てくるから、それをどう排除するか、だね。
古くからある手法としては、そもそも参加者を限定する（サロン、アカデミア、ギルド等）とか、
出来ては消える新しいネット利用メディアのように、バカが集まるまでの時間を利用して、
焼畑農業的にやる、という方法（金と手間はかからないが、心が折れる人間が一定数出る、
という人材焼畑という側面がある）、
2ちゃんねるのようにある程度の規模にできれば、良情報の絶対数がそれなりに
あるんだからいいじゃん、と開き直る、etc
454 ：: >>453
最近知ったんだけど、Amazon のレビューも、「Amazon Vine 先取りプログラム」という招待制が導入された
みたいだ。詳細は次の解説のとおり。これも評判の質を向上させようという試みなのだろうね。
> ttp://www.amazon.co.jp/gp/vine/help
> Amazon Vine 先取りプログラム?（以下、「本プログラム」）とは、お客様に予約商品や新商品のサンプルを
> ご利用いただき、ご意見やご感想をカスタマーレビューとして投稿いただく、招待制プログラムです。
> 本プログラムのメンバーとなるお客様は、他のお客様の役に立つ率直なカスタマーレビューを投稿している
> 実績があります。Amazon.co.jpでは、各仕入先から提供されたサンプルを、メンバーに無料でお送りします。
> 投稿されたレビューは、レビューガイドラインに違反している場合を除き、修正、編集されません。そのため、
> メンバーは商品に対する意見を自由に書くことができます。
455 ：: とりあえず「子なし女性」についての、一般的な共起データベースを作っておきたい。
456 ：: >>451
それ自体はもう既に2ちゃんネラーがノイズ元になってることがはっきりしてるから、
2ちゃん用語を元に元から除去すればノイズがなくなることは実証実験済みだな。
457 ：: そして2ちゃんには元々信号なんてなかったことが実証される。
458 ：: social-ime.imeのソースはどこにあるんだ？
459 ：: 問題はノイズを発生させる馬鹿じゃなくて
情報の品質を確認しない馬鹿をどう取り扱うかだ
天気予報を１００％うのみにする馬鹿は冷たい雨に打たれるがよい
460 ：: ベイジアンフィルタでスレをフィルタできる2chブラウザはある。
461 ：: 語彙概念構造の仕様ってどっかに無い？
462 ：: >>460
ニュース速報のスレを話題のジャンルごとにカテゴライズしてある
アンテナ・まとめサイトを作ればアフィリエイトでウハウハだなと、
スレタイ偽装スレも含めて95%くらいの精度で振り分けるところまで作ったものの
例の件で無かったことにしたのを今思い出したぞこの野郎
463 ：: ■多様な表現から主語・目的語等を判別する述語項構造解析技術
「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な正解データ
から自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、述語に対する
主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定することができます。
この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。
■国内最大級のシソーラス「日本語語彙大系」等の言語資源
高度な言語解析に必要な様々な言語データベースを独自に構築し、研究に活用しています。それらの一部は
「日本語語彙大系」、「日本語の語彙特性」、「基本語データベース」などの書籍として出版しています。
http://www.kecl.ntt.co.jp/rps/research/innovative/research_innovative04.html
464 ：: 　「する」の例で考えると，「トランプをする」「調査をする」のヲ格の意味は，「す
る」の具体的な内容であり，「彼を叩く」「ケーキを食べる」のようなヲ格とは異
なる。一方で，フィルモア（1975）に「判断，想像のような心理事象の内容」が
対象格にあることを考えると，このような「動作の内容」が対象格の範疇であっ
ても整合性がないわけではない。ところが，「青い目をしている」のヲ格は意味
を抽出することが難しい。動作の内容でも，動作の対象でもなく，このヲ格名詞
句は動詞に対して対等な要素として存在するとは考えられない。あえて言うなら
ば，「述語の表す状態の具体的内容」である。この他に「問題とする」「医者にす
る」のト格，ニ格は事柄の認定の目標，変化の結果を表すので，目標格とした。「頭
痛がする」のガ格は動作の表す具体的な内容とすれば対象格となる。ただし，こ
こで断っておきたいのは，これらを既存の意味格の中に位置づけようとすると些
かはみ出す形となり，特異な存在であることが浮き彫りにされることである。こ
れが「する」という動詞の特質でもある。
http://libir.soka.ac.jp/dspace/bitstream/10911/3244/1/nn21-033.pdf
465 ：: 　２００９年７月現在、収容語数は４２万語で最多と考えている。
　ボトムアップでの作成により名詞のみでなく動詞、形容詞、形容動詞、副詞、代名詞、
擬態語さらに慣用句までを収容している。時事的な用語の積極採択、地名を除いて固有名詞
は含めない編集方針としている。言葉を探すのを目的とする人間の感覚に沿った分類とした。
色の分類時に、「はでな色」、「暖かい色」とする例が挙げられる。言葉の意味空間は、
１次元ではなく、例えば、「料理」は、材料・地域・調理法の３次元でありこの様に複数の
観点で分類している。「現在」に対する、「明日」、「翌日」、「過去」に対しては、
「翌日」が意味を持つ様に分類作業における揺れを吸収している。
http://www.issj.net/mm/mm0406/mm0406-3-9s.html
ここではオントロジー技術の動向把握をテストすることを目的とするため、「オントロジー」
と共起する用語の共起関係ネットワークだけを示す (図 4)。図から分かるように、
オントロジーに関連しそうな「セマンティックWeb」や「テキストマイニング」「情報抽出」
などの技術用語、「構築」「検索」などの関連語が関係付けられている。しかし、必ずしも
すぐにその関係の意味を推測できない用語も多く、この図によってオントロジー研究の
全体像が分かったとは言い難い。
http://sigswo.org/papers/SIG-SWO-A701/SIG-SWO-A701-02.pdf
この候補数は，かな漢字変換の候補選択に比較すれば少ない値であるが，理想的な自動訂正を
目指すならば，提示候補数は１に近いほどよい．したがって，この平均候補数を自動訂正の評価基
準にすることが可能だと言えよう．
今回の実験に用いた格フレーム辞書は，自動抽出した直後では，「が格」が欠落しているものが
ほとんどであった．これは，実際の文章では主語の省略が頻繁に起こるためであると考えられる．ま
た，「が格」に前置される名詞の意味素性は，「人間」，「団体・組織」，「システム」，「プログラム」
がほとんどであった．このことから，「が格」の欠落を自動補正することが可能だと思われる．
http://dspace.wul.waseda.ac.jp/dspace/bitstream/2065/425/12/Honbun-05_03.pdf
466 ：: あらまし本稿では，タグの共起と類似画像を利用して，画像に対して有効なタグをユーザに提示するシステムを提
案する．十分にタグ付けされた Web 画像のデータベースから，タグの共起に加えて類似画像の関連語も抽出すること
で，多様で精度の高い関連語をユーザに提示する．また，ユーザが新たに付与したタグを入力のタグに含め，関連語
の再検索を行うことで，さらに新しい関連語を抽出することができる．16002 枚の画像を対象にして，タグの共起の
みを用いる手法，また類似画像のみを用いる手法と比較実験を行った結果，提案手法はより多くの有効な関連語を抽
出できることがわかった．また，これらの有効なタグを入力タグに追加し，関連語の再検索を行うことにより，新た
に有効な関連語を抽出できることも明らかになった．
http://www.ieice.org/~de/DEWS/DEWS2008/proceedings/files/e10/e10-5.pdf
?Webに関するオープンな標準を開発しているW3Cは、データの意味を記述する為の言語(正確にモデルと構文ですが、
分かり易くする為に言語と言います)として、RDF(Resource Description Framework)を開発しました。
?RDFは、主語と述語と目的語とから構成される意味モデル(トリプル、日本語では「三つ組み」と言います)を有し、意味モ
デルを記述する為の構文と語彙とを規定しています。
(注)トリプルのモデルは、非常に単純な様に思えますが、RDFでは、開集合、閉集合、トリプルを主語又は目的
語とするReification等の複雑なモデルを包含しています。
?RDFで記述された情報は、RDFの意味モデルと一対一に対応する様になっています。
?即ち、RDFで記述された情報の意味を、RDFの仕様に則して、解釈するならば、誰もが同じ意味として把握する事が可能
となります。
http://s-web.sfc.keio.ac.jp/conference2012/0202-shimizu.pdf
467 ：: 少なくとも二つ以上の Infobox に現れる属性は全体の 3 割程度（8,612 個）であるが，その
ような属性の共通性に基づく Infobox 間の関係性を示したのが図 3 である．二つの Infobox
間に共通属性があれば，Infobox 間につながりがあるとみなす．つながりの重みは Jaccard
係数で求め，図では上位 10,000 本のエッジを示している．ネットワーク図は Cytoscapeを
用いて，ばねモデルで描画している．図から，類似した Infobox がクラスターを形成して
いることがわかる．つまり概念的に類似した Infobox は共通属性を多く持つことを示している．
http://www-kasm.nii.ac.jp/papers/takeda/11/hamasaki11gnsw.pdf
468 ：: CKY法で構文解析するブログラムをつくっています。簡単な文法はできたので、英語に挑戦しようとネットで文法探したけど、バークレイ大？の確率文脈自由文法しか見つからず頓挫しています。とりあえず解析ができれば良いので、手頃な文法があれば教えてください。
469 ：: ドラエモンをドラエモン絵描き歌でスクリプト化するように、この世の全ての物体をスクリプト化できたらいいなと思う。
470 ：: 「ドラエモン」は未来のロボットとして描かれた架空のアニメキャラクターであるが、
後に「ドラエモン絵描き歌」が考案され、誰もがドラエモンを描くことができるようになった。
471 ：: あの絵描き歌は偉大だったな
当時いろいろアニメの絵描き歌があったけど、実際に描けたのはドラえもんだけだった
ポイントは歌よりもキャラ造形なのだろうけど
472 ：: 4.3 語末一致検索
日本語の複合語はほとんどの場合、意味や品詞を決定する用語が語末に、修飾する用語が前
方にくる．この性質に着目して語末が同じ用語を取り出すと同じ意味の用語が集められ、狭義
語を集めたのと同じような効果を持たせることができる．
例えば「トンボ」をキーにして検索すると、語末が一致として下記の用語が表示される．
　狭義語　　「アカトンボ」「イトトンボ」「シオカラトンボ」・・・
　ノイズ　　「竹トンボ」「尻切れトンボ」「極楽トンボ」
　漏れ　　　「オニヤンマ」「ギンヤンマ」
　　「トンボ」という言葉を比ゆ的に用いている場合にノイズになる．
http://www.gengokk.co.jp/the_gengo_NLP.pdf
473 ：: 自然言語処理教科書　コンピュータサイエンスの注目分野を概観！
Ｉ／Ｏ　ＢＯＯＫＳ
赤間世紀／著　第二Ｉ　Ｏ編集部／編集
出版社名：工学社
出版年月： 2012年1月
ISBNコード： 978-4-7775-1658-2
(4-7775-1658-X)
税込価格： 2,415円
頁数・縦：１５９Ｐ　２１ｃｍ
出荷の目安：通常１～２日で出荷します
(GW期間の出荷/配送について)
http://www.e-hon.ne.jp/bec/SA/Detail?refShinCode=0100000000000032700426&Action_id=121&Sza_id=C0
474 ：: <Sale>中国語版の書籍<文系・理系・ＩＴの諸分野>(格安)
ttp://lang-8.com/194279/journals/1457398/
475 ：: 結局自然に処理するにはどうすればいいの？
476 ：: 自然を処理するんだよ
477 ：: http://www.ibm.com/developerworks/forums/thread.jspa?messageID=14818331
＞スーパーコンピュータで百万冊の書籍を統計分析
２チャンネラー百万人を動員して、それらの一文一文を人力で解析するというやり方も考えられる。
修飾語についても、何が何をどのように修飾しているのかを分析する。
小学校で「ことばのきまり」を学んでおれば、誰でも簡単にできるはずだ。
478 ：: それが正しいかどうかの判定はどうするの？
479 ：: 2ちゃんねるで「日本語でおk」と言われちゃう奴が
毎日幾人も現れるようなこの世の中で...
480 ：: >>478
「ことばのきまり」を小中学校で学んでおれば、百点満点中で７０点くらいは取れるはず。
481 ：: デジタルR 1 (デジタルR シリーズ) 日経エレクトロニクス編集、デジタルROnline編集協力 (単行本 - 2011/3/25)
新品: ￥ 31,500
4 中古品￥ 30,173より
デジタルR 2――いざ新産業創出へ医療・健康・介護が変わる (デジタルR シリーズ) 日経エレクトロニクス編集、デジタルROnline編集協力 (単行本 - 2011/11/22)
新品: ￥ 31,500
http://www.tsutaya.co.jp/works/41011503.html
482 ：: ２チャンネラーって本当は何人？
483 ：: そんなどうでもいいことで２ちゃんねらー百万人が動員できるわけないだろ
現実を見ろ
484 ：: 文を形態素解析器にかけ、品詞によりノード作成
例：水は水素と酸素の化合物である。
↓
水は/水素と/酸素の/化合物である
↓
文節の自立語(名詞・形容詞・形容動詞)をノードにする
(動詞については、リンキングワードとする)
http://133.41.33.194/nagi/cmm/ppt/cmapmaker.ppt
RDF：意味記述ができる
? データの意味を記述する方法は提供している．
? 統一した意味モデル
? 意味モデルに準拠してアプリケーションが処理す
ること，各アプリケーションが「同一のRDFは
同一の意味を持つこと」を認識できる．
http://www.jaist.ac.jp/~hideaki/class/K225/pdf/11K225-14.pdf
意味ネットワークとは本質的には概念間の2項
関係の集合である
1. 動物は生物である is-a(動物、生物)
2. 動物は動く property(動物、動く)
3. 動物は呼吸する property(動物、呼吸する)
4. 犬は動物である is-a(犬、動物)
5. 犬の性格は人なつこい characteristic-of(犬、人なつこい)
http://www.nm.cs.uec.ac.jp/assets/files/JinkouChinouRon/ai02.pdf
485 ：: セマンティックウェブ（笑）
もう残念でしたとか言いようがないだろ
486 ：: なんでもかんでも残念って決めつける人って、残念だよねw
487 ：: RDFは筋が悪い。もう結論は出ている。
少なくとも自然言語を相手にするには決定的にダメ。
488 ：: >>486
セマンティックウェブという1例しか出していないのに
「なんでもかんでも残念って決めつける人」と決めつける残念な人だったか
489 ：: >>487
>少なくとも自然言語を相手にするには決定的にダメ。
２ちゃんねらー百万人では、まだ足りないのか？
ツイッターとフェイスブックを合わせて５００万ではどうだ？
490 ：: 突然コーパスの話にすり替える>>489の負け犬っぷりw
491 ：: そして>>489の冗談を真に受ける馬鹿っぷりｗｗ
492 ：: 冗談？>>489のどこが面白いの？
493 ：: 話変わるけど皆さん大学で体系的に言語処理を学んだ感じですか？
独学でヒッソリみたいな人はいないのだろうか
494 ：: >>492
怒りでRがRしてるのか？
495 ：: >>494
消えろこの知能障害！
496 ：: まぁ、>489は面白くないんだけどね。
497 ：: あれ、もしかして、地球人全員動員すれば可能じゃね？
498 ：: >>493
自然言語処理は、通り一遍のこと以上を教えられる先生はまだそんなに多くないので、
それ専門にやってる先生がいない大学のレベルなら、独学でもいけるように思う。
499 ：: 最近は機械学習とn-gramだけ分かればいいからな
500 ：: >>499
自然言語処理が専門だけど、n-gramとか難しすぎてさっぱりだよ。
501 ：: ＞例：水は水素と酸素の化合物である。
例えば「水」「氷」「水蒸気」については、「凍る」「溶ける」「蒸発する」「気化する」など、
様々な動詞を挟んでRFDデータベースが作成される。「凍る」と「溶ける」は反対語、
「蒸発する」と「気化する」は類義語であるが、「蒸発する」は「人間が行方不明になる」の意味もある。
けれども人間は蒸発はしても気化はしない。RFDデータベースにより、類義語の微妙な違いを理解させる。
「同一ではないが類似」について、共通点と相違点を、RFDデータベースにより明らかにしていきたい。
「たけし」と「たけし軍団」は違うけれど、「イェニチェリ」と「イェニチェリ軍団」は同じであることが分からないといけません。
http://www.nii.ac.jp/userdata/shimin/documents/H23/120118_7thlec02.pdf
これもRDFデータベースが充実していれば、「たけし」と「たけし軍団」ではRDFデータベースは全く違うが、
「イェニチェリ」と「イェニチェリ軍団」は似たようなRFDデータベース関係となることが理解されよう。
更に言えば百万冊の書籍について一文一文、いつ何処で誰が何をしたか、あるいは何が何にどうしたかを、
２チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
502 ：: 言語観がナイーブすぎ
503 ：: >２チャンネラー百万人を動員して人力で詳細解析してコンピュータに入力するというやり方も考えられる。
この一文だけで妄言だと分かる
504 ：: >>420
> ご利用いただきまして、ありがとうございます。
> また、こちらからの返信が遅れましたことをお詫び申し上げます。
>
> お問い合わせの件でございますが、担当者より下記の回答がございましたので、ご
> 確認いただけますようお願いいたします。
>
>
> 膨大なテキストデータの圧縮にVF符号化を使うと、データの符号化・復号化のための
> オーバーヘッドが発生するため、高速で質問応答の計算を行う状況では、こういっ
> た手法は用いないのが一般的です。
> このため十分なディスク容量と、インメモリで解答を計算できるような大容量メモ
> リを搭載したシステムを利用します。
505 ：: >>500
俺の知ってるn-gramは学部生で分からなかったら
アホレベルだと思うんだけどなぁ
専門の奴でも難しく感じるくらいの
n-gramが他にあるのか？
506 ：: むしろ簡単すぎ、役に立たな過ぎで
逆にわからないと感じてしまうとか
507 ：: 自然言語処理でN-gram以上に役立つものなんて存在しないだろ
508 ：: 最初にオライリーの自然言語処理入門買ったけど選択ミスだった
妙に分厚いのでなんでも網羅してるだろうと思ったら大間違い
何ら本質的な事は書いてなくて、ツールの使い方がダラダラ続くだけ
その後確率的言語モデル系の本に出会ってようやく言語処理の取っ掛かりが掴めた
509 ：: 折角だからその役に立った本をステマしてってよ。
510 ：: 確率的言語モデルでググってみたら？
511 ：: テキストマイニングみたいなものではなく
係り受け解析や述語項構造解析をがんばってほしい
512 ：: >>505
n-gramはただ出現数を数えただけでもSVMに放り込むか検索のキーに使うかって感じでもちろん使えます。
でも、文の出現確率をうまく近似するためのスムージングとか、巨大なn-gramモデルを扱うためのデータ構造やらプルーニングやらで、面倒で奥深く最近もまだ研究が続いているのですよ。
とは言え、使うだけならSRILMとかあるので、理解する必要かあるかはやりたいこと次第だけれど。
513 ：: １ヶ月近く前の5/11にお問い合わせ頂いておりました件ですが、
大変申し訳ございません、
弊社内で担当割りがされないままの状態が今になって発覚いたしました。
大変失礼いたしました。
今更で大変恐縮ですが、お問い合わせに対応させて頂けたらと思っております。

＜いただいたお問い合わせ＞
http://wacom.jp/jp/company/news_detail.php?id=426
＞双方がPCとペンタブレットを使用して同じ教材を閲覧するとともに、手書きで書き
込みをし合うことができるため、
数式についても、インターネットクラウドサービス上で『データ化』してやり取りできるということですか。
数式入力パネルを使用して数式を入力および訂正する
http://windows.microsoft.com/ja-JP/windows7/Use-Math-Input-Panel-to-write-and-correct-math-equations

数学の入試問題は数式と図形と日本語の混合ですが、ワコムの手書き入力システムは
それにも対応して『デジタル化』できますか。
Windows7に手書き数式入力パネルが用意されているのだから、それと連携するクラウ
ドシステムがあってもよさそうな気がしますが。
（2003年の東大）円周率は3.05より大きいことを証明せよ。
http://d.hatena.ne.jp/LM-7/20070310/1173504483
例えばこうした証明問題についても、手書きの解答記述を図形も含めてデジタル化できますか。
これは平方根でこれは微分でこれは行列でこれは三角形でこれは円でこれは放物線だ、と。
更に言えば、類似の問題を検索する機能は開発されているのですか。
514 ：: 【要望】
手書きのOCRは誤認識が多いが、原稿用紙のようにマス目を設定したり、あるいは文
脈から誤認識を検出するシステムが求められる。
実験では、文字誤りモデルの有効性を検証するためにOCR 誤り訂正システムを実装し
た。実験の結果、文字正解率 97.2% の高いベースラインに対して 12.5% の認識誤り
を訂正することができた。
http://www.phontron.com/paper/neubig09nlp.pdf
図形についてもこれは楕円なのか円なのかというのも、解答記述の数式から推測する
アルゴリズムとか。上の証明問題は「円周率」と書いてあるから、関連する曲線図形
も「円」であることは認識できるはず（あるいは楕円や放物線や双曲線を用いて円周
率を証明する方法が考えられるか）。また「閾値」が怪しいようなら、いくつかの選
択候補を提示するとか。
＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝
＜回答＞
仰る通り数式入力パネルを使用してのデジタルでの数式入力は可能（対応アプリが必要）です。
弊社、または現時点での弊社パートナー様のシステムで
クラウド上でデジタル数式をやりとりするといったサービスはございません。
数式のデジタル化は文字認識という意味では可能ですし、通常の文字も文字認識変換は
Windows7（またはVista）の機能で可能です。
ただ、それに「連携」という意味でのクラウドサービスについては分りかねます。
実際に弊社の液晶ペンタブレットの実機をお貸出しして検証いただくことは可能です。
大変恐れ入りますが、差し支えなければ篠田様のご職業を伺ってもよろしいでしょうか？
本件の対応につき、直接お電話などさせていただければ幸いでございます。
もしよろしければご連絡先お電話番号をおしらせいただけますでしょうか。
何卒よろしくお願い申し上げます。
515 ：: NLTKのバージョン2がリリース
NLTK 2 Release Highlights | StreamHacker
http://streamhacker.com/2012/06/03/nltk-2-release-highlights/
NLTK 2.0.1、別名NLTK 2は、最近リリースされました、
何以下は、私のお気に入りの変更点、新機能、およびからのハイライトであるのChangeLog 。
516 ：: >>515
日本語でOK w
以下は、私が気に入った変更点、新機能、ChangeLogからの抜粋です。
程度の訳でいいのかな。
517 ：: >>516
google翻訳です。
518 ：: >>517
なぜここにgoogle翻訳なんか投げる必要が
519 ：: 自然言語処理スレだから自然言語処理の力を使ったのだろう
「自分の作ったドックフードを食え」
の精神に則ったよい心がけだと思うわ
520 ：: 生成文法ってやつあるけど
自然言語処理と何か関係あったり役立つことありますか？
521 ：: 自然言語処理の基礎としてたいてい生成文法の話はやるけど？
522 ：: やるけど、役に立つのか？
523 ：: 否が応でも勝手に頭にたたき込まれているから問題ない。
というか、文系の言語学の連中より我々の方があれをまともに使っている。
524 ：: 何が「問題ない」で、何が「というか」なんだ？
525 ：: 正直やればわかるとしか言いようがないな
526 ：: >>520
研究として自然言語処理をするなら知っておくとよいかもしれません、という程度です。視野を広げる意味で。
言語学で使われているような生成文法を使ってどうこうする、ということは今のところ無いです。
527 ：: >>525
つまり答えられませんってことだろ
528 ：: そう思うなら好きにしろ。
あとで「そんな便利なものがあったのか」と泣く自由はあるからな。
529 ：: LFGも生成文法？！　これはMicrosoftが
自然言語処理エンジンに使用している。
チョムスキーのは，言語学者の遊び。
530 ：: 違うよ。
チョムスキーの理論を唯一まじめに使っているのは我々だけだということ。
531 ：: 言語学者にいぢめられたバカが必死、なのか？
532 ：: >>531
頭が悪いやつだな。
言語学者の仕事と我々の仕事は違うんだよ。連中は実装しない。
533 ：: 無知なやつだな。
534 ：: >>532
もしかして、HPSGパーザーを作ってる方でしょうか。であれば、生成文法は基礎として必要なのは確かですね。
前に生成文法が自然言語処理に必要ないと言ったのは、別にHPSGを否定したかったのではなく、自然言語処理一般では使わないという意味でした。ただ他には目立った用途がない以上、当面必要ない人にまで勉強するべきとはいえないと思います。
535 ：: hello worldを書くのに必要ないから、プログラミングに数学はいらない、みたいな意見だな。
536 ：: >>535
パーザーはhello world ほど、誰もがかける必要があるプログラムではありませんし、生成文法は数学ほど重要ではないと言う意見です。
537 ：: 荒れたおかげでまともな人も来たようだな
538 ：: LDAてなんですか？
なんか最近よく聞くのですが
トピックなんて短い文解析してどうするのですかね？
特にMalletて何してるんですか？
だれか教えてください
539 ：: もう夏休みか？
540 ：: トピックごとの特徴語を素性にしてトピックにクラスタリングする処理を生データの入力からひとまとめでやるものだろ
541 ：: 普通の文章分類とどう違うの？
542 ：: >>538 今からそんなんじゃ卒論に間に合わないぞｗ
どうせ受かりもしない就活なんかにかまけてるからｗｗ
543 ：: お願いです。LDAがわかりません
もう少し、わかりやすく説明してください。
説明してくれたらとっておきのエロビデオをxvideoにうpします。
ものすごいビデオです。
544 ：: よくわからないのですが、どなたか試しに自分で作成されたアルゴニズムで
なにか文章を吐かせていただけませんか？

お題は「インスタントラーメン」でお願いします。
どれくらい自然になるか興味があります。
545 ：: 不活性気体主義？
546 ：: 　国立情報学研究所（注1）（以下、NII）の人工頭脳プロジェクト『ロボットは東大に入れるか』
（以下、東ロボ）に、本年度から株式会社富士通研究所（注2）（以下、富士通研究所）は、
『数式処理・計算機代数』技術をベースに、数学チームとして参画します。
　「東ロボ」はNIIの新井紀子教授を中心にして、1980年以降細分化された人工知能分野の研究
を再び統合することで新たな地平を切り拓くことを目的に、2011年にスタートしたものです。プロジェクト
としての目標は、2016年までに大学入試センター試験で高得点をマークし、2021年に東京大学入試
を突破することです。本プロジェクトでは、教科ごとにチームで担当する体制をとっており、数学につい
ては「数学チーム」での活動が進められています。
　富士通研究所では数理的な分析や最適化技術をはじめ、数学の問題を正確に解くために必要と
なる『数式処理・計算機代数』の研究を長年行っています。そこで、本年度からその技術をベースに、
東ロボの数学チームに参画することとしました。
　富士通研究所は、「東ロボ」（数学）を通して、NIIと共同で人間中心のITを実現するために必要な
技術の開発を行います。これにより、高度な数理解析技術が誰でも容易に使えるようになり、さまざまな
現実世界の問題解決のための高度な数理的な分析や最適化などが自動化されることを目指していきます。
国立情報学研究所の人工頭脳プロジェクト「ロボットは東大に入れるか」に
富士通研究所が“数学チーム”として参加
http://pr.fujitsu.com/jp/news/2012/09/10.html
547 ：: ツイッターのムードは株式市場を予測出来きるか？
導入
株式市場の予測は学会と同様ビジネスの世界でも関心をもたれている
しかし、株式市場は本当に予測可能だろうか？
株式市場の初期の研究においてランダムウオークとEMHにもどづいて行われてた
548 ：: http://kaigi.org/jsai/webprogram/2012/pdf/437.pdf
＞選択肢文と語彙および構造の面で類似している文
「オスマン帝国の皇帝直属の常備軍」と、「オスマン帝国の常備軍」のような、
同じ意味となる表現は抽出し整理しておく必要がある。また類似の文章は、
ここは同じだがここは違うと、細かく分析して整理しておく。
自然言語処理でいくつもの書き換え文を自動作成できれば進歩が大きい。
同じ内容を複数の英文で表現できることがよくあります。いわゆる「文の書き換え」
と呼ばれているものですが、最近の特に私立大学の英語の試験では、ある英文を別
の英文で言い換える「パラフレーズ問題」が増加傾向にあるため、書き換えの重要度
はますます高まってきています。
http://www.ravco.jp/cat/view.php?cat_id=4520
それから一見するとよく似ている文章でも、全く違う内容という場合もある。
「人間は顔じゃねえよ」は、人間の価値は顔で決まるわけではない、と解釈できる。
けれども「人間の顔じゃねえよ」と「人間は顔じゃねえよ」は、全く違う。
人間の顔じゃねえよ
広が獲君を慰めようとした言葉。しかし、本当は「人間は顔じゃねえよ」であるため、
彼はますます落ち込んでしまう…。しかも、広は克也に殴られるまで、全然間違いだ
と思ってなかった。正直、爆笑必至ネタで、ベスト３に入る迷言であろう。
http://www.geocities.co.jp/SilkRoad-Forest/6130/nube/advanced/meigenanother.htm
549 ：: でも「象の鼻は長い」と「象は鼻が長い」は、同じ意味なんだよね。
コンピュータで解析するとしたら、どういうアルゴリズムになるのだろう。
550 ：: バカには無理
はの前にある単語を主語
のの前にある単語を主語装飾語
最後にある単語を意味決定語
として組めばいいと20秒で結論づいた
551 ：: まず品詞推定がそのとおりになるアルゴリズムからだな
552 ：: 　　格助詞接続助詞副助詞終助詞全出現
の　2909 　50328　　　 1 　　　　0 　　53238
を　32949 　　　0　　　　 0　　　　 0 　32949
は　3 　　　　　　0　　　　0 　　32231　 32234
に　30562　 437 　　　　0 　　　　　0 　30999
が　23812 　3273　　　0 　　　　　0 　23085
と　21980 　　25 　　　　1　　　　　 0 　22006
で　13369 　　2 　　　　　1　　　　 2 　　13374
も　　　0 　　　　8 　　9139　　　　 2 　　9149
表 1: 京都大学テキストコーパスに含まれる高頻度助
詞とその品詞細分類別頻度
http://nlp.nii.ac.jp/tawc/papers/C10_uematsu.pdf
用いた用例　　　　　　　　　　　　意図する用法
a) 私が林檎と桃を食べる　　　　体言の並列
b) 「話す」と「聞く」　　　　　　　　用言の並列
c) 私が彼と握手する　　　　　　体言を取る補語
d) 山と積まれた桃を食べる　　体言を取る修飾
e) 「林檎」と子供　　　　　　　　　体言を取る補語 (述部省略)
f) 林檎がおいしいと答える　　　用言を取る補語
g) 雪が降ると犬が走る　　　　　用言を取る接続
h) 仕事が終わったと喜ぶ　　　用言を取る修飾
i) 「おいしい」と子供　　　　　　　用言を取る補語 (述部省略)
j) やっと終わった、と　　　　　　　　　　文末
k) 彼は思った。おいしいと　　　　　　　転置
l) わんわんと犬が吠える　　　　　　　副詞・修飾
m) というのも、　　　　　　　　　　　　　　文頭
表 2: 助詞「と」の用法アノテーションで用いたカテゴリ
http://nlp.nii.ac.jp/tawc/papers/C10_uematsu.pdf
553 ：: 反対の賛成＝賛成の反対。
反対の賛成は、賛成の反対なのか？
http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1334388753
このような「同一表現」を整理するための自然言語処理アルゴリズムが必要。
554 ：: 「反対の賛成」なんて日本語を使うやつはいない
記号論理学でもやれば？
555 ：: バカボン「パパェ...」
556 ：: >>554
でも意味としては通るでしょ。
557 ：: 「反対」が賛否の否ではなく「一方俺はお前と違って」の意味なら
賛成の反対：賛成に相対する『反対』を主張するものである
反対の賛成：（お前は賛成するのか?）俺は(その)反対に位置する『賛成』を主張する
と、まあコンテキスト依存だが意味のある解釈は可能だと思った。
558 ：: >>556
通らないよ
559 ：: 「反対に賛成」を言い間違えたと言う解釈ではどうだろう。
560 ：: それが自然言語処理なの？と言いたいわけだが
「反対の賛成」という文字列が書き込まれその意味を解釈しなければならない事例が
どのくらいの確率で起こる？
561 ：: 無理やり解釈しようとすれば意地悪な日本語なんていくらでも作れる
そういった文も解釈できたほうがいいのは確かだが
今のところ明らかに意味の通る文の意味解析さえ微妙な精度なのだから
まだそんな例外について考える段階ではないだろ
562 ：: 例外を考えないクリーンな状況において考えられた理論が
実問題に適用しようとすると役に立たなかった、なんて事今まで散々あっただろうに
563 ：: >>562
それ自体が例外だろ
工学で例外を全て考えるとかありえないし
564 ：: 理論だけ考えるのが間違い
実験すればいい
565 ：: >>560
> それが自然言語処理なの？と言いたいわけだが
> 「反対の賛成」という文字列が書き込まれその意味を解釈しなければならない事例が
> どのくらいの確率で起こる？
>
それを言うなら、大学入試問題なんて、入試問題特有のわかりにくい表現ばかりだ。
566 ：: 大学入試をするなら受験勉強をするし
受験勉強をすると「入試問題特有のわかりにくい表現」が
「入試問題にありがちな表現」になるでしょ
567 ：: なぜ俺は「{『が』シコシコ」するのか
http://kohada.2ch.net/test/read.cgi/prog/1342488636/
高度な自然言語処理を行なう際には、構文情報のみならずさまざまな語と語の関連情報が重要となってくる。
我々は「トマトなどの野菜」といった定型表現を用いて、新聞記事から、名詞の下位概念を自動的に抽出する
手法を提案する。7種の定型表現を作成し、6年分の新聞記事をコーパスとして下位概念を抽出した。
その結果、ほぼ6割以上の正解率で下位概念が得られた。また、抽出した下位概念と、人間が連想した
下位概念との比較をおこない、2人以上の被験者が連想した下位概念のうち、平均85%の下位概念を
コーパスから自動抽出することができた。
http://ci.nii.ac.jp/naid/110002948748/
本稿では、Web文書から意見を抽出し、それらをレーダーチャートの形式で要約/視覚化する意見抽出分類
システムを提案する。Webの意見は、商品購入の際の情報収集、市場調査等のマーケティング、企業のリスク管理等、
さまざまな目的での利用が考えられる。Webの意見の収集/分析に関する研究には2つの課題がある、
対象とするWeb文書から意見に該当する箇所を抽出すること、抽出した意見を要約/視覚化することである。
本システムは、この2つの課題を3つ組{対象物,属性,評価}のモデルと情報抽出の手法を用いて解決する。
本システムを車に関するレビューサイトの100記事を対象として評価したところ抽出精度が適合率82%,再現率52%であり、
システムが出力したレーダーチャートと人手で作成したレーダーチャートが類似することを確認した。
http://ci.nii.ac.jp/naid/110002949320/
568 ：: さらに必要な機構は，各名詞概念が保持する属性情報（名詞概念やその他の定数）の集合であり，
これを名詞属性フレームと呼ぶ．動詞概念とその格要素から成る事象が動詞概念のためのフレームだとすれば，
これはその名詞概念版に当る．名詞属性フレームを構成する属性情報に関して，[熊谷2010]は小説の分析
を通じて人物に関する属性スロットの素案を示した（表 1）．今後はこれを拡張して行く予定である．
http://kaigi.org/jsai/webprogram/2012/pdf/487.pdf
? 「雪國」は川端康成の作品として知られている
この場合「川端康成」が作者であり，「雪国」が作品名である．この意味を「作成する」という動作概念の述
語項構造でと記述してみると
(a1) [Pred: 作成する, Agent: 川端康成, Theme: 雪国 (head)]
であろう．つまり「作品」の意味構造を「Y は X の作品」の項構造で捉えて規格化する意味記述法である．
この時，「作品」という言葉自体は「作成した物」でありこれは上記の述語項構造の意味役割における
Theme(「作成する」のヲ格) となるので，そこに head という情報を記述しておく．
http://nlp.nii.ac.jp/tawc/papers/W03_takeuchi.pdf
Web ページや車のナビ，携帯電話のメニューなど，世の中のあらゆるところにメニュー階層構造が用いられており，
我々は日常的にメニュー階層構造の操作を行っている．操作の分かりやすいメニュー階層構造を開発するためには，
メニュー階層全体での繋がりの分かりやすさを定量的に客観評価できる指標が必要である．そこで，本研究では，
メニュー階層構造の分かりやすさの評価に用いるため，2 単語間の連想関係，関連関係
の自動判定，および，連想度，関連度の指標化を検討した．
　ここで，連想関係とは，全体-部分関係，上位-下位概念，装置-機能を含む親子関係である．関連関係とは，
ある全体に対する部分集合，ある上位概念に対する下位概念の集合，ある装置に対する機能の集合を含む兄弟関係である．
　また，連想度とは，ある 2 単語に関して，心理的に連想関係があると感じる度合いである．関連度は，ある 2 単語に関
して，心理的に関連関係があると感じる度合いである．
http://kaigi.org/jsai/webprogram/2012/pdf/281.pdf
569 ：: >人間は顔じゃねえよ
STEP2: 係助詞「は」が着くとすると，どのような名詞に着くかといった構文上のルールによって，
各切片の「主題」を書きだす．また，日本語の新聞記事で主題を明確にするために利用されている
「目理方結（目的・理由・方法・結果）」あるいは，「現原対変（現実・原因・対策・変化」をプロパティ
として用いる．ディメンジョンは，これらプロパティに対する値を入れる．
http://www.issj.net/journal/jissj/Vol7_No2_Open/A4V7N2.pdf
抽出した対を用いた含意認識の例
入力テキスト：イリノイ生まれのチャールズは２７歳の俳優でした
　　　　　　　　　?イリノイ生まれ-チャールズ
　　　　　　　　 ?チャールズ-俳優
　　　　　　　　　27歳-俳優
入力仮説：　　チャールズはイリノイで生まれた
　　　　　　　　　?チャールズ-生まれ
　　　　　　　　 ?イリノイ-生まれ
抽出した対：
含意要因表現：イリノイ生まれのチャールズ
　　　　　　　　　イリノイ生まれ-チャールズ
仮説：チャールズはイリノイで生まれた
チャールズ-生まれ
　　　　　　　　 ?イリノイ-生まれ
http://dl.dropbox.com/u/2152477/slide/12/12NLP-udaka.pdf
ある現象を分析した場合，その現象に関連する現象には，特定の実行順序が規定される場合が多くある．
そして，特定の実行順序で規定される現象概念間において，現象概念間の上位下位・全体部分等の関係に拘らず，
各現象が言及する意味内容が相互伝搬される場合がある．例えば，「浜松に行った．ホテルに泊まった」という
文を考えた場合，「移動行為」と「宿泊行為」は，それら自体はまったく異なる現象であり，それらの間で意味内容
が相互に限定されるか否かは，文脈・知識・状況に依存する．ひとつの解釈としては，この「移動行為」と「宿泊行為」とが，
ある行為現象の部分を構成している場合，そして更に「移動行為」と「宿泊行為」とが連続して引き起こされると解釈される
場合には，「移動行為」概念の「移動場所終点」属性と「宿泊行為」概念の「宿泊場所」属性との間で意味の伝搬が引き起こされる．
http://kaigi.org/jsai/webprogram/2012/pdf/445.pdf
570 ：: 「図のように」、「正三角形を」「９つの部屋に」「辺で区切り」、
「部屋P,Q」を定める。「１つの球が」「部屋Pを出発し」、「１秒ごとに」、
「そのままその部屋にとどまることなく」、「辺を共有する隣の部屋に等確率で移動する」。
「球がｎ秒後に部屋Qにある確率を求めよ」。
http://meploblog.kawai-juku.ac.jp/kinki/2012/09/002851.html
＞しかし、赤線部分を自ら理解するでしょうか？
　　　　　「そのまま」「その部屋」「に」「とどまることなく」
まず「その部屋」というのが具体的に何を指しているのかがわかりにくい文章だ。
「そのままその部屋にとどまることなく」は挿入文であり、その挿入文を切り離して、
それから「１つの球が」「１秒ごとに」「辺を共有する隣の部屋に等確率で移動する」、
というふうに解読される必要がある。
「その部屋」＝９つの部屋のうちのいずれか１つ、と解読できるか。
部屋Pなのか部屋Qなのか、いくつかの「候補」を挙げて、妥当性を検証するとか。
571 ：: ＞「その部屋」＝９つの部屋のうちのいずれか１つ、
「その部屋」＝９つの部屋のうちのいずれか１つで、かつ１秒ごとに変化する。
こういうのはわかりやすい言葉に直していく必要がある。
572 ：: >>566
＞受験勉強をすると「入試問題特有のわかりにくい表現」が
＞「入試問題にありがちな表現」になるでしょ
数学の文章題など、入試ではわかりにくい意地悪な日本語はいくらでも出てくるので、
「反対の賛成」＝「賛成の反対」くらいは解読できてしかるべき。
　　　　　　「そのままその部屋にとどまることなく」
573 ：: 反対の賛成なんて受験問題に出したら謝罪レベルの意味不明な日本語だろ
574 ：: まあ問題にとって必要ならやればいいと思う
多くの場合は必要ないというだけ
575 ：: 機能表現とは，「にあたって」や「をめぐって」のように，2 つ以上の語から構成され，全体として1つの機能的
な意味をもつ表現である．一方，この機能表現に対して，それと同一表記をとり，内容的な意味をもつ表現が
存在することがある．例えば，文 1 と文 1には「にあたって」という表記の表現が共通して現れている．
(i) 出発するにあたって，荷物をチェックした．
(ii) ボールは壁にあたって，跳ね返った．
文 (i) では，下線部はひとかたまりとなって，「機会が来たのに当面して」という機能的な意味で用いられている．
それに対して，文 (ii) では，下線部に含まれている動詞「あたる」は，動詞「あたる」本来の内容的な意味で
用いられている．このような表現においては，機能的な意味で用いられている場合と，内容的な意味
で用いられている場合とを識別する必要がある．
http://nlp.iit.tsukuba.ac.jp/member/utsuro/papers/utsuro/NLP2012-C3-1.pdf
576 ：: $ bundle exec ruby dadot.rb run "戦うと元気になるなあ、ローラ。死を意識するから、生きることが実感できる"
# => create '#{Time.now.strftime("%Y%m%d%H%M%S")}.png'
Yahoo!JAPAN 日本語係り受け解析API を Graphviz で表示するものでさぁ
https://github.com/gongo/dadot
577 ：: 「誰が誰に何をいつどうした」という5W1Hに相当する文が表現する状態・動作を判別する規則を大規模な
正解データから自動的に学習する技術を考案しました。特に、述語と項の間に係り受け関係がない場合や、
述語に対する主語・目的語等が省略されている場合でも前後の文脈を調べて述語と項の関係を高い精度で同定す
ることができます。この技術を使えば、行為や状況の分析に基づく評判分析や違法・有害情報検出が可能になります。
http://www.kecl.ntt.co.jp/rps/research/innovative/research_innovative04.html
例 3. 図 7 に文 x = h 私は;彼女の;真心に;感動した．i に対する状態遷移系列の末尾にグラフ g を付加した例を示す．
ただし，ここでの例は，c2 から c3 の遷移において，誤った遷移が関数 oによって選択された例である．この図に
おいて辺 (1，4) は，cmにはなく，g に存在する辺であるので，他の辺とは異なるラベルをもつことを表すために破線
で図示されている．このグラフ系列の変換系列は以下で与えられる．
http://kaigi.org/jsai/webprogram/2012/pdf/48.pdf
例えば図 3 では，述語文節は「作成しました．」である．まず，「私は」の係先は「作成しました．」であるので，
「私は」が単独の連文節となる．続いて，「あなたの」の係先は，「予定を」であり，「あなたの」と連結し，
「あなたの予定を」となる．さらに，「予定を」の係先は，「考慮して」であり，「あなたの予定を」と連結し，
「あなたの予定を考慮して」が連文節となる．「考慮して」の係先は，述語文節であるため，これまで連
結した文節が一つの単独な連文節となる．「計画を」の係り先は述語文節であるので，一つの単語連文節となる．
http://db-event.jpn.org/deim2012/proceedings/final-pdf/e5-3.pdf
次に, 表 1 に示す言語的手がかりを特徴量として使う方法について説明する. 例えば,
所属関係の場合,「昨年, 本田圭佑が所属していたVVV フェンロは～」というテキストは,
所属関係が時間によって変化しうることを示唆していると言える.
http://www.tkl.iis.u-tokyo.ac.jp/top/modules/newdb/extract/1172/data/nlp201203_takaku.pdf
578 ：: 完全にSSRI特有の攻撃性がでてる。
トラブル起こさない内に貴方の前にぶら下がってるその粗末な物を切断することをオススメする。
579 ：: >>466
>RDFは、主語と述語と目的語とから構成される意味モデル
{「を」シコシコするのではなくて、{「が」シコシコする。この場合、「{」は主語となる。
>>567
＞なぜ俺は「{『が』シコシコ」するのか
オブジェクト指向で言う「集約」は２種類あって、全体（俺）と部分（{）が繋がっている場合と、
全体（俺）と部分（{）が別々になっている場合とが考えられる。けれども「{」はそれ自体
が独立した生き物であり、所有者の意思とは無関係に、Rして「シコシコする」。
580 ：: >>578
＞貴方の前にぶら下がってるその粗末な物
「頭がズキズキする」は良いが、「{がシコシコする」はダメな理由を、５０字以内で述べろ。
581 ：: >>549
＞「象は鼻が長い」
ならば『私は{がシコシコする』というのもアリだよな！
582 ：: >>580
ズキズキは受動的
シコシコは能動的
Rは自ら意思を持ちシコシコすることはない
よって用例の誤り
583 ：: ぼくはうなぎだ
584 ：: ＞＞国立情報学研究所の人工頭脳プロジェクト「ロボットは東大に入れるか」に
はっきり言います。無理です。１００％。
うまくいって１，２題でしょ。
しかも、どっかの見た問題があればですが。
予算の無駄です。
だだし、DQN大学なら可能ですがw
585 ：: 東大なんかよりセンター試験にしてください。
そのほうがコンピュータには難しいはず
586 ：: >>584
３０年も経って未だにオモチャ程度のリニアモーターカーと比べれば、まだ始まって一年も経っておらず、
また開発費用も安価な「ロボットは東大に入れるか」のほうが期待できる。
税金のムダというのなら、まずリニアモーターカーと原子力発電から先に撤退すべきだ。
587 ：: http://pr.fujitsu.com/jp/news/2012/09/10.html
＞意味解析：人間にとって理解しやすい自然言語や数式で表現された問題文を理解する。
「物理はイメージ」（橋元流解法の大原則）は、自然言語文章題を正しく理解するにあたっては金言だと思う。
まず仮想物体と仮想動作と仮想状況をリアルにイメージすることが大切で、公式うんぬんはその後のこと。
ATLAS　　専門用語辞書
http://software.fujitsu.com/jp/atlas/function/techdics.html
文構造の基本は「主語・動詞・目的語・修飾語」（RDFモデル）なので、辞書に登録されている語全てについて、
それに対応する仮想物体と仮想動作と仮想状況を、テンプレートオブジェクトとして用意しておくわけにはいかないですか。
またカテゴリーの広い名詞は、最も一般的なものを自動選択する。例えば「鳥」は、特別な指定が無ければスズメ・ハト・カラスのいずれか。
臓器やゼリーなどのレオロジー物体を仮想空間で表現し,シミュレーションをおこなうためには,レオロジー物体の性質を正確に
表現することが必要である.本研究では,レオロジー物体表面の情報をより詳細かつ高速に扱えるようにするために,レオロジー物体表面
の情報をテクスチャから取得するシステムを提案する.提案したシステムにより,テクスチャのサイズに応じて,より詳細なレオロジー物体表面の情報を扱うことができる.
http://ci.nii.ac.jp/naid/110008095342
588 ：: >>584-586
絵本もろくに読めないのに東大の入試なんて
一見すごそうに見えることを利用して予算獲得目的だし
入試のデータマイニングになるだけだろう
589 ：: > ３０年も経って未だにオモチャ程度
自分の事実認識が壊れてることを自覚しようなw
ついでに言うと中央リニアはJR東海が100%で作ろうとしてるのに、税金のムダとかw
590 ：: >>589
＞中央リニアはJR東海が100%で作ろうとしてるのに、
路線距離8.9kmではオモチャ程度だと思うし、『作ろうとしている』は何十年も前から言われてるが？
路線データ [編集]
路線距離（営業キロ）：8.9km（建設キロ：9.15km）
方式：常電導吸引型磁気浮上式 (HSST)
駅数：9駅（起終点駅含む）
複線区間：全線
最高速度：100km/h
http://ja.wikipedia.org/wiki/%E6%84%9B%E7%9F%A5%E9%AB%98%E9%80%9F%E4%BA%A4%E9%80%9A%E6%9D%B1%E9%83%A8%E4%B8%98%E9%99%B5%E7%B7%9A
591 ：: それはいいんだが、なにか自然言語処理の面白いアイデアない？
592 ：: なんだ、JRのリニアと日航HSSTすら識別できないバカかw
593 ：: 入試のデータマイニング以外に何者でもないなw
東大はこの単語が出やすいですよとか
で、LDAで東大の入試問題解析した人いる？
594 ：: >>589
リニアは何十年も「作ろうとして」、全く何もできなかった。
これに対し「ロボットは東大に入れるか」は、
一年も経たないうちに、富士通が参加することになった。
富士通は現実に京速スパコンを完成させた優良企業なので、口先だけの原発やリニアよりは期待できる。
原発とリニアは即刻中止して、「ロボットは東大に入れるか」に予算を集中させるべき。
595 ：: >>592
JRのリニアはまだ計画だけで何もできてない白紙状態だが、何を期待するの？
リニア鉄道で完成したのは、日航のオモチャだけ。
596 ：: >>595
山梨実験線を見て、「何もできてない白紙状態」と言えるキチガイだと証明されたね。
597 ：: 【韓流】ブームがいきなり終焉!?　K-POP「江南スタイル」がYouTubeランク外に消える“珍事"が勃発[10/16]
http://awabi.2ch.net/test/read.cgi/news4plus/1350366216/
992:<丶｀∀´>（´・ω・｀）（｀ハ´　）さん :2012/10/16(火) 16:30:03.73 ID:kdSMXng1
★まとめ★
１：チョーセン人が不正で異常な閲覧数を稼ぎレディガガ記録を抜く
２：気づいた奴が４ch（アメリカ版の２ch）で暴露
３：「アイツら本当にうぜーな」と４chねらーが PSYのwiki（英語版）で死んだことにする
４：チョーセン人かその関係者がwiki（英語版）での死亡を直す
５：４chねらーが PSYのwiki（英語版）で死んだことにする、チョーセン人が直す（無限ループ）
６：「こりゃ祭りだ」と４chねらーがYoutubeに”お悔やみ”（RIP）を書き込む
７：「物足ねーな、Koreanが嫌うことって何だ？　日本を褒めることか！」と４chねらー考える
９：「PSYは最高の日本人、死んで残念」「J-POP最高！」などの書き込みが始まる
10：おそらくアメリカ留学中のタイ人やマレーシア人がFaceBookで母国に拡散
11：タイ語の書き込みまで出てくる
12：「◯◯人の私もPSYのファン」というネタで意味もなく国名を目立つように書く
13：火星、木星、天国からもメッセージが届く
14:Youtube再生数より視聴時間重視に変更後ランキング1位から圏外に　　　←今ここ
598 ：: スパコンでありったけの「仮想物体」を作成しておいて、文入力するとシミュレーションというわけにはいかんですか。例えば「机の上にミカンを置く」と入力すると、仮想物体と仮想動作が自動選択されるとか。「物理はイメージ」（橋元流解法の大原則)とはよくいったもの。
599 ：: >>596
＞山梨実験線を見て、
３５年もかけて、未だにオモチャ程度だが？
鉄道総合技術研究所（鉄道総研）と東海旅客鉄道（JR東海）が開発している超電導リニアの研究施設として、
これまでに宮崎県と山梨県にリニア実験線が建設された。国鉄時代の1977年（昭和52年）に開設された
宮崎実験線は、1996年（平成8年）に走行実験を終了し、その後はエアロトレインの実験や小規模な太陽光発電
に使用されている。1996年（平成8年）開設の山梨実験線は、18.4kmの先行区間で2011年（平成23年）まで
走行実験が行われ、現在は総延長42.8kmの全線完成に向けた延長工事が行われている。山梨実験線は
2027年開業予定の中央新幹線の一部として利用される予定である。
http://ja.wikipedia.org/wiki/%E3%83%AA%E3%83%8B%E3%82%A2%E5%AE%9F%E9%A8%93%E7%B7%9A
600 ：: オモチャ程度と連呼すれば、みんながそうだと信じてくれるだろうw
池田信夫がよく使ってますねw
601 ：: 仮想はさみを用いた手による紙の切断システム
http://www.youtube.com/watch?v=VPYgjSei3gc
高校物理のイメージ教材
http://www.wainet.ne.jp/~yuasa/
物理学は数式や公式にあるのではなく、日常の自然現象をビジュアルに理解することにある
http://honu81.blog28.fc2.com/blog-entry-307.html
一方，ユーザからの指示・教示として自然な手法の 1 つは，自然言語による指示・
教示である．例えば，前述の「この箱を部屋の隅に動かせ」といった指示を言葉でロ
ボットに伝え，ロボットが作業を自律的に行う手法である．この手法はユーザの継続
的な操作を必要とせず理想的ではあるが，「この箱」や「部屋の隅」を認識するのが
困難であるうえ，ロボットがあいまい性を解決できず，物体や場所を自律的には判別
できない可能性がある．
http://www.ipa.go.jp/about/jigyoseika/10fy-pro/mito/ih_4d.pdf
>「この箱」や「部屋の隅」を認識するのが困難
ワトソンの問題の正答率はだいたい90%くらい。90%になるまで、さまざまな調整が行われ
たそうです。問題文章の解析、回答の候補の抽出、どの候補が回答か逆に解析して、根拠付け、
すなわち、回答の可能性が高いものを見つれられれば回答する、といったようにできています。
http://uva.jp/dh/mt/archives/005499.html
602 ：: 日本語の助詞の種類
　・格助詞　 … 体言につき、意味関係（格）を表す。　「私のもの」
　・並立助詞 … ２つのものを並立させる。　「赤と白」
　・終助詞　 … 文や句の末尾について疑問・禁止・感動の意味を付加する。　「雨かしら」
　・間投助詞 … 文節末尾につけて語調の変化、感動などの意味の付加をする。　「そうだよね」
　・副助詞　 … 体言や副詞、格助詞の後などにつき副詞的働きをさせる。　「明日まで」
　・係助詞　 … 意味を添えて語を強調する。　「彼でさえ」
　・接続助詞 … 文と文の間の意味関係を表して接続する。述語間の関係を表す。　「～けれども～」
　・準体助詞 … 用言の後について体言相当の意味を表す。　「～に着いてから」
　（ウィキペディアフリー百科事典「助詞」、http://homepage3.nifty.com/を参考）
http://www.jnlp.org/iwase/wen-fano-hua/pin-ci-yi-lan
603 ：: 省略主語や目的語，動詞，助詞などの省略．節や文ごと省略される場合もある．
照応表現「それ」などの指示詞など．
倒置表現「切符が欲しいんです，札幌までの」
非文文法的におかしい，または意味的にずれた表現．よほどひどくずれてなければ，聞き
手は常識的に判断して修正して解釈．
言いよどみ・
言い直し
論理立てて考える前に話し出して誤ったり，無意識の心理状態がつい口に出てしまう
間投詞「おお」「ええっと」「はい」「うん」など．あいづちは，聞き手の理解を示す．イントネー
ションを加え，理解，疑問，嘲り，満足，不満足など様々な心理状態を伝達．
視点表現「やる」「くれる」など，視点に依存した表現．空間的な位置，社会的な立場も含む．
http://www.brl.ntt.co.jp/people/fujita/2012ai/materials/AI12.pdf
604 ：: >>587
＞臓器やゼリーなどのレオロジー物体を仮想空間で表現し,シミュレーションをおこなうためには
仮想空間を用いて、仮想土俵に仮想力士を置いてシミュレーションするしかないと思う。
例えば，下記の例は相撲の取組の説明だが，「いつも相手の～」の文で「若乃花」が
「フワッと立って、胸で受けてしまった」後で，「そこへ～」の文から「最高の出足で
突っ込み、左右を差す」行為を行ったのが「琴錦」であることを理解するためには，
この状況が明確に理解でき，ある行為を行った場合にそれと対となる他の行為は他者が
行うといった複雑な知識とそれに基づく推論が必要になると考えられる．
http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf
605 ：: >>546
＞国立情報学研究所の人工頭脳プロジェクト「ロボットは東大に入れるか」に
＞富士通研究所が“数学チーム”として参加
自然言語処理の研究という観点からすれば、新製品も出てるし、今後ますます需要が高まる。
パソコンの日本語入力を格段に効率化させる「Simplewrite」新発売
入力した文章を自動登録し、次回入力時に変換候補の文章を表示
http://pr.fujitsu.com/jp/news/2012/09/20.html
606 ：: >>604
『これ』とか『その』とかの代名詞をどうするかだが、照応解析は今のところかなり困難。
607 ：: >>588
＞絵本もろくに読めないのに
テキストマイニング（自然言語処理）やイメージマイニング（画像認識）は、ここ数年で飛躍的に進歩している。
世界初（*1）過去の肺がんの診断情報を活用して類似症例を表示
人工知能の技術により医師の画像診断をサポート
類似症例検索システム「SYNAPSE Case Match （シナプスケースマッチ）」
新発売
2012年10月23日
富士フイルム株式会社
http://www.fujifilm.co.jp/corporate/news/articleffnr_0703.html
東大入試は来年くらいで、人工知能が合格点を突破すると思われる。
608 ：: >>607
テキストマイニングは文章を理解しようとしていないだろ
コンピュータビジョンは視覚という原始的な機能が目標だから今の方向でもいいと思うが
自然言語処理が今の統計手法のまま東大に合格したところで
検索システムを東大の問題に特化させたくらいの意味しかなく人工知能には程遠いよ
609 ：: ワトソン関係の論文って公開されてるっけ？
610 ：: >>609
読み物的な本は出版されていたな
あと
http://www.math.ryukoku.ac.jp/~www-qma/lab/IPSJ-MGN520717.pdf
に概要が書いてある
611 ：: 顕在化された情報のうち 30 事例を人手で分析したところ，23 事例は談話の内容と整合した内容であった。
例えば，1番の問題のText \As a result of these weaknesses,computer systems and the operations that rely on..."
からは「computer と systems が part of の関係にある」という情報が顕在化できていることがわかった。次に，
本稿の談話解析モデルを含意関係認識 (RTE-2 テストセット) の正解率で試験的に評価したところ，60.4%
(Bag of Words: 59.4%) の正解率を得た。
http://www.cl.ecei.tohoku.ac.jp/~naoya-i/resources/nlp2012_paper.pdf

これに対し，日本語を対象とした照応関係のアノテーションでは，主に省略された照応詞（ゼロ代名詞）を検出し，
そのゼロ代名詞に関して先行詞をアノテーションするという試みがなされている．日本語では読み手（聞き手）
の推論可能な照応詞は頻繁にゼロ代名詞として省略されるため，ゼロ代名詞を検出し，そのゼロ代名詞の先行詞
を同定するゼロ照応解析がさまざまな応用処理に必須な処理である．
http://nlp.nii.ac.jp/tawc/papers/C05_iida.pdf
612 ：: 深層格と表層格
¨ 表層格
? ガ格，ヲ格，ニ格など，表層?格助詞と基本的に対応
? 「?」，「も」，「しか」?付加的な意味を表す?で
曖昧性解消が必要
n ?: 文?主題「日本?経済状況が深刻になっている」
対比「太郎が帰った?に対し，次郎?続けて練習した」
n も: 「りんごも私?食べる」
¨ 深層格
? 文や節における役割
n 帰る（動作主：太郎，終点：NULL)
n 練習する（動作主：次郎，対象：NULL）
http://www.cl.cs.titech.ac.jp/~ryu-i/class/nlp4.pdf
613 ：: >>588
＞絵本もろくに読めないのに
都内のパン屋でパン画像識別システムを使った実証実験がスタート
http://jp.diginfo.tv/v/12-0145-r-jp.php
がん診断を支援する病理組織画像認識システム
http://www.aist.go.jp/aist_j/research/patent/2012/08_1/index.html
SIFT を用いた特定物体認識の高速化と移動ロボットによる物体ハンドリングへの応用
http://hokuga.hgu.jp/dspace/bitstream/123456789/2027/1/%E2%91%A5%E5%A1%A9%E6%BF%B1%E8%AB%96%E6%96%87.pdf
局所特徴量の部分空間を用いた複雑背景下での3次元特定物体認識
http://imlab.jp/publication_data/1267/prmu201205_PRMU.pdf
614 ：: 適応分野の生テキストは、まず実際に解析してみて、解析精度がどの程度かを目視で推測することに用いられる。
その結果、解析誤りが散見され、大部分が単語分割ツールの未知語に起因することに気付く。
http://www.phontron.com/paper/sasada12nl207.pdf
615 ：: >>613
画像認識は解ける問題を設定しないと使えないよ
パンならあらかじめ分類したいパンの種類を決めて種類ごとに教師データを使って学習すると
パンが入力された時にどの種類のパンかを当てることができるってだけだし
特定物体認識なら保持している同じ見え方のサンプルのうちどれかにマッチするか判定出来るだけ
任意の絵本を入力して描かれている物体を当てるなんて無理だよ
616 ：: このスレにスパムみたいに論文を張り続けてるやつ
全く内容を理解していないだろ
617 ：2012/11/02: MeCabで出てくる品詞の全種類ってどこでわかりますか？

TOP カテ一覧スレ一覧 2ch元削除依頼 ▲
Gtkプログラミング on Windows!!! (343)
monazilla Part 6 (623)
【bzr】Bazaarでバージョン管理 Rev 3 (958)
Visual Studio 2008 Part 21 (721)
JAVAってこんなことも出来ないの？ (473)
【C++】高速化手法【SSE】 (864)
--log9.info------------------
CELINE DION／セリーヌ・ディオン part3 (858)
音楽はタダで手に入れて当然という風潮 (903)
ジョン・ライドンについて12 (816)
【Amazon】オンラインCDショップ総合スレ87【HMV】 (569)
TOKIO HOTEL part9 (709)
【ブラック】BLACK SABBATH Vol.4【サバス】 (590)
ﾌｼﾞﾛｯｶｰｽを潰すｽﾚ393　本スレ編 (266)
◆◆曲名がわかりません!ｽﾚｯﾄﾞin洋楽板Vol.148◆◆ (643)
ベット・ミドラー最高！ (373)
【REMASTER】リマスター盤を評価すs2【洋楽全般】 (951)
Noel Gallagher 13 【High Flying Birds】 (227)
価値破壊?!ブックオフ古本市場ハードオフGEO　14 (857)
311 -スリーイレブン- 5個目 (319)
【ワーナー】紙ｼﾞｬｹ探検隊Vol.52【特典有】 (818)
OneRepublic ワンリパブリック (480)
シェール最高！ (233)
--log55.com------------------
ウクライナ「Украi'на」частина 4
【多文化共生】崩壊するスウェーデン【高福祉】
イギリス総合 Part.2
【Italy】イタリア総合 Parte 1 【Italia】
ポーランドってどんな国？
スペイン
☆イスラム移民に滅ぼされる？文明崩壊？
EU情勢総合スレ Part1

自然言語処理スレッド その３

自然言語処理スレッド　その３