1read 100read
2011年11月2期25: 統計学なんでもスレッド 13 (597)
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▼
統計学なんでもスレッド 13
1 :11/02/11 〜 最終レス :11/11/18 2010.9上旬のkamomeサーバ霧散スレッド全損事件から5ヶ月、 運営陣から復旧策の音沙汰皆無のため、後続スレを建てました。 引き続き、質問等どうぞ。 前スレ 統計学なんでもスレッド12 http://kamome.2ch.net/test/read.cgi/math/1283521346/
2 : 過去スレ 統計学なんでもスレッド11 http://kamome.2ch.net/test/read.cgi/math/1258355122/ 統計学なんでもスレッド10 http://science6.2ch.net/test/read.cgi/math/1245043541/ 統計学なんでもスレッド9 http://science6.2ch.net/test/read.cgi/math/1226981666/ 統計学なんでもスレッド8 http://science6.2ch.net/test/read.cgi/math/1211786770/ 統計学なんでもスレッド7 http://science6.2ch.net/test/read.cgi/math/1193183539/ 統計学なんでもスレッド6 http://science6.2ch.net/test/read.cgi/math/1169836298/ 統計学なんでもスレッド5 http://science5.2ch.net/test/read.cgi/math/1145362721/ 統計学なんでもスレッド4 http://science4.2ch.net/test/read.cgi/math/1123896809/ 統計学なんでもスレッド3 http://science3.2ch.net/test/read.cgi/math/1097491056/ 統計学なんでもスレッド2 http://science3.2ch.net/test/read.cgi/math/1068288283/ 統計学なんでもスレッド http://science.2ch.net/test/read.cgi/math/1012782106/
3 : 関連スレ1 現行数学板 統計ソフトSTATAの部屋 Ver.2 http://kamome.2ch.net/test/read.cgi/math/1284083650/ 【R言語】統計解析フリーソフトR 第4章【GNU R】 http://kamome.2ch.net/test/read.cgi/math/1294561909/ 関連スレ2 2010.9以前の数学板 統計学なんて数学じゃないだろ http://kamome.2ch.net/test/read.cgi/math/1173876727/ =統計解析= SASプログラミング http://science6.2ch.net/test/read.cgi/math/1184762259/ 統計解析フリーソフト R 【第3章】 http://kamome.2ch.net/test/read.cgi/math/1224142396/
4 : 関連スレ3 他板 統計学 http://kamome.2ch.net/test/read.cgi/sociology/982489314/ 経済学で使う統計学スレッド http://kamome.2ch.net/test/read.cgi/economics/1094012265/ 生物学での統計学スレ http://kamome.2ch.net/test/read.cgi/life/1127772845/ ◆統計学について語るスレ http://kamome.2ch.net/test/read.cgi/sim/1012828891/ 統計・解析ソフトについて http://hibari.2ch.net/test/read.cgi/bsoft/1012298063/
5 : テンプレ1 ●学校の宿題の丸投げはやめましょう。 ●質問者は質問の前に相当程度調べるなり、考えるなりしましょう。 ●荒らしは基本的にスルーでお願いします。
6 : >>1 前スレのログから察するに、前スレは2010/09/07(火)の午後に20番レスまでで、 消失全損したようです。
7 : >>987 >最近はデータ数がバカみたいに多く集まることが多いので、統計的検定は無意味だと聞いたんですがホント? >たしかにnが万単位あれば僅かな平均値差でもバリバリ有意になっちまいますね・・・・・ n=10000ケのデータに対し、統計的検定を行うことってあるのかな? 10000ケの抜取標本平均や標本不偏標準偏差の記述統計で、十分なのでは?
8 : >>987 >>7 目的がわからないので、検定は無意味か?と聞かれても 応えられないと思いますよ。
9 : >>7 消失スレに書いたけど円周率が乱数かという検定ならデータが多くても行う。 >>8 が言うように目的次第。
10 : フリードマン検定は1要因の対応ある条件の比較のみに用いられるのですか? 2要因について用いられることはありませんか?
11 : 質問です。とあるサイトからの引用なんですが、 >あたりくじが1つ、ハズレくじが9つのくじびきを10人で引く場合、 >数学でいえば、何番目にくじを引いても当たりくじを引ける確率は同じだが、 >統計学でいえば、実際に2千回、5千回、1万回試行をすると実は6番目が一番当たりくじを引きやすいという結果が得られる。 2行目の当りくじの確率は理解できるんですが、 3行目の6番目云々が良く理解できません。 実際の試行回数と偏差とかのデータは出してないんで、主張が正しいかどうかはわからないんですが、ありえるんですかね? 一応自分で考えたところでは、仮に1万回試行として、 10分の1の1万回試行、9分の1の(1万ー10分の1の当り回数)試行、・・・・(1万ー10分の1の当り回数ー9分の1の当り回数ー・・・・2分の1の当り回数) の当り数の分布の比較ということになると思うのですが、 回数が安定するかどうかに違いはあっても、くじの引ける確率自体は同じである以上、統計上6番目が一番出やすいということは無いと思うのですが。 どうなんでしょう?
12 : >>11 1から10であたりがでるので、期待値は5.5。 そのことを、誰があたりを引くかと間違えて、6と書いてるのかな。 シミュレーションするなら、一様分布を前提に、毎回10人に順に引かせて誰が当たったかの結果をだして、その分布を確認だね。
13 : 回帰統計 重相関 R 0.152278611 重決定 R2 0.023188775 補正 R2 -0.116355685 標準誤差 2.206272678 観測数 17 分散分析表 自由度 変動 分散 観測された分散比 有意 F 回帰 2 1.617758084 0.808879042 0.166174817 0.848544242 残差 14 68.1469478 4.867639128 合計 16 69.76470588 係数 標準誤差 t P-値 下限 95% 上限 95% 下限 95.0% 上限 95.0% 切片 10.4845444 6.609867644 1.586195816 0.135017062 -3.692211688 24.66130049 -3.692211688 24.66130049 52 -0.051129843 0.095080104 -0.537755434 0.599190715 -0.255056384 0.152796698 -0.255056384 0.152796698 31 -0.000651974 0.111476851 -0.00584851 0.995416112 -0.239746038 0.238442091 -0.239746038 0.238442091 重回帰分析なんだけど これって有意差はなしってことでおk?
14 : >>11 >>12 だけど、1000回のシミュレーションを5回してみた。 念のため分散分析もしてみたけど、結論としては6が出やすい ということはないです。 まあ、以下の結果を見ると、6が多めに出てる場合があるので、 それを見て、統計学的に6が出ると判断しちゃったのでしょう。 シミュレーション結果(試行10,000回) 非復元抽出で当たりの位置を記録 01____989___1001___1027___1038___1026 02___1046____991___1016____994___1006 03____934____980___1020____999____966 04___1015___1001____978____996___1004 05___1010___1016____969____985___1001 06___1001___1053___1000___1065____955 07____993___1011____979____935___1058 08____949___1002____981___1031___1007 09___1034____950____975____978____969 10___1029____995___1055____979___1008 sum_10000__10000__10000__10000__10000
15 : >>14 10000回のを5回ね。w
16 : >>13 はあ?有意差? ワロスw
17 : >>16 考えられるのは、ダミーとかを使って、係数が有意に影響するかを確かめてる可能性。 まあ、EXCELの結果をそのまま貼ってるのを見ても、ほうっておくのがいいんじゃないかな。
18 : >>3 >>4 関連スレ2 2010.9以前の数学板 【統計学】統計的仮説検定!! http://science6.2ch.net/test/read.cgi/math/1201535084/ 関連スレ3 他板 統計ソフト統合スレッド−SPSS・SAS以外 http://yasai.2ch.net/test/read.cgi/psycho/1012801769/ SASスレ http://yasai.2ch.net/test/read.cgi/psycho/1012738237/ SPSSスレ http://yasai.2ch.net/test/read.cgi/psycho/1012388599/ 心理統計スレッド http://yasai.2ch.net/test/read.cgi/psycho/975992250/
19 : aとbがCに及ぼす影響を調べるためにはどの分析方法が最も適切でしょうか t検定も分散分析も違うような気がするのですが… ちなみにaとbは不変と可変、のように対になる変数です よろしくお願いします
20 : 不変と可変って何?
21 : >>19 Cが量的変数なら、重回帰分析か数量化T類か実験計画法を使うのが普通だが。 「aとbは不変と可変」って、定数と変数ということですか?
22 : >>14 レスありがとうございます。 わざわざ時間かけてもらってすいません。 結果を見ても、差は誤差と考えるのが妥当ですね。 すっきりしました。
23 : 以下の四つのジャーナルの内、最もレスポンスが早いのはどれでしょうか? また、ジャーナルの評価も聞かせて下さい。 ・日本統計学会誌(英文) ・Communications in statistics ・Statistica Sinica ・Annals of institute of statistical mathematics
24 : 全データが与えられてるのを度数分布標作って平均値などを求めたんですが間違いになりますか?
25 : >>23 投稿の内容とか、そのとき選ばれたレフェリーによっても全然違うから、 基本的には、レスポンスが早いかどうか全くわからないと言っていい。 聞いた話とか、おれやおれの友人が投稿した感じでは以下のように思う。 (おれは一度、日本統計学会誌で3ヶ月放置されたことがあるけどね) ・日本統計学会誌(英文)=二ヶ月以内ぐらいには返事があるはず。 ・Communications in statistics=まあまあ早い。一ヶ月ぐらい? ・Statistica Sinica =早い。リジェクトの場合4,5日で返事が来ることも。 ・Annals of institute of statistical mathematics =むちゃ遅いらしい。半年?
26 : >>24 その「全データ」というのは母集団のこと? つまり分析したい対象ということ? それとも何かの標本?
27 : 統計学では高校数学のどの知識が必要ですか?
28 : >>27 高校の教科書を見直してみた。 どこまでやりたいかによるけど、 初等幾何以外はほとんど必要だと思う。
29 : >>27 ある程度きちんとやるなら、微積分の知識がいる。 統計的に分析する時に確率の知識が必要で、確率は面積なので積分がいる。 統計的分析をするためには微分もいる。 複数の変数を分析するには、線形代数(行列)の知識がいる。 ただ、EXCELとかで結果だけだせればよくて、手法はそれほど細かく わからなくても、とりあえず分析したいだけなら、数学というよりも 常識があればOK。
30 : 統計なんてバカのやること 高校生レベルで十分
31 : | | ∩___∩ | | ノ _, ,_ ヽ (( | プラプラ / ● ● | (=) | ( _●_) ミ _ (⌒) J )) 彡、 |∪| ノ ⊂⌒ヽ / ヽノ ヽ /⌒つ \ ヽ / ヽ / \_,,ノ |、_ノ
32 : 実務で統計やってる人って何やってるかはわかんなくてただブラックボックス的にやってんの?
33 : 実務家で統計やってる人は、 ほとんどブラックボックスだね。 アフォばっかり。 学者は狭い範囲でいろいろやって喜んでいるだけ。 広く深く、しかも実践的なことが出来る人は ごく少数しかいない。 おれからしたら日本には30人ぐらいしかいない。
34 : 複数の映像を見せて「どちらが迫力があったか」「どちらが爽快感があったか」などの質問に5段階で回答してもらったのですが 標本数が少なくp<0.1でも差が出ません 何とかどちらかが良いという結果を出したいのですが このようなアンケート調査の場合どの程度まで有意水準をあげてもよいのでしょうか?
35 : どこまででも行けばいい 信じる人が減るだけかな
36 : >>34 どんな検定したのか分からないけど0.1より上げるのはないな。 本当には差があると思ってるんだったら検定法を変えると差が出るかもしれん。
37 : 45点満点のテストで平均点22点標準偏差6のとき 36点とった場合、偏差値はいくつになるのか、出現率(1000人中での順位)という のはどれぐらいになるのでしょうか?
38 : 偏差値:50+10*(36-22)/6=73.333... 出現率の定義はよくわからないが、1000中での順位というのであれば、 正規分布で、x>2.333...の面積は、0.009815...。1000倍して切り上げし、10位と言うのが妥当だろう。
39 : ありがとうございます。 偏差値73の成績と偏差値65の成績の二つの試験の合計での 出現率や総合偏差値というのは推計できるのでしょうか?
40 : >>39 >>38 ではないが、複数の変数(複数の試験の結果)を合わせた分布を 計算するのには、>>39 の情報だけではできない。 試験Aの成績がいい人が、試験Bの成績もいいという関係があるのか、 逆の関係があるのか、その関係はどれくらいなのか、両方の試験の結果 にはあまり関係が無いのか、といった情報がないと、分布の形が特定 できないので計算もできない。 単純に二つの点数を足したもので、総合の偏差値を計算することは可能 なので、それが簡単かもしれないけど、二つの試験の総合点の標準偏差 の数値なんて持ってないよね。 ちなみに、偏差値73と65における順位と、合計したものの順位は異なる。 偏差値73と65の順位というのは、73よりも成績がよく、65よりもいいと いう両方の条件を満たす人。 総合した場合には、どちらかが下回っている人が総合点で上に来ることが あるので結果が違ってくる。
41 : >>39 >>40 の書いていることは、 数学と英語の試験があって、 1)片方の成績がいいともう片方の成績もいいとすると、英語で高得点を 取った人は数学でも高得点を取ることになる。 2)英語と数学の成績にはマイナスの相関があると、英語の成績がいい人で 数学の成績のいい人は少なくなる。 つまり、1)と2)を比べると零点から200点の間に、1)の方が広く分布 してて、2)の方が平均点の所に多く分布していることになる。 そのため、1)と2)では1)の方が分散が大きくなる。 あと、3)として、両方の試験にまったく相関が無い場合。 これは、英語で10点取ってる人たちと、90点取ってる人たちを比べると、 数学の成績の分布が一緒だってこと。 どちらにも、数学で10点の人とか90点の人が、同じようにいる状況。 二つの試験の点数の関係で結果が変わるので、その情報が無いと、計算が できない。
42 : 世界最速2バスの曲 DIMMU BORGIRの"The Chosen Legacy" 290〜300BPMの16ビート http://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q1347376823 http://www.youtube.com/watch?v=JEj2hXC3TA4 DIMMU BORGIRの"The Chosen Legacy http://www.youtube.com/watch?v=afzN_Ab2BhI ドリームシアター64ビート 150BPMの64ビート http://www.youtube.com/watch?v=KveVL5IN9eY 64ビートとは世界最速ドラマー「ヘルハマー」の2倍のスピードとなる事が判明した!
43 : 39です。>4041ありがとうございます。 正規分布の面積で順位を算出することがわかりました。二つの試験の 場合は相関関係がわからないとだめなようですね。ありがとうございます。
44 : 質問します。 glmを使い,説明変数の数を変えて複数のモデルを作りました。 複数モデルの中から最もあてはまりの良いものを知りたいので AICを比較しようと考えたのですが,AICがInfとなり,表示してくれませんでした。 使っているソフトはRです。 AICが非常に小さいくて(おそらく2以下?)表示されないと考えているのですが, これでは比較できません。 対処法をご存じの方がいらっしゃいましたら,教えていただきたく存じます。
45 : >>44 小さいから表示されないということはありません。 Infですから無限大なのでしょう。 glm後の出力で係数は表示されているのにAICのところのみInfと なるということですね?他のモデルではAICが表示されるのなら 少なくともそのモデルはだめという結論でよいように思います。 AICを小さくするモデルを探索しているのですから。
46 : ARモデルで共分散定常性が成り立たないときはOLSで推計をするのは 妥当ではないと本に書いてありましたが理由は書かれていませんでした。 どなたか理由を教えていただけないでしょうか。
47 : >>46 定常でない時系列でARモデルを当てはめるってそもそもどういう仮定で どうやって解くのだろう?その本にはそもそもそういうときにどうすれば いいのかも書かれていないんですよね?それならば理由は仮定を満たして いないからということでは。
48 : 証明問題をやってて 具体的にiが1〜nまでみたいに決まってなくて 集合Aの範囲内のものを全て足し合わせるってことを書きたいんだけど ΣAf(x) (Aは下に小さく書く) って書き方でいいのかな? それとも何か正しい書き方ってある?
49 : 統計学会春季大会(立教大学)乙! 会場がちょいと寒かった。 暖房いれるとみんな寝ちゃうから?
50 : >>48 なんでここで訊いてるのか分からないが、TeXで書くと \sum_{x \in A} f(x) となるのでは?(\inは集合の含まれるの記号)
51 : >>49 これですね。興味深い発表は、どれでしたか? 第5回日本統計学会 春季集会 日 時:2011年3月6日 (日) 10:00 〜 17:30 場 所:立教大学 (東京都豊島区西池袋3-34-1) http://www.jss.gr.jp/ja/convention/spring/05/JSSspring2011_program.html
52 : 質問します。 教科書に、大標本と小標本なる用語があるのですが、定義が載って おりません。標本数何ケが境目なのですか?
53 : 明確な境目はないですよ。 10だと確かに少ないし、100だと多い方ですが、 どんな分析をどんな精度でするのかにも依存しますし。
54 : 偏差値って正規分布専用の指標?
55 : >>54 逆に聞くけど、SDって正規分布専用?
56 : 日本統計学会、・・・・プッ
57 : すみません 試行A 成功 29 5 試行B 成功 36 9 の二つの試行は違うと言えるのかどうかの検定ってどういう検定でできますか?
58 : >>53 応答ありがとうございます。 精度に依存するというのは、設定する許容誤差に連動するということですね。 許容誤差をαとすると、境目の標本数はどのような式で計算するのでしょうか?
59 : 誰か教えてくれ・・・
60 : 極限の問題だと思います。 このような問題をやったことが無いので、出来るだけ詳しい説明をしていただけると嬉しいです。 @lim(θ→0) sin5θ/sin2θ Alim(u→0) u・log{1+(3/u)} Blim(x→-∞) x+1/{√(x^2+x+1)-x} 宜しくお願いします。
61 : ↑数学何でもスレッドと勘違いしました。 申し訳ないです><。
62 : >>58 無いよ。 例えば、標準正規分布を用いた検定と、t分布を用いた検定を考える。 この時、サンプルが30くらいあれば、どちらの方法でも目的としてる精度で分析できるなら、簡単な方を使う。 それと同じように考えればいい。 ただし、検定によっては、大標本の特性は数学的にもとまっていても、小標本の特性はわかってない時がある。 そんなときは、シミュレーションでサンプルサイズによる特性を調べて、それを使う。それが無理なら、とりあえず大標本の結果を利用する。
63 : >>57 分割表の独立性の検定
64 : >>62 挙げている例が説明と合ってないよ。 正規分布を用いた検定とt分布を用いた検定ではt分布の方が常に精度がよい。 しかし、たとえば標本の大きさが100ぐらいになるとその差は大してないので 正規分布を用いた検定でよいと考えたりする。 この場合明確に精度の差を考えたら切り替え基準も作れなくはない。 ただ精度の差は応用で違うし、主観的にもなるのでそういう議論をすることは ほとんどない。 一般的にはこういうように説明できる方が珍しく小標本の方法の特性が 分かっていなかったり単純に比べられなかったりする場合が多いことは確か。
65 : >>63 ありがとうございます たいして違いないみたいですね。
66 : >>55 答えはNOという事ですね あり^^
67 : もし、真剣にロト6を統計したら一番期待が持てるのってどれなんだろうか? 過去30回分とかで計算したことある人は結構いそうだけど過去全部で計算したことある人っているか?
68 : どれとは?一番期待値が高くなる組み合わせってこと? 過去全部でもすべての組み合わせが出ているわけではないので 一番は決められないのでは?
69 : さらに言うと第138回から使う玉が変更されました さらに言うとA〜Jセットまでがあって 頻度調整の為に恣意的に使われるセットが替わります 僕はデータベースにできる限りの情報を記録しています
70 : それってどのセットを使うのが事前には公表されないでしょ? どのセットを使うかも予測するってこと? セットを変えるのは本当に頻度調整のためなの? (頻度調整となると出る玉に偏りがあることになるが、 それを立証できるの?)
71 : 1レスに質問は一つにして下さい
72 : 皆は学部どこ? 俺は経済学部なんだけど理学部数学科ばっかりか?
73 : 統計解析についての質問。 企業がエクセルを導入したことによって、どのような統計解析が可能になったのか? 質問が雑であまりうまくまとめられてないので、すいません。 友人から「この質問を解答してくれ」と頼まれたので、宜しくお願いします。
74 : お断りします。
75 : >>73 エクセルを導入せずとも、実行可能な統計解析の存在を考えて、non-unique argumentで検討することにする。 1) 例えば、オープンソースのRが導入済みまたは導入可能であると仮定する。 2) エクセルにできて、Rにできない統計解析はない。 3) 従って、企業がエクセルを導入したとしても、新しく実行可能になる統計解析はない。 以上。
76 : 1)が偽だったら何の意味もない議論だなw
77 : >>73 こういう本見て、そこの仕事と関係ある部分を箇条書きにすれば良いと思う。 http://www.amazon.co.jp/gp/product/479811958X/
78 : >>46 妥当ではないとは具体的に?
79 : 非線形回帰モデル y = a*x1 + a*b*x2 + u において、y、x1、x2のデータがあるときにaとbの推定を考えます。 その方法として残差平方和u^2を最小にするようなaとbを直接求める方法と、 u^2をaとbに関して微分して0とおいた一階の条件を非線型方程式とみなして 求める方法はどちらがいいのでしょうか?
80 : >>79 それ非線形なの? 線型にしか見えないけど?
81 : >>80 パラメータaとbについては非線形だと思います。 パラメータaとbをデータの線形関数としてexplicitに表現できないと思いますので。 もちろん「変数」に関しては線形ですが。
82 : >>81 両辺をaで割れば、 y/a = x1 + b * x2 + u/a となるんじゃないの?
83 : >>82 でもa自体が未知なので変換は不可能じゃない?
84 : y = a*x1 + a*b*x2 + u のa*b = cとおいて、 y = a*x1 + c*x2 + u とすれば普通の回帰分析と同じ。 そして、aとcを求めてから、 cをaで割るとbが求まります。 よって線型と同じです。
85 : すみません、前に書いたモデルは一つの例で、あまり適切ではなかったようです。 実際は変数に関しては線形で、パラメータに関しては非線形なモデルで84が指摘しているような 簡単な方法では扱えないモデルです。 問題は目的関数を直接最小化するのと一階の条件を使うのとどちらが良いのかということです。
86 : >>84 そのように置いたらaとcは独立ではないよね。
87 : >>86 ええ。そうしなくても独立ではないですよね? >>85 こういうのをやりたいということですか? http://www.cs.osakafu-u.ac.jp/hi/honda/mathematics2.htm
88 : 通常用いられている統計学とは別にベイズ統計学とかいうのがあると知りました。 ベイズ統計学はどういうところで使われているんですか? 普通の統計学にたいして利点と欠点とかってあるんでしょうか?
89 : 具体的に言うと y = (a+b_1+...+b_k)*x_0 + a*b_1*x_1 + ... + a*b_k*x_k + u という回帰モデルでa,b_1,...b_kの推定を考えています。
90 : >>88 ベイズの公式を利用するものをベイズ統計学という。 どんな問題でも、常にベイズの公式を使う人のことを ベイジアンといいます。 ベイズの公式は単純ですけど、奥が深いらしいです。 利点はベイズの公式を利用できることですかね? 欠点はないです。 だってベイジアンでないかぎり、ベイズの公式を使っても 使わなくてもいいんですから。
91 : >>90 >欠点はないです。 ベイズは概して計算量が増えます。
92 : >>89 y = (a+b_1+...+b_k)*x_0 + a*b_1*x_1 + ... + a*b_k*x_k + u これを書き換えると y=a*x_0 + (1+a)*b_1*(x_0 + x_1) + ... + (1+a)*b_k*(x_0 + x_k) + u x_0、x_0 + x_1、...、x_0 + x_k って変数を作って、重回帰分析をして、 もとまった係数から、順番にb_1からb_kまでを決めていけばいい。
93 : あ、ごめん、見間違ってた。
94 : 計量経済で言うコクランオーカット法の推定と同じような問題かな?
95 : CRFってわざわざ名前つけるほど特別な方法でもないじゃん なんで騒がれてんのか不明だわ
96 : >>87 aとa*bはそりゃあ独立じゃないですよ。 aとbを別に求めたいから非線形ということですよね。
97 : データが「正規分布に従う」と言うためには何をすれば(何を示せば)いいですか?
98 : >>97 宿題?それとも試験中?
99 : >>98 工学系の論文です。
100read 1read
1read 100read
TOP カテ一覧 スレ一覧 2ch元 削除依頼 ▲