カイ二乗分布
確率密度関数 ![]() | |
累積分布関数 ![]() | |
母数 | k∈N{displaystyle kin mathbb {N} } |
---|---|
台 | [0, ∞) |
確率密度関数 | xk/2−1e−x/22k/2Γ(k/2){displaystyle {frac {x^{k/2-1}e^{-x/2}}{,2^{k/2}Gamma (k/2)}}} |
累積分布関数 | γ(k/2,x/2)Γ(k/2){displaystyle {frac {gamma (k/2,x/2)}{Gamma (k/2)}}} |
期待値 | k |
中央値 | ≃k−23+427k−8729k2{displaystyle simeq k-{frac {2}{3}}+{frac {4}{27k}}-{frac {8}{729k^{2}}}} |
最頻値 | 0 for k < 2 k − 2 for k ≥ 2 |
分散 | 2k |
歪度 | 22k{displaystyle {frac {2{sqrt {2}}}{sqrt {k}}}} |
尖度 | 12/k |
エントロピー | k/2 + ln 2 + ln Γ(k/2) + (1 − k/2)ψ(k/2) |
モーメント母関数 | 1(1−2t)k/2 for t<1/2{displaystyle {frac {1}{(1-2t)^{k/2}}}{text{ for }}t<1/2} |
特性関数 | 1(1−2it)k/2{displaystyle {frac {1}{(1-2it)^{k/2}}}} |
カイ二乗分布(カイにじょうぶんぷ、カイじじょうぶんぷ)、またはχ2分布は確率分布の一種で、推計統計学で最も広く利用されるものである。ヘルメルトにより発見され[1]、ピアソンにより命名された[2]。
独立に標準正規分布に従う k 個の確率変数 X1, …, Xk をとる。このとき、統計量
- Z=∑i=1kXi2{displaystyle Z=sum _{i=1}^{k}{X_{i}}^{2}}
の従う分布のことを自由度 k のカイ二乗分布と呼ぶ。この分布は自由度 k に応じて右図のような形をとる。図を見れば分かるように、どの自由度 k でも、ある一定以上 Z が大きいならば、Z が大きいほどその確率が低くなることが分かる。このことは、大まかに言えば、「正規分布でランダムで値をとったのだから、その値を用いて高々二乗和をとった程度の数値 Z がとてつもなく大きくなる確率は少ないはずだ」と解釈できる。統計的仮説検定にカイ二乗分布が用いられるのはこの性質のためである。例えば、「データが意味のないノイズ要素である可能性はたったの5%以下だから、このデータには意味があるはずだ」という解釈が行われる。
普通はこれを
- Z∼χk2{displaystyle Zsim chi _{k}^{2}}
と書く。カイ二乗分布は k という1個の母数をもつ。これは Xi の自由度に等しい正の整数である(場合によっては非整数自由度のカイ二乗分布も用いられる)。カイ二乗分布はガンマ分布の特殊な場合に当たる。
カイ二乗分布はカイ二乗検定と総称される多くの検定法のほか、フリードマン検定などにも利用される。
目次
1 性質
2 正規分布による近似
3 脚注
4 関連項目
性質
カイ二乗分布の確率密度関数は x ≥ 0 に対し
- f(x;k)=12k/2Γ(k/2)xk/2−1e−x/2{displaystyle f(x;k)={frac {1}{2^{k/2}Gamma (k/2)}}x^{k/2-1}e^{-x/2}}
また x ≥ 0 に対し fk(x) = 0 という形をとる。ここで Γ はガンマ関数である。
分布関数は
- F(x;k)=γ(k/2,x/2)Γ(k/2){displaystyle F(x;k)={frac {gamma (k/2,x/2)}{Gamma (k/2)}}}
(ただし γ(k, z) は不完全ガンマ関数)である。
Y=X1/ν1X2/ν2{displaystyle Y={frac {X_{1}/nu _{1}}{X_{2}/nu _{2}}}}(ただし X1∼χν12{displaystyle X_{1}sim chi _{nu _{1}}^{2}}
と X2∼χν22{displaystyle X_{2}sim chi _{nu _{2}}^{2}}
はカイ二乗分布に従う独立な確率変数)とすると、Y∼F(ν1,ν2){displaystyle Ysim mathrm {F} (nu _{1},nu _{2})}
、つまり自由度で割って比をとるとF分布に従う。
X∼χ22{displaystyle Xsim chi _{2}^{2}}(自由度2)ならば、X は期待値 2 の指数分布に従う。
自由度 k のカイ二乗分布に従う確率変数の期待値は k で、分散は 2k である。中央値は近似的に
- k−23+427k−8729k2{displaystyle k-{frac {2}{3}}+{frac {4}{27k}}-{frac {8}{729k^{2}}}}
となる。
カイ二乗分布は再生性を持つ。すなわち、X∼χm2, Y∼χn2{displaystyle Xsim chi _{m}^{2}, Ysim chi _{n}^{2}} ならば、X+Y∼χm+n2{displaystyle X+Ysim chi _{m+n}^{2}}
となる。
正規分布による近似
X∼χk2{displaystyle Xsim chi _{k}^{2}} として、k が無限大に近づくと X の分布は正規分布に近づくが、近づき方はゆっくりしている(歪度 8k{displaystyle {sqrt {frac {8}{k}}}}
、尖度 12/k)ため、X 自体より速く正規分布に近づく次の2つの方法が普通用いられる。
2X{displaystyle {sqrt {2X}}}は近似的に平均 √2k − 1、分散 1 の正規分布に従う(ロナルド・フィッシャー)。
Xk3{displaystyle {sqrt[{3}]{frac {X}{k}}}}は近似的に平均 1 − 2/9k、分散 2/9k の正規分布に従う(ウィルソンとヒルファティ、1931年)。
脚注
^ Helmert, F. R. (1875): Ueber die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler, Zeitschrift für Mathematik und Physik, 20, 300-303, インターネットアーカイブ: zeitschriftfrma29runggoog/page/n287.
^ Pearson, K. (1900): On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is such that it Can Reasonably Be Supposed to have Arisen from Random Sampling, Philosophical Magazine 5, 50, 157-175, doi:10.1080/14786440009463897.
関連項目
- 確率分布
- カイ二乗検定
- 非心カイ二乗分布
|