ロジスティック回帰





































ロジスティック回帰(ロジスティックかいき、英: Logistic regression)は、ベルヌーイ分布に従う変数の統計的回帰モデルの一種である。連結関数としてロジットを使用する一般化線形モデル (GLM) の一種でもある。1958年に David Cox が発表した[1]。確率の回帰であり、統計学の分類に主に使われる。医学や社会科学でもよく使われる。


モデルは同じく1958年に発表された単純パーセプトロンと等価であるが、scikit-learn などでは、パラメータを決める最適化問題で確率的勾配降下法を使用する物をパーセプトロンと呼び、座標降下法や準ニュートン法などを使用する物をロジスティック回帰と呼んでいる。




目次






  • 1 概要


  • 2 応用


  • 3


  • 4 脚注


  • 5 参考文献


  • 6 関連項目


  • 7 外部リンク





概要


ロジスティック回帰モデルは以下のような形式である。x が入力で、pが確率(出力)、αとβがパラメータ。



logit⁡(pi)=ln⁡(pi1−pi)=α1x1,i+⋯kxk,i,{displaystyle operatorname {logit} (p_{i})=ln left({frac {p_{i}}{1-p_{i}}}right)=alpha +beta _{1}x_{1,i}+cdots +beta _{k}x_{k,i},}operatorname {logit}(p_{i})=ln left({frac  {p_{i}}{1-p_{i}}}right)=alpha +beta _{1}x_{{1,i}}+cdots +beta _{k}x_{{k,i}},
i=1,…,n,{displaystyle i=1,dots ,n,,!}i=1,dots ,n,,!



ここで、n 個のユニットと共変動 X があり、以下のような関係にある。



pi=E(Y|Xi)=Pr(Yi=1).{displaystyle p_{i}=E(Y|X_{i})=Pr(Y_{i}=1).,!}p_{i}=E(Y|X_{i})=Pr(Y_{i}=1).,!



結果のオッズ(1から確率を引いたもので確率を割った値)の対数は、説明変数 Xi の線形関数としてモデル化される。これを次のようにも表せる。



pi=Pr(Yi=1|X)=11+e−1x1,i+⋯kxk,i){displaystyle p_{i}=Pr(Y_{i}=1|X)={frac {1}{1+e^{-(alpha +beta _{1}x_{1,i}+cdots +beta _{k}x_{k,i})}}}}p_{i}=Pr(Y_{i}=1|X)={frac  {1}{1+e^{{-(alpha +beta _{1}x_{{1,i}}+cdots +beta _{k}x_{{k,i}})}}}}



単純パーセプトロンの記法を使うと上記の式は以下のようにも表現できる。ς1{displaystyle varsigma _{1}}varsigma _{1} は標準シグモイド関数。



pi=ς1(α1x1,i+⋯kxk,i){displaystyle p_{i}=varsigma _{1}(alpha +beta _{1}x_{1,i}+cdots +beta _{k}x_{k,i})}p_i = varsigma_1 (alpha + beta_1 x_{1,i} + cdots + beta_k x_{k,i})



パラメータの推定はオッズ比に重大な影響がある。性別のような2値の説明変数の場合、{displaystyle e^{beta }}e^{beta } は例えば男性と女性の結果のオッズ比の推定である。推定には最尤法を使うことが多い。


このモデルの拡張として多分割(polytomous)ロジスティック回帰がある。複数カテゴリの従属変数や順序のある従属変数を扱う。ロジスティック回帰による階層分けを多項ロジットモデルと呼ぶ。



応用


社会科学分野での典型的な応用として、企業の過去のデータをもとに信用リスクを推定するという用法がある。


2値ロジスティック回帰はダイレクトマーケティングでよく使われ、ある提案に反応する人々を特定するのに使われる(従属変数は「反応する=1」と「反応しない=0」である)。ダイレクトマーケティングの2値ロジスティック回帰モデルは「リフトチャート」を使って評価される。これは、過去のメールへの反応のデータとモデルによる予測結果を比較する。





ロジスティック回帰モデルは一般化線形モデルの一種である。p(x) が、予測値変数 x について成功の確率を表すとすると、次のように表される。



p(x)=eB0+B1x1+eB0+B1x.{displaystyle p(x)={frac {e^{B_{0}+B_{1}x}}{1+e^{B_{0}+B_{1}x}}}.}p(x)={frac  {e^{{B_{0}+B_{1}x}}}{1+e^{{B_{0}+B_{1}x}}}}.



代数的操作を施すと次のようになる。



p(x)1−p(x)=eB0+B1x,{displaystyle {frac {p(x)}{1-p(x)}}=e^{B_{0}+B_{1}x},}{frac  {p(x)}{1-p(x)}}=e^{{B_{0}+B_{1}x}},



ここで、p(x)1−p(x){displaystyle {frac {p(x)}{1-p(x)}}}{frac  {p(x)}{1-p(x)}} は成功のオッズである。ここで、例えば p(50) が 2/3 となる場合であるとして計算してみると



p(50)1−p(50)=231−23=2.{displaystyle {frac {p(50)}{1-p(50)}}={frac {frac {2}{3}}{1-{frac {2}{3}}}}=2.}{frac  {p(50)}{1-p(50)}}={frac  {{frac  {2}{3}}}{1-{frac  {2}{3}}}}=2.



したがって、x = 50 のとき、成功の可能性は失敗の2倍(オッズが 2 対 1 )である。



脚注





  1. ^ Cox, DR (1958). “The regression analysis of binary sequences (with discussion)”. J Roy Stat Soc B 20: 215–242. 




参考文献







  • Agresti, Alan, Categorical Data Analysis, 2nd ed., New York: Wiley-Interscience, 2002, ISBN 0-471-36093-7.

  • Amemiya, T., Advanced Econometrics, Harvard University Press, 1985, ISBN 0-674-00560-0.

  • Balakrishnan, N., Handbook of the Logistic Distribution, Marcel Dekker Inc., 1991, ISBN 0824785878.

  • Green, William H., Econometric Analysis, fifth edition, Prentice Hall, 2003, ISBN 0-13-066189-9.

  • Hosmer, David W. and Stanley Lemeshow, Applied Logistic Regression, 2nd ed., New York; Chichester, Wiley, 2000, ISBN 0-471-35632-8.



関連項目



  • ニューラルネットワーク

  • データマイニング

  • 判別分析

  • パーセプトロン

  • 線形分類器



外部リンク



  • Web-based logistic regression calculator


  • 「ロジスティック回帰分析」入門 鳥居稔(大阪大学)





Popular posts from this blog

MongoDB - Not Authorized To Execute Command

How to fix TextFormField cause rebuild widget in Flutter

in spring boot 2.1 many test slices are not allowed anymore due to multiple @BootstrapWith