离散选择模型--Intelligent technology investment network-上海优钧机械设备科技

News Message

离散选择模型

by wittx 2020-09-04

离散选择模型

1. 为什么是Logistic回归？
在分析变量之间的相关关系的时候，一般最先想到的是线性回归模型。例如，图1展示了气温（）和冰淇淋的销量（）之间的关系：

图1：气温（）和冰淇淋的销量（）之间的关系

线性回归模型可以描述因变量和自变量之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第次观测到的样本为，则：
$Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$
$\beta_0$ 为轴上的截距， $\beta_1$ 为斜率， $\varepsilon$ 为误差项。为什么需要将误差项 $\varepsilon$ 包含在模型中？
有些变量是观测不到或者无法度量的，又或者影响因变量的因素太多，无法一一度量
外界随机因素对的影响很难模型化，如自然灾害、恐怖时间、设备故障等
在度量的过程中会发生偏差
给定组观测值 $(X_1, Y_1), (X_2, Y_2), \cdot \cdot \cdot ,(X_n, Y_n)$ ，我们就可以用最小二乘法得到参数 $\beta_0$ 和 $\beta_1$ 的估计值。
现实情况中经常会遇到因变量是二分类变量的情形。例如——
顾客是否会购买某种商品：Y=1购买，Y=0不买
选民是否会投票给某位候选人：Y=1投票，Y=0不投票
求职者决定是否在某企业入职：Y=1入职，Y=0不入职
交通事故中是否有人员伤亡：Y=1有人员伤亡，Y=0无人员伤亡
若因变量为二分类变量(Y只能取0或1)，在建模分析与Y相关的影响因素的时候，使用Logistic回归可能是一个较好的选择；而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件。

2. 线性回归模型的假设
线性回归模型的成立需满足以下几条假设[1]：
$Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$ ...... (1)
$E(\varepsilon _i )=0$ ...... (2)
$Var(\varepsilon _i )=\sigma ^2$ ...... (3)
$Cov(\varepsilon _i,\varepsilon _j )=0$ ...... (4)
$\varepsilon _i \sim Normal$ ...... (5)
条件(1)为线性假设，即自变量每增加一个单位对的影响都是一样的（的值增加 $\beta_1$ ）；
条件(2)-(5)均和误差项 $\varepsilon$ 有关。假设(2)表示对任意的取值，误差项 $\varepsilon$ 是一个期望为零的随机变量（即 $\varepsilon$ 和不相关）。这意味着在式 $Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$ 中，由于 $\beta_0$ 和 $\beta_1$ 都是常数，因此对于一个给定的的值，的期望值为：
$E(Y_i )=\beta_0+\beta_1 X_i$ ...... (6)
假设(3)表示对任意的值，误差项 $\varepsilon$ 的方差都相同（都是 $\sigma ^2$ ）。
假设(4)和(5)说明误差项 $\varepsilon$ 是一个服从正态分布的随机变量（ $\varepsilon \sim N(0,\sigma ^2)$ ），且相互独立（即 $\varepsilon _i$ 和不相关）。图2展示了误差项 $\varepsilon$ 在线性回归模型中的影响。

图2：误差项在线性回归模型中的影响

只有当以上5个基本条件都满足时，利用最小二乘法得出的参数的估计值才是无偏的。不幸的是，因变量是二分类变量时，无法满足条件(3)和(5)。以下分别予以说明。

首先考虑假设条件(5)。
当因变量时，根据条件(1)则有：
$\varepsilon _i=1-\beta_0-\beta_1 X_i$ ...... (7)
当因变量时有：
$\varepsilon _i=-\beta_0-\beta_1 X_i$ ......(8)
也就是说，对任意的，误差项 $\varepsilon _i$ 只能取两个固定的值： $1-\beta_0-\beta_1 X_i$ 或者 $-\beta_0-\beta_1 X_i$ ——而非如图2中所示的正态分布。因此条件(5)不满足。

再考虑假设条件(3)。
若记的概率值为，则相应的 $Y_{i}=0$ 的概率为 $\left( 1-p_{i} \right)$ ，如下表所示：
的均值为：
$E(Y_i )=1\cdot Pr(Y_i=1)+0\cdot Pr(Y_i=0)=p_i$ ...... (9)
带入(6)可得：
$p_i=\beta_0+\beta_1 X_i$ ...... (10)
的方差为：
$=(\beta_0+\beta_1 X_i )(1-\beta_0-\beta_1 X_i )$ ...... (11)
当在 $X_{i}$ 处固定时， $\varepsilon_{i}$ 方差等于相应的 $Y_{i}$ 的方差（见(1)式）。也是说， $\varepsilon_{i}$ 的方差随着的改变而改变——这与(3)式相矛盾！

由此可见，直接套用(1)式中的线性回归模型对二分类变量( or )进行拟合时，自变量的系数估计值会存在偏差。更为关键的一点是：从(10)中可以看出，当假设条件(1)、(2)成立时，的概率值()和自变量成线性关系——这就意味着概率值可能会出现大于1（或者小于0）的情形（如图3）——这一点无论是在理论上还是在实际计算的过程都行不通！因此，在处理因变量为二分类变量的情形时，较线性模型而言，Logistic模型的统计特性更好、计算更为方便。

图3：线性概率模型

预告：下一篇讲Logistic模型中的一个核心概念——Odds。

3. 参考文献：
[1] Allison, Paul D. Logistic Regression
Using SAS®: Theory and Application, Second Edition. Copyright © 2012, SAS
Institute Inc., Cary, North Carolina, USA.

1. 为什么是Logistic回归？
在分析变量之间的相关关系的时候，一般最先想到的是线性回归模型。例如，图1展示了气温（）和冰淇淋的销量（）之间的关系：

图1：气温（）和冰淇淋的销量（）之间的关系

线性回归模型可以描述因变量和自变量之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第次观测到的样本为，则：
$Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$
$\beta_0$ 为轴上的截距， $\beta_1$ 为斜率， $\varepsilon$ 为误差项。为什么需要将误差项 $\varepsilon$ 包含在模型中？
有些变量是观测不到或者无法度量的，又或者影响因变量的因素太多，无法一一度量
外界随机因素对的影响很难模型化，如自然灾害、恐怖时间、设备故障等
在度量的过程中会发生偏差
给定组观测值 $(X_1, Y_1), (X_2, Y_2), \cdot \cdot \cdot ,(X_n, Y_n)$ ，我们就可以用最小二乘法得到参数 $\beta_0$ 和 $\beta_1$ 的估计值。
现实情况中经常会遇到因变量是二分类变量的情形。例如——
顾客是否会购买某种商品：Y=1购买，Y=0不买
选民是否会投票给某位候选人：Y=1投票，Y=0不投票
求职者决定是否在某企业入职：Y=1入职，Y=0不入职
交通事故中是否有人员伤亡：Y=1有人员伤亡，Y=0无人员伤亡
若因变量为二分类变量(Y只能取0或1)，在建模分析与Y相关的影响因素的时候，使用Logistic回归可能是一个较好的选择；而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件。

2. 线性回归模型的假设
线性回归模型的成立需满足以下几条假设[1]：
$Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$ ...... (1)
$E(\varepsilon _i )=0$ ...... (2)
$Var(\varepsilon _i )=\sigma ^2$ ...... (3)
$Cov(\varepsilon _i,\varepsilon _j )=0$ ...... (4)
$\varepsilon _i \sim Normal$ ...... (5)
条件(1)为线性假设，即自变量每增加一个单位对的影响都是一样的（的值增加 $\beta_1$ ）；
条件(2)-(5)均和误差项 $\varepsilon$ 有关。假设(2)表示对任意的取值，误差项 $\varepsilon$ 是一个期望为零的随机变量（即 $\varepsilon$ 和不相关）。这意味着在式 $Y_i=\beta_0+\beta_1 X_i+\varepsilon _i$ 中，由于 $\beta_0$ 和 $\beta_1$ 都是常数，因此对于一个给定的的值，的期望值为：
$E(Y_i )=\beta_0+\beta_1 X_i$ ...... (6)
假设(3)表示对任意的值，误差项 $\varepsilon$ 的方差都相同（都是 $\sigma ^2$ ）。
假设(4)和(5)说明误差项 $\varepsilon$ 是一个服从正态分布的随机变量（ $\varepsilon \sim N(0,\sigma ^2)$ ），且相互独立（即 $\varepsilon _i$ 和不相关）。图2展示了误差项 $\varepsilon$ 在线性回归模型中的影响。

图2：误差项在线性回归模型中的影响

只有当以上5个基本条件都满足时，利用最小二乘法得出的参数的估计值才是无偏的。不幸的是，因变量是二分类变量时，无法满足条件(3)和(5)。以下分别予以说明。

首先考虑假设条件(5)。
当因变量时，根据条件(1)则有：
$\varepsilon _i=1-\beta_0-\beta_1 X_i$ ...... (7)
当因变量时有：
$\varepsilon _i=-\beta_0-\beta_1 X_i$ ......(8)
也就是说，对任意的，误差项 $\varepsilon _i$ 只能取两个固定的值： $1-\beta_0-\beta_1 X_i$ 或者 $-\beta_0-\beta_1 X_i$ ——而非如图2中所示的正态分布。因此条件(5)不满足。

再考虑假设条件(3)。
若记的概率值为，则相应的 $Y_{i}=0$ 的概率为 $\left( 1-p_{i} \right)$ ，如下表所示：
的均值为：
$E(Y_i )=1\cdot Pr(Y_i=1)+0\cdot Pr(Y_i=0)=p_i$ ...... (9)
带入(6)可得：
$p_i=\beta_0+\beta_1 X_i$ ...... (10)
的方差为：
$=(\beta_0+\beta_1 X_i )(1-\beta_0-\beta_1 X_i )$ ...... (11)
当在 $X_{i}$ 处固定时， $\varepsilon_{i}$ 方差等于相应的 $Y_{i}$ 的方差（见(1)式）。也是说， $\varepsilon_{i}$ 的方差随着的改变而改变——这与(3)式相矛盾！

由此可见，直接套用(1)式中的线性回归模型对二分类变量( or )进行拟合时，自变量的系数估计值会存在偏差。更为关键的一点是：从(10)中可以看出，当假设条件(1)、(2)成立时，的概率值()和自变量成线性关系——这就意味着概率值可能会出现大于1（或者小于0）的情形（如图3）——这一点无论是在理论上还是在实际计算的过程都行不通！因此，在处理因变量为二分类变量的情形时，较线性模型而言，Logistic模型的统计特性更好、计算更为方便。

图3：线性概率模型

预告：下一篇讲Logistic模型中的一个核心概念——Odds。

3. 参考文献：
[1] Allison, Paul D. Logistic Regression
Using SAS®: Theory and Application, Second Edition. Copyright © 2012, SAS
Institute Inc., Cary, North Carolina, USA.

Share Http URL: http://www.wittx.cn/get_news_message.do?new_id=135

©2021 上海优钧机械设备科技有限公司

Best Last Month

2020/10/23 全球疫情

2020/10/23 全球疫情
Information industry

by wittx

等离子体激光器卡车燃耗减少百分之7 10

等离子体激光器卡车燃耗减少百分之7 10
Traffic

by wittx

拓扑半金属材料在强磁场中可以将热电转换效率提升5倍

拓扑半金属材料在强磁场中可以将热电转换效率提升5倍
Information industry

by wittx

2021/1/1 金融行情

2021/1/1 金融行情
Information industry

by wittx

2020/12/11 金融行情

2020/12/11 金融行情
Information industry

by wittx

LLM思维模型TOT

LLM思维模型TOT
Information industry

by wittx

2020/12/16 金融行情

2020/12/16 金融行情
Information industry

by wittx

金刚经十句经典点醒执迷人生

金刚经十句经典点醒执迷人生
Office culture and education

by wittx

纳米技术超级电容器提升电动汽车的能量密度

纳米技术超级电容器提升电动汽车的能量密度
Information industry

by wittx

Nat. Catal.：100%选择性！SACs助力CO2制甲醇

Nat. Catal.：100%选择性！SACs助力CO2制甲醇
Information industry

by wittx