1. 为什么是Logistic回归?
在分析变量之间的相关关系的时候,一般最先想到的是线性回归模型。例如,图1展示了气温()和冰淇淋的销量()之间的关系:
图1:气温()和冰淇淋的销量()之间的关系
线性回归模型可以描述因变量和自变量之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第次观测到的样本为,则:
为轴上的截距,为斜率,为误差项。为什么需要将误差项包含在模型中?
给定组观测值,我们就可以用最小二乘法得到参数和的估计值。
现实情况中经常会遇到因变量是二分类变量的情形。例如——
若因变量为二分类变量(Y只能取0或1),在建模分析与Y相关的影响因素的时候,使用Logistic回归可能是一个较好的选择;而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件。
2. 线性回归模型的假设
线性回归模型的成立需满足以下几条假设[1]:
...... (1)
...... (2)
...... (3)
...... (4)
...... (5)
条件(1)为线性假设,即自变量每增加一个单位对的影响都是一样的(的值增加);
条件(2)-(5)均和误差项有关。假设(2)表示对任意的取值,误差项是一个期望为零的随机变量(即和不相关)。这意味着在式中,由于和都是常数,因此对于一个给定的的值,的期望值为:
...... (6)
假设(3)表示对任意的值,误差项的方差都相同(都是)。
假设(4)和(5)说明误差项是一个服从正态分布的随机变量(),且相互独立(即和不相关)。图2展示了误差项在线性回归模型中的影响。
图2:误差项在线性回归模型中的影响
只有当以上5个基本条件都满足时,利用最小二乘法得出的参数的估计值才是无偏的。不幸的是,因变量是二分类变量时,无法满足条件(3)和(5)。以下分别予以说明。
首先考虑假设条件(5)。
当因变量时,根据条件(1)则有:
...... (7)
当因变量时有:
......(8)
也就是说,对任意的,误差项只能取两个固定的值:或者——而非如图2中所示的正态分布。因此条件(5)不满足。
再考虑假设条件(3)。
若记的概率值为,则相应的 的概率为 ,如下表所示:
的均值为:
...... (9)
带入(6)可得:
...... (10)
的方差为:
...... (11)
当 在 处固定时, 方差等于相应的 的方差(见(1)式)。也是说,的方差随着的改变而改变——这与(3)式相矛盾!
由此可见,直接套用(1)式中的线性回归模型对二分类变量( or )进行拟合时,自变量的系数估计值会存在偏差。更为关键的一点是:从(10)中可以看出,当假设条件(1)、(2)成立时,的概率值()和自变量成线性关系——这就意味着概率值可能会出现大于1(或者小于0)的情形(如图3)——这一点无论是在理论上还是在实际计算的过程都行不通!因此,在处理因变量为二分类变量的情形时,较线性模型而言,Logistic模型的统计特性更好、计算更为方便。
图3:线性概率模型
预告:下一篇讲Logistic模型中的一个核心概念——Odds。
3. 参考文献:
[1] Allison, Paul D. Logistic Regression
Using SAS®: Theory and Application, Second Edition. Copyright © 2012, SAS
Institute Inc., Cary, North Carolina, USA.
1. 为什么是Logistic回归?
在分析变量之间的相关关系的时候,一般最先想到的是线性回归模型。例如,图1展示了气温()和冰淇淋的销量()之间的关系:
图1:气温()和冰淇淋的销量()之间的关系
线性回归模型可以描述因变量和自变量之间的相关关系。考虑最简单的、自变量的个数为 1 的情形。记第次观测到的样本为,则:
为轴上的截距,为斜率,为误差项。为什么需要将误差项包含在模型中?
给定组观测值,我们就可以用最小二乘法得到参数和的估计值。
现实情况中经常会遇到因变量是二分类变量的情形。例如——
若因变量为二分类变量(Y只能取0或1),在建模分析与Y相关的影响因素的时候,使用Logistic回归可能是一个较好的选择;而直接利用线性回归模型进行拟合可能会得到错误的结果。这主要是因为二分类变量违背了线性回归模型的一些假设条件。
2. 线性回归模型的假设
线性回归模型的成立需满足以下几条假设[1]:
...... (1)
...... (2)
...... (3)
...... (4)
...... (5)
条件(1)为线性假设,即自变量每增加一个单位对的影响都是一样的(的值增加);
条件(2)-(5)均和误差项有关。假设(2)表示对任意的取值,误差项是一个期望为零的随机变量(即和不相关)。这意味着在式中,由于和都是常数,因此对于一个给定的的值,的期望值为:
...... (6)
假设(3)表示对任意的值,误差项的方差都相同(都是)。
假设(4)和(5)说明误差项是一个服从正态分布的随机变量(),且相互独立(即和不相关)。图2展示了误差项在线性回归模型中的影响。
图2:误差项在线性回归模型中的影响
只有当以上5个基本条件都满足时,利用最小二乘法得出的参数的估计值才是无偏的。不幸的是,因变量是二分类变量时,无法满足条件(3)和(5)。以下分别予以说明。
首先考虑假设条件(5)。
当因变量时,根据条件(1)则有:
...... (7)
当因变量时有:
......(8)
也就是说,对任意的,误差项只能取两个固定的值:或者——而非如图2中所示的正态分布。因此条件(5)不满足。
再考虑假设条件(3)。
若记的概率值为,则相应的 的概率为 ,如下表所示:
的均值为:
...... (9)
带入(6)可得:
...... (10)
的方差为:
...... (11)
当 在 处固定时, 方差等于相应的 的方差(见(1)式)。也是说,的方差随着的改变而改变——这与(3)式相矛盾!
由此可见,直接套用(1)式中的线性回归模型对二分类变量( or )进行拟合时,自变量的系数估计值会存在偏差。更为关键的一点是:从(10)中可以看出,当假设条件(1)、(2)成立时,的概率值()和自变量成线性关系——这就意味着概率值可能会出现大于1(或者小于0)的情形(如图3)——这一点无论是在理论上还是在实际计算的过程都行不通!因此,在处理因变量为二分类变量的情形时,较线性模型而言,Logistic模型的统计特性更好、计算更为方便。
图3:线性概率模型
预告:下一篇讲Logistic模型中的一个核心概念——Odds。
3. 参考文献:
[1] Allison, Paul D. Logistic Regression
Using SAS®: Theory and Application, Second Edition. Copyright © 2012, SAS
Institute Inc., Cary, North Carolina, USA.