在客观世界中普遍存在着变量之间的关系,变量之间的关系一般来说可以分为确定性的关系非确定性的关系

确定性关系是指一种完全肯定的关系,可以用具体的函数关系来达,根据不同的变量可以确定的求出与之相对应的结果。例如圆的面积就属于一种确定性的关系:$s = \pi \times r^2$。根据不同的半径 $r$,可以求出具体的圆形面积 $s$。

非确定性的关系即所谓的相关关系,例如人的身高和体重之间存在的关系。一般来说身高和体重存在的某种联系,但是这种联系只是大致相关,无法算出准确的结果。其中二者之间会受到其它随机因素的影响,如遗传、身体状况、测量时间、外部环境等等。

回归分析是研究相关关系的一种数学工具,它研究的是多个变量之间的关系。回归(Regression)这一概念是 19 世纪 80 年代由英国统计学家弗朗西斯高尔顿在研究父代身高和子代身高之间的关系时提出来的。他研究发现子辈的平均身高是其父辈平均身高以及他们所处族群平均身高的加权平均和。简单的说,单独看父亲和孩子的身高并不存在特定的关系,但从整个族群上看,父亲和儿子的身高分布应该是很近似的。换句话说,子代的身高有向族群平均身高回归的趋势。

现如今,回归已经成为社会科学定量研究中最基本、应用最广泛的一种数据分析技术。它既可以用于探索和检验自变量与因变量之间的因果关系,也可以基于自变量的趋之变化来预测因变量的取值,还可以用来描述自变量和因变量之间的关系。

研究者在分析数据的时候,总是希望尽可能准确的概况数据中的关键信息。但是现实中的数据一般都是很复杂的,要完全理解和表达数据中的信息几乎是不可能的。所以我们常常通过诸如频数表或者分组计算均值和方差等方式来达到简化数据的目的。与大多数统计方法一样,回归也是一种简化数据的技术。回归分析的目的是利用变量间的简单函数关系,用自变量对因变量进行“预测”,使“预测值”尽可能地接近因变量的“观测值”。很显然,由于随机误差和其他原因,回归模型中的预测值不可能和观测值完全相同。因此回归的特点就在于它把观测值分解成两部分:结构部分和随机部分。即:

观测项 = 结构项 + 随机项

观测项部分代表因变量的实际取值,结构项部分代表因变量和自变量之间的结构关系,表现为“预测值”。随机项部分表示观测项中未被结构项解释的剩余部分。

回归分析之线性回归
所谓“线性”是指自变量和因变量基于自变量的条件期望之间呈线性规律,且结构项对未知参数而言是线性的。线性回归按照变量数目可以分为:一元线性回归(简单线性回归)和多元线性回归。
回归分析之逻辑回归
当我们的输出不再是连续的值,而是一种分类相关的任务时该怎么办?例如分辨某封邮件是否为垃圾邮件,某些人的身体是否健康等等。这种类型的预测输出一般都是离散的,非线性的,而这种非线性的关系类似于上一篇末尾提到的广义线性模型。