统计学对于机器学习来说非常重要,如果你掌握了统计学相关的知识在学习机器学习肯定会得心应手。统计学和机器学习在很多方便都存在共同点,或者说机器学习是建立在统计学基础之上的一门新学科。统计学更在意数据背后的真实性,关心的是模型的可解释性,更偏向理论基础,也更加科学严谨。机器学习更多的在意的是实际应用,关心的是模型最终预测的结果,更偏向应用实战,相应的在理论上会存在一定的妥协,行为上偏向于用大数据、高计算量暴力地逐一检测模型的好坏,在有限的范围内找出最优的结果。不管怎样,在学习机器学习之前,了解一下统计学相关知识都是很有必要的。

统计是指对某一现象有关数据的搜集、整理、计算、分析、解释、描述等相关的活动,学习是指一个系统能够通过执行某个过程改进它的性能。而统计学习是以数据为研究对象,以统计学习方法为核心,通过计算机等相关计算资源构建模型并通过模型进行预测分析的过程,统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

统计学习主要由监督学习(supervised learning)、无监督学习(unsupervised learning)和强化学习(reinforcement learning)等组成。

  • 监督学习主要是指从已标注的数据中学习预测模型的机器学习问题。标注数据包含了输入和输出之间的对应关系,预测模型可以对给定的输入产生预测的输出,本质上监督学习是学习输入到输出的映射的统计规律。监督学习主要的应用包括:分类问题、标注问题和回归问题。
  • 无监督学习是指从无标注的数据中学习预测模型的机器学习问题。自然界得到的数据大多是无标注的数据,预测模型用来表示数据的类别、转换或概率。本质上无监督学习是学习数据中的统计规律或潜在结构。无监督学习主要应用包括:聚类、降维、话题分析和图分析。
  • 强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境交互得到的数据序列。本质上强化学习是学习最优的序贯决策。

统计学习方法简单的概括如下:从给定的、有限的、用于学习的训练数据(training data)出发,假设数据是独立同分布产生的,并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space),应用某个评价准测(evaluation criterion),从假设空间中选取一个最优模型,使它对已知的训练数据和未知的测试数据(test data)在给定的评价准则下有最优的预测,最优模型的选取由算法实现。

统计学习方法包括三个重要元素:

  • 模型(model)。即模型的假设空间。
  • 策略(strategy)。即模型选择的准则。
  • 算法(algorithm)。模型用来学习的算法。

实现统计学习方法的主要步骤如下:

  1. 得到一个有限的训练数据集合,即模型学习测试的数据。
  2. 确定包含可能的模型的假设空间,即学习模型的集合。
  3. 确定模型选择的准则,即学习的策略。
  4. 实现求解最优模型的算法,即学习的算法。
  5. 通过学习方法自动的选择最优模型。
  6. 通过得到的最优模型预测或分析未知的数据。