# 什么是机器学习?

机器学习是人工智能的一个分支。人工智能的研究历史有着一条从以“推理”为重点,到以“知识”为重点,再到以“学习”为重点的自然、清晰的脉络。显然,机器学习是实现人工智能的一个途径,即以机器学习为手段解决人工智能中的问题。机器学习是“研究如何打造可以根据经验自动改善的计算机程序”。机器学习在本质上来说是跨学科的,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多推论问题属于无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。

# 机器学习类型

# 监督学习

监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

通俗的讲,你的女朋友教你认识香水跟口红,她先告诉你香水跟口红分别有什么特征,然后拿出一堆香水跟口红,并且告诉你哪些是香水,哪些是口红。 这样当你再一次看到香水跟口红时,你就能够辨认出来了。

# 无监督学习

现实生活中常常会有这样的问题:缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

通俗的讲,你的女朋友拿出一堆香水跟口红,但是她不告诉你哪些是香水,哪些是口红,而且也不告诉你有什么特征,你只能靠自己对它们进行分类,这样当你再一次看到香水和口红时,你能够正确的分类。(不代表你知道什么是香水,什么是口红,仅仅代表你能够正确的把它们各自分到正确的类别中)

# 监督和无监督学习的区别

差别之一:有没有目标值的差别

差别之二:学习过程有没有人工干预

由于金字塔中使用量化学习算法,都是属于监督学习类型(通过一定的历史k线样本预测未来),所以将重点介绍监督学习相关的内容。其余类型本章节不做扩展,您如果有兴趣了解,可以百度学习。

# 监督学习

# 回归问题

上图是机器学习中常见的房价预测问题,横轴表示房子的面积,单位是平方,纵轴表示房价,单位是万元。那基于这组数据,假如你有一个朋友,他有一套 130 平方的房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。 我们应用学习算法,可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能卖260万,当然这不是唯一的算法。可能还有更好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子能卖接近300,000,这就是监督学习的例子。

# 分类问题

上图是机器学习中常见的恶性肿瘤问题。假设说你想通过查看 病历来推测乳腺癌良性与否,假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大,所以人们显然会很在意这个问题。 让我们来看一组数据:这个数据集中,横轴表示肿瘤的大小,纵轴上,我标出 1 和 0 表示是或者不是恶性肿瘤。我们之前见过的肿瘤,如果是恶性则记为 1,不是恶性,或者说良性记为 0。 我有 5 个良性肿瘤样本,在 1 的位置有 5 个恶性肿瘤样本。现在我们有个朋友很不幸检查出乳腺肿瘤。假设说她的肿瘤大概这么大,那么机器学习的问题就在于,能否估算出肿瘤是恶性的或是良性的概率。

综上所述,金字塔中的机器学习的主要任务聚焦于两个问题:分类与回归

  1. 区别:
  • (1)分类与回归的预测变量类型是不同的,回归问题是连续变量,分类问题是离散变量
  • (2)回归问题是定量的问题,分类问题是定性问题
  1. 示例: 回归问题最后预测得到的是一个值,比如今天的降雨量,预测房价等 分类问题最后预测的是一个离散值,最简单的0和1,预测明天是晴天,雨天等

说明

本节内容,仅介绍与金字塔中机器学习相关的理论概念,其他内容不在本节内容汇总过多介绍,避免初学者混淆。若您学有余力,可以通过百度等方式检索相关内容,系统化的阅读理解机器学习的相关知识概念。