朝花夕拾|勿忘初心 朝花夕拾|勿忘初心

ML爬坑日记1——机器学习简述

in 机器学习小白笔记 read (242) 687汉字 站长Lucifaer 文章转载请注明来源!

由于工作需要以及个人的一些执念,想要来接触一下NB的ML,我就记录一下我从一个小白慢慢摸索的过程。

What is Machine Learning

在Andrew Ng老师的machine learning的1.2章探讨了这个问题,在这里记录一下。关于机器学习的定义:

A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

翻译过来我的理解就是:

计算机程序从经验E中学习任务T,并用度量条件P来衡量性能。这样定义的条件是它由P定义的关于T的性能随着经验E而提高。

机器学习主要任务

  • 分类问题(classification problem):就是预测离散的输出值。
  • 回归问题(regression problem):就是预测连续的输出值。回归指我们设法预测连续值的属性。

学习算法的种类

主要分为两类:

  • 监督学习: 我们教计算机学习
  • 非监督学习:计算机自己学习

当然还有其他类型的机器学习算法:

  • 增强学习
  • 推荐学习

监督学习(Supervised Learning)

监督学习是指我们给算法一个数据集,并且给定正确的答案。算法的目的就是给出更多的正确答案。(关键点就是我们已经把数据集中的数据有了属性或标记)

  • 样本集:训练数据 + 测试数据

    • 训练样本 = 特征(feature) + 目标变量(label:分类-离散值/回归-连续值)
    • 特征通常是训练样本集的列,他们是独立测量得到的。
    • 目标变量:目标变量是机器学习预测算法的测试结果。

      • 在分类算法中目标变量的类型通常是标称型(0/1),而在回归算法中通常是连续型(如:1~100)

非监督学习(Unsupervised Learning)

无监督学习与监督学习的区别在于,在无监督学习中数据集中的数据没有属性或标签这一概念。对于数据集,无监督学习算法可能判定该数据集包含几个不同的聚类。

  • 聚类:就是表面意思,在非监督学习中,将数据集分成由多个类的过程称为聚类。
  • 密度估计:将寻找描述数据统计值得过程称为密度估计(就是根据训练样本确定X的概率分布)

机器学习的训练过程

盗一张图,说的很直观:

机器学习的算法分类

按照监督学习和非监督学习的用途来进行分类,参考《机器学习实战》这本书的分类来说,可以归纳为下面的两类:

但是,这本书是13年的,在之后出现了更多优秀的算法,在之后的总结中,我也会杂乱的总结到。

机器学习的使用

盗一张图,说明问题:

机器学习
最后由Lucifaer修改于2017-11-03 12:16

此处评论已关闭

博客已萌萌哒运行
© 2018 由 Typecho 强力驱动.Theme by Yodu
PREVIOUS NEXT
雷姆
拉姆