《机器学习》读书笔记（一）

概念了解：

要进行机器学习，先要有数据。假定我们收集了一批关于西瓜的数据，例如（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆），……，每对括号内是一条记录，意思是“取值为这组记录的集合称为一个“数据集”（dataset），其中每条记录是关于一个事件或对象（这里是一个西瓜）的描述，称为一个“示例”（instance）或“样本”（sample）。反映事件或对象在某方面的表现或性质的事项，例如“色泽”“根蒂”“敲声”称为“属性”（attribute）或“特征”（feature）；属性上的取值，例如“青绿”“乌黑”称为“属性值”（attributevalue）。属性张成的空间称为“属性空间”（attributespace）、“样本空间”（samplespace）或“输入空间”。例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”（featurevector）。

模型

泛指从数据中学得的结果。有文献用“模型”指全局性结果（例如一棵决策树）

模式

用“模式”指局部性结果（例如一条规则）

专业术语

数据集
示例
样本
属性
特征
属性值
属性空间
样本空间
特征向量

从数据中学得模型的过程称为“学习”（learning）或“训练”（training），这个过程通过执行某个学习算法来完成。

过拟合
最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了
欠拟合
通常是由于学习能力低下而造成的

训练集
测试集

性能评估