概念了解:
要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……,每对括号内是一条记录,意思是“取值为这组记录的集合称为一个“数据集”(dataset),其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个“示例”(instance)或“样本”(sample)。反映事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”“敲声”称为“属性”(attribute)或“特征”(feature);属性上的取值,例如“青绿”“乌黑”称为“属性值”(attributevalue)。属性张成的空间称为“属性空间”(attributespace)、“样本空间”(samplespace)或“输入空间”。例如我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”(featurevector)。
模型
泛指从数据中学得的结果。有文献用“模型”指全局性结果(例如一棵决策树)
模式
用“模式”指局部性结果(例如一条规则)
专业术语
数据集
示例
样本
属性
特征
属性值
属性空间
样本空间
特征向量
从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成。
过拟合
最常见的情况是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了
欠拟合
通常是由于学习能力低下而造成的
训练集
测试集