随机森林:所有的基评估器都是决策树。(由分类树构成的随机森林就是随机森林分类机,反之也是)
决策边界:
随机森林的本质是一种装袋集成算法(bagging),
装袋集成算法是对基评估器的预测结果进行平均或用多数表决原则来决定集成评估器的结果,少数服从多数。
随机森林生成的决策树都不一样,这是由功能参数random_state
装袋法:有放回的随机抽样来形成不同的训练数据
当随机森林分的树木足够大的数据,大概会有37%的数据在袋外)
回归树:衡量分枝策略的三种标准:MSE(父节点和叶子节点之间的均方误差的差额将被用来作为特征选择的标准,这种方法通过使用叶子节点的均值来最小化L2损失),费尔曼均方误差,绝对平均误差MAE(是样本真实数据与回归结果的差异)。
在回归树的接口score返回的是R平方,并不是MSE。
偏差就是预测值和真实值之间的误差。(集成模型的偏差是左右基评估器偏差的均值)
方差:反应的预测结果和模型预测值的平均水平的误差。
集成算法是由一个个基评估器构成的,每一个评估器都会有一个预测值,模型的最终的输出将是一个所有基评估器预测值的均值,最终也就会生成一个均值的预测函数,而方差就是每一个预测值和最终的预测曲线之间差值的平方