机器学习课程笔记

机器学习一些基础内容的简单整理和归纳。

模型评估与选择

​ 怎么判断一个模型的好坏是一个重要的内容,为此提出了许多相关的指标来对模型进行判断,但总的来说好的模型可以归纳为:错误率低,精度高,泛化能力强

泛化误差:未见过的样本上的误差

经验误差:训练集上的误差

经验误差过小会导致过拟合;泛化误差最小化才是我们的目标

过拟合就是简单来说就是模型的复杂度远高于数据的复杂度,使得训练时模型会尽可能贴合训练数据,但也导致对于未见过的测试数据不能很好的预测,多少有些“中看不中用”的意味。因此,后续也会介绍正则化等手段处理过拟合的情况。

​ 以上的需求总的来说还是十分的抽象,具体到训练模型、测试模型来说,我们判断一个模型的好坏总的流程是:训练模型根据不同的方法我们可以获得模型的预测结果;根据预测结果、样本数,可以对模型进行一个性能评估;训练后获得的模型性能并不能直接根据训练评估获得,需要进一步的判断模型的泛化能力。针对这一流程,接下来将对评估方法、性能度量、比较检验、泛化能力这几部分展开说明。

评估方法

常用的一些方法有:留出法、交叉验证法、自助法

留出法hold-out :就是直接将数据集划分成训练集、验证集、测试集。

交叉验证法k-fold:将当前数据集划分成k个大小一样的数据集,每次用k-1个数据集作为训练集,剩下的一个数据集作为验证集,然后将k次的验证结果做平均得到的结果就是当前基于该数据集模型的性能。

自助法:基于自助采样,即有放回的采样。该方法具体是:先将包含m个样本的数据集进行重复采样获得一个新的数据集,

参考文献

[1] [A Survey of Deep Reinforcement Learning in RecommenderSystems: A Systematic Review and Future Directions](A Survey of Deep Reinforcement Learning in RecommenderSystems: A Systematic Review and Future Directions)

[2] A Survey on Reinforcement Learning for Recommender Systems

[3] Reinforcement Learning based Recommender Systems: A Survey