课程实验
课程实验代写 首先使用除最后一列外的数据集,进行主成分分析,计算并保存新生成的主成分信息(主成分数据集行列与原始数据集行列一致),计算主成分的特征值以及累计贡献率,并选择累计贡献率>80%的主成分,从而实现特征降维。使用10fold-CV进行交叉验证,将所选择的主成分数据集的样本
实验目的:1、掌握主成分分析方法;2、掌握NaiveBayesian,C4.5以及随机森林分类器的使用。
数据集:本实验所使用的数据集为剑桥大学网络公共数据集,该数据集中包含4006行,249列数据,每行数据为一个样本,每列数据为样本的一个属性,其中最后一列为样本的分类。
实验要求: 课程实验代写
- 首先使用除最后一列外的数据集,进行主成分分析,计算并保存新生成的主成分信息(主成分数据集行列与原始数据集行列一致),计算主成分的特征值以及累计贡献率,并选择累计贡献率>80%的主成分,从而实现特征降维。
- 使用10fold-CV进行交叉验证,将所选择的主成分数据集的样本随机分为10份(为每个样本(即每行),生成一个0~9的随机数),循环选择1份作为测试集,其余9份作为训练集,使用训练集训练上述三种分类模型,并使用测试集进行预测,对预测结果构建混淆矩阵。计算每个模型的准确率和各分类的召回率。
混淆矩阵如下:
准确率计算公式为:所有被正确识别的样本数量除以总样本数注意:该混淆矩阵为10次运行结果合并后的结果。
召回率为:某分类中被正确识别的样本数量除以该分类所有样本数量
作业完成格式:
- 主成分数据集保存为xlsx文件
- 工作表1放置主成分数据集。
- 工作表2放置为10-fold-CV生成的随机分类编号
- 其他结果保存为docx文件
test.docx文件中应包括
- 每个主成分的特征值,以及累计贡献率
- NaiveBayesian的混淆矩阵,准确率和各分类的召回率
- 5的混淆矩阵,准确率和各分类召回率
- 随机森林的混淆矩阵,准确率和各分类召回率
推荐使用R语言、Matlab和Python实现,如果熟悉其他语言,实现也可以。
商科代写 cs代写 法律学代写 经济学代考_经济学作业代写 艺术代写 心理学代写 哲学代写 伦理学代写 体育学代写 化学代写 教育学代写 医学代写 历史代写 地理学代写
发表回复
要发表评论,您必须先登录。