统计软件题目 1
统计软件题目代写 结合以上分析,你认为 X 公司的数据是否“异常”?为什么?为了支持你的观点,你还能做出什么分析?关于“所有文章”的说明:一般说来,每个公众号,在每一天,可以发文一次,每次有若干篇文章。(某些机构的公众号除外,如上海发布等。)根据我们在这个案例中的分析需要,一篇文章
作业提交形式:
电子版(代码,如果某道小题输出有很多页,只需要第一页即可),请在电子版加上目录。
说明:可以搜索网络,查找书籍资料,可以使用各种包,可以画得和课件上不一样,但是基本的意思要到。作业 1:X 公司微信公众号案例数据分析
1. (考察输入文件,提供代码即可)利用代码方式读取“data_July_UTF8.csv”文件,并将数据框命名为“data_July”。取数据框前五行,初步认识数据集。(提示:文件编码格式为 UTF-8,使用 read.csv读入,同时设置 fileEncoding 选项,也可以先存为最
新版的 excel 文件后读入)我们在日常处理数据的过程中,经常会遇到各种各样的数据,有乱码是最常见的情况之一,所以大家也可以看做是作业的一部分。我这里告诉大家是 UTF8 编码了,实际工作中根本没人告诉你是什么编码。这里的乱码因为大家机器设置不一样,所以有人会一下子读出来,有人可能要折腾很久。
2. (考察对数据集的基本把握)输出“data_July”的详细结构信息,并回答: 统计软件题目代写
(1) 总共有多少个观测、多少个变量?
(2) 判断各变量属于哪种变量类型(名义变量、定序变量、定比变量、定距变量)。
3. (考察对象的基本操作与运算)对“data_July”的如下变量进行相应操作并回答相应问题(除非特殊说明,如下操作均在对应新建的对象中进行,即注意不要改变原始的“data_July”):
(1) “data_July”的“发布时间”、“更新时间”原本是什么类型?将它们转化为时间对象(POXIXlt),并将对象名称分别取为“time1”,“time0”。计算 time1-time0。(只要代码)
(2) 基于 data_July 创建名为“general_all”的 data.frame 对象,各篇文章(若有多个公众号发布的同一篇文章的情况,视为不同文章处理,下同)有且仅保留一行,列名称为“公众号名称”,“文章标题”,“发布时间”,“最终总阅读数”,“总点赞数”。其中,最后两列的数据为各平台各文章在监测结束时的总阅读数目和点赞数目。(提示:可以自己编写函数,也可以利用自带函数)
(3) 计算“general_all”中所有文章(若有多个公众号发布的同一篇文章的情况,视为不同文章处理)“最终总阅读数”的最小值、下 1/4分位数,中位数、平均数、上 1/4 分位数、最大值,并分别输入到“general_cummulative_readings_description”中,得到 6 个数。分别计算“data_July”中各篇文章(若有多个公众号发布的同一篇文章的情况,视为不同文章处理)的“阅读增长数”的最小值、下1/4 分位数,中位数、平均数、上 1/4 分位数、最大值,输出到“general_increasing_readings_description”中,得到若干行,6列的矩阵或数据框。(提示:可以自己编写函数,也可以利用自带函数,比如 summary。本题感谢李梦飞同学纠正写法。此处考察点为分组统计的计算,如有文字不清楚的,请按照此来理解。)备注:在 general_all 数据集里有很多篇文章,每一篇文章有且仅有一个总阅读数。但是 general_all 数据集里有很多个总阅读数,因此有很多个总阅读数。general_all 对应的描述统计是六个数字。但是在后面一问的 data_July 里面,每一篇文章都有很多个“阅读增长量”,那里要做的,是对每篇文章的阅读增长量做描述统计,每一篇文章都有一组描述统计量,最终得到一个矩阵或者数据框。
(4) 对“general_all”,输出“公众号名称”为“X”的所有文章的总阅读数目的最小值、最大值,得到 2 个数。
(5) 在原始的“data_July”上加一列,命名为“阅读比例”,计算各文章在每个监测点上的当前累积阅读量占该文章最终总阅读量的比例;取最终总阅读量在[5000,40000]的这部分文章相关的所有行,保存为新的“data_July2”用于接下来的分析当中。
4. (考察绘图,尽量用 R 画,不行的话可以用其他软件画,也可以自学ggplot2 等包画)绘制下列图像: 统计软件题目代写
(1) 对“general_all”,按各个公众号分组,作出该公众号的所有文章的最终阅读量画箱线图(盒子图),要求画在一张图内,将公众号按照发文平均阅读量从左到右排序,X 公司用橙色,其他的公司用绿色,在横轴上标出各个公司的名称,但是不要有 overlap。
(2) 对“general_all”,分别绘制:(1)所有文章的最终总阅读数目的直方图;(2)所有文章的最终总点赞数目的直方图;(3)所有文章的最
终总阅读数目的盒子图,并将 X 公司做颜色上的特殊处理。将三张图合为一张图,标题为“静态分析”。
(3) 对“data_July2”,绘制:(1)各篇文章的累积阅读数与时间关系图;
(2)各篇文章的阅读比例与时间关系图。两张图中均将 X 公司做颜色上的特殊处理;将二张图合为一张图,标题为“动态分析”。
- (考察分析能力)结合以上分析,你认为 X 公司的数据是否“异常”?为什么?为了支持你的观点,你还能做出什么分析?关于“所有文章”的说明:一般说来,每个公众号,在每一天,可以发文一次,每次有若干篇文章。(某些机构的公众号除外,如上海发布等。)根据我们在这个案例中的分析需要,一篇文章,不论其标题如何,内容如何,只要其发布的公众号不同,时间不同,位置不同等,均被视为不同的文章。我们所有的分析,概念的界定等,都需要围绕我们的业务来进行。为什么要 general_all 这个过渡的数据集:所有的数据信息都来自data_July,但是在实际数据分析中,我们很少直接在原始数据集上进行操作,其原因有很多,比如,原始数据集很大,不方便处理;或是原始数据集未经过数据清理,存在很多问题等等。一般是将原始数据集做一个处理后,输出一个比较干净的待分析数据集,供大家做进一步的分析。
商科代写 cs代写 法律学代写 经济学代考_经济学作业代写 艺术代写 心理学代写 哲学代写 伦理学代写 体育学代写 化学代写 教育学代写 医学代写 历史代写
发表回复
要发表评论,您必须先登录。