你是一个在校学生,上着自己喜欢或不喜欢的课,闲来无事,你打开知乎,看到了数据分析话题,你下定决心要成为一个数据分析师,你搞来一堆学习资料和在线课程,看完之后自信满满,准备去投简历,然后发现不清楚各种工具和模型的适用范围,也不知道数据报告需要包括哪些内容,面试的感觉就是一问三不知……
你是一个工作了一段时间的白领,你觉得现在这份工作不适合你,你下班以后去逛知乎上,看到很多人在说大数据代表未来,数据分析师是21世纪最性感的十大职业之一……你激动了,你也要成为数据分析师,你利用空余时间补上了统计知识,学了分析工具,然后发现自己目前的工作跟数据分析没啥关系,觉得没有相关经验没公司要你……
这些问题的根源是什么?一句话可以概括:你没有办法在最短的时间内向招聘者展示,你能够胜任数据分析这项工作。
我在知乎的回答如何快速成为数据分析师? – 陈丹奕的回答中,提出过一个“100小时学习计划”,在开始投简历前的最后一步,我建议用25个小时——占整个计划的四分之一,来做一份数据报告,这个步骤至少能为你带来三个好处:
检验你的学习成果——数据分析是一门实用学科,能灵活运用学到的知识做出成果,比通过任何考试都重要;测试你是否真的想做/适合做数据分析工作——比起你转行后用半年或是一年时间来发现自己的真实想法,不如在此之前就看看你能否做好这份工作,或是从其中得到乐趣;展示你具有的能力——程序员的世界里讲究“No more talk,Show me the code”,数据分析师同样可以“Show me the report”,一份内容完整的数据报告,能帮你的面试官省下很多判断/评估/纠结的时间,给你更多的机会。写了一大堆做数据报告的好处,那么以一个初学者的水平,如何去做一份数据报告呢?下文细说。
二、制作数据报告的流程先放一张图(不许抱怨配色丑!)
可以很清楚的看到,一个数据报告(副本)依据需求不同,有普通难度(蓝->橙->绿->红),也有英雄难度(蓝->橙->绿+黄->红),这次我们先讲普通难度的攻略,英雄难度放到下次讲。
普通难度的数据报告要经历7个步骤:
Step 1:目标确定
这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。
选择目标时,请注意以下几点:
选择一个你比较熟悉,或者比较感兴趣的领域/行业;
选择一个范围比较小的细分领域/细分行业作为切入点;
确定这个领域/行业有公开发表的数据/可以获取的UGC内容(论坛帖子,用户点评等)。
逐一分析上面三个注意点:
选择熟悉/感兴趣的领域/行业,是为了保证你在后续的分析过程中能够真正触及事情的本质——这一过程通常称为洞察——而不是就数字论数字;
选择细分领域/行业作为切入点,是为了保证你的报告能够有一条清晰的主线,而非单纯堆砌数据;
确定公开数据/UGC内容,是为了保证你有数据可以分析,可以做成报告,你说你是个军迷,要分析一下美国在伊拉克的军事行动与基地组织恐怖活动之间的关系……找到了数据麻烦告诉我一声,我叫你一声大神……
不管用什么方法,你现在有了一个目标,那么就向下个阶段迈进吧。
Step 2:数据获取
目标定下来了,接下来要去找相应的数据。如果你制定目标时完全遵循了第一步的三个注意点,那么你现在会很明确要找哪些数据。如果现在你还不确定自己需要哪些数据,那么……回到第一步重来吧。
下面我总结一下,在不依赖公司资源,不花钱买数据的情况下,获取目标数据的三类方法:
一是从一些有公开数据的网站上复制/下载,比如统计局网站,各类行业网站等,通过搜索引擎可以很容易找到这些网站。举例:要找汽车销量数据,在百度输入“汽车销量数据查询”关键字,结果如下:
我打码的那个链接,也就是第三个链接(第一个非推广链接)就是要找的结果,点进去可以看到各月的汽车销量,但只是全国数据,没有分省统计数据。
当然不会每次找数据都这么顺利,这里只是告诉你:要善用搜索引擎。
二是通过一些专门做数据整理打包的网站/api来下载,如果你要找金融类的数据,这种方法比较实用。其他类型的数据也有人做,但通常要收费。
三是自行收集所需数据,比如用爬虫工具爬取点评网站的商家评分、评价内容等,或是直接自己人肉收集(手工复制下来),亦或是找一个免费问卷网站做一份问卷然后散发给你身边的人,都是可以的。这种方式受限制较少,但工作量/实现难度相对较大。
如果你是在职人员或是实习生,我建议你不要用任何现在公司的数据。保证数据的安全性,不对外泄露公司的任何非公开数据,是数据分析师的基本职业道德。实在非要用(例如你要在面试中展示你在以前公司做过的数据报告),请将一切有意义的内容,包括但不限于各种数字、竞品及本品名称、时间、用户属性全部打码并转成pdf格式,只留图形和叙事逻辑描述内容。
Step 3:数据清洗
在工作中,90%以上的情况,你拿到的数据都需要先做清洗工作,排除异常值、空白值、无效值、重复值等等。这项工作经常会占到整个数据分析过程将近一半的时间。
如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。
无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要做的一项工作。
Step 4:数据整理
清洗过后,需要进行数据整理,即将数据整理为能够进行下一步分析的格式,对于初学者,用Excel来完成这一工作就OK。
如果你的数据已经是表格形式,那么计算一些二级指标就好,比如用今年销量和去年销量算出同比增长率。鉴于你是第一次做数据报告,建议你不要计算太多复杂的二级指标,基本的同比、环比、占比分布这些就OK。
如果你收集的是一些非数字的数据,比如对商家的点评,那么你进行下一步统计之前,需要通过“关键词-标签”方式,将句子转化为标签,再对标签进行统计。
Step 5:描述分析
描述分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计分为两大部分:数据描述和指标统计。
数据描述:用来对数据进行基本情况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,那么还要看数据的极值、分布、离散度等内容。这次我们是零基础做数据报告,那么就不用考虑后一类数据了。
指标统计:用来作报告,分析实际情况的数据指标,可粗略分为四大类:变化、分布、对比、预测;
变化:指标随时间的变动,表现为增幅(同比、环比等);分布:指标在不同层次上的表现,包括地域分布(省、市、区县、店/网点)、用户群分布(年龄、性别、职业等)、产品分布(如动感地带和全球通)等;对比:包括内部对比和外部对比,内部对比包括团队对比(团队A与B的单产对比、销量对比等)、产品线对比(动感地带和全球通的ARPU、用户数、收入对比);外部对比主要是与市场环境和竞争者对比;这一部分和分布有重叠的地方,但分布更多用于找出好或坏的地方,而对比更偏重于找到好或坏的原因;预测:根据现有情况,估计下个分析时段的指标值。以上部分引用自我的一个回答面试中针对一个企业的数据分析场景应该怎么去分析?应届生还不懂怎么结合企业业务做系统的分析,求指点 – 陈丹奕的回答,希望进一步了解的话,可以进这个答案。描述分析的产出是图表,下一个步骤的内容将基于这些图表产出。
Step 6:洞察结论
这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。
举个栗子:
年轻的分析师:2013年1月销售额同比上升60%,迎来开门红。2月销售额有所下降,3月大幅回升,4月持续增长。
年迈的分析师:2013年1月、2月销售额去除春节因素后,1月实际同比上升20%,2月实际同比上升14%,3月、4月销售额持续增长。
看到两者的区别了吗?2013年春节在2月,2012年则在1月,因此需要各
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。
更新动态
- 凤飞飞《我们的主题曲》飞跃制作[正版原抓WAV+CUE]
- 刘嘉亮《亮情歌2》[WAV+CUE][1G]
- 红馆40·谭咏麟《歌者恋歌浓情30年演唱会》3CD[低速原抓WAV+CUE][1.8G]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[320K/MP3][193.25MB]
- 【轻音乐】曼托凡尼乐团《精选辑》2CD.1998[FLAC+CUE整轨]
- 邝美云《心中有爱》1989年香港DMIJP版1MTO东芝首版[WAV+CUE]
- 群星《情叹-发烧女声DSD》天籁女声发烧碟[WAV+CUE]
- 刘纬武《睡眠宝宝竖琴童谣 吉卜力工作室 白噪音安抚》[FLAC/分轨][748.03MB]
- 理想混蛋《Origin Sessions》[320K/MP3][37.47MB]
- 公馆青少年《我其实一点都不酷》[320K/MP3][78.78MB]
- 群星《情叹-发烧男声DSD》最值得珍藏的完美男声[WAV+CUE]
- 群星《国韵飘香·贵妃醉酒HQCD黑胶王》2CD[WAV]
- 卫兰《DAUGHTER》【低速原抓WAV+CUE】
- 公馆青少年《我其实一点都不酷》[FLAC/分轨][398.22MB]
- ZWEI《迟暮的花 (Explicit)》[320K/MP3][57.16MB]