锐评大数据分析师技能需求(满分10分)

公开 我的知识总结

秋招马上开始了,想当年入职前,我也是SQL、python、BI、excel、分析思路、统计学都会一点,但不多,说不会吧也可以不会(什么你也是?)。经过了三年的拷打,我还是感觉到了一些技能差异的:
1、SQL(10分,面试和工作都重要)
非常重要,我接到的所有有关数据的需求(包括入职第1周-第一个月,给我20多个指标和几个数据字典文档让我算数)都是基于SQL的计算,有了SQL,至少你可以当个取数工具人,有些同学可能发现一进来就是写sql,python没有什么用,那确实,分析师不会sql,python基本也没有用。
学习建议:
1)SQL基础语法学会后, 一般的小中厂,都是数仓,有条件还是上spark,如何在自己电脑上用spark模式写sql,我看情况后续写个教程。
2)学习的场景建议具有连续性,一个分析项目,连续的设计和取数这样子更好。这次查最高工资,下次查用户最大活跃天数,这些都是为了练而练,场景思维欠缺了点。有个小tips,你做机器学习用pandas清洗数据、做特征的时候,想想看你的操作如何转化成sql实现?这个可以结合spark来实现。

最后说一下:即使你在牛客sql刷得很厉害,面试也没问题,刚进去可能还是懵,因为业务数据复杂多了,你可能沉浸在表找不到、这几十个属性到底对不对,准不准,哪个是我要的指标口径上面,不要慌,相信你进的线数据治理能力。

2、分析思路(10分,面试抓着你的项目问,工作就是结合具体了,开始可能用不到,但是一定是核心能力)
不过分析思路这个在不同业务线、不同产品形态之间简直是天差地别。比如C端的内容类产品(如小红书,关注用户和内容的互动关系)和工具类产品(比如美图秀秀,关注用户和功能的互动关系)完全不一样;C端和B端又完全不同,因此这个其实是个很垂类的经验,方法论要结合具体业务落地,你才能真的学到思路。

建议:你可能有很多项目了、但简历的内容最好跟你要做的公司或者业务相近,你去网站上找学习的内容,也尽量朝着你的目标找,不要特别泛化。你要面试什么公司什么业务,先熟悉这个公司、业务的特点,看看大概涉及什么指标,会有什么问题出现被问,比如小红书,大概的问题,DAU、留存率降了,转化率低了怎么分析,第一数据有没有问题,第二app有没有大改动;第三同环比日期怎么样;再去分群各种看。

3、Python(8分,面试问,工作中也会用)
我大概是在入职后不久,在接手数仓前,就收到了一个做评分卡(风控)的模型需求,先写sql算特征,为什么不用python算? 一个分区10个e的数据,做特征衍生,近90天是否点击过,哪个python能这么算。算好特征后,就可以用python做逻辑回归建模了。而且越往后工作也有较多的场景,聚类划分人群分析;xgboost、lightgbm进行人群偏好预测推荐等等, 所以python也很重要。
学习和简历建议:
1)关于python的项目哪里都可以找,b站,kaggle,各大平台都行,但尽量和你的目标公司业务有关先熟练在去扩展,你意向互联网,就少做电商分析;深度学习也没那个必要,不是算法工程师,简单分析场景哪里需要上深度学习啊 。
2)不建议简历写什么对比了逻辑回归,svm,决策树撒撒的,工业中,要么要解释,要么要效率(最好两个都要)数据没有那么好,kmeans、xgboost、lightgbm类的算法非常ok,没什么对比的场景,提对比的,大概是个奇怪的场景?

4、excel(7分,面试基本不会问,但是工作还是会用)
如果你是用excel做分析的,那可能是数据运营,这个excel的要求可以到10分。但我这里说的主要还是做大数据分析师,从我感受来看,分析师一般是用excel整合最后结果,或者是用来汇报的。 为什么excel比较重要,你不会分析,但是你可以会汇报呀!

学习建议:你如果不是做excel分析的工作,那么excel的各种复杂操作,不用那么上心,会去掉网格线、分组、加粗、排版、画图、简单函数就好了。不会的,入职在学。

5、spark、hive、数仓等(6分,其实是默认你不会,你写了多半就会问,工作也要用)
数仓其实是让你更明白数据的流向,下游要改指标,上游可能要从dwd-dws-ads都有改动;spark和hive是重点,如果你的定位是稍微大一点的厂,不会存在什么mysql这种业务生产数据库让分析师去分析的。数据一定是集约汇聚到数据仓库,hive和spark,一个是存储,一个是计算框架。在这两块,你只需要了解一些知识,比如hive的分区表,别写个sparksql直接scan一个hive整表,把计算资源全占了,小心同事发难。
学习建议:一般你面数据分析师,不写也不会有人问。如果你要看这部分内容视频的时候,记住你不是数仓开发,不是平台开发,不需要去管怎么搭建hadoop集群,看看分区表、内部表这些概念(一般企业都是内部表),看看spark的机制,不要写个任务宽依赖几十个,提交上去让队友都等待。

6、BI(6分,面试问得少,工作可能会用)
常见于开发报表场景:我经历过的,运营想自动化付费用户的看板,而不是每天从分析师这里取数。整个链路是运营提需求->分析师定义指标体系和口径->运营确认->数仓开发(付费数据在ods层,报表在ads层),ads层数据连接bi平台,然后去搭建看板,实现可视化看板。

学习建议:一般的企业,都有成熟的bi可视化工具(帆软、tableau、datawind等),不太可能需要你用什么echarts来做,所以,这里的重点建议放在设计指标、BI的操作和指标的展示上,比如要展示什么指标、什么数用指标卡,什么数用折线图等。

7、统计学(5分,面试问得多,工作实际有点鸡肋,大厂可加分)
老实说,工作基本没用到,两个分组看看核心指标到位了就直接上报了,老板哪里想听你讲95%把握啊,告诉他实验组点击率比对照组高多少就好了。但是我还是建议你拥有统计学,假设检验,贝叶斯公式,abtest这些常规爱考的知识,不然面试可能栽。为什么工作很难用到?举个例子,一般要做abtest的业务线都有非常规范的操作文档,样本量多少,观察几天,怎么检验,结果怎么看,不需要你做什么创新操作,照做就行了。至于最后策略,显著且想上,完美;不显著想上,再观察几天;还是不显著,看你老板了。甚至来说,大多决策,不靠统计,也不靠机器学习,靠的是业务理解,靠的是领导的直觉。

学习建议:没什么好说的,要面试的时候记得复习一下(如果有真的用得多的,可以说下哈哈,我工作真的没咋用到)。

最后补充一个:大模型(面试可能没有问的场景,但是真心建议你会用起来)
现在是人工智能时代了,你sql不会写用户最大连续活跃天数?问问大模型就好了,只要面试过了,你就是开始高效完成任务,而不是要证明这个任务是你独立完成的,学会大模型能让你的工作事半功倍。 大家都觉得AI要夺走数据分析师的工作了,不至于,表哥表姐难生存,但懂业务的数据分析师,是无法被AI取代的!而且数智化是趋势,要有信息做这行!

学习建议:平时任何不会的,比如用python做项目的时候,要是不知道你的步骤用sql怎么实现,问大模型就好了。但是也不能全信哦,大模型是工具,仅此而已!

评论 (0)

评论需要管理员审核后才能显示,请文明发言

留空将显示为"访客_序号"
仅作者可见的评论将不会被回复,建议留下联系方式
请输入评论内容
支持换行,请文明发言
0/1000 字符
正在获取位置信息...

加载评论中...

感谢您的阅读!如果觉得文章有帮助,欢迎分享给朋友。