AI时代数据工作者的核心竞争力是什么?

公开 我的知识总结

8 月 7 日,OpenAI发布了GPT-5,我在 Cursor 上体验了 GPT5 的多模态识图功能,以及用它解决此前遗留的网站代码 BUG。对比来看,其识图能力相较于豆包、代码处理能力相较于 Claude-Sonnet4,均实现了显著提升。近期我借助 AI 完成了不少工作 —— 从开发项目到图生视频、文生视频等,不禁感叹:AI 时代的发展速度实在令人震撼(顺带提一句,纳斯达克、国内人工智能相关板块值得关注)。​

2022 年我进入数据行业,基础工作包括 Excel、DataWind 等工具的操作表哥和SQLBoy,此外还参与过离线数仓开发、业务数据分析、业务算法建模、大模型应用及推荐算法等有一定技术深度的项目。如今回望,这些工作中的诸多技术性任务,在当下 AI 的加持下已不再是难题。​

有个案例:2022 年刚入职时,我独立开发了一个关于用户终端属性的离线数仓应用宽表。当时面临两个核心难点:一是需在 DWD 层构建拉链表,二是用户终端数据来自手机厂商注册的型号(如 “2100240C”),并非直观可理解的名称(如 “小米 13”)。为此,我做了两方面努力:一方面通过百度、CSDN 等平台研究拉链表在 Hive 中的实现方案;另一方面学习爬虫技术,爬取京东手机栏目中型号与扩展字段的对应数据,再通过这份维表关联出用户手机的上市时间、当前价格及具体型号等信息。最终,我结合互联网公开知识与公司实际数据、业务需求,完成了这个主题数仓的搭建。但放到现在,这两个技术难点只要交给 Cursor,分分钟就能解决。​

当然,我强调的只是技术层面的问题。上文中其实隐含了更关键的信息 —— 业务难点。当时我面临的业务挑战主要有两点:第一,业务线存在割据情况,数据生产方与使用方分属不同团队,需要大量跨团队沟通协调;第二,即便掌握了拉链表的技术原理,也需结合生产实际落地 —— 比如 DWD 层需要记录用户上一次的换机时间,这就涉及如何定义换机时间、如何用拉链表实现该记录、DWD 层分区表的结构设计及数据生命周期设定等业务细节,显然这些是目前 AI 难以胜任的。​

AI 确实能提升数据工作者的效率,但短期内绝无可能取代垂类业务领域的数据分析人员,尤其是那些对业务和公司数据有深刻理解的核心数据人才。而 “业务思维”,正是数据工作者在当下时代应具备的核心竞争力。

前两周听说我们正在使用的数据报表工具要接入智能体,主打 “智能商业决策”“智能分析”,听起来高大上,但我只能持观望态度。智能体真的懂业务吗?它学习的是泛化的公域知识,那私域的垂类知识该由谁来 “喂” 给它?可能有人会说:“你们把业务信息准备好喂给它就行了。” 诶,这话确实说到了重点,但数据治理听说过吗? —— 几个 PB 的数据、上万张数据表,仅处理这些所需的服务器资源,就足以让 99.99% 的公司原地解散。说白了,从数据梳理到业务口径统一,这些核心环节 AI 既做不了也做不好。人都讲不明白,或者往往需要开几十次会才能达成共识,AI 难道能靠 “吃掉” 几个 PB 的数据就自己搞明白吗?何况它吃不下。

企业要跟上这个潮流节约成本咋做呢?先培养一批懂业务的数据分析师,经过数年沉淀后,让他们梳理出核心业务数据(还得确保这些内容不会轻易变动,否则后续又要重新梳理);然后招聘核心的大模型工程师、算法工程师搭建系统;最后,在一切就绪后开除数据分析师,进入 “节约人工成本” 的环节。仔细想想,这性价比拉满了。

说了这么多,最后我想表达的是:AI 是 “工具” 而非 “决策者”,它能处理 “如何做”,却难以定义 “做什么” 和 “为什么做”。AI 作为效率工具,其价值上限始终由使用者的业务认知所决定。对于数据工作者而言,与其焦虑 “被 AI 替代”,不如深耕 “业务理解 + 组织协同 + 数据与业务的映射能力”—— 这些基于企业私域经验的 “软技能”,才是 AI 时代最稳固的核心竞争力。我不低估技术进步的力量,也不否定人的价值,只是身处这个时代洪流中,稍有不慎,脚下可能就是万丈深渊。

评论 (0)

评论需要管理员审核后才能显示,请文明发言

留空将显示为"访客_序号"
仅作者可见的评论将不会被回复,建议留下联系方式
请输入评论内容
支持换行,请文明发言
0/1000 字符
正在获取位置信息...

加载评论中...

感谢您的阅读!如果觉得文章有帮助,欢迎分享给朋友。