数据科学家的复仇:为什么 LLM 让传统数据技能变得更有价值

2026-04-02T09:43:20.000Z·★ 80·1 min read
# 数据科学家的复仇:为什么 LLM 让传统数据技能变得更有价值 数据科学家的黄金时代结束了吗?自从 LLM 让任何工程师都能轻松集成 AI 以来,这个问题一直困扰着行业。但在 PyAI Conf 上,Hamel Husain 以一场题为"数据科学家的复仇"的精彩演讲论证了相反的观点:数据科学技能比以往任何时候都更加关键。 ## 被颠覆 哈佛商业评论曾将数据科学称为"21 世纪最性感的职业"

数据科学家的黄金时代结束了吗?自从 LLM 让任何工程师都能轻松集成 AI 以来,这个问题一直困扰着行业。但在 PyAI Conf 上,Hamel Husain 以一场题为"数据科学家的复仇"的精彩演讲论证了相反的观点:数据科学技能比以往任何时候都更加关键。

被颠覆

哈佛商业评论曾将数据科学称为"21 世纪最性感的职业"。多年来,发布 AI 产品意味着数据科学家和 ML 工程师必须在关键路径上。随着 LLM 和基础模型 API 的出现,这一格局改变了——团队可以独立集成 AI,将数据科学家排除在循环之外。

更严厉的说法是:除非你在基础模型实验室做预训练,否则你不在核心地带。

为什么这种说法是错误的

Hamel 认为,训练模型从来不是工作的大部分。数据科学工作的主体涉及:

框架就是数据科学

OpenAI 关于框架工程的博客文章描述了 Codex 如何在软件项目上自主工作了数月。一个容易被忽略的细节是:框架包含一个可观测性栈——日志、指标和追踪——以便智能体判断自己是否偏离轨道。

Andrej Karpathy 的自动研究项目展示了相同的模式:模型针对验证损失指标迭代优化。

框架的很大一部分,实际上就是数据科学。

"基于感觉"开发的危险

Hamel 警告说,当前的 LLM 开发文化已经偏离了严格的数据实践:

"多年前,从业者花数小时检查数据、核对标签对齐、设计指标。今天,我们基于'感觉'构建,问模型做得好不好,然后随手拿来现成的指标库,根本不看数据。"

这在 RAG(检索增强生成)和 evals(评估系统)方面表现得最为明显。没有数据背景的工程师害怕他们不理解的东西,声称"RAG 已死"或"evals 已死",但同时构建依赖这些概念的系统。

结论

LLM 没有消除对数据科学的需求——它们增加了这种需求。随着 AI 系统变得更加自主和复杂,对能够设计实验、构建可靠评估框架和调试随机行为的人才的需求只会增长。

来源:Hamel Husain 博客、PyAI Conf

← Previous: The Revenge of the Data Scientist: Why LLMs Make Traditional Data Skills More ValuableNext: BGP Security Milestone: Most Major Internet Providers Now Signing Routes →
Comments0