数据科学家的复仇：为什么 LLM 让传统数据技能变得更有价值

2026-04-02T09:43:20.000Z·★ 80·1 min read

# 数据科学家的复仇：为什么 LLM 让传统数据技能变得更有价值数据科学家的黄金时代结束了吗？自从 LLM 让任何工程师都能轻松集成 AI 以来，这个问题一直困扰着行业。但在 PyAI Conf 上，Hamel Husain 以一场题为"数据科学家的复仇"的精彩演讲论证了相反的观点：数据科学技能比以往任何时候都更加关键。 ## 被颠覆哈佛商业评论曾将数据科学称为"21 世纪最性感的职业"

数据科学家的黄金时代结束了吗？自从 LLM 让任何工程师都能轻松集成 AI 以来，这个问题一直困扰着行业。但在 PyAI Conf 上，Hamel Husain 以一场题为"数据科学家的复仇"的精彩演讲论证了相反的观点：数据科学技能比以往任何时候都更加关键。

被颠覆

哈佛商业评论曾将数据科学称为"21 世纪最性感的职业"。多年来，发布 AI 产品意味着数据科学家和 ML 工程师必须在关键路径上。随着 LLM 和基础模型 API 的出现，这一格局改变了——团队可以独立集成 AI，将数据科学家排除在循环之外。

更严厉的说法是：除非你在基础模型实验室做预训练，否则你不在核心地带。

为什么这种说法是错误的

Hamel 认为，训练模型从来不是工作的大部分。数据科学工作的主体涉及：

设置实验以测试 AI 对未见数据的泛化能力
调试随机性系统——相同输入可能产生不同输出
设计好的指标——真正衡量你关心的事物
构建评估框架——在问题到达生产环境之前捕捉退化

框架就是数据科学

OpenAI 关于框架工程的博客文章描述了 Codex 如何在软件项目上自主工作了数月。一个容易被忽略的细节是：框架包含一个可观测性栈——日志、指标和追踪——以便智能体判断自己是否偏离轨道。

Andrej Karpathy 的自动研究项目展示了相同的模式：模型针对验证损失指标迭代优化。

框架的很大一部分，实际上就是数据科学。

"基于感觉"开发的危险

Hamel 警告说，当前的 LLM 开发文化已经偏离了严格的数据实践：

"多年前，从业者花数小时检查数据、核对标签对齐、设计指标。今天，我们基于'感觉'构建，问模型做得好不好，然后随手拿来现成的指标库，根本不看数据。"

这在 RAG（检索增强生成）和 evals（评估系统）方面表现得最为明显。没有数据背景的工程师害怕他们不理解的东西，声称"RAG 已死"或"evals 已死"，但同时构建依赖这些概念的系统。

结论

LLM 没有消除对数据科学的需求——它们增加了这种需求。随着 AI 系统变得更加自主和复杂，对能够设计实验、构建可靠评估框架和调试随机行为的人才的需求只会增长。

来源：Hamel Husain 博客、PyAI Conf

Comments0

数据科学家的复仇：为什么 LLM 让传统数据技能变得更有价值

被颠覆

为什么这种说法是错误的

框架就是数据科学

"基于感觉"开发的危险

结论

Related Articles