光谱学ML警告:高维数据可能导致近乎完美的准确率完全是误导性的
Available in: 中文
机器学习模型在光谱分类中取得了惊人的高准确率——有时即使化学差异实际上不存在也是如此。新研究揭示了原因以及如何避免被误导。
机器学习模型在光谱分类中取得了惊人的高准确率——有时即使化学差异实际上不存在也是如此。新研究揭示了原因以及如何避免被误导。
悖论
ML模型以近乎完美的准确率分类光谱,但:
- 可能没有使用化学上有意义的特征
- 特征重要性图可能突出光谱上无关的区域
- 准确率来自数学伪影,而非真实化学
解释
利用Feldman-Hajek定理和测度集中:
- 光谱数据本质上是高维的
- 无穷小的分布差异(噪声、归一化、仪器伪影)在高维空间中变得完全可分
- 模型学习分离噪声模式,而非化学特征
实际建议
- 验证模型使用了化学上有意义的特征
- 对看起来好得不真实的准确率保持怀疑
- 考虑在分类前进行降维
- 使用领域知识验证特征重要性
为什么重要
这适用于任何在高维数据上使用ML的领域——基因组学、材料科学、遥感、医学影像。技术上正确的模型在科学上可能仍然是错误的。
← Previous: MUXQ: New Quantization Method Solves LLM Activation Outlier Problem for NPU DeploymentNext: Batch Loss Score: Speed Up Deep Learning Training with a 3-Line Code Injection for Data Pruning →
0