贝塔观点 | 高质量数据推动AI系统的发展进步

来源：贝塔网作者： 2024年07月17日 10:46

导语：数据、算法、算力是构建AI的三大要素。

在人工智能领域，数据、算法和算力是构建AI系统的三大核心要素，三者的协同使现代AI技术实现了从理论到应用的飞跃。数据是AI的基础，大量高质量的数据不仅能够提高现有模型的准确率，还能促进模型的优化和创新。以ImageNet数据集为例，该数据集及相关挑战赛推动了计算机视觉算法的快速发展，2017年是挑战赛的最后一年，物体分类冠军的准确率在7年时间里从71.8%上升到97.3%。近年来，Transformer等预训练大模型在语言理解及生成等领域表现出色，大模型背后的Scaling Law（规模定律）进一步揭示了模型性能与数据量、算力之间的关系，强化了数据在提升AI表现中的关键作用。

构建AI系统的三大核心要素.jpg

来源：贝塔咨询研究院自主研究及绘制。

ImageNet数据集的成功，以及大模型的Scaling Law的发现，都证明着高质量数据对于AI发展的巨大推动：

ImageNet见证CV算法在大规模数据集上的性能提升

2009年6月，李飞飞团队完成ImageNet初始版本，共有1500万张图片，涵盖了 2.2 万个不同类别，这些图片筛选自近10亿张候选图片，并由来自167个国家的4.8万多名全球贡献者进行了标注。

2012年，由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton共同开发的AlexNet在挑战赛上以超过第二名10个百分点的成绩在夺冠，深度学习迎来学术探索与工业应用的热潮。

2017年是挑战赛的最后一年，物体分类冠军的准确率在7年时间里从71.8％上升到97.3％，超越了人类的物体分类水平。

Scaling Law进一步揭示数据对于提升模型性能的关键作用

OpenAI研究团队于2020年发表的论文《Scaling laws for neural language models》中，系统地探讨了语言模型性能与模型大小、数据集大小和计算资源之间的关系。研究发现，模型的性能（如损失函数值）与这些因素之间存在稳定的幂律关系，即模型的性能会随着数据量、模型规模和计算量的增加而提升。

现阶段，诸多大模型的研发仍在遵循Scaling Law的发展方向：

①今年2月，由ServiceNow、Hugging Face 和 NVIDIA联合发布的用于代码生成的StarCoder2，其数据集规模相比v1大7倍，实现了更准确的上下文感知预测。

②今年4月，Meta推出Llama3，其训练数据集超过15T token（是Llama2的7倍），可支持8K的上下文长度（是Llama2的2倍），在MMLU、GPQA、HumanEval等多项基准上成绩优异。

（本文为独家原创稿件转载请注明出处）

人工智能数据算法算力 AI系统