网络服务

贝塔观点 | 高质量数据推动AI系统的发展进步

来源:贝塔网    作者:      2024年07月17日 10:46

导语:数据、算法、算力是构建AI的三大要素。

在人工智能领域,数据、算法和算力是构建AI系统的三大核心要素,三者的协同使现代AI技术实现了从理论到应用的飞跃。数据是AI的基础,大量高质量的数据不仅能够提高现有模型的准确率,还能促进模型的优化和创新。以ImageNet数据集为例,该数据集及相关挑战赛推动了计算机视觉算法的快速发展,2017年是挑战赛的最后一年,物体分类冠军的准确率在7年时间里从71.8%上升到97.3%。近年来,Transformer等预训练大模型在语言理解及生成等领域表现出色,大模型背后的Scaling Law(规模定律)进一步揭示了模型性能与数据量、算力之间的关系,强化了数据在提升AI表现中的关键作用。

构建AI系统的三大核心要素.jpg

来源:贝塔咨询研究院自主研究及绘制。


ImageNet数据集的成功,以及大模型的Scaling Law的发现,都证明着高质量数据对于AI发展的巨大推动:

ImageNet见证CV算法在大规模数据集上的性能提升

2009年6月,李飞飞团队完成ImageNet初始版本,共有1500万张图片,涵盖了 2.2 万个不同类别,这些图片筛选自近10亿张候选图片,并由来自167个国家的4.8万多名全球贡献者进行了标注。

2012年,由Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton共同开发的AlexNet在挑战赛上以超过第二名10个百分点的成绩在夺冠,深度学习迎来学术探索与工业应用的热潮。

2017年是挑战赛的最后一年,物体分类冠军的准确率在7年时间里从71.8%上升到97.3%,超越了人类的物体分类水平。

Scaling Law进一步揭示数据对于提升模型性能的关键作用

OpenAI研究团队于2020年发表的论文《Scaling laws for neural language models》中,系统地探讨了语言模型性能与模型大小、数据集大小和计算资源之间的关系。研究发现,模型的性能(如损失函数值)与这些因素之间存在稳定的幂律关系,即模型的性能会随着数据量、模型规模和计算量的增加而提升。

现阶段,诸多大模型的研发仍在遵循Scaling Law的发展方向:

①今年2月,由ServiceNow、Hugging Face 和 NVIDIA联合发布的用于代码生成的StarCoder2,其数据集规模相比v1大7倍,实现了更准确的上下文感知预测。

②今年4月,Meta推出Llama3,其训练数据集超过15T token(是Llama2的7倍),可支持8K的上下文长度(是Llama2的2倍),在MMLU、GPQA、HumanEval等多项基准上成绩优异。


(本文为独家原创稿件 转载请注明出处)
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。

扫一扫,或长按识别二维码

关注贝塔网官方微信公众号