最近,英伟达CEO黄仁勋在GTC大会上提出了一个大胆的 Scaling Law ...
这就是在业界甚嚣尘上的 scaling law 撞墙猜测。简而言之,机器学习的 scaling law 的指的是随着模型大小(参数量)、数据集、训练成本这三大要素的提升,大模型的性能也会有所提升(具体细节不展开)。
在最近的GTC2025大会上,英伟达创始人黄仁勋以一个令人瞩目的声明惊醒了科技界——"过去一年,全世界大多数人对Scaling Law的理解都错了!"究竟是什么使得他这样反思?这个被广泛接受的理论曾是大模型训练的基础,讲述了算力、模型和数据规模如何共同推动AI进步。然而,黄仁勋却认为,如今的Scaling Law正在经历巨大的转变,不再是简单的算力堆积,而是需要更多的效率和创新。
这家名为METR的机构,刚刚发现了AI智能体的全新摩尔定律:过去6年中,AI完成任务的长度,每7个月就会翻一番!如此下去,五年内我们就会拥有AI研究员,独立自主完成人类数天甚至数周才能完成的软件开发任务。
就在今天,字节豆包大模型团队在 arxiv 上发布了一篇技术报告,完整公开了文生图模型技术细节,涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法,也详细披露了此前大火的文字精准渲染能力如何炼成。
谷歌推出的DiLoCo分布式训练方法,其Scaling Law比数据并行更稳健、更优越、更高效、更强大,其模型规模越大优势越明显,有效解决通信瓶颈,为大模型训练开辟新可能。网友称DiLoCo可能会重新定义Scaling的方式。
新智元报道 编辑:KingHZ【新智元导读】谷歌发布了1000亿文本-图像对数据集,是此前类似数据集的10倍,创下新纪录!基于新数据集,发现预训练Scaling ...
Scaling Law 由 OpenAI 团队于 2020 年正式提出,并在其论文《神经语言模型的扩展定律》(Scaling Laws for Neural Language Models)中进行了详细阐述。Scaling Law ...
研究人员发现随着模型尺寸的增大,DiLoCo 会呈现出可预测的稳健扩展。如果调整得当,DiLoCo 的模型规模扩展性优于数据并行训练方法,即使在小模型规模下 DiLoCo 也能胜过数据并行训练方法。
【新智元导读】这家名为METR的机构,刚刚发现了AI智能体的全新摩尔定律:过去6年中,AI完成任务的长度,每7个月就会翻一番!如此下去,五年内我们就会拥有AI研究员,独立自主完成人类数天甚至数周才能完成的软件开发任务。
周博洋:我觉得后训练和推理语境下的新Scaling Law其实跟“思考时间”有关。思维链的产生和我的偶像Donald Norman有关,他在大学痴迷玩德国扑克,这个游戏就是思考的事件越长,获胜概率才会更高。这跟Alpha Go有点像,它们会花很长时间思考,最终战胜人类。人类大脑也有快思考和慢思考,简单的事情比如约喝咖啡,很快就能决定;但复杂的事情比如讨论算法,就需要很多中间步骤和时间。
12 天
什么值得买社区频道 on MSNLossless Scaling:拯救老游戏画面的「清晰术」你是否遇到过这样的困扰——翻出多年前的经典游戏想重温情怀,却发现画面模糊、分辨率低,甚至无法全屏显示?那些充满回忆的像素风或早期3D游戏,在如今的高分辨率屏幕上显得粗糙不堪,全屏后更是糊成一团。这种「时代割裂感」,让怀旧体验大打折扣。而Lossles ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果