论文显示, 蚂蚁集团 ...
在 2026 财年,分析师预测英伟达总收入将同比增长 63%,这得益于数据中心 70% 的增长以及游戏和汽车市场的复苏。不过,降低了其数据中心业务从 2027 财年起的增长预期,以反映低成本 AI ...
知情人士称,蚂蚁集团使用了包括来自 阿里巴巴和华为的芯片 ,采用所谓的“专家混合机器学习”方法来训练模型,测试结果取得了与采用 英伟达H800 等芯片训练相似的结果。
近期有知情人士对外媒透露,大陆蚂蚁集团正使用中国本土制造的半导体来开发AI模型训练技术,这将使成本降低20%。而且令人意外的是,这种来自阿里巴巴与华方的晶片採用专家混合(Mixture of Experts,MoE)机器学习方 ...
具体来说,FlashMLA是一个针对 Hopper GPU 优化的高效 MLA(Multi-Layer ... 说人话就是,FlashMLA 是一个能让 LLM 模型在 H800 上跑得更快、更高效的优化方案 ...
FlashMLA是一款专门为Hopper GPU(比如H800 SXM5)优化的高效MLA解码内核,旨在加速大模型的计算任务,尤其是在NVIDIA高端显卡上提升性能。 通过FlashMLA ...
发布一小时,GitHub Star数已超过5600。 DeepSeek V3和R1的所有服务均使用H800 GPU,使用和训练一致的精度,即矩阵计算和dispatch传输采用和训练一致的FP8格式,core-attention计算和combine传输采用和训练一致的BF16,最大程度保证了服务效果。 此外,由于白天的高服务负载 ...
具体来说,蚂蚁集团借助阿里巴巴、华为等国内厂商的AI/GPGPU芯片,采用五种不同的硬件配置,完成了高达9万亿token的预训练,最终所需的训练成本从635万元降至508万元。通过这种创新的动态参数分配、混合精度调度和自适应容错恢复策略,蚂蚁团队将高效训练的可能性扩大到了更加低端的计算设备上。
这项新技术将如何改变我们的日常生活?蚂蚁集团最近在AI技术领域的一个重大突破将令许多从业者感到振奋。根据其技术成果论文,蚂蚁集团Ling团队成功推出了两款大语言模型,名为百灵轻量版(Ling-Lite)和百灵增强版(Ling-Plus)。其中,百灵轻量版的参数规模达168亿,而增强版的参数更是高达2900亿,充分展示了现代AI技术的强大潜力。
使用CUDA 12.6,在H800 SXM5上,其性能指标是 ... 快速启动安装: FlashMLA的使用基准为:Hopper GPU、CUDA 12.3及以上版本、PyTorch 2.0及以上版本。
2 天on MSN
报道认为,这凸显了中国公司试图使用本地芯片来替代最先进的英伟达半导体。蚂蚁集团本月份发布了一份研究报告,称其模型在部分基准测试中超过了 Meta,如果按预期工作,蚂蚁的平台可能为中国 AI 发展迈出又一个新的步伐。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果