kaiyun.com 深圳用昇腾910C集群完成1.6万亿参数大模子教授
近日,深圳河套学院Al教授平台状貌团队,联结哈尔滨工业大学(深圳)、深圳市大数据规划院、华为联系团队,协同深智城AI算力平台,面向国产算力大模子教授开展联结攻关。依托昇腾910C国产AI算力集群,完成1.6万亿参数大模子DeepSeek-V4-Pro全参数后教授。
这次推论为群众第三方机构在国产算力平台上完成该级别模子教授的相关探索,积聚了迫切警告,也印证了国产AI芯片可支援全国级超大参数模子教授使命。
2026世界杯博亚体育(中国)官方授权平台
优化建模SFT数据飞轮历程
万亿参数大模子是东谈主工智能规模的主流前沿模子,在逻辑推理、数理臆想、代码编写、长文智商悟等方面证实杰出。这类模子的全参数教授,对硬件算力、集群慎重性、算法适配优化均有严苛条目。
永远以来,群众范围内万亿级大模子教授多承袭外洋高端算力家具,国内国产算力此前主要用于模子推理、小幅微调,难以完周至参数深度教授,这亦然行业发展中多数濒临的技能穷苦。
万亿级参数的AI大模子教授难在哪?
要是把教授一个万亿级参数的AI大模子比作解沿途超等复杂的数学题,那么每一张臆想卡就像又名解题员。他们不仅要单干明确、昼夜连续地连轴转,还弗成有东谈主偷懒、弗成有东谈主出错,更弗成有东谈主掉队。
这次教授的DeepSeek-V4-Pro承袭的是混杂各人模子(MoE)架构,不错把它想象成一个广宽的“各人团”:平时回应问题只激活少数几位各人,看似高效,但后教授时,“各人们”之间的一样量却是正常模子的几十倍。再加上动态切换的贵重力机制,这对芯片算力的退换和显存资源的经管建议了极其尖酸的条目。
肤浅来说,畴前的国产算力更多是让大模子“能用”(即推理部署),就像给模子修了一条单行谈,输入一个问题,输出一个谜底。而这次的“全参数后教授”,「Kaiyun·中国大陆」官方网站则是要让模子学会自我反想和调治,尽头于在单行谈的基础上,又加多了复杂的立交桥和多条反映回路,臆想量和通讯量一霎翻了好几倍。
三大硬核冲破让国产算力“跑得稳”
面对如斯极限的挑战,科研团队在国产AI算力集群上结束了三大硬核冲破:
一是“显存拼图”。万亿级大模子不可能只塞进一张卡,团队遐想了精密的散布式承载决策,把广宽的模子参数像拼图一样,精准地分派到千卡集群的每一张卡上,算力退换清娇傲爽。
二是“负载平衡”。为了幸免MoE模子中有的“各人”忙得够呛、有的却在“闲荡”,团队成心优化了退换政策,保证了每位“各人”单干合理,跨卡通讯不再“堵车”。
三是“有东谈主‘守夜’”。全参数后教授最怕跑着跑着系统顿然崩溃。本次教授团队搭建了完好的监控体系,全部结束可视可控,确保了长达1500多步的教授过程中,莫得出现一次中断或报错。

状貌团队开展技能复盘与学生实战培养
本次探索是国产算力适配超大参数大模子过程中的一次迫切进展,有助于擢升国内AI产业链自主化水平,裁汰行业应用资本,为东谈主工智能技能落地应用提供更多支援。现在,状貌已结束模子算力行使率(MFU)特出30%,弱点教授算子效果擢升14%,各项打算均达到工业级初始圭臬。
从技能应用角度来看kaiyun.com,调用已有模子开展业务推理,与从零完成模子全参数教授分属不同技能方法,二者在技能难度、硬件条目上存在彰着分散。本次查验为止标明,国产AI算力已可承担顶级大模子教授任务,相关技能旅途具备可行性。