Kaiyun中国大陆官方网站入口 AI Agent 的门票, MiniMax 想先打下来

来源：未知作者：admin 时间：2026-06-04 22:34 浏览：145

光看官方解读，六个关键词就不错笼统这款模子的全部亮点：Coding 才略、1M 高下文、原生多模态、Computer Use、廉价 Token Plan、开源。

才略上，手脚国内首个集都了 Frontier 三件套——前沿 Coding/Agentic 才略、百万 token 级超长高下文、原生多模态的开源模子的国产模子，M3 的实力毋庸多提。

毕竟在此之前，能同期集都这三项的，惟有 Claude Opus 4.7、Gemini 3.1 Pro 和 GPT-5.5 这些国外头部闭源模子。

才略天然瞩目，但这次主要想聊一聊的，是它的价钱。

官方信息表现，这次的 MiniMax Token Plan 设想上，个东谈主开发者套餐分三档：Plus 49 元/月，6 亿 token；Max 119 元/月，18 亿 token；Ultra 469 元/月，55 亿 token。

换算下来，Max 档在左近价钱下约等于 Claude 订阅的 15 倍用量。

往常在 Chatbot 期间，好多东谈主可能对这种性价比没什么见识。毕竟用户问一句，模子答一句，成本还比较缓和。到了 Agent 期间，模子启动学会读仓库、扫文献、跑测试、看日记、修 bug、跑测试。一次任务背后，可能是几十次、几百次模子调用。

于是，模子变智慧了，但成本也没若干东谈主扛得住了。

而一个智慧又有敷裕性价比的模子，对好多个体以及企业而言，或然候通常即是 AI 信得过走向落地的临门一脚。

从 Agent 经济学的痛点，

到 49 元的 Plus Token Plan

往常环球扣问 AI 替代东谈主、目田东谈主，往往默许 AI 一定更低廉。

但这句话开发，是有收尾条目的。

卓绝是 Coding Agent 场景，前段时候，一篇对于 Agentic Coding 成本的测度，分析了 8 个前沿模子在 SWE-bench Verified 上的运行轨迹发现一个稀奇想的表象：

2026FIFA世界杯中国官网

Agentic Coding 类任务，token 破坏不是线性增长，以致不错达到平素代码问答的 1000 倍。更讳饰的是，或然候，token 烧得更多，准确率并不一定赓续变高，好多任务的准确率会在中等成本区间达到峰值，然后趋于饱和。

背后逻辑在于，Coding 需要用户把齐全的方式文献、代码高下文喂给 AI，才能产出信得过可用的代码。是典型的输入 token 重大于输出 token 的场景。越是坐褥级场景，高下文成本就越是贵得离谱，或然候，以致会跳动东谈主力成本自己。

这也就阐明了为什么好多往常在 AI 使用上相等激进的企业，从本年启动，出现了格调反复横跳：

一个极点案例是 OpenClaw。其独创东谈主 Peter Steinberger 曾晒出 30 天破坏约 130 万好意思元 OpenAI API token 的账单，遮蔽 6030 亿 token、760 万次央求，背后是约 100 个 Codex agent 在跑自动化开发任务。

Uber 更是 CTO 与 COO 先后公开下场吐槽，公司到 2026 年 4 月照旧花罢了全年 Claude Code 预算。

在这一配景下，MiniMax M3 的性价比照旧不是低廉少许的问题，更是 Agent 信得过进步前的临门一脚：

Agent 不可试错就作念不了复杂任务；但试错太贵，企业就会关停步不前，个东谈主开发者也会变得保守。

以前模子竞争的中枢的是智商上限，agent 期间，单元成本下的有用职责量才是信得过的要点。

这即是为什么我合计 M3 的性价比其实亦然居品才略的一部分。

但撑持这个性价比的根源在于那里？性价比背后，居品的体验又究竟若何？

为什么行业发展到当今，

需要更强的 Coding 和长程自主迭代

价钱解决的是敢不敢用，下一步用户海涵的，是值不值得用。

M3 官方给出的 Coding benchmark 很颜面：SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、SWE-fficiency 34.8%、KernelBench Hard 28.8%、MCP Atlas 74.2%。

这些数字天然难堪，但我更提出把它们当成一个参考系，而不是论断。信得过的亮点其实是官方用 M3 竣事的两个本色案例：复现论文和优化 CUDA 的 Hopper FP8 GEMM kernel。

先望望 Hopper FP8 GEMM kernel 优化案例。

在这个任务里，M3 的首先惟有任务形色、benchmark 剧本和一个不可径直运行的 Triton 骨架，莫得 reference 高性能竣事。

M3 在约 24 小时内完成 147 次 benchmark 提交和 1959 次器具调用，把 Hopper FP8 GEMM 的硬件峰值诳骗率从 7.6% 推到 71.3%，竣事 9.4 倍加快。

这里最难堪的细节其实不是终末的 71.3%，而是最优解出当今第 145 次提交。手脚对比，除 Opus 4.7 和 M3 外，其余模子大多在前 30 次提交内不再得到新施展并主动退出。

也即是说，模子并不是前几轮灵光一闪就完成任务，而是在多个平台期里赓续会诊、尝试、考证、推翻，再尝试。

这个过程里，模子需要需要保管计算、记着历史、调理 benchmark 响应，还要幸免在多轮编削中把系统搅散。

这亦然 Coding Agent 和代码补全器具的分界线。一个平素 vibe coding 群体可能没坚强到的本质在于，着实的坐褥级环境中，非论 AI 如故东谈主类，产出代码第一次跑不起来很正常；跑起来之后性能差也很正常；优化完引入新 bug 也很正常。而工程任务的大部分时候，都花在会诊、考证、回滚、再尝试。

这个才略的背后，不可只靠模子参数更大，还需要磨砺数据更接近着实用户逻辑。为此，MiniMax 构建了交互式用户模拟器，模拟着实开发者在团结个 session 中阻抑补充需求、转化决策、派发任务、响应修正。

这亦然为什么我在前边说，benchmark 收尾漂亮天然很难堪，但不可径直将其平移到坐褥环境。今天好多 coding benchmark 仍然是 single-turn task，但着实互助一定是 multi-turn、multi-file、multi-tool、multi-objective。谁能把磨砺和评测从一次性解题鼓励到不绝互助，谁才更接近下一代 Coding Agent。

另外再看一下复现论案牍例，这个也相似很稀奇想。M3 被要求复现 ICLR 2025 Outstanding Paper Award 论文 Learning Dynamics of LLM Finetuning。它自主运行了接近 12 小时，产出 18 次 commit 和 23 张实验图表，跑通中枢实验，并不雅测到 SFT 阶段预计概率变化、DPO 的 squeezing 效应，以及 Extend 缓解步调。

这个任务的特色在于任务自己够复杂，需要的才略也够多。模子要读论文正文，调理公式和图表，写实验代码，跑磨砺剧本，查验收尾是否对都论文论断，再把柄偏差转化实验缔造。这就需要，模子的智能上限、长高下文、编程、多模态、器具调用、事实纠偏多样才略必须同期开发。

而 M3 的一大特色，Kaiyun中国大陆官方网站入口正在于它是从 Step 0 启动作念多模态混杂磨砺，而且使用的是文本、图像和其他模态天然交错的数据。

放到 Agent 语境里，它意味着模子更容易干涉着实职责现场，帮开发者看架构图、异常截图、性能弧线、PR 页面和末端输出，帮测度员读论文正文，以及表格、图像、弧线和公式。还能帮企业职工在 ERP、Excel、网页后台、土产货客户端、聊天器具之间往返切换，让多模态与智能自己，成为牢不可分的一体两面。

我在测试里径直让 AI 把柄《西纪行》演义，制定一个交互舆图。

完成这个任务的难点在于，领先模子要我方找到《西纪行》原文共 100 回，60 余万字并通读调理。

在此基础上，作念西游交互舆图最难的是原著地名狼籍、虚实空间混杂：行程形色只写里程但莫得坐标，系数的动线、事件跨百回散播，必须全本高下文统筹梳理空间关联；而仙界洞府等多层平行空间中的多样假造场景莫得本质 GIS 参照，同期一些阳间位置，虽然有本质寰宇原型，但又并未在书中明说。

要把这些笔墨形色转成舆丹青面、自动生成开发代码，对模子的高下文才略、器具调用才略、多模态才略、agent 互助才略，以致审好意思都是不小的磨真金不怕火。

朝上滑动检察

这是最终的生成 HTML 页面的截图（部分展示），不错看到，不仅道路图与剧情实足吻合，以致不同地方可能对应的本质寰宇办法，也基本一致。

比如五行山对应本质寰宇河北五指山，决窍寺在陕西西安，通河汉在青海玉树近邻，而流沙河对应本质寰宇新疆塔里木的开都河，与本质寰宇原型的参考办法确切逐一双应。

寥落预防力处分 1M 高下文照旧不簇新，

但若何保证掷中率？

讲完价钱和 Coding，到这里，好多东谈主应该也就能调理 M3 设想的寥落预防力机制撑持起的 1M 高下文背后的逻辑了。

长高下文当今照旧不有数。好多模子都在宣传 200K、1M，以致更长。问题在于，窗口长不代表模子会用。

Agent 不可能每一步都从零启动想考，它必须把往常的失败、用户偏好、方式结构、器具响应千里淀进高下文。相应的，模子的高下文中会堆满了超长的代码文献、末端日记、失败纪录、benchmark 输出、用户响应、历史器具调用和中间推理陈迹。

长高下文是竣事这一切的基础。但或然候，窗口越长，也就意味着多样中间情状、无关内容组成的杂音越多，输出质料越差，成本也越容易爆炸。

在这一配景下，使用广宽预防力，高下文长度的延伸以及输出成果会受到收尾，成本也会随之失控。

使用平素寥落预防力，能省成本，但容易殉难细粒度信息定位才略。

但偏巧，Agent 扩充过程中，最怕漏细节。一次器具调用里的关键报错、某个代码文献里的限度条目、某张图里的弧线异常，都可能决定任务能不可赓续。

因此，竣事长高下文自己不难，信得过难的是若何竣事成本、成果、掷中率的三者得兼。

了解行业配景的都知谈，MiniMax 不是今天才启动作念长高下文和寥落预防力。

2025 年年头的 MiniMax-01 就用了 Lightning Attention，况兼把模子磨砺高下文作念到 1M，推理上还尝试外推到 4M 的更长高下文；

自后客岁团结期间的 MiniMax-M1 赓续使用 hybrid attention，加上 MoE 和强化学习，主打长高下文、长推理和复杂软件工程任务。

到了自后的 M2，MiniMax 还一度旋即回退到广宽预防力道路，直至这次 M3，MiniMax 借助 MSA 再次总结寥落预防力。

比较业内的其他寥落预防力决策 DSA、MoBA 等，MSA 通过 scalable sparse attention、document-wise RoPE、KV cache compression 和 Memory Parallel 等设想，不错把磨砺和推理复杂度作念成线性，并在从 16K 扩展到 100M tokens 时保持低于 9% 的性能退化。并通过精确 KV 分块升级，在算子层通过 KV outer gather Q 减少近似读取，举座的计算访存比是开源的 Flash-Sparse-Attention 和 FlashMoBA 的 4 倍以上。

而借助MSA，M3 能作念到 1M 高下文下每 token 计算量惟有上代模子 1/20、prefill 跳动 9 倍加快、decoding 跳动 15 倍加快。多数场景下，才略径直追平全预防力模式。

这类优化听起来很底层，但用户端会感受到两件事：长任务跑得低廉，况兼信息的把抓相等精确。比如这里，我

把一整本《国富论》喂给 M3，作念了一个亚当斯密逻辑下的模拟寰宇游戏。

这其中的难点在于，《国富论》通篇都是定性社科叙述，单干、财税、外贸、老本、薪资的经济传导逻辑脱落散播全卷，惟有百万级高下文才能齐全通读全书，索求丝丝入扣的量化演算规矩，把斯密的笔墨表面转动成税率、坐褥率、资产联动的数值公式。

在此基础上，要完成模拟寰宇游戏的构建，还需要靠 Agent 阻抑完成万古序推演，调理玩家减税、修路等政令可能导致的收尾，终末还能分短中永久按古典经济学逻辑迭代面板数据，全程不可抵牾原著底层经济法例。

终末收尾上，不错看到 M3 精确复原了斯密表面在本色生涯中丝丝入扣，税制、关税会径直左右坐褥率与资产增减，办学策略会在中期、永久对税务、对服务坐褥率、对国度资产积攒以及东谈主口产生不同的影响。用户自界说策略后，系统会自动逐年演算经济变迁，齐全复原国富论里策略随时候开释经济红利的设想。

而长高下文也惟有作念到这一步，才稀奇旨。

Agent 期间，最稀缺的不是智能，

而是可职守的智能

M3 的发布背后，多样单点优化天然难堪，但它同期亦然国产模子启动从追 benchmark 转向作念系统、让 agent 信得过能落到系数企业与个东谈主日常所需中的一个难堪尝试。

复杂任务需要长高下文。长高下文会带来成本、速率和信息掷中率问题，是以需要 MSA 这种更高效的预防力机制。

Coding Agent 需要不绝迭代。不绝迭代会破坏大都 token，是以模子既要会写代码，也要能在多轮失败里保管计算、读懂响应、赓续鼓励。

着实职责环境是多模态的。只会处理文本，Agent 就很难处理截图、图表、后台、Excel、PR 页面和末端输出混在沿途的任务。

高频使用还要敷裕低廉。不然用户不会让 Agent 充分试错，企业也不敢把它接入着实历程。

每个点单独看都不是第一次出现，但组合起来组成的Kaiyun中国大陆官方网站入口，是 Agent 才略干涉开发者和企业日常职责流的垫脚石。