资讯

7月11日晚,月之暗面(Moonshot AI)推出最新旗舰模型 Kimi K2,开源、免费可商用这是Kimi首次开源基础模型,其市场反响强烈,其也被网友称作又一个“DeepSeek 时刻”。 Kimi ...
根据 InfoQ 的消息,Kimi K2 的架构设计与另一款开源大模型 DeepSeek V3 高度相似,两者均对 Transformer 架构作了改进:K2 减少了注意力头数量以提升长上下文效率,同时增加了专家数量以提高 token 利用率。
Kimi K2是一个万亿(1T)参数规模的混合专家(MoE)模型,激活参数为320亿。其核心能力发生了清晰的转向,在延续Kimi此前的标签“长文本(128K)”的特性下,为智能体任务做了专门优化,天生为智能体构建而设计。
近期,Aider Leaderboard的最新测试结果震撼发布,Moonshot AI推出的开源模型Kimi ...
自一个月前xbench公布第一期Leaderboard以来,AI大模型界又迎来了新一轮的“你追我赶”。上周,xAI发布了“全球最强大的”Grok-4,两天后,Kimi推出并开源了“一万亿参数”的K2模型。xbench对这两个“新玩家”火速进行了测评, ...
负责后训练的研究员Dylan也带来了一点不一样的声音。他很坦诚地说,K2“实际上就是一个刚出生的baby”,虽然有灵性,但缺点也不少,他自己甚至觉得“略感惭愧”。这些声音拼在一起,让隐藏在技术细节背后的K2变得立体起来。
LONDON, July 18 (Xinhua) -- The prestigious scientific journal Nature has hailed China's latest artificial intelligence (AI) model, Kimi K2, as "another DeepSeek moment" for the global AI community.
人人都是产品经理 on MSN1 天
深度研究Kimi K2:模型对比和实测
最近模型圈大家关注度最高的莫过于Grok4以及Kimi K2,作为一个AI应用开发者,我们一直都时刻关注最新的模型能力表现,因此今天三白花了一天左右的时间先深入研究和实测一下K2的表现,看有没有媒体吹嘘的那么牛。
Kimi-K2使用名为MuonClip的新训练算法,在规模达到15.5万亿tokens的训练中保持稳定。该算法通过定期调整注意力机制中的关键参数,成功避免了大模型常见的“训练崩溃”问题。
据月之暗面披露的 OpenRouter 最新 数据,Kimi K2的调用量暴增,日均已突破100亿 token,与刚刚发布不久的马斯克旗下 Grok-4 并列 OpenRouter ...
文章认为, Kimi K2是 继1月DeepSeek推出R1震惊世界之后, 六个月内中国推出的第二款令人瞩目的模型 , 这表明这并非偶然之举。 Hugging Face的数据显示,Kimi ...
一是 V3 架构珠玉在前且已经经过大规模验证,没必要强行“标新立异”;二是自己和 DeepSeek 一样,训练和推理资源非常有限,而经过评估 V3 架构符合相关成本预算。 虽然总参数增大到 1.5 倍,但除去通信部分,理论的 prefill 和 decode 耗时都更小。即使考虑与通信 overlap 等复杂因素,这个方案也不会比 V3 有显著的成本增加。