资讯

6月17日,MiniMax 发布了新模型MiniMax M1。 这是一个继续激进地使用线性注意力 Lightning Attention机制的模型,同时它还巧妙地找到一种方式,将这种激进的预训练机制带来的长文本能力用到后训练阶段,提出一种全新的强化学习技巧,从而大幅提高了模型的推理能力。
作者|王兆洋邮箱|wangzhaoyang@pingwest.com要不要完全跟随 DeepSeek?这是每个仍想自己追逐基础模型圣杯的公司,在过去半年里一直面对的灵魂拷问。而 MiniMax 的答案很清楚,它要走自己的路。6月17日,MiniMax ...
此前星野和 Talkie 在商业化上的优异表现,让 MiniMax 早早成为一家可以自己独立行走的大模型公司,也让外界赋予了这家公司一个「产品驱动」这样过于笼统的标签。这一定程度上忽视了 MiniMax 在模型层面上相当强悍的研发能力。
6月17日,Minimax正式开源推理模型M1,采用Lightning ...
上海AI独角兽MiniMax正式开源推理模型MiniMax-M1(以下简称“M1”)。MiniMax称,这是全球首个开放权重的大规模混合注意力推理模型。凭借混合门控专家架构(Mixture-of-Experts,MoE)与 Lightning ...
DeepSeek掀起推理模型热潮近半年之后,MiniMax于6月17日发布并开源其首款推理模型M1。按照官方说法,M1一项显著优势是支持目前业内最高的100万Token的上下文输入长度——为DeepSeek ...
国产推理大模型又有重磅选手。 MiniMax开源MiniMax-M1,迅速引起热议。 这个模型有多猛?直接上数据: 原生支持100万token的输入长度,是DeepSeek R1的约8倍。 同时支持8万输出token,超过Gemini 2.5 ...