megatron - 搜索 News

资讯

15 天

Sex With Sunny Megatron

Sex blogger Sunny Megatron explores underground aspects of adult play. Everyday people share honest conversations in a sex-positive environment.

15 小时

2146 tokens/s！字节跳动发布极速代码生成模型Seed Diffusion，速度暴涨5.4倍

据官方披露，Seed Diffusion Preview在Nvidia H20 GPU上的生成速度高达2146个token每秒，比传统模型提升了最多5.4倍。与传统的自回归模型不同，这款新模型采用“离散状态扩散”（discrete-state ...

1 天

智谱GLM-4.5技术报告发布：国产大模型ARC能力全解析与RL框架创新

智谱AI于近日正式发布了其旗舰模型 GLM-4.5 的技术报告，详细阐述了该模型从预训练到后训练的完整技术细节，并公布了为其量身打造的开源强化学习（RL）框架 slime 。这一举措不仅揭开了 GLM-4.5 ...

1 天

智谱终于发布GLM-4.5技术报告，从预训练到后训练，细节大公开

就在上个月底，智谱放出重磅炸弹 —— 开源新一代旗舰模型 GLM-4.5 以及轻量版 GLM-4.5-Air 。其不仅首次突破性地在单个模型中实现了推理、编码和智能体能力的原生融合，还在 12 ...

GitHub15 天

[BUG]异步保存参数async-save和断点续训之间存在bug ...

我使用r0.13.0的megatron-lm版本时，使用了--async-save这个参数来控制模型权重保存时不阻碍训练的继续，当前几个iteration通过异步保存保存成功时，我将--load指向该保存好的权重，然后再次启动训练，此时权重加载进去了，但是loss出现了nan；但如果我没有使用--async-save这个参数，其他参数保持不变的 ...

人人都是产品经理 on MSN8 天

从零学习大模型（14）——大模型多端部署与推理加速：突破算力与 ...

在人工智能模型从训练到落地的全生命周期中，部署、分布式训练与推理加速构成了技术落地的核心链条。随着大模型参数量突破千亿级，传统单卡训练和单机推理已无法满足需求，而跨平台部署的碎片化问题更对工程化能力提出了严苛挑战。本文将围绕多端部署框架、推理加速技术 ...

腾讯网10 天

英伟达如何设计数据中心的电源架构？

芝能智芯出品随着AI大模型训练进入超大规模阶段，英伟达正在重新审视AI服务器集群中的电力架构挑战。尤其在GB200/GB300平台逐步部署的背景下，GPU峰谷负载带来的电源不稳定问题愈加突出。为解决这一难题，英伟达通过电容、电池缓冲与GPU“刻录”等 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果