近日,小米推出其首个开源推理大模型MiMo,这标志着小米在人工智能领域迈出了重要一步。作为一家以智能硬件起家的科技公司,小米通过AI技术驱动其“人车家全生态”战略,致力于探索如何提升模型的推理能力。MiMo专注于推理优化,在数学推理和代码竞赛等任务中表现出色,仅用7B参数规模即超越了OpenAI和阿里Qwen的开源模型。该模型具备多任务通用能力、硬件加速支持、模块化架构以及开放社区支持,旨在为开发者提供灵活且高效的解决方案。此次开源标志着小米在人工智能领域的战略布局,并为其未来在AI技术应用中的潜力奠定了基础。
近日,小米正式宣布其首个推理大模型 Xiaomi MiMo 开源,这一举措标志着小米在人工智能领域的战略布局迈出了关键一步。作为一家以智能硬件起家的科技公司,小米正在通过AI技术驱动其“人车家全生态”战略,而MiMo的发布与开源,正是这一愿景的技术支撑。

MiMo:小米自研推理大模型的亮相
MiMo 是一款专注于推理优化的大语言模型,这一模型的发布标志着小米在人工智能领域迈出了重要的一步,特别是在推理能力的提升上取得了显著进展。
MiMo 的诞生旨在探索如何激发模型的推理潜能,特别是在预训练增长见瓶颈的情况下。该模型在数学推理(AIME24-25)和代码竞赛(LiveCodeBench v5)公开测评集上表现出色,仅用7B的参数规模就超越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。
根据小米官方介绍,MiMo 的关键特性包括:
- 多任务通用能力:覆盖问答、文本生成、指令跟随、语言翻译等典型任务。
- 极致推理性能优化:结合小米自主的硬件加速框架,可在小米设备上实现毫秒级响应。
- 模块化架构:便于开发者根据实际场景裁剪模型,提升实用性。
- 开放社区支持:模型和推理代码已在 GitHub 发布,支持 Hugging Face 等主流平台部署。
亮点概览
预训练:为推理而生的基础模型
- 优化了数据预处理流程,增强了文本提取工具,并应用多维度数据过滤策略,从而提高预训练数据中推理模式的密度。同时,我们采用多种策略生成大规模多样化的合成推理数据。
- 预训练采用三阶段的数据混合策略。总体而言,MiMo-7B-Base 预训练所使用的语料总量约为 25 万亿 tokens。
- 引入了 多 token 预测(Multiple-Token Prediction)作为额外训练目标,不仅提升了模型性能,也加快了推理速度。
后训练方案:开创性的推理模型
- 精选了 13 万道数学与代码题目作为强化学习训练数据,所有题目均可由基于规则的验证器进行结果验证。每道题都经过精心清洗与难度评估,以确保质量。我们仅使用基于规则的准确性奖励,避免潜在的奖励欺骗问题。
- 为缓解高难度代码问题中稀疏奖励的问题,引入了测试难度驱动的代码奖励机制。通过为不同难度级别的测试用例分配细粒度得分,使策略能通过更密集的奖励信号获得更有效优化。
- 对于简单问题,我们实施数据重采样策略,提高 rollout 采样效率,并在强化学习训练后期阶段稳定策略更新。
强化学习基础设施
- 开发了无缝 Rollout 引擎(Seamless Rollout Engine),加速 RL 训练与验证过程。该设计融合了连续 rollout、异步奖励计算与提前终止机制,最大程度减少 GPU 空闲时间,实现了训练加速 2.29 倍,验证加速 1.96 倍。
- 在 vLLM 中支持 MTP(多 token 预测),并增强了 RL 系统中推理引擎的鲁棒性。
附:MiMo开源地址
GitHub:https://github.com/XiaomiMiMo/MiMo
Hugging Face:https://huggingface.co/XiaomiMiMo
评论功能已关闭。