💬 观点Hugging Face

MolmoMotion: Language-guided 3D motion forecasting — Hugging Face 介绍 MolmoMotion：用语言引导预测 3D 人

Hugging Face 介绍 MolmoMotion：用语言引导预测 3D 人体运动，为具身智能提供更自然的人机交互基础。

2026-06-17原文

本文为要点摘要，完整细节以原文为准。

这篇博客介绍了 AllenAI 团队在 Hugging Face 上发布的开源模型 MolmoMotion，它专注于语言引导的 3D 人体运动预测。

核心能力：模型能够根据自然语言指令（如“挥手打招呼”）预测未来的人体 3D 运动序列，而不仅仅是基于历史动作进行外推。
- 对开发者的含义：这为创建能理解和响应复杂语言指令的虚拟角色或数字人提供了直接的工具。
技术架构：它采用了一个统一的编码器-解码器 Transformer 架构，同时处理历史运动数据和文本指令，并输出未来的运动序列。
- 对工具链的含义：此类模型可以集成到动画制作、游戏开发或机器人仿真的流程中，简化动作生成环节。
开源与易用性：模型已在 Hugging Face Hub 上开源，提供了推理代码和演示，开发者可以轻松尝试并将其集成到自己的项目中。
- 对 agent 的含义：这降低了为具身智能体（如虚拟助手或机器人）赋予符合语言指令的拟人化动作能力的门槛。

原文：MolmoMotion: Language-guided 3D motion forecasting · 作者 Hugging Face