💬 观点Google DeepMind

Introducing Gemma 4 12B: a unified, encoder-free — Google DeepMind 发布 Gemma 4 12B，一个无需编码器的统

Google DeepMind 发布 Gemma 4 12B，一个无需编码器的统一多模态模型，为开发者提供了更简洁高效的视觉语言理解新工具。

2026-06-09原文

本文为要点摘要，完整细节以原文为准。

Google DeepMind 最新推出的 Gemma 4 12B 模型，其核心创新在于采用了一种统一、无需独立视觉编码器的架构。

统一架构设计：模型直接处理原始图像和文本，摒弃了传统多模态模型中独立的视觉编码器模块。这意味着对工具链开发者而言，模型集成和部署的流程得以简化，减少了组件依赖和潜在的兼容性问题。
高效多模态理解：这种设计旨在让模型更直接地学习视觉与语言信号之间的关联。对于 Agent 开发者来说，这为构建需要深度理解图文场景的智能体提供了更底层、更灵活的基础能力。
Gemma 系列扩展：作为 Gemma 开源模型家族的新成员，4 12B 版本延续了其易获取和可定制的特点。这为研究者和应用开发者提供了一个强大的、可直接用于实验和产品原型开发的多模态基座模型。

原文：Introducing Gemma 4 12B: a unified, encoder-free multimodal model · 作者 Google DeepMind