💬 观点Simon Willison

OpenAI WebRTC Audio Session, now with document context — Simon Willison 分享如何利用 OpenAI WebRTC API

Simon Willison 分享如何利用 OpenAI WebRTC API 和 GPT-Realtime-2 模型，在浏览器中实现带文档上下文的实时音频对话。

2026-06-12原文

本文为要点摘要，完整细节以原文为准。

博主 Simon Willison 介绍了他基于 OpenAI WebRTC API 构建的音频会话工具的更新。

整合 GPT-Realtime-2 模型：新版本支持 OpenAI 号称具有“GPT-5 级别推理能力”的 GPT-Realtime-2 语音模型，该模型知识截止日期为 2024 年 9 月。这对开发者意味着，可以在自己的应用中直接利用更强大的实时语音交互能力，而无需等待官方应用更新。
引入文档上下文功能：用户现在可以在对话前粘贴大段文档内容，为实时音频对话提供背景信息。这为 Agent 或工具链开发者开辟了新思路，即如何将静态知识库与动态的、多模态的对话流无缝结合。
基于 Web 的实时音频交互：整个工具在浏览器中运行，利用 WebRTC 技术实现低延迟的音频流处理。这展示了将复杂 AI 功能（如高级语音模型）集成到轻量级 Web 应用中的可行性，降低了开发者的接入门槛。

原文：OpenAI WebRTC Audio Session, now with document context · 作者 Simon Willison