Runway数字人新增实时视觉感知，能看摄像头和屏幕内容并即时回应

据 1M AI News 监测，AI 视频生成公司 Runway 为其数字角色平台 Characters API 新增摄像头和屏幕共享功能。用户可以将实时摄像头画面或屏幕内容共享给 AI 角色，角色能看到、理解并实时回应画面中的内容，如识别桌上的物体、阅读屏幕上的文字、判断空间关系等。此前 Characters 仅支持语音对话，这次更新将交互从纯音频扩展为双向视觉。

Runway Characters 于 3 月 9 日发布，基于公司的通用世界模型 GWM-1 构建，能从单张图片生成具有完整表情、口型同步和手势的数字角色，支持写实和动画风格，无需微调。新增的视觉输入复用了原有的 WebRTC 音频通道，开发者无需为视频建立单独连接。

实际应用场景包括：客服角色通过摄像头直接查看用户手中的故障设备，教育角色观察学生屏幕上的作业给出反馈，技术支持角色直接看到错误信息而非让用户口述。目前没有其他主流 AI 视频平台通过生产级 API 提供类似的实时视觉感知能力，HeyGen 和 Synthesia 等数字人平台仍以预录或脚本驱动的视频为主。

原文链接

纠错/举报