据 1M AI News 监测,AI 视频生成公司 Runway 为其数字角色平台 Characters API 新增摄像头和屏幕共享功能。用户可以将实时摄像头画面或屏幕内容共享给 AI 角色,角色能看到、理解并实时回应画面中的内容,如识别桌上的物体、阅读屏幕上的文字、判断空间关系等。此前 Characters 仅支持语音对话,这次更新将交互从纯音频扩展为双向视觉。
Runway Characters 于 3 月 9 日发布,基于公司的通用世界模型 GWM-1 构建,能从单张图片生成具有完整表情、口型同步和手势的数字角色,支持写实和动画风格,无需微调。新增的视觉输入复用了原有的 WebRTC 音频通道,开发者无需为视频建立单独连接。
实际应用场景包括:客服角色通过摄像头直接查看用户手中的故障设备,教育角色观察学生屏幕上的作业给出反馈,技术支持角色直接看到错误信息而非让用户口述。目前没有其他主流 AI 视频平台通过生产级 API 提供类似的实时视觉感知能力,HeyGen 和 Synthesia 等数字人平台仍以预录或脚本驱动的视频为主。