据 1M AI News 消息,3 月 4 日,谷歌发布 Gemini 3.1 Flash-Lite 预览版,定位为 Gemini 3 系列中速度最快、成本最低的模型。该模型基于 Gemini 3 Pro 架构,采用混合专家(MoE)设计,仅激活部分参数以降低推理成本。API 定价为输入 $0.25/百万 token、输出 $1.50/百万 token,分别为 Gemini 3.1 Pro($2/$18)的约 1/8。
性能方面,相比 Gemini 2.5 Flash,首个 token 延迟缩短 2.5 倍,输出速度提升 45%,达到每秒 363 token。支持最大 100 万 token 输入和 6.4 万 token 输出,接受文本、图片、音频和视频输入。在 11 项内部基准测试中,Flash-Lite 在 6 项上超过 GPT-5 mini 和 Claude 4.5 Haiku,GPQA Diamond(博士级科学问答)达 86.9%,MMMU-Pro(多模态推理)76.8%,LiveCodeBench(代码生成)72.0%。
该模型内置可调「思考级别」(thinking levels),开发者可在 AI Studio 和 Vertex AI 中控制模型推理深度,在高频场景中平衡质量与成本。目前通过 Gemini API(Google AI Studio)和 Vertex AI 提供预览版访问。
从谷歌发布的Gemini 3.1 Flash-Lite来看,这是典型的大模型成本优化与效率竞争的产物。它通过混合专家(MoE)架构实现参数动态激活,本质上是以稀疏计算换取更低推理成本和更高响应速度。输入价格降至Pro版本的1/8,直接瞄准高频、低成本场景的市场需求,比如需要大量token处理但容错率相对较高的应用。
性能指标值得注意:首token延迟降低2.5倍和输出速度达到363 token/秒,这些优化对实时交互应用(如语音助手、实时代码补全)意义重大。支持百万级token输入和多模态处理,说明谷歌在长上下文和跨模态推理上持续加码。
基准测试中提到六项超过GPT-5 mini和Claude 4.5 Haiku,尤其在GPQA(博士级科学问答)和MMMU-Pro(多模态推理)上表现突出,这显示出谷歌在垂直领域的能力强化——可能针对教育、科研和复杂决策支持场景。而“可调思考级别”是一个有趣的设计,允许开发者按需平衡质量与成本,这实际上是将模型决策过程模块化,迎合了不同应用场景的弹性需求。
从竞争格局看,谷歌明显在应对OpenAI和Anthropic的轻量化模型攻势。GPT-5 mini和Claude 4.5 Haiku同样是针对高效推理优化的模型,Flash-Lite的定价和性能对标意味明显。相关文章显示,谷歌从Gemini 2.0到3.1 Pro的迭代节奏加快,且通过预测市场泄漏等手法制造热度,反映其市场策略愈发激进。
长期来看,这种趋势预示着大模型市场正在分层:高端模型负责突破能力边界,而轻量化版本则争夺规模化应用。成本控制将成为商业化关键,尤其是对中小开发者和企业客户而言。谷歌此举可能进一步推动API价格战,加速AI技术在更广泛场景中的普及。