谷歌发布Gemini 3.1 Flash-Lite，输入价格为Pro的1/8，6项基准超GPT-5 mini和Claude 4.5 Haiku

据 1M AI News 消息，3 月 4 日，谷歌发布 Gemini 3.1 Flash-Lite 预览版，定位为 Gemini 3 系列中速度最快、成本最低的模型。该模型基于 Gemini 3 Pro 架构，采用混合专家（MoE）设计，仅激活部分参数以降低推理成本。API 定价为输入 $0.25/百万 token、输出 $1.50/百万 token，分别为 Gemini 3.1 Pro（$2/$18）的约 1/8。

性能方面，相比 Gemini 2.5 Flash，首个 token 延迟缩短 2.5 倍，输出速度提升 45%，达到每秒 363 token。支持最大 100 万 token 输入和 6.4 万 token 输出，接受文本、图片、音频和视频输入。在 11 项内部基准测试中，Flash-Lite 在 6 项上超过 GPT-5 mini 和 Claude 4.5 Haiku，GPQA Diamond（博士级科学问答）达 86.9%，MMMU-Pro（多模态推理）76.8%，LiveCodeBench（代码生成）72.0%。

该模型内置可调「思考级别」（thinking levels），开发者可在 AI Studio 和 Vertex AI 中控制模型推理深度，在高频场景中平衡质量与成本。目前通过 Gemini API（Google AI Studio）和 Vertex AI 提供预览版访问。

AI 解读

从谷歌发布的Gemini 3.1 Flash-Lite来看，这是典型的大模型成本优化与效率竞争的产物。它通过混合专家（MoE）架构实现参数动态激活，本质上是以稀疏计算换取更低推理成本和更高响应速度。输入价格降至Pro版本的1/8，直接瞄准高频、低成本场景的市场需求，比如需要大量token处理但容错率相对较高的应用。

性能指标值得注意：首token延迟降低2.5倍和输出速度达到363 token/秒，这些优化对实时交互应用（如语音助手、实时代码补全）意义重大。支持百万级token输入和多模态处理，说明谷歌在长上下文和跨模态推理上持续加码。

基准测试中提到六项超过GPT-5 mini和Claude 4.5 Haiku，尤其在GPQA（博士级科学问答）和MMMU-Pro（多模态推理）上表现突出，这显示出谷歌在垂直领域的能力强化——可能针对教育、科研和复杂决策支持场景。而“可调思考级别”是一个有趣的设计，允许开发者按需平衡质量与成本，这实际上是将模型决策过程模块化，迎合了不同应用场景的弹性需求。

从竞争格局看，谷歌明显在应对OpenAI和Anthropic的轻量化模型攻势。GPT-5 mini和Claude 4.5 Haiku同样是针对高效推理优化的模型，Flash-Lite的定价和性能对标意味明显。相关文章显示，谷歌从Gemini 2.0到3.1 Pro的迭代节奏加快，且通过预测市场泄漏等手法制造热度，反映其市场策略愈发激进。

长期来看，这种趋势预示着大模型市场正在分层：高端模型负责突破能力边界，而轻量化版本则争夺规模化应用。成本控制将成为商业化关键，尤其是对中小开发者和企业客户而言。谷歌此举可能进一步推动API价格战，加速AI技术在更广泛场景中的普及。

展开

原文链接

纠错/举报