Gemini音频理解
本指南介绍了如何使用 Gemini API 针对音频输入生成文本回答。
支持的音频格式
MP3 - audio/mp3
AIFF - audio/aiff
AAC - audio/aac
OGG Vorbis - audio/ogg
FLAC - audio/flac
音频的技术详情
Gemini 可以“理解”非语音内容,例如鸟鸣或警笛。
单个问题中音频数据的支持时长上限为 9.5 小时。Gemini 不限制单个问题中的音频文件数量;不过,单个问题中的所有音频文件总时长不得超过 9.5 小时。
Gemini 会将音频文件下采样为 16 Kbps 的数据分辨率。
如果音频源包含多个声道,Gemini 会将这些声道合并为一个声道。
示例:
修改于 2025-06-24 02:30:31