Gemini API 支持 PDF 输入，包括长文档（最多 1, 000 页）。 Gemini 模型使用原生视觉功能处理 PDF，因此能够理解文档中的文本和图片内容。借助原生 PDF 视觉支持，Gemini 模型能够：

分析文档中的图表、图表和表格

将信息提取为结构化输出格式

回答有关文档中视觉内容和文本内容的问题

总结文档

转写文档内容（例如转写为 HTML），保留布局和格式，以便在下游应用中使用

PDF 输入

对于小于 20MB 的 PDF 载荷，您可以选择上传 base64 编码的文档，也可以直接上传本地存储的文件。

作为内嵌数据
您可以直接通过网址处理 PDF 文档。以下代码段展示了如何执行此操作：

Gemini文档理解