多模态模型 API 详细教程

本文介绍 Matpool Token API 中图像、视频、视觉理解、音频和向量等多模态模型的接口地址、参数说明与调用示例。

模型路由：https://token.matpool.com/v1

路由规则与 OpenAI 标准一致

鉴权方式：Authorization: Bearer YOUR_API_TOKEN

文本模型基础调用说明请参考模型 API 教程

一、图像生成模型（IMAGE）

1.1 支持的模型

模型名称	说明	特点
GPT-Image-2	GPT-Image-2 最新图像模型（稳定官方渠道）	支持自定义分辨率（最高 4K），quality 枚举（auto/low/medium/high），仅支持 base64 输出（b64_json），不支持 URL 返回
GPT-Image-2-4K	GPT-Image-2 系列 4K 高分辨率模型	支持 1-4K 自定义分辨率，quality 枚举（auto/low/medium/high），支持 base64 和 URL 返回
GPT-Image-2-Spot	OpenAI 最新图像模型（闲时资源版）	仅支持 1.5K 分辨率，不支持自定义分辨率和 quality 参数，支持 base64 和 URL 返回，价格更优
GPT-Image-2-Flash	OpenAI 最新图像模型（简化版）	仅支持 1K 分辨率和 URL 返回，价格更优
Nano-Banana	Gemini 2.5 Flash Image	速度快，编辑能力强，性价比高
Nano-Banana-2	Gemini 高效视觉生成	快速交互式响应，高并发出图
Nano-Banana-2-Lite	Gemini 3.1 Flash Lite Image	超低延迟 Chat 模式，多轮本地修改，交织生成
Nano-Banana-Pro	Gemini 3 Pro Image	复杂多轮图像生成与编辑，具备思维推理能力
Nano-Banana-Spot	Nano-Banana 闲时资源	价格便宜，稳定性可能波动
Nano-Banana-2-Spot	Nano-Banana-2 闲时资源	价格便宜，性价比高
Nano-Banana-Pro-Spot	Nano-Banana-Pro 闲时资源	价格便宜，质量高
Qwen-Image-2.0	千问文生图	中文文本渲染突出，亚洲人像表现好
Qwen-Image-2.0-Pro	千问文生图专业版	中文文本渲染增强
Doubao-Seedream-4.0	豆包图像创作	多图融合，组图生成，主体一致性
Doubao-Seedream-4.5	豆包图像创作升级版	人像美化，图像美学增强
Doubao-Seedream-5.0-lite	豆包最新图像创作	联网检索，精准解析复杂指令
Wan2.7	万相2.7 图像生成与编辑	多图参考，主体一致性
Wan2.7-pro	万相2.7 旗舰版	复杂指令遵循，文字渲染更强

Spot 模型说明：Spot（闲时资源）模型价格更低，但稳定性可能因供应问题波动，适合对成功率无极高要求的场景。

1.2 接口地址

图像模型按 OpenAI 标准接口调用。文生图使用生成端点；支持图像输入的编辑/图生图场景使用编辑端点。

text
复制代码
POST https://token.matpool.com/v1/images/generations
POST https://token.matpool.com/v1/images/edits

注意：不同模型系列的请求参数格式有差异，请根据所使用的模型参考对应的参数说明。Nano-Banana 原版、Qwen-Image 和 Wan2.7 系列的图生图/编辑使用 /v1/images/edits；Nano-Banana Spot 和 Doubao-Seedream 系列按上游文档使用 /v1/images/generations，并在同一个请求体中传 image。

1.3 GPT-Image-2

GPT-Image-2 稳定渠道，支持自定义分辨率（最高 4K），输出仅支持 Base64 格式（b64_json），不支持 URL 返回。

注意：当前模型仅支持 b64_json 返回。请求中即使传入 response_format: "url"，也仅返回 b64_json。

请求参数

文生图（POST /v1/images/generations）

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，固定为 `GPT-Image-2`
`prompt`	string	是	—	图像描述文本，最长 5000 字符
`n`	integer	否	1	生成图片数量，范围 1~10
`size`	string	否	`auto`	图片尺寸，支持自定义像素分辨率（见下方说明）
`quality`	string	否	`auto`	图像质量：`auto`、`low`、`medium`、`high`
`background`	string	否	`auto`	背景生成方式：`transparent`（透明背景）、`opaque`（纯色背景）、`auto`（自动选择）
`output_format`	string	否	`auto`	输出格式：`png`、`webp`、`jpeg`、`auto`

size 参数说明

GPT-Image-2 在 size 参数中支持传入任意像素分辨率，但需要满足以下约束条件。

常用分辨率（按宽高比分类）：

比例	1K	2K	4K
1:1	`1024x1024`	`2048x2048`	`2880x2880`
2:3	`816x1232`	`1360x2048`	`2352x3520`
3:2	`1232x816`	`2048x1360`	`3520x2352`
3:4	`880x1184`	`1552x2080`	`2336x3120`
4:3	`1184x880`	`2080x1552`	`3120x2336`
16:9	`1360x768`	`2048x1152`	`3536x1984`
9:16	`768x1360`	`1152x2048`	`1984x3536`
auto	—	—	—

说明：上表中 auto 表示由模型自动选择最佳尺寸。

尺寸限制：

最大边长必须 小于或等于 3840px
宽和高都必须是 16px 的整数倍
长边与短边的比例不能超过 3:1
总像素数必须 不少于 655,360，且不超过 8,294,400

注意：上表中的分辨率均已通过约束验证。如需自定义尺寸，请确保满足以上所有限制条件。

调用示例

文生图（Base64 返回）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2",
    "prompt": "一只可爱的橘猫坐在窗台上，阳光透过窗帘洒在它身上，水彩画风格",
    "size": "1024x1024",
    "quality": "auto"
  }'

Python 示例

python
复制代码
import base64
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.images.generate(
    model="GPT-Image-2",
    prompt="一只可爱的橘猫坐在窗台上，阳光透过窗帘洒在它身上，水彩画风格",
    size="1024x1024",
    quality="auto"
)

# 该渠道仅返回 b64_json，解码并保存图片
image_data = base64.b64decode(response.data[0].b64_json)
with open("output.png", "wb") as f:
    f.write(image_data)

4K 高分辨率生成

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2",
    "prompt": "一张超高清的山川风景照片，细节丰富",
    "size": "3840x2160",
    "quality": "high",
    "output_format": "png"
  }'

Python 示例

python
复制代码
import base64

response = client.images.generate(
    model="GPT-Image-2",
    prompt="一张超高清的山川风景照片，细节丰富",
    size="3840x2160",
    quality="high",
    output_format="png"
)

image_data = base64.b64decode(response.data[0].b64_json)
with open("output_4k.png", "wb") as f:
    f.write(image_data)

多图生成（n > 1）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2",
    "prompt": "一只可爱的橘猫在草地上玩耍，自然光线",
    "n": 4,
    "size": "1024x1024",
    "quality": "medium"
  }'

Python 示例

python
复制代码
import base64

response = client.images.generate(
    model="GPT-Image-2",
    prompt="一只可爱的橘猫在草地上玩耍，自然光线",
    n=4,
    size="1024x1024",
    quality="medium"
)

for i, data in enumerate(response.data):
    image_data = base64.b64decode(data.b64_json)
    with open(f"output_{i}.png", "wb") as f:
        f.write(image_data)

透明背景生成（background 参数）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2",
    "prompt": "一个简约的苹果标志，矢量风格",
    "size": "1024x1024",
    "background": "transparent",
    "output_format": "png"
  }'

Python 示例

python
复制代码
response = client.images.generate(
    model="GPT-Image-2",
    prompt="一个简约的苹果标志，矢量风格",
    size="1024x1024",
    background="transparent",
    output_format="png"
)

image_data = base64.b64decode(response.data[0].b64_json)
with open("logo.png", "wb") as f:
    f.write(image_data)

图生图 / 图像编辑（multipart/form-data）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/edits \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -F "model=GPT-Image-2" \
  -F "prompt=将图片中的角色改为在吃饭的姿态" \
  -F "image=@reference.jpg" \
  -F "size=1024x1024" \
  -F "quality=high"

注意：图生图使用 multipart/form-data 格式，image 参数需通过 -F 上传本地图片文件。

Python 示例

python
复制代码
import base64

# 图生图需要使用 multipart/form-data 方式传入图片
with open("reference.jpg", "rb") as f:
    response = client.images.edit(
        model="GPT-Image-2",
        prompt="将图片中的角色改为在吃饭的姿态",
        image=f,
        size="1024x1024",
        quality="high"
    )

image_data = base64.b64decode(response.data[0].b64_json)
with open("output_edit.png", "wb") as f:
    f.write(image_data)

带遮罩的局部编辑

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/edits \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -F "model=GPT-Image-2" \
  -F "prompt=给人物添加一顶红色的帽子" \
  -F "image=@person.jpg" \
  -F "mask=@mask.png" \
  -F "size=1024x1024" \
  -F "quality=high"

Python 示例

python
复制代码
with open("person.jpg", "rb") as img, open("mask.png", "rb") as msk:
    response = client.images.edit(
        model="GPT-Image-2",
        prompt="给人物添加一顶红色的帽子",
        image=img,
        mask=msk,
        size="1024x1024",
        quality="high"
    )

image_data = base64.b64decode(response.data[0].b64_json)
with open("output_masked.png", "wb") as f:
    f.write(image_data)

响应格式

GPT-Image-2 固定返回 Base64 格式的图片数据：

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "b64_json": "iVBORw0KGgo..." }
  ]
}

字段	类型	说明
`created`	integer	创建时间的 Unix 时间戳
`data`	array	生成结果数组，每个元素包含 `b64_json` 字段

费用参考

GPT-Image-2 按输出图像 Token 计费（$30/1M tokens），以下为官方公布的常见分辨率在各质量档位下的单张图像参考费用（文生图，不含输入 Token）：

分辨率（对应文档常用尺寸）	Low	Medium	High
1024×1024（1K 1:1）	$0.006	$0.053	$0.211
1024×1536（接近 1K 2:3: 816×1232）	$0.005	$0.042	$0.165
1536×1024（接近 1K 3:2: 1232×816）	$0.005	$0.041	$0.165
1920×1080（接近 1K 16:9: 1360×768）	$0.005	$0.040	$0.158
2560×1440（接近 2K 16:9: 2048×1152）	$0.007	$0.056	$0.222
3840×2160（4K 16:9: 3536×1984）	$0.012	$0.101	$0.401

说明：

以上价格来源于 OpenAI 官方文档中 gpt-image-2 的预设分辨率定价（OpenAI Image Generation Guide），输出 Token 费率 $30/1M tokens。

文档中其他自定义分辨率（如 2K 1:1 的 2048×2048、4K 1:1 的 2880×2880 等）无固定公布价格，实际费用按请求消耗的实际 Token 数计费。

图生图场景还需额外计入输入图像 Token 费用（$8/1M tokens），输入文本 Token 费用（$5/1M tokens）。

该模型通过 Token 平台使用时按固定价格计费，详见 §9.4。

1.4 GPT-Image-2-4K

GPT-Image-2-4K 是 GPT-Image-2 系列的 4K 高分辨率模型，支持 1K 到 4K 自定义分辨率，quality 枚举，输出支持 Base64 格式（b64_json） 和 URL 返回。适用于对分辨率和输出格式有灵活要求的场景。

请求参数

文生图（POST /v1/images/generations）

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，固定为 `GPT-Image-2-4K`
`prompt`	string	是	—	图像描述文本，最长 5000 字符
`size`	string	否	`auto`	图片尺寸，支持自定义像素分辨率（见下方说明）
`quality`	string	否	`auto`	图像质量：`auto`、`low`、`medium`、`high`
`response_format`	string	否	`url`	返回格式：`url`（返回临时链接）或 `base64`（返回 Base64 编码数据）
`image`	string / array	否	—	参考图像，用于图生图。支持 URL 或 Base64，单张传字符串，多张传数组 `["url1", "url2"]`

size 参数说明

GPT-Image-2-4K 在 size 参数中支持传入任意像素分辨率，但需要满足以下约束条件。

常用分辨率（按宽高比分类）：

比例	1K	2K	4K
1:1	`1024x1024`	`2048x2048`	`2880x2880`
2:3	`816x1232`	`1360x2048`	`2352x3520`
3:2	`1232x816`	`2048x1360`	`3520x2352`
3:4	`880x1184`	`1552x2080`	`2336x3120`
4:3	`1184x880`	`2080x1552`	`3120x2336`
16:9	`1360x768`	`2048x1152`	`3536x1984`
9:16	`768x1360`	`1152x2048`	`1984x3536`
auto	—	—	—

说明：上表中 auto 表示由模型自动选择最佳尺寸。

尺寸限制：

最大边长必须 小于或等于 3840px
宽和高都必须是 16px 的整数倍
长边与短边的比例不能超过 3:1
总像素数必须 不少于 655,360，且不超过 8,294,400

注意：上表中的分辨率均已通过约束验证。如需自定义尺寸，请确保满足以上所有限制条件。

调用示例

文生图（URL 返回）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-4K",
    "prompt": "一只可爱的橘猫坐在窗台上，阳光透过窗帘洒在它身上，水彩画风格",
    "size": "1024x1024",
    "quality": "auto",
    "response_format": "url"
  }'

Python 示例

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.images.generate(
    model="GPT-Image-2-4K",
    prompt="一只可爱的橘猫坐在窗台上，阳光透过窗帘洒在它身上，水彩画风格",
    size="1024x1024",
    quality="auto",
    response_format="url"
)

# 获取图片 URL
print(response.data[0].url)

文生图（Base64 返回）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-4K",
    "prompt": "一幅未来城市的概念艺术画",
    "quality": "medium",
    "response_format": "base64"
  }'

Python 示例

python
复制代码
import base64

response = client.images.generate(
    model="GPT-Image-2-4K",
    prompt="一幅未来城市的概念艺术画",
    quality="medium",
    response_format="base64"
)

# 解码 Base64 并保存图片
image_data = base64.b64decode(response.data[0].b64_json)
with open("output.png", "wb") as f:
    f.write(image_data)

4K 高分辨率生成

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-4K",
    "prompt": "一张超高清的山川风景照片，细节丰富",
    "size": "3840x2160",
    "quality": "high",
    "response_format": "url"
  }'

Python 示例

python
复制代码
response = client.images.generate(
    model="GPT-Image-2-4K",
    prompt="一张超高清的山川风景照片，细节丰富",
    size="3840x2160",
    quality="high",
    response_format="url"
)

print(response.data[0].url)

图生图（参考图像编辑）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-4K",
    "prompt": "将图片中的角色改为在吃饭的姿态",
    "image": "https://example.com/reference_image.jpg",
    "size": "1024x1024",
    "response_format": "url"
  }'

Python 示例

python
复制代码
import base64

# 方式一：通过 URL 传入参考图像
response = client.images.generate(
    model="GPT-Image-2-4K",
    prompt="将图片中的角色改为在吃饭的姿态",
    image="https://example.com/reference_image.jpg",
    size="1024x1024",
    response_format="url"
)

# 方式二：通过 Base64 传入本地图像
with open("reference.jpg", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.images.generate(
    model="GPT-Image-2-4K",
    prompt="将图片中的角色改为在吃饭的姿态",
    image=f"data:image/jpeg;base64,{image_base64}",
    size="1024x1024",
    response_format="url"
)

print(response.data[0].url)

多图参考输入

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-4K",
    "prompt": "融合这两张图片的风格，生成一张新图",
    "image": ["https://example.com/image1.jpg", "https://example.com/image2.jpg"],
    "size": "1024x1024",
    "response_format": "url"
  }'

Python 示例

python
复制代码
response = client.images.generate(
    model="GPT-Image-2-4K",
    prompt="融合这两张图片的风格，生成一张新图",
    image=[
        "https://example.com/image1.jpg",
        "https://example.com/image2.jpg"
    ],
    size="1024x1024",
    response_format="url"
)

print(response.data[0].url)

响应格式

URL 返回（response_format: "url"）：

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "url": "https://..." }
  ]
}

Base64 返回（response_format: "base64"）：

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "b64_json": "iVBORw0KGgo..." }
  ]
}

字段	类型	说明
`created`	integer	创建时间的 Unix 时间戳
`data`	array	生成结果数组，根据 `response_format` 包含 `url` 或 `b64_json` 字段

1.5 GPT-Image-2-Spot

GPT-Image-2-Spot 是闲时资源版本，价格更优。仅支持 1.5K 分辨率，不支持自定义分辨率和 quality 参数，支持 base64 和 url 两种返回格式。适用于对成功率无极高要求的场景。

请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，固定为 `GPT-Image-2-Spot`
`prompt`	string	是	—	图像描述文本，最长 5000 字符
`size`	string	否	`auto`	图片尺寸，仅支持固定 1.5K 分辨率（见下方说明）
`response_format`	string	否	`url`	返回格式：`url`（返回临时链接）或 `base64`（返回 Base64 编码数据）
`image`	string / array	否	—	参考图像，用于图生图。支持 URL 或 Base64，单张传字符串，多张传数组 `["url1", "url2"]`

size 参数说明

GPT-Image-2-Spot 仅支持 1.5K 分辨率，不支持自定义分辨率和 quality 参数。默认使用 auto 由模型自动选择最佳比例。

支持的比例与分辨率：

比例	分辨率
1:1	`1254x1254`
2:3	`1024x1536`
3:2	`1536x1024`
3:4	`1086x1448`
4:3	`1448x1086`
4:5	`1122x1402`
5:4	`1402x1122`
16:9	`1672x941`
9:16	`941x1672`
21:9	`1915x821`
9:21	`821x1915`
auto	自动选择

说明：传入 auto 或留空 size 参数时，模型自动选择最适合提示词的比例和分辨率。quality 参数不支持，即使传入也无效。

调用示例

文生图（URL 返回）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-Spot",
    "prompt": "一只可爱的橘猫坐在窗台上，阳光透过窗帘洒在它身上，水彩画风格",
    "size": "1254x1254",
    "response_format": "url"
  }'

Python 示例

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.images.generate(
    model="GPT-Image-2-Spot",
    prompt="一只可爱的橘猫坐在窗台上，阳光透过窗帘洒在它身上，水彩画风格",
    size="1254x1254",
    response_format="url"
)

# 获取图片 URL
print(response.data[0].url)

文生图（Base64 返回）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-Spot",
    "prompt": "一幅未来城市的概念艺术画",
    "response_format": "base64"
  }'

Python 示例

python
复制代码
import base64

response = client.images.generate(
    model="GPT-Image-2-Spot",
    prompt="一幅未来城市的概念艺术画",
    response_format="base64"
)

# 解码 Base64 并保存图片
image_data = base64.b64decode(response.data[0].b64_json)
with open("output.png", "wb") as f:
    f.write(image_data)

图生图（参考图像编辑）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-Spot",
    "prompt": "将图片中的角色改为在吃饭的姿态",
    "image": "https://example.com/reference_image.jpg",
    "size": "1254x1254",
    "response_format": "url"
  }'

Python 示例

python
复制代码
import base64

# 方式一：通过 URL 传入参考图像
response = client.images.generate(
    model="GPT-Image-2-Spot",
    prompt="将图片中的角色改为在吃饭的姿态",
    image="https://example.com/reference_image.jpg",
    size="1254x1254",
    response_format="url"
)

# 方式二：通过 Base64 传入本地图像
with open("reference.jpg", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.images.generate(
    model="GPT-Image-2-Spot",
    prompt="将图片中的角色改为在吃饭的姿态",
    image=f"data:image/jpeg;base64,{image_base64}",
    size="1254x1254",
    response_format="url"
)

print(response.data[0].url)

多图参考输入

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-Spot",
    "prompt": "融合这两张图片的风格，生成一张新图",
    "image": ["https://example.com/image1.jpg", "https://example.com/image2.jpg"],
    "size": "1254x1254",
    "response_format": "url"
  }'

Python 示例

python
复制代码
response = client.images.generate(
    model="GPT-Image-2-Spot",
    prompt="融合这两张图片的风格，生成一张新图",
    image=[
        "https://example.com/image1.jpg",
        "https://example.com/image2.jpg"
    ],
    size="1254x1254",
    response_format="url"
)

print(response.data[0].url)

响应格式

URL 返回（response_format: "url"）：

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "url": "https://..." }
  ]
}

Base64 返回（response_format: "base64"）：

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "b64_json": "iVBORw0KGgo..." }
  ]
}

字段	类型	说明
`created`	integer	创建时间的 Unix 时间戳
`data`	array	生成结果数组，根据 `response_format` 包含 `url` 或 `b64_json` 字段

1.6 GPT-Image-2-Flash

OpenAI 最新模型的简化/特价版，返回参数已经做了简化配置，适用于需要快速接入且对高级参数/分辨率无特殊要求的场景。

请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，固定为 `GPT-Image-2-Flash`
`prompt`	string	是	—	图像描述文本，最长 5000 字符
`size`	string	否	`auto`	图片尺寸，支持比例格式和像素格式（见下方说明）
`image`	string / array	否	—	参考图像，用于图生图。支持 URL 或 Base64，单张传字符串，多张传数组 `["url1", "url2"]`

size 参数说明

GPT-Image-2-Flash 支持自定义像素分辨率，支持分辨率：1K：

自定义分辨率：

宽高必须为 16 的整数倍
长短边比不超过 3:1

常用分辨率：1024x1024、1536x1024、1024x1536、auto

调用示例

文生图

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-Flash",
    "prompt": "一只可爱的橘猫坐在窗台上，阳光透过窗帘洒在它身上，水彩画风格",
    "size": "1024x1024"
  }'

Python 示例

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.images.generate(
    model="GPT-Image-2-Flash",
    prompt="一只可爱的橘猫坐在窗台上，阳光透过窗帘洒在它身上，水彩画风格",
    size="1024x1024"
)

# 获取图片 URL
print(response.data[0].url)

图生图（参考图像编辑）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-Flash",
    "prompt": "将图片中的角色改为在吃饭的姿态",
    "image": "https://example.com/reference_image.jpg",
    "size": "1024x1024"
  }'

Python 示例

python
复制代码
from openai import OpenAI
import base64

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

# 方式一：通过 URL 传入参考图像
response = client.images.generate(
    model="GPT-Image-2-Flash",
    prompt="将图片中的角色改为在吃饭的姿态",
    image="https://example.com/reference_image.jpg",
    size="1024x1024"
)

# 方式二：通过 Base64 传入本地图像
with open("reference.jpg", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.images.generate(
    model="GPT-Image-2-Flash",
    prompt="将图片中的角色改为在吃饭的姿态",
    image=f"data:image/jpeg;base64,{image_base64}",
    size="1024x1024"
)

print(response.data[0].url)

多图参考输入

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "GPT-Image-2-Flash",
    "prompt": "融合这两张图片的风格，生成一张新图",
    "image": ["https://example.com/image1.jpg", "https://example.com/image2.jpg"],
    "size": "1024x1024"
  }'

Python 示例

python
复制代码
response = client.images.generate(
    model="GPT-Image-2-Flash",
    prompt="融合这两张图片的风格，生成一张新图",
    image=[
        "https://example.com/image1.jpg",
        "https://example.com/image2.jpg"
    ],
    size="1024x1024"
)

print(response.data[0].url)

响应格式

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "url": "https://..." }
  ]
}

字段	类型	说明
`created`	integer	创建时间的 Unix 时间戳
`data`	array	生成结果数组，每个元素包含 `url` 字段

1.7 Nano-Banana 系列

Nano-Banana 原版系列包含 Gemini 图像模型的多个版本，覆盖快速 1K 出图、高质量 2K/4K 出图和复杂图像编辑。原版系列与 Spot 系列的接口用法不同：原版图生图/编辑使用 /v1/images/edits，Spot 系列请见 §1.8。

模型对应关系

Token 模型名称	对应官方模型	推荐场景	分辨率能力
`Nano-Banana`	`gemini-2.5-flash-image`	快速文生图、基础图像编辑	1K
`Nano-Banana-Pro`	`gemini-3.0-pro-image-preview`	高质量生成、复杂指令、多图编辑	支持 2K / 4K
`Nano-Banana-2`	`gemini-3.1-flash-image-preview`	新一代快速高质量出图、多图融合	支持 2K / 4K
`Nano-Banana-2-Lite`	`gemini-3.1-flash-lite-image`	超低延迟文生图、多轮本地修改、交织生成	仅 1K（1024px）

注意：Nano-Banana-2-Lite 与其他 Nano-Banana 模型的调用方式不同，该模型仅支持 Chat 模式（/v1/chat/completions），详情见下方 §1.7.4。

接口地址

text
复制代码
文生图：POST https://token.matpool.com/v1/images/generations
图生图 / 图像编辑：POST https://token.matpool.com/v1/images/edits

注意：以上接口适用于 Nano-Banana、Nano-Banana-Pro、Nano-Banana-2。Nano-Banana-2-Lite 使用 Chat Completions 接口，见下方专属章节。

文生图请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称：`Nano-Banana`、`Nano-Banana-Pro`、`Nano-Banana-2`
`prompt`	string	是	—	图像描述文本，建议清晰描述主体、风格、构图、光线和输出目标
`size`	string	否	`1x1`	图片比例，格式为 `宽比x高比`，如 `1x1`、`16x9`、`9x16`
`quality`	string	否	—	图像质量档位：`2k`、`4k`。适用于 `Nano-Banana-Pro`、`Nano-Banana-2`；`Nano-Banana` 基础版固定 1K，通常不传
`response_format`	string	否	`url`	返回格式：`url`（临时图片链接）或 `b64_json`（Base64 编码）

图生图 / 图像编辑请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，同文生图
`image`	string / array	是	—	输入图像。支持图片 URL、Base64，单图传字符串，多图传数组
`prompt`	string	是	—	编辑指令，如风格转换、局部修改、主体融合、场景替换等
`mask`	string	否	—	遮罩图，用于局部精确编辑；更适合 `Nano-Banana-Pro`、`Nano-Banana-2` 系列
`size`	string	否	`1x1`	输出图片比例，格式同文生图
`quality`	string	否	—	图像质量档位，适用范围同文生图
`response_format`	string	否	`url`	返回格式：`url` 或 `b64_json`

size 参数说明（Nano-Banana 系列专用）

Nano-Banana 系列使用比例格式，常用比例与 1K 参考分辨率如下：

参数值	比例	1K 参考分辨率	适用场景
`1x1`	1:1	1024×1024	头像、商品图、通用方图
`2x3`	2:3	832×1248	竖版海报、人像
`3x2`	3:2	1248×832	横版摄影、封面图
`3x4`	3:4	864×1184	竖版内容图
`4x3`	4:3	1184×864	横版内容图
`4x5`	4:5	896×1152	社媒竖图
`5x4`	5:4	1152×896	社媒横图
`9x16`	9:16	768×1344	手机壁纸、短视频封面
`16x9`	16:9	1344×768	横版封面、演示页
`21x9`	21:9	1536×672	超宽横幅

注意：这里的 size 是比例值（如 16x9），不是像素值（如 1344x768）。需要更高分辨率时使用 quality: "2k" 或 quality: "4k"，不要把 size 改成像素分辨率。

响应格式

URL 返回（response_format: "url"）：

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "url": "https://..." }
  ]
}

Base64 返回（response_format: "b64_json"）：

json
复制代码
{
  "created": 1234567890,
  "data": [
    { "b64_json": "iVBORw0KGgoAAAANSUhEUgA..." }
  ],
  "output_format": "png",
  "usage": {
    "total_tokens": 5234,
    "input_tokens": 1234,
    "output_tokens": 4000,
    "input_tokens_details": {
      "text_tokens": 234,
      "image_tokens": 1000
    }
  }
}

字段	类型	说明
`created`	integer	创建时间的 Unix 时间戳
`data`	array	生成结果数组，根据 `response_format` 包含 `url` 或 `b64_json` 字段
`output_format`	string	输出图片格式，通常为 `png`；Base64 返回时可能出现
`usage`	object	Token 用量信息；部分上游返回，包含文本和图像 token 明细

1.7.1 Nano-Banana

Nano-Banana 对应 Gemini 2.5 Flash Image，适合快速文生图和基础图像编辑，固定 1K 分辨率。

文生图

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana",
    "prompt": "一只可爱的橘猫坐在窗台上看着夕阳，照片风格，高清画质",
    "size": "1x1",
    "response_format": "url"
  }'

Python 示例

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.images.generate(
    model="Nano-Banana",
    prompt="一只可爱的橘猫坐在窗台上看着夕阳，照片风格，高清画质",
    size="1x1",
    response_format="url"
)

print(response.data[0].url)

1.7.2 Nano-Banana-2

Nano-Banana-2 对应 Gemini 3.1 Flash Image Preview，支持 2K / 4K 高质量出图和多图融合。

文生图（2K）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana-2",
    "prompt": "一幅超现实主义的城市风景画，建筑物倒映在水面上，色彩鲜明",
    "size": "16x9",
    "quality": "2k",
    "response_format": "url"
  }'

Python 示例

python
复制代码
response = client.images.generate(
    model="Nano-Banana-2",
    prompt="一幅超现实主义的城市风景画，建筑物倒映在水面上，色彩鲜明",
    size="16x9",
    quality="2k",
    response_format="url"
)

print(response.data[0].url)

多图融合

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/edits \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana-2",
    "image": [
      "https://example.com/cat1.png",
      "https://example.com/cat2.png"
    ],
    "prompt": "将这两张图片中的角色放在同一场景中，保持主体外观一致",
    "size": "3x2",
    "quality": "4k",
    "response_format": "url"
  }'

Python 示例

python
复制代码
import requests

response = requests.post(
    "https://token.matpool.com/v1/images/edits",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Nano-Banana-2",
        "image": [
            "https://example.com/cat1.png",
            "https://example.com/cat2.png"
        ],
        "prompt": "将这两张图片中的角色放在同一场景中，保持主体外观一致",
        "size": "3x2",
        "quality": "4k",
        "response_format": "url"
    }
)
response.raise_for_status()

print(response.json()["data"][0]["url"])

1.7.3 Nano-Banana-Pro

Nano-Banana-Pro 对应 Gemini 3.0 Pro Image Preview，适用于高质量生成、复杂指令和多图编辑，支持 2K / 4K。

文生图（4K）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana-Pro",
    "prompt": "一只穿着太空服的猫咪在月球上漫步，背景是地球，电影感光照，细节丰富",
    "size": "16x9",
    "quality": "4k",
    "response_format": "url"
  }'

Python 示例

python
复制代码
response = client.images.generate(
    model="Nano-Banana-Pro",
    prompt="一只穿着太空服的猫咪在月球上漫步，背景是地球，电影感光照，细节丰富",
    size="16x9",
    quality="4k",
    response_format="url"
)

print(response.data[0].url)

图生图 / 风格转换

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/edits \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana-Pro",
    "image": "https://example.com/reference_image.jpg",
    "prompt": "为这个场景添加日落效果，让整体色调更温暖",
    "size": "1x1",
    "response_format": "url"
  }'

Python 示例

python
复制代码
import requests

response = requests.post(
    "https://token.matpool.com/v1/images/edits",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Nano-Banana-Pro",
        "image": "https://example.com/reference_image.jpg",
        "prompt": "为这个场景添加日落效果，让整体色调更温暖",
        "size": "1x1",
        "response_format": "url"
    }
)
response.raise_for_status()

print(response.json()["data"][0]["url"])

Base64 输入图像

Python 示例

python
复制代码
import base64
import requests

with open("reference.png", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode("utf-8")

response = requests.post(
    "https://token.matpool.com/v1/images/edits",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Nano-Banana-Pro",
        "image": f"data:image/png;base64,{image_base64}",
        "prompt": "把图片改成水彩插画风格，保留主体构图",
        "size": "1x1",
        "response_format": "url"
    }
)
response.raise_for_status()

print(response.json()["data"][0]["url"])

1.7.4 Nano-Banana-2-Lite

Nano-Banana-2-Lite 对应官方 Gemini 3.1 Flash Lite Image 模型。与其他 Nano-Banana 模型不同，该模型仅支持 Chat 模式调用（/v1/chat/completions），按 Token 计费，输出图像为 Base64 格式。

核心特性：

低于 2 秒的端到端延迟，适合实时交互场景
交织生成与修改：原生支持文本 → 文本+图片，以及图片+文本 → 文本+图片
针对 1K 分辨率优化（1024×1024 像素），不支持 2K 和 4K
支持 14 种离散宽高比：1:1、3:2、2:3、3:4、4:3、4:5、5:4、9:16、16:9、21:9 等
快速多轮本地修改：交换颜色、创建贴纸、调整背景
保持较高的字符对齐精度
SynthID（始终开启）+ C2PA 水印

接口地址

text
复制代码
POST https://token.matpool.com/v1/chat/completions

请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，固定为 `Nano-Banana-2-Lite`
`messages`	array	是	—	对话消息列表。支持纯文本输入（文生图），也支持在 `content` 中混合传入 `text` 和 `image_url`（图生图/图像编辑）
`temperature`	number	否	1.0	生成随机性（0~2）
`max_tokens`	integer	否	模型默认	最大输出 Token 数

messages 中的图片输入格式（图生图场景）：

json
复制代码
{
  "role": "user",
  "content": [
    { "type": "text", "text": "将这张图片中的猫替换成狗" },
    { "type": "image_url", "image_url": { "url": "https://example.com/cat.jpg" } }
  ]
}

调用示例

文生图（纯文本输入）

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana-2-Lite",
    "messages": [
      {
        "role": "user",
        "content": "Generate an image of a cute orange cat sitting on a windowsill with sunlight streaming through the curtains, watercolor style"
      }
    ]
  }'

python
复制代码
from openai import OpenAI
import base64

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.chat.completions.create(
    model="Nano-Banana-2-Lite",
    messages=[
        {
            "role": "user",
            "content": "Generate an image of a cute orange cat sitting on a windowsill with sunlight streaming through the curtains, watercolor style"
        }
    ]
)

# 输出包含 Base64 编码的图像数据
print(response.choices[0].message.content)

图生图 / 图像编辑（文本+图片输入）

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana-2-Lite",
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "Change the background of this image to a beach sunset" },
          { "type": "image_url", "image_url": { "url": "https://example.com/product.jpg" } }
        ]
      }
    ]
  }'

python
复制代码
response = client.chat.completions.create(
    model="Nano-Banana-2-Lite",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Change the background of this image to a beach sunset"},
                {"type": "image_url", "image_url": {"url": "https://example.com/product.jpg"}}
            ]
        }
    ]
)

print(response.choices[0].message.content)

本地图片 Base64 输入

python
复制代码
import base64
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

with open("local_image.jpg", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="Nano-Banana-2-Lite",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Add a santa hat to the character in this image"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}
                }
            ]
        }
    ]
)

print(response.choices[0].message.content)

响应格式

Nano-Banana-2-Lite 通过 Chat Completions 接口返回，图像数据包含在 choices[0].message.content 中，格式为 Base64 编码：

json
复制代码
{
  "id": "chatcmpl-xxx",
  "object": "chat.completion",
  "created": 1589478378,
  "model": "Nano-Banana-2-Lite",
  "choices": [
    {
      "index": 0,
      "message": {
        "role": "assistant",
        "content": "<base64 编码的图像数据>"
      },
      "finish_reason": "stop"
    }
  ],
  "usage": {
    "prompt_tokens": 1234,
    "completion_tokens": 4000,
    "total_tokens": 5234
  }
}

字段	类型	说明
`id`	string	本次请求的唯一标识
`choices[0].message.content`	string	Base64 编码的输出图像数据
`usage`	object	Token 用量信息，按 Token 计费

1.8 Nano-Banana Spot 系列

Nano-Banana Spot 系列使用闲时资源，价格更低，但成功率和稳定性可能随上游资源波动。Spot 系列的调用方式与原版不同：文生图和图生图/多图融合都使用 /v1/images/generations，图像输入通过请求体里的 image 字段传入，不使用 /v1/images/edits。

模型对应关系

Token 模型名称	对应官方模型	推荐场景	分辨率能力
`Nano-Banana-Spot`	`gemini-2.5-flash-image`	闲时低价、可接受稳定性波动的基础出图	1K
`Nano-Banana-Pro-Spot`	`gemini-3.0-pro-image-preview`	闲时低价的高质量生成与编辑	支持 2K / 4K
`Nano-Banana-2-Spot`	`gemini-3.1-flash-image-preview`	闲时低价的新一代高质量出图、多图融合	支持 2K / 4K

接口地址

text
复制代码
POST https://token.matpool.com/v1/images/generations

请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	Spot 模型名称：`Nano-Banana-Spot`、`Nano-Banana-Pro-Spot`、`Nano-Banana-2-Spot`
`prompt`	string	是	—	图像生成或编辑指令，建议明确描述主体、风格、构图、光线和修改目标
`image`	string / array	否	—	参考图像。文生图时不传；图生图/多图融合时传图片 URL 或 Base64，单图传字符串，多图传数组
`size`	string	否	`1x1`	图片比例，格式为 `宽比x高比`，如 `1x1`、`16x9`、`9x16`；Spot 上游示例也支持 `1x8` 这类超长比例
`quality`	string	否	—	图像质量档位：`2k`、`4k`。基础 Spot 版通常固定 1K，Pro/2 Spot 可按模型能力传入
`response_format`	string	否	`url`	返回格式。Spot 上游文档示例使用 `url`，推荐保持 `url`

size 参数说明（Spot 系列专用）

Spot 系列使用比例格式，与原版 Nano-Banana 一样使用 宽比x高比，但图像输入仍走 /v1/images/generations。

参数值	比例	适用场景
`1x1`	1:1	头像、商品图、通用方图
`2x3`	2:3	竖版海报、人像
`3x2`	3:2	横版摄影、封面图
`3x4`	3:4	竖版内容图
`4x3`	4:3	横版内容图
`9x16`	9:16	手机壁纸、短视频封面
`16x9`	16:9	横版封面、演示页
`1x8`	1:8	超长竖图、长条画面；来自 Spot 上游示例

注意：这里的 size 是比例值，不是像素分辨率。需要更高分辨率时使用 quality: "2k" 或 quality: "4k"。

响应格式

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "url": "https://..." }
  ]
}

字段	类型	说明
`created`	integer	创建时间的 Unix 时间戳
`data`	array	生成结果数组，每个元素包含 `url` 字段

1.8.1 Nano-Banana-Spot

Nano-Banana-Spot 对应 Gemini 2.5 Flash Image 闲时资源版，适合可接受稳定性波动的基础出图场景，固定 1K 分辨率。

文生图

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana-Spot",
    "prompt": "一只可爱的橘猫坐在窗台上看着夕阳，照片风格，高清画质",
    "size": "1x1",
    "response_format": "url"
  }'

Python 示例

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.images.generate(
    model="Nano-Banana-Spot",
    prompt="一只可爱的橘猫坐在窗台上看着夕阳，照片风格，高清画质",
    size="1x1",
    response_format="url"
)

print(response.data[0].url)

1.8.2 Nano-Banana-2-Spot

Nano-Banana-2-Spot 对应 Gemini 3.1 Flash Image Preview 闲时资源版，支持 2K / 4K 高质量出图和多图融合，价格更优。

多图融合 / 图生图

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Nano-Banana-2-Spot",
    "prompt": "图中两个形象和一位身着兔子 coser 服饰的美少女艺术家正在将电脑屏幕上的图像手工复制到画布上，创作出一幅油画",
    "image": [
      "https://example.com/cat_3.png",
      "https://example.com/cat_4.png"
    ],
    "size": "1x8",
    "quality": "4k",
    "response_format": "url"
  }'

Python 示例

python
复制代码
import requests

response = requests.post(
    "https://token.matpool.com/v1/images/generations",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Nano-Banana-2-Spot",
        "prompt": "图中两个形象和一位身着兔子 coser 服饰的美少女艺术家正在将电脑屏幕上的图像手工复制到画布上，创作出一幅油画",
        "image": [
            "https://example.com/cat_3.png",
            "https://example.com/cat_4.png"
        ],
        "size": "1x8",
        "quality": "4k",
        "response_format": "url"
    }
)
response.raise_for_status()

print(response.json()["data"][0]["url"])

1.8.3 Nano-Banana-Pro-Spot

Nano-Banana-Pro-Spot 对应 Gemini 3.0 Pro Image Preview 闲时资源版，支持 2K / 4K 高质量生成与编辑，价格更优。接口与参数同上述 Spot 模型一致，替换 model 为 Nano-Banana-Pro-Spot 即可。

1.9 Qwen-Image 系列

Qwen-Image 系列来自阿里云百炼千问图像模型，适合中文文字渲染、海报/PPT/信息图、复杂图文混排和通用图像编辑。文生图与图生图的上游请求结构不同，因此建议按以下两类接口分别调用。

模型对应关系

Token 模型名称	对应官方模型	推荐场景	说明
`Qwen-Image-2.0-Pro`	`qwen-image-2.0-pro`	复杂文字渲染、海报、信息图、图文混排	推荐优先使用
`Qwen-Image-2.0`	`qwen-image-2.0`	通用文生图、图像编辑	兼顾质量与成本

接口地址

text
复制代码
文生图：POST https://token.matpool.com/v1/images/generations
图生图 / 图像编辑：POST https://token.matpool.com/v1/images/edits

文生图请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称：`Qwen-Image-2.0` 或 `Qwen-Image-2.0-Pro`
`prompt`	string	是	—	正向提示词。Qwen-Image 适合明确描述画面主体、文字内容、排版、字体、材质和构图
`response_format`	string	否	`url`	返回格式：`url` 或 `b64_json`
`parameters.size`	string	否	`2048*2048`	输出分辨率。使用 `parameters` 原生参数时按阿里格式传 `宽*高`
`parameters.n`	integer	否	1	生成图片数量。Qwen-Image-2.0 系列支持 1~6 张
`parameters.watermark`	boolean	否	`false`	是否添加 Qwen-Image 水印
`parameters.negative_prompt`	string	否	—	反向提示词，最多 500 字符
`parameters.prompt_extend`	boolean	否	`true`	是否开启提示词智能改写
`parameters.seed`	integer	否	—	随机种子，范围 `[0, 2147483647]`，用于提高结果稳定性

Qwen-Image-2.0 推荐分辨率

比例	推荐分辨率
1:1	`2048x2048`
4:3	`2368x1728`
3:4	`1728x2368`
16:9	`2688x1536`
9:16	`1536x2688`

说明：Qwen-Image-2.0 系列输出图像总像素需在 512x512 至 2048x2048 的等效范围内；上表用 x 便于阅读，放入 parameters.size 时按阿里原生格式写成 宽*高。

图生图 / 图像编辑请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称：`Qwen-Image-2.0` 或 `Qwen-Image-2.0-Pro`
`prompt`	string	是	—	编辑指令。Qwen 图像编辑支持中英文，2.0 系列上限约 1300 Token
`input.messages[].content[].image`	string	是	—	图片 URL、OSS 临时 URL 或 Base64，支持 1~3 张；多图时输出比例默认参考最后一张
`parameters.size`	string	否	接近 1K	输出分辨率，如 `10241024`、`15361024`。实际输出会对齐到最接近的 16 的倍数
`parameters.n`	integer	否	1	生成图片数量。2.0 系列支持 1~6 张
`parameters.watermark`	boolean	否	`false`	是否添加水印
`parameters.negative_prompt`	string	否	—	反向提示词
`parameters.prompt_extend`	boolean	否	`true`	是否开启提示词智能改写
`parameters.seed`	integer	否	—	随机种子

图生图推荐分辨率：

比例	推荐分辨率
1:1	`1024x1024`、`1536x1536`
2:3	`768x1152`、`1024x1536`
3:2	`1152x768`、`1536x1024`
3:4	`960x1280`、`1080x1440`
4:3	`1280x960`、`1440x1080`
9:16	`720x1280`、`1080x1920`
16:9	`1280x720`、`1920x1080`
21:9	`1344x576`、`2048x872`

1.9.1 Qwen-Image-2.0-Pro

Qwen-Image-2.0-Pro 对应 qwen-image-2.0-pro，擅长复杂文字渲染、海报制作、信息图、图文混排等场景，推荐优先使用。

文生图

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Qwen-Image-2.0-Pro",
    "prompt": "一张中文科技发布会海报，主标题为「矩池云 Token API」，副标题为「国内模型统一调用」，蓝紫渐变背景，清晰中文排版，现代设计",
    "response_format": "url",
    "parameters": {
      "size": "2048*2048",
      "n": 1,
      "watermark": false,
      "negative_prompt": "低画质，文字模糊，错别字，排版混乱",
      "prompt_extend": true,
      "seed": 12345
    }
  }'

Python 示例

python
复制代码
import requests

response = requests.post(
    "https://token.matpool.com/v1/images/generations",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Qwen-Image-2.0-Pro",
        "prompt": "一张中文科技发布会海报，主标题为「矩池云 Token API」，副标题为「国内模型统一调用」，蓝紫渐变背景，清晰中文排版，现代设计",
        "response_format": "url",
        "parameters": {
            "size": "2048*2048",
            "n": 1,
            "watermark": False,
            "negative_prompt": "低画质，文字模糊，错别字，排版混乱",
            "prompt_extend": True,
            "seed": 12345
        }
    }
)
response.raise_for_status()

print(response.json()["data"][0]["url"])

图生图 / 多图编辑

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/edits \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Qwen-Image-2.0-Pro",
    "prompt": "保持第一张图片的真实街景不变，把第二张图片中的卡通角色画到建筑旁边，风格像海报插画，边缘清晰",
    "input": {
      "messages": [
        {
          "role": "user",
          "content": [
            { "image": "https://example.com/street.png" },
            { "image": "https://example.com/character.png" },
            { "text": "保持第一张图片的真实街景不变，把第二张图片中的卡通角色画到建筑旁边，风格像海报插画，边缘清晰" }
          ]
        }
      ]
    },
    "parameters": {
      "size": "1536*1024",
      "n": 1,
      "watermark": false,
      "prompt_extend": true
    }
  }'

Python 示例

python
复制代码
import requests

prompt = "保持第一张图片的真实街景不变，把第二张图片中的卡通角色画到建筑旁边，风格像海报插画，边缘清晰"

response = requests.post(
    "https://token.matpool.com/v1/images/edits",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Qwen-Image-2.0-Pro",
        "prompt": prompt,
        "input": {
            "messages": [
                {
                    "role": "user",
                    "content": [
                        {"image": "https://example.com/street.png"},
                        {"image": "https://example.com/character.png"},
                        {"text": prompt}
                    ]
                }
            ]
        },
        "parameters": {
            "size": "1536*1024",
            "n": 1,
            "watermark": False,
            "prompt_extend": True
        }
    }
)

response.raise_for_status()
print(response.json()["data"][0]["url"])

1.9.2 Qwen-Image-2.0

Qwen-Image-2.0 对应 qwen-image-2.0，适用于通用文生图和图像编辑场景，兼顾质量与成本。接口与参数同 Qwen-Image-2.0-Pro 一致，替换 model 为 Qwen-Image-2.0 即可。

1.10 Wan2.7 系列

Wan2.7 系列适合组图生成、多图参考、主体一致性、复杂指令遵循和更强的文字渲染。Wan2.7-pro 功能更全面，适合质量优先场景；Wan2.7 适合常规图像生成与编辑。

模型对应关系

Token 模型名称	对应官方模型	推荐场景
`Wan2.7-pro`	`wan2.7-image-pro`	高质量组图生成、复杂编辑、主体一致性、较高分辨率
`Wan2.7`	`wan2.7-image`	通用文生图、图生图、图片编辑

接口地址

text
复制代码
文生图：POST https://token.matpool.com/v1/images/generations
图生图 / 图像编辑：POST https://token.matpool.com/v1/images/edits

文生图请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称：`Wan2.7` 或 `Wan2.7-pro`
`prompt`	string	是	—	正向提示词，描述生成图像内容、风格、构图和文字要求
`parameters.size`	string	否	`2K`	输出尺寸。Wan2.7 支持 `1K`、`2K`、`4K` 等档位，部分场景也可传具体分辨率
`parameters.n`	integer	否	1	生成图片数量
`parameters.enable_sequential`	boolean	否	`false`	是否开启组图/序列图生成；需要多张连续图片时设为 `true`
`parameters.negative_prompt`	string	否	—	反向提示词
`parameters.watermark`	boolean	否	`false`	是否添加水印
`parameters.seed`	integer	否	—	随机种子

图生图 / 图像编辑请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称：`Wan2.7` 或 `Wan2.7-pro`
`prompt`	string	是	—	编辑指令，如主体替换、风格迁移、场景扩展、组图生成
`input.images`	array	是	—	参考图像 URL 或 Base64 数组
`parameters.n`	integer	否	1	生成图片数量
`parameters.negative_prompt`	string	否	—	反向提示词
`parameters.watermark`	boolean	否	`false`	是否添加水印
`parameters.seed`	integer	否	—	随机种子

1.10.1 Wan2.7-pro

Wan2.7-pro 对应 wan2.7-image-pro，适用于高质量组图生成、复杂编辑、主体一致性和较高分辨率场景。

文生图

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Wan2.7-pro",
    "prompt": "一组国风茶饮品牌主视觉，包含产品包装、茶杯、竹叶和水墨背景，画面有统一品牌色，适合电商详情页",
    "parameters": {
      "size": "2K",
      "n": 1,
      "enable_sequential": false,
      "negative_prompt": "低画质，文字错误，主体变形",
      "watermark": false,
      "seed": 2026
    }
  }'

Python 示例

python
复制代码
import requests

response = requests.post(
    "https://token.matpool.com/v1/images/generations",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Wan2.7-pro",
        "prompt": "一组国风茶饮品牌主视觉，包含产品包装、茶杯、竹叶和水墨背景，画面有统一品牌色，适合电商详情页",
        "parameters": {
            "size": "2K",
            "n": 1,
            "enable_sequential": False,
            "negative_prompt": "低画质，文字错误，主体变形",
            "watermark": False,
            "seed": 2026
        }
    }
)
response.raise_for_status()

print(response.json()["data"][0]["url"])

图生图 / 参考图编辑

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/edits \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Wan2.7-pro",
    "prompt": "参考这两张图片，生成同一角色在咖啡馆阅读的场景，保持人物五官和服装风格一致，电影感光照",
    "input": {
      "prompt": "参考这两张图片，生成同一角色在咖啡馆阅读的场景，保持人物五官和服装风格一致，电影感光照",
      "images": [
        "https://example.com/person.png",
        "https://example.com/style.png"
      ],
      "negative_prompt": "五官变形，服装不一致，低画质"
    },
    "parameters": {
      "n": 1,
      "watermark": false,
      "seed": 2026
    }
  }'

Python 示例

python
复制代码
import requests

prompt = "参考这两张图片，生成同一角色在咖啡馆阅读的场景，保持人物五官和服装风格一致，电影感光照"

response = requests.post(
    "https://token.matpool.com/v1/images/edits",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Wan2.7-pro",
        "prompt": prompt,
        "input": {
            "prompt": prompt,
            "images": [
                "https://example.com/person.png",
                "https://example.com/style.png"
            ],
            "negative_prompt": "五官变形，服装不一致，低画质"
        },
        "parameters": {
            "n": 1,
            "watermark": False,
            "seed": 2026
        }
    }
)

response.raise_for_status()
print(response.json()["data"][0]["url"])

1.10.2 Wan2.7

Wan2.7 对应 wan2.7-image，适用于通用文生图、图生图和图片编辑场景。接口与参数同 Wan2.7-pro 一致，替换 model 为 Wan2.7 即可。

1.11 Doubao-Seedream 系列

该系列的图生图也走 /v1/images/generations，通过请求体中的 image 字段传入参考图，适合多图融合、主体一致性、组图生成、品牌视觉和复杂指令解析。

模型对应关系

Token 模型名称	推荐场景	特点
`Doubao-Seedream-4.0`	通用文生图、图生图、多图融合	质量稳定，支持多图参考
`Doubao-Seedream-4.5`	人像、美学增强、商业视觉	更强人像与画面美感
`Doubao-Seedream-5.0-lite`	复杂指令、轻量快速出图	最新轻量版，适合高频调用

接口地址

text
复制代码
POST https://token.matpool.com/v1/images/generations

请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称：`Doubao-Seedream-4.0`、`Doubao-Seedream-4.5`、`Doubao-Seedream-5.0-lite`
`prompt`	string	是	—	文生图提示词或图生图编辑指令
`image`	string / array	否	—	参考图像。文生图不传；图生图/多图融合时传图片 URL、Base64 或数组
`size`	string	否	`1024x1024`	图片尺寸，如 `1024x1024`、`2048x2048`、`1664x936` 等
`n`	integer	否	1	生成图片数量。Seedream 4.0 支持多图输出，最多可到 15 张；其他模型以实际能力为准
`seed`	integer	否	`-1`	随机种子，`-1` 表示随机；固定数值可提高复现性
`response_format`	string	否	`url`	返回格式：`url` 或 `b64_json`
`watermark`	string / boolean	否	模型默认	水印开关。上游常见取值为 `enable` / `disable`，也可按渠道能力使用布尔值
`sequential_image_generation`	string	否	`disabled`	序列/组图生成模式。需要分镜、故事连环图或品牌组图时可传 `auto`
`max_images`	integer	否	—	配合 `sequential_image_generation: "auto"` 控制最多输出张数

尺寸说明：Seedream 4.x/5.x 可使用具体像素分辨率。常用值包括 1024x1024、2048x2048、1664x936、936x1664；生成大图或多图会增加耗时和费用。

响应格式

json
复制代码
{
  "created": 1589478378,
  "data": [
    { "url": "https://..." }
  ]
}

字段	类型	说明
`created`	integer	创建时间的 Unix 时间戳
`data`	array	生成结果数组，根据 `response_format` 包含 `url` 或 `b64_json` 字段

1.11.1 Doubao-Seedream-4.0

Doubao-Seedream-4.0 适用于通用文生图、图生图、多图融合场景，质量稳定，支持多图参考和组图生成。

文生图

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Doubao-Seedream-4.0",
    "prompt": "一张高端咖啡品牌海报，木质桌面上摆放拿铁和咖啡豆，暖色自然光，商业摄影风格",
    "size": "2048x2048",
    "n": 1,
    "seed": -1,
    "response_format": "url",
    "watermark": "disable"
  }'

Python 示例

python
复制代码
import requests

response = requests.post(
    "https://token.matpool.com/v1/images/generations",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Doubao-Seedream-4.0",
        "prompt": "一张高端咖啡品牌海报，木质桌面上摆放拿铁和咖啡豆，暖色自然光，商业摄影风格",
        "size": "2048x2048",
        "n": 1,
        "seed": -1,
        "response_format": "url",
        "watermark": "disable"
    }
)
response.raise_for_status()

print(response.json()["data"][0]["url"])

1.11.2 Doubao-Seedream-4.5

Doubao-Seedream-4.5 在人像、美学增强和商业视觉方面表现更强，适合需要更高画面美感的应用。

图生图 / 多图融合

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Doubao-Seedream-4.5",
    "prompt": "参考这些图片，生成同一款产品在夏季户外场景中的广告图，保持产品外观一致，背景清爽明亮",
    "image": [
      "https://example.com/product.png",
      "https://example.com/style-reference.png"
    ],
    "size": "1664x936",
    "n": 1,
    "response_format": "url",
    "watermark": "disable"
  }'

Python 示例

python
复制代码
import requests

response = requests.post(
    "https://token.matpool.com/v1/images/generations",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Doubao-Seedream-4.5",
        "prompt": "参考这些图片，生成同一款产品在夏季户外场景中的广告图，保持产品外观一致，背景清爽明亮",
        "image": [
            "https://example.com/product.png",
            "https://example.com/style-reference.png"
        ],
        "size": "1664x936",
        "n": 1,
        "response_format": "url",
        "watermark": "disable"
    }
)
response.raise_for_status()

print(response.json()["data"][0]["url"])

1.11.3 Doubao-Seedream-5.0-lite

Doubao-Seedream-5.0-lite 是最新轻量版，支持联网检索和精准解析复杂指令，适合高频调用场景。支持组图/分镜生成。

组图 / 分镜生成

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/images/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Doubao-Seedream-5.0-lite",
    "prompt": "为一款智能手表生成三张连续广告分镜：开箱、佩戴运动、夜间健康监测。要求同一产品外观一致，画面干净现代",
    "size": "1024x1024",
    "sequential_image_generation": "auto",
    "max_images": 3,
    "response_format": "url",
    "watermark": "disable"
  }'

Python 示例

python
复制代码
import requests

response = requests.post(
    "https://token.matpool.com/v1/images/generations",
    headers={
        "Authorization": "Bearer YOUR_API_TOKEN",
        "Content-Type": "application/json"
    },
    json={
        "model": "Doubao-Seedream-5.0-lite",
        "prompt": "为一款智能手表生成三张连续广告分镜：开箱、佩戴运动、夜间健康监测。要求同一产品外观一致，画面干净现代",
        "size": "1024x1024",
        "sequential_image_generation": "auto",
        "max_images": 3,
        "response_format": "url",
        "watermark": "disable"
    }
)
response.raise_for_status()

for item in response.json()["data"]:
    print(item["url"])

二、视频生成模型（VIDEO）

2.1 支持的模型

模型名称	对应官方 Model ID	说明	输出规格
Seedance-2.0	`doubao-seedance-2-0-260128`	专业级视频创作模型，追求最高生成质量	`480p` / `720p` / `1080p`；4~15 秒
Seedance-2.0-fast	`doubao-seedance-2-0-fast-260128`	快速版，能力与 2.0 基本一致，更注重速度和成本	`480p` / `720p`；4~15 秒

Seedance 2.0 系列支持以下典型能力：

文生视频：仅输入文本提示词生成视频。
图生视频：输入首帧、尾帧或多张参考图生成视频。
多模态参考：组合文本、图片、视频、音频作为参考素材。
视频编辑：对参考视频进行主体替换、对象增删改、局部修复、风格调整等。
视频延长：基于一段或多段参考视频继续生成后续内容。
生成有声视频：通过 generate_audio=true 生成带音频的视频。

2.2 接口地址

text
复制代码
POST https://token.matpool.com/v1/video/generations

视频生成是异步任务。创建任务后会立即返回任务 ID，客户端需要使用该任务 ID 查询生成进度和结果：

text
复制代码
GET https://token.matpool.com/v1/video/generations/{task_id}

2.3 请求参数

Token 网关的视频生成接口使用统一任务格式。文本提示词放在顶层 prompt 字段；图片、视频、音频等参考素材放在 metadata.content 内。

顶层参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，如 `Seedance-2.0`、`Seedance-2.0-fast`
`prompt`	string	是	—	视频生成提示词，描述画面、运镜、动作、声音、风格等
`metadata`	object	否	—	透传给视频生成上游的参数容器，包含参考素材、比例、分辨率、时长等

`metadata` 参数

参数	类型	必填	默认值	说明
`content`	array	否	—	多模态参考素材数组。仅放图片、视频、音频等素材；文本提示词请放顶层 `prompt`
`ratio`	string	否	`16:9`	输出宽高比，支持 `21:9`、`16:9`、`4:3`、`1:1`、`3:4`、`9:16`
`resolution`	string	否	`720p`	输出分辨率。`Seedance-2.0` 支持 `480p`、`720p`、`1080p`；`Seedance-2.0-fast` 支持 `480p`、`720p`
`duration`	integer	否	5	输出视频时长，范围 4~15 秒
`generate_audio`	boolean	否	`false`	是否生成有声视频。需要有声结果时设为 `true`
`watermark`	boolean	否	`false`	是否在生成结果中添加水印
`return_last_frame`	boolean	否	`false`	是否同时返回视频产物对应的尾帧图
`service_tier`	string	否	—	推理服务档位。上游支持 `flex` 离线推理时，可按实际接入情况传入

`metadata.content` 数组格式

type	字段示例	role	说明
`image_url`	`{ "type": "image_url", "image_url": { "url": "https://..." }, "role": "reference_image" }`	`reference_image` / `first_frame` / `last_frame`	参考图、首帧、尾帧
`video_url`	`{ "type": "video_url", "video_url": { "url": "https://..." }, "role": "reference_video" }`	`reference_video`	参考视频，用于编辑、延长或继承运镜、主体、风格
`audio_url`	`{ "type": "audio_url", "audio_url": { "url": "https://..." }, "role": "reference_audio" }`	`reference_audio`	参考音频，用于继承音色、音乐旋律、对白内容等

输入限制：多模态参考可组合文本、图片、视频和音频，但文本应写入顶层 prompt。图片支持 0~~9 张，视频支持 0~~3 个，音频支持 0~3 个。素材 URL 必须是公网可访问链接。参考图片不可使用带有真实人脸的图片，避免因图片包含真人隐私信息触发内容安全检测。

计费说明：视频模型采用预扣费 + 结算退款模式。创建任务时会先按模型、分辨率、时长、输入方式等预扣一部分余额；任务结束后系统会根据实际 Token 消耗重新结算。如果实际消耗低于预扣额度，会退回差额；如果实际消耗高于预扣额度，可能补扣差额；如果任务失败，会退回预扣额度。

2.4 调用示例

以下 Python 示例基于 Python 标准库编写，不需要安装第三方依赖。使用 Python 3.8+ 时，复制下面的公共函数，再追加任一场景的 Python payload 示例，并把 API_KEY 替换为自己的 Token API Key，即可直接运行。

python
复制代码
import json
import time
from urllib import error, request

BASE_URL = "https://token.matpool.com"
API_KEY = "YOUR_API_TOKEN"

headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}",
}


def request_json(method: str, path: str, payload=None) -> dict:
    data = None
    if payload is not None:
        data = json.dumps(payload, ensure_ascii=False).encode("utf-8")

    req = request.Request(
        f"{BASE_URL}{path}",
        data=data,
        headers=headers,
        method=method,
    )

    try:
        with request.urlopen(req, timeout=60) as resp:
            body = resp.read().decode("utf-8")
    except error.HTTPError as exc:
        body = exc.read().decode("utf-8")
        raise RuntimeError(f"HTTP {exc.code}: {body}") from exc

    return json.loads(body) if body else {}


def submit_and_poll(payload: dict, interval: int = 30) -> dict:
    task = request_json("POST", "/v1/video/generations", payload)
    task_id = task.get("task_id") or task["id"]

    while True:
        result = request_json("GET", f"/v1/video/generations/{task_id}")
        data = result.get("data", result)
        upstream_data = data.get("data") or {}
        content = upstream_data.get("content") or {}

        status = str(data.get("status", "")).upper()
        if status in ("SUCCESS", "SUCCEEDED"):
            video_url = data.get("result_url") or content.get("video_url")
            print("video url:", video_url)
            return result
        if status in ("FAILURE", "FAILED"):
            print("failed reason:", data.get("fail_reason") or data.get("reason"))
            return result

        print("current status:", status, "progress:", data.get("progress"))
        time.sleep(interval)

文生视频

纯文生视频只需要 prompt。比例、分辨率、时长等生成参数放在 metadata 内。

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/video/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Seedance-2.0",
    "prompt": "一只金毛犬在海边奔跑，慢动作，夕阳余晖，电影感镜头",
    "metadata": {
      "ratio": "16:9",
      "resolution": "720p",
      "duration": 5,
      "generate_audio": true,
      "watermark": false
    }
  }'

Python 示例

python
复制代码
payload = {
    "model": "Seedance-2.0",
    "prompt": "一只金毛犬在海边奔跑，慢动作，夕阳余晖，电影感镜头",
    "metadata": {
        "ratio": "16:9",
        "resolution": "720p",
        "duration": 5,
        "generate_audio": True,
        "watermark": False,
    },
}

submit_and_poll(payload)

图生视频（首尾帧）

提示词放在顶层 prompt，首帧、尾帧图片放在 metadata.content 内。

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/video/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Seedance-2.0",
    "prompt": "第一人称视角果茶宣传广告，首帧为图片1，展示带晨露的红苹果；镜头快速切换到雪克杯和果茶制作过程，尾帧定格为图片2中的成品果茶，画面清新自然",
    "metadata": {
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_tea_pic1.jpg"
          },
          "role": "first_frame"
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_tea_pic2.jpg"
          },
          "role": "last_frame"
        }
      ],
      "ratio": "16:9",
      "resolution": "720p",
      "duration": 6
    }
  }'

Python 示例

python
复制代码
payload = {
    "model": "Seedance-2.0",
    "prompt": "第一人称视角果茶宣传广告，首帧为图片1，展示带晨露的红苹果；镜头快速切换到雪克杯和果茶制作过程，尾帧定格为图片2中的成品果茶，画面清新自然",
    "metadata": {
        "content": [
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_tea_pic1.jpg"
                },
                "role": "first_frame",
            },
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_tea_pic2.jpg"
                },
                "role": "last_frame",
            },
        ],
        "ratio": "16:9",
        "resolution": "720p",
        "duration": 6,
    },
}

submit_and_poll(payload)

多模态参考

多模态参考适合组合图片、视频、音频素材，用于继承角色形象、视觉风格、画面构图、运镜、动作或声音信息。

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/video/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Seedance-2.0",
    "prompt": "全程使用视频1的第一视角构图，全程使用音频1作为背景音乐。第一人称视角果茶宣传广告，首帧为图片1，尾帧定格为图片2，画面清新自然。",
    "metadata": {
      "content": [
        {
          "type": "image_url",
          "image_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_tea_pic1.jpg" },
          "role": "reference_image"
        },
        {
          "type": "image_url",
          "image_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_tea_pic2.jpg" },
          "role": "reference_image"
        },
        {
          "type": "video_url",
          "video_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_tea_video1.mp4" },
          "role": "reference_video"
        },
        {
          "type": "audio_url",
          "audio_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_audio/r2v_tea_audio1.mp3" },
          "role": "reference_audio"
        }
      ],
      "ratio": "16:9",
      "duration": 11,
      "generate_audio": true,
      "watermark": true
    }
  }'

Python 示例

python
复制代码
payload = {
    "model": "Seedance-2.0",
    "prompt": "全程使用视频1的第一视角构图，全程使用音频1作为背景音乐。第一人称视角果茶宣传广告，首帧为图片1，尾帧定格为图片2，画面清新自然。",
    "metadata": {
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_tea_pic1.jpg"},
                "role": "reference_image",
            },
            {
                "type": "image_url",
                "image_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_tea_pic2.jpg"},
                "role": "reference_image",
            },
            {
                "type": "video_url",
                "video_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_tea_video1.mp4"},
                "role": "reference_video",
            },
            {
                "type": "audio_url",
                "audio_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_audio/r2v_tea_audio1.mp3"},
                "role": "reference_audio",
            },
        ],
        "ratio": "16:9",
        "duration": 11,
        "generate_audio": True,
        "watermark": True,
    },
}

submit_and_poll(payload)

视频编辑

视频编辑通常传入待编辑视频和参考素材，再用 prompt 描述替换、增删、修复或风格调整目标。

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/video/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Seedance-2.0",
    "prompt": "将视频1礼盒中的香水替换成图片1中的面霜，保持原视频运镜不变，产品质感自然",
    "metadata": {
      "content": [
        {
          "type": "image_url",
          "image_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_edit_pic1.jpg" },
          "role": "reference_image"
        },
        {
          "type": "video_url",
          "video_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_edit_video1.mp4" },
          "role": "reference_video"
        }
      ],
      "ratio": "16:9",
      "resolution": "720p",
      "duration": 5,
      "generate_audio": true,
      "watermark": false
    }
  }'

Python 示例

python
复制代码
payload = {
    "model": "Seedance-2.0",
    "prompt": "将视频1礼盒中的香水替换成图片1中的面霜，保持原视频运镜不变，产品质感自然",
    "metadata": {
        "content": [
            {
                "type": "image_url",
                "image_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_image/r2v_edit_pic1.jpg"},
                "role": "reference_image",
            },
            {
                "type": "video_url",
                "video_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_edit_video1.mp4"},
                "role": "reference_video",
            },
        ],
        "ratio": "16:9",
        "resolution": "720p",
        "duration": 5,
        "generate_audio": True,
        "watermark": False,
    },
}

submit_and_poll(payload)

视频延长

视频延长通常传入一段或多段 reference_video，再用 prompt 说明向前、向后延长或多段串联的方向。

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/video/generations \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Seedance-2.0",
    "prompt": "视频1中的拱形窗户打开，进入美术馆室内，接视频2，之后镜头进入画内，接视频3，整体保持连贯的电影感运镜",
    "metadata": {
      "content": [
        {
          "type": "video_url",
          "video_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_extend_video1.mp4" },
          "role": "reference_video"
        },
        {
          "type": "video_url",
          "video_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_extend_video2.mp4" },
          "role": "reference_video"
        },
        {
          "type": "video_url",
          "video_url": { "url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_extend_video3.mp4" },
          "role": "reference_video"
        }
      ],
      "ratio": "16:9",
      "duration": 8,
      "generate_audio": true,
      "watermark": true
    }
  }'

Python 示例

python
复制代码
payload = {
    "model": "Seedance-2.0",
    "prompt": "视频1中的拱形窗户打开，进入美术馆室内，接视频2，之后镜头进入画内，接视频3，整体保持连贯的电影感运镜",
    "metadata": {
        "content": [
            {
                "type": "video_url",
                "video_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_extend_video1.mp4"},
                "role": "reference_video",
            },
            {
                "type": "video_url",
                "video_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_extend_video2.mp4"},
                "role": "reference_video",
            },
            {
                "type": "video_url",
                "video_url": {"url": "https://ark-project.tos-cn-beijing.volces.com/doc_video/r2v_extend_video3.mp4"},
                "role": "reference_video",
            },
        ],
        "ratio": "16:9",
        "duration": 8,
        "generate_audio": True,
        "watermark": True,
    },
}

submit_and_poll(payload)

2.5 任务响应与查询

创建任务响应

创建成功后接口会返回任务 ID。id 与 task_id 表示同一个任务，后续查询任选其一即可。

json
复制代码
{
  "id": "task_yUvIeAeHbZSQ4dPJT6BA1f7SFUW6ErFh",
  "task_id": "task_yUvIeAeHbZSQ4dPJT6BA1f7SFUW6ErFh",
  "object": "video",
  "model": "Seedance-2.0",
  "status": "queued",
  "progress": 0,
  "created_at": 1780974847
}

查询任务

bash
复制代码
curl https://token.matpool.com/v1/video/generations/task_yUvIeAeHbZSQ4dPJT6BA1f7SFUW6ErFh \
  -H "Authorization: Bearer YOUR_API_TOKEN"

建议每 15~30 秒查询一次。任务结束状态为 SUCCESS 或 FAILURE；仍在生成时通常返回 SUBMITTED、QUEUED、IN_PROGRESS 等状态。

查询任务响应

成功时通常会在 data.result_url 返回生成视频 URL：

json
复制代码
{
  "code": "success",
  "message": "",
  "data": {
    "task_id": "task_yUvIeAeHbZSQ4dPJT6BA1f7SFUW6ErFh",
    "status": "SUCCESS",
    "progress": "100%",
    "result_url": "https://example.com/result.mp4",
    "quota": 556000,
    "finish_time": 1780975200
  }
}

失败时会返回失败原因：

json
复制代码
{
  "code": "success",
  "message": "",
  "data": {
    "task_id": "task_yUvIeAeHbZSQ4dPJT6BA1f7SFUW6ErFh",
    "status": "FAILURE",
    "progress": "100%",
    "fail_reason": "upstream error message"
  }
}

字段	类型	说明
`code`	string	查询响应状态，成功时为 `success`
`message`	string	响应消息
`data.task_id`	string	视频生成任务 ID
`data.status`	string	任务状态，常见值：`SUBMITTED`、`QUEUED`、`IN_PROGRESS`、`SUCCESS`、`FAILURE`
`data.progress`	string	任务进度，通常是百分比字符串
`data.result_url`	string	生成成功后的视频 URL
`data.data.content.video_url`	string	上游返回的原始视频 URL。通常与 `data.result_url` 指向同一个视频，可作为备用读取字段
`data.fail_reason`	string	生成失败原因
`data.quota`	integer	当前任务最终记录的扣费额度。视频模型会根据任务结束后的实际消耗进行结算调整

视频 URL 转义说明

查询接口返回的是 JSON。视频 URL 中的 & 可能会显示为 \u0026，这是 JSON 字符串的正常转义形式，不是错误链接。使用 JSON 解析器读取字段时会自动恢复为真实 URL。

例如，接口原始响应中可能显示为：

json
复制代码
{
  "result_url": "https://example.com/result.mp4?X-Tos-Date=20260609T051645Z\u0026X-Tos-Expires=86400"
}

用 Python 解析后得到的字段值会自动变成：

text
复制代码
https://example.com/result.mp4?X-Tos-Date=20260609T051645Z&X-Tos-Expires=86400

如果在网页、Markdown 编辑器或聊天窗口中看到下面这种形式：

text
复制代码
[https://example.com/result.mp4?...](https://example.com/result.mp4?...)

这是展示层把 URL 渲染成了 Markdown 链接，不是接口返回的真实字段。实际使用时应从 JSON 字段中读取 data.result_url，或读取备用字段 data.data.content.video_url。

注意：不要手动解码 URL 中的 %2F、%3D 等百分号编码，也不要截断 ? 后面的签名参数。视频 URL 通常是带过期时间的签名链接，必须完整保留整个查询字符串才能访问。

Python 查询任务示例

如果已经拿到 task_id，可以单独调用查询接口。替换 API_KEY 和 task_id 后即可运行：

python
复制代码
import json
import time
from urllib import error, request

BASE_URL = "https://token.matpool.com"
API_KEY = "YOUR_API_TOKEN"

headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {API_KEY}",
}
task_id = "task_yUvIeAeHbZSQ4dPJT6BA1f7SFUW6ErFh"


def get_task(task_id: str) -> dict:
    req = request.Request(
        f"{BASE_URL}/v1/video/generations/{task_id}",
        headers=headers,
        method="GET",
    )

    try:
        with request.urlopen(req, timeout=60) as resp:
            body = resp.read().decode("utf-8")
    except error.HTTPError as exc:
        body = exc.read().decode("utf-8")
        raise RuntimeError(f"HTTP {exc.code}: {body}") from exc

    return json.loads(body) if body else {}


while True:
    result = get_task(task_id)
    data = result.get("data", result)
    upstream_data = data.get("data") or {}
    content = upstream_data.get("content") or {}

    status = str(data.get("status", "")).upper()
    if status in ("SUCCESS", "SUCCEEDED"):
        video_url = data.get("result_url") or content.get("video_url")
        print("video url:", video_url)
        break
    if status in ("FAILURE", "FAILED"):
        print("failed reason:", data.get("fail_reason") or data.get("reason"))
        break

    print("current status:", status, "progress:", data.get("progress"))
    time.sleep(30)

注意：视频生成是异步操作，任务可能持续数分钟。请不要在创建任务接口上等待最终视频 URL，应始终通过任务查询接口获取最终结果。

三、视觉理解模型（VISION）

3.1 支持的模型

模型名称	说明	特点
Qwen3-VL-Plus	千问视觉理解旗舰版	复杂视觉推理、多图/视频理解、视觉 Agent、视觉 coding、空间感知
Qwen3-VL-Flash	千问视觉理解轻量版	响应速度快，适合批量识别、长视频/长文档解析、2D/3D 定位

上游 Model ID：阿里百炼文档中的模型名通常为 qwen3-vl-plus、qwen3-vl-flash 及其快照版本；Token 路由中使用上表的模型名即可。

3.2 接口地址

视觉理解模型使用 Chat Completions 接口：

text
复制代码
POST https://token.matpool.com/v1/chat/completions

区别在于 messages.content 是多模态数组，可以传入文本、图片和视频。

3.3 请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，如 `Qwen3-VL-Plus`、`Qwen3-VL-Flash`
`messages`	array	是	—	对话消息列表，支持在 `content` 中混合传入 `text`、`image_url`、`video_url`
`temperature`	number	否	1.0	生成随机性，值越低输出越确定（0~2）
`max_tokens`	integer	否	模型默认	最大输出 Token 数
`top_p`	number	否	1.0	核采样概率，与 `temperature` 二选一调整
`stream`	boolean	否	false	是否开启流式输出

messages 中的多模态输入方式：

json
复制代码
{
  "role": "user",
  "content": [
    { "type": "text", "text": "请总结这张图和这段视频的重点" },
    { "type": "image_url", "image_url": { "url": "https://example.com/image.jpg" } },
    { "type": "video_url", "video_url": { "url": ["https://example.com/video.mp4"] } }
  ]
}

支持的输入格式：

URL 链接：{ "type": "image_url", "image_url": { "url": "https://..." } }
Base64 编码：{ "type": "image_url", "image_url": { "url": "data:image/jpeg;base64,..." } }
多图输入：在 content 数组中传入多个 image_url 对象即可
视频输入：{ "type": "video_url", "video_url": { "url": ["https://...mp4"] } }，用于视频描述、字幕总结、时间线分析等

输入规模参考：Qwen3-VL 系列适合多图片、多视频理解。官方 OpenAI 兼容文档支持图片 URL/Base64 和视频 URL 输入；实际可上传数量、单图像素、视频时长和文件大小以当前路由的模型规格为准。长视频或高分辨率图片会显著增加输入 Token。

3.4 调用示例

单图理解

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Qwen3-VL-Plus",
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "请描述这张图片的内容" },
          { "type": "image_url", "image_url": { "url": "https://example.com/photo.jpg" } }
        ]
      }
    ]
  }'

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.chat.completions.create(
    model="Qwen3-VL-Plus",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请描述这张图片的内容"},
                {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}
            ]
        }
    ]
)

print(response.choices[0].message.content)

Base64 图片输入

python
复制代码
import base64
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

# 读取本地图片并编码为 Base64
with open("local_image.jpg", "rb") as f:
    image_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="Qwen3-VL-Plus",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这张图片里有什么？"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"}
                }
            ]
        }
    ]
)

print(response.choices[0].message.content)

多图对比

python
复制代码
response = client.chat.completions.create(
    model="Qwen3-VL-Plus",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请对比这两张图片的区别"},
                {"type": "image_url", "image_url": {"url": "https://example.com/image1.jpg"}},
                {"type": "image_url", "image_url": {"url": "https://example.com/image2.jpg"}}
            ]
        }
    ]
)

print(response.choices[0].message.content)

视频理解

python
复制代码
response = client.chat.completions.create(
    model="Qwen3-VL-Flash",
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "请按时间顺序总结视频内容，并列出可见文字和关键画面。"
                },
                {
                    "type": "video_url",
                    "video_url": {"url": ["https://example.com/video.mp4"]}
                }
            ]
        }
    ],
    stream=True
)

for chunk in response:
    delta = chunk.choices[0].delta
    if delta.content:
        print(delta.content, end="")

四、音频模型（AUDIO）

4.1 支持的模型

模型名称	说明	特点
Qwen3.5-Omni-Plus	千问全能多模态高级版	长音视频理解、会议纪要、字幕生成、内容审核、音视频交互助手
Qwen3.5-Omni-Flash	千问全能多模态极速版	成本和延迟更优，适合语音助手、批量音频理解、实时交互

上游 Model ID：阿里百炼文档中的模型名通常为 qwen3.5-omni-plus、qwen3.5-omni-flash。Qwen3.5-Omni 支持文本、图片、音频、视频组合输入，可输出文本或文本+音频。

4.2 接口地址

Qwen3.5-Omni 系列按 OpenAI 兼容的 Chat Completions 调用。需要语音输出时，必须使用流式响应收集音频片段。

text
复制代码
POST https://token.matpool.com/v1/chat/completions

4.3 请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，如 `Qwen3.5-Omni-Plus`、`Qwen3.5-Omni-Flash`
`messages`	array	是	—	对话消息列表，支持文本、图片、音频、视频等多模态输入
`modalities`	array	否	`["text"]`	输出模态，`["text"]` 仅文本，`["text", "audio"]` 文本+语音
`audio`	object	否	—	音频输出配置，当 `modalities` 包含 `audio` 时必填，含 `voice` 和 `format`
`temperature`	number	否	1.0	生成随机性（0~2）
`max_tokens`	integer	否	模型默认	最大输出 Token 数
`stream`	boolean	语音输出时是	false	Qwen3.5-Omni 语音输出必须设为 `true`
`stream_options`	object	否	—	流式统计配置，如 `{ "include_usage": true }`

messages 中的音频输入方式（Base64）：

json
复制代码
{
  "role": "user",
  "content": [
    { "type": "text", "text": "这段音频说了什么？" },
    { "type": "input_audio", "input_audio": { "data": "<base64编码的音频>", "format": "wav" } }
  ]
}

字段	说明
`type`	固定为 `input_audio`
`input_audio.data`	Base64 编码的音频数据
`input_audio.format`	音频格式，如 `wav`、`mp3`

音频输出配置：

字段	说明
`audio.voice`	输出音色。阿里百炼示例使用 `Tina`；不同模型可用音色数量不同，以模型列表为准
`audio.format`	输出音频格式，如 `wav`；返回内容为 Base64 编码的 PCM/WAV 数据片段

使用建议：音视频理解、会议纪要、字幕生成等场景使用 modalities=["text"] 即可；语音助手、朗读、拟人对话等场景使用 modalities=["text", "audio"]，并在流式响应中拼接 delta.audio.data。

4.4 调用示例

音频输入，文本输出

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Qwen3.5-Omni-Plus",
    "messages": [
      {
        "role": "user",
        "content": [
          { "type": "text", "text": "请转述这段音频的内容" },
          { "type": "input_audio", "input_audio": { "data": "<base64_encoded_audio>", "format": "wav" } }
        ]
      }
    ]
  }'

python
复制代码
import base64
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

with open("meeting.wav", "rb") as f:
    audio_base64 = base64.b64encode(f.read()).decode("utf-8")

response = client.chat.completions.create(
    model="Qwen3.5-Omni-Plus",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "请提取这段会议录音的待办事项"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_base64,
                        "format": "wav"
                    }
                }
            ]
        }
    ]
)

print(response.choices[0].message.content)

文本输入，流式返回文本 + 语音

python
复制代码
import base64
import wave

stream = client.chat.completions.create(
    model="Qwen3.5-Omni-Plus",
    messages=[
        {"role": "user", "content": "请用温柔自然的语气介绍 Matpool 大模型平台。"}
    ],
    modalities=["text", "audio"],
    audio={"voice": "Tina", "format": "wav"},
    stream=True,
    stream_options={"include_usage": True}
)

audio_base64 = ""
for chunk in stream:
    if not chunk.choices:
        continue
    delta = chunk.choices[0].delta

    if delta.content:
        print(delta.content, end="")

    if getattr(delta, "audio", None) and delta.audio.get("data"):
        audio_base64 += delta.audio["data"]

if audio_base64:
    pcm_bytes = base64.b64decode(audio_base64)
    with wave.open("omni_reply.wav", "wb") as wf:
        wf.setnchannels(1)
        wf.setsampwidth(2)
        wf.setframerate(24000)
        wf.writeframes(pcm_bytes)

音视频内容分析 Prompt 示例

text
复制代码
请分析这段视频，输出：
1. 按时间戳组织的画面和声音描述
2. 可见文字及其出现时间
3. 语音转写、说话人、语气和情绪
4. 最后给出 5 条摘要和 3 条待办事项

音频计费说明：音频模型除文本 Token 外，还包含音频输入/输出 Token 计费。语音输出会额外产生 audio completion 相关费用。

纯 TTS 说明：如果只需要文本转语音，请优先使用 Qwen3.5-Omni 的 modalities=["text", "audio"]。若 Token 平台后续单独开放 /v1/audio/speech 路由，应以模型列表和接口返回为准。

五、向量模型（EMBEDDING）

5.1 支持的模型

模型名称	说明	特点
Text-Embedding-V4	通义实验室多语言文本向量模型	基于 Qwen3 训练，适合语义检索、RAG、聚类、分类，支持自定义维度
Qwen3-VL-Embedding	千问多模态向量模型	支持文本、图片、视频独立向量与融合向量，适合跨模态检索

上游 Model ID：阿里百炼文本向量模型为 text-embedding-v4；多模态向量模型常见为 qwen3-vl-embedding。Token 路由是否开放多模态向量模型，以模型列表和接口返回为准。

5.2 接口地址

文本向量使用 OpenAI Embeddings 兼容接口：

text
复制代码
POST https://token.matpool.com/v1/embeddings

多模态向量在阿里百炼官方文档中使用 DashScope 多模态向量接口；如果 Token 路由没有提供对应兼容接口，请先在业务侧确认是否已映射为 /v1/embeddings 或单独路由。

5.3 请求参数

文本向量参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，如 `Text-Embedding-V4`
`input`	string / array	是	—	输入文本，支持单条字符串或批量数组
`encoding_format`	string	否	`float`	编码格式，`float`（浮点数组）或 `base64`（Base64 编码）
`dimensions`	integer	否	模型默认	向量维度，Text-Embedding-V4 支持自定义维度（常用 512、1024、1536、2048）

多模态向量参数（如已开放）

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，如 `Qwen3-VL-Embedding`
`input`	array	是	—	多模态内容数组，可包含 `{ "text": "..." }`、`{ "image": "https://..." }`、`{ "video": "https://..." }`
`enable_fusion`	boolean	否	false	是否生成融合向量。`true` 时将多模态内容融合为一个向量
`dimensions` / `dimension`	integer	否	模型默认	输出向量维度。具体可选值以当前模型规格为准

5.4 调用示例

单条文本向量化

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Text-Embedding-V4",
    "input": "人工智能正在改变世界"
  }'

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.embeddings.create(
    model="Text-Embedding-V4",
    input="人工智能正在改变世界"
)

print(f"向量维度: {len(response.data[0].embedding)}")
print(f"前5个值: {response.data[0].embedding[:5]}")

批量文本 + 自定义维度

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Text-Embedding-V4",
    "input": [
      "人工智能正在改变世界",
      "大语言模型是AI领域的重要突破",
      "向量数据库用于存储和检索嵌入向量"
    ],
    "dimensions": 512
  }'

Python 示例

python
复制代码
response = client.embeddings.create(
    model="Text-Embedding-V4",
    input=[
        "人工智能正在改变世界",
        "大语言模型是AI领域的重要突破",
        "向量数据库用于存储和检索嵌入向量"
    ],
    dimensions=512  # 自定义向量维度（64~2048）
)

for i, item in enumerate(response.data):
    print(f"文本 {i}: 向量维度 {len(item.embedding)}")

多模态融合向量（如路由已开放）

适用于文搜图、图搜图、文搜视频、跨模态召回等场景。下面示例展示推荐的请求体结构；实际接口路径和参数命名请以 Token 平台映射为准。

bash
复制代码
curl https://token.matpool.com/v1/embeddings \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Qwen3-VL-Embedding",
    "input": [
      { "text": "白色运动鞋，轻量透气，适合跑步" },
      { "image": "https://example.com/shoes.jpg" }
    ],
    "enable_fusion": true,
    "dimensions": 1024
  }'

python
复制代码
response = client.embeddings.create(
    model="Qwen3-VL-Embedding",
    input=[
        {"text": "白色运动鞋，轻量透气，适合跑步"},
        {"image": "https://example.com/shoes.jpg"}
    ],
    extra_body={
        "enable_fusion": True,
        "dimensions": 1024
    }
)

print(len(response.data[0].embedding))

计算文本相似度

python
复制代码
import numpy as np
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

texts = ["今天天气真好", "今天阳光明媚", "股票市场今天大跌"]

response = client.embeddings.create(
    model="Text-Embedding-V4",
    input=texts
)

embeddings = [item.embedding for item in response.data]

# 计算余弦相似度
def cosine_similarity(a, b):
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

print(f"'天气好' vs '阳光': {cosine_similarity(embeddings[0], embeddings[1]):.4f}")
print(f"'天气好' vs '股票': {cosine_similarity(embeddings[0], embeddings[2]):.4f}")

六、代码模型（CODE）

6.1 支持的模型

模型名称	说明	特点
Qwen3-Coder-Plus	千问代码旗舰版	复杂编程、代码审查，支持超长上下文
Qwen3-Coder-Flash	千问代码轻量版	多轮工具交互，仓库级理解，速度快
Doubao-Seed-2.0-Code	豆包编程专用模型	前端能力优化，支持 Skills，IDE 工具调用

6.2 接口地址

代码模型使用 Chat Completions 接口：

text
复制代码
POST https://token.matpool.com/v1/chat/completions

代码模型特别擅长工具调用（Function Calling）和多轮交互，适合集成到 IDE 和编程助手中。

6.3 请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，如 `Qwen3-Coder-Plus`、`Doubao-Seed-2.0-Code`
`messages`	array	是	—	对话消息列表
`temperature`	number	否	1.0	生成随机性，编程任务推荐 0~0.3（低温更确定）
`max_tokens`	integer	否	模型默认	最大输出 Token 数
`top_p`	number	否	1.0	核采样概率
`tools`	array	否	—	工具定义列表（Function Calling），定义可供模型调用的外部函数
`tool_choice`	string	否	`auto`	工具选择策略：`auto`（模型自主决定）、`none`（不使用工具）、`required`（必须使用工具）
`stream`	boolean	否	false	是否开启流式输出

6.4 调用示例

代码生成

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Qwen3-Coder-Plus",
    "messages": [
      { "role": "system", "content": "你是一个专业的Python开发者" },
      { "role": "user", "content": "写一个快速排序算法的实现，并添加类型注解" }
    ],
    "temperature": 0.1
  }'

Python 示例

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.chat.completions.create(
    model="Qwen3-Coder-Plus",
    messages=[
        {"role": "system", "content": "你是一个专业的Python开发者"},
        {"role": "user", "content": "写一个快速排序算法的实现，并添加类型注解"}
    ],
    temperature=0.1
)

print(response.choices[0].message.content)

带工具调用（Function Calling）

curl 示例

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Qwen3-Coder-Plus",
    "messages": [
      { "role": "user", "content": "计算斐波那契数列前20项的和" }
    ],
    "tools": [
      {
        "type": "function",
        "function": {
          "name": "run_code",
          "description": "执行Python代码并返回结果",
          "parameters": {
            "type": "object",
            "properties": {
              "code": {
                "type": "string",
                "description": "要执行的Python代码"
              }
            },
            "required": ["code"]
          }
        }
      }
    ],
    "tool_choice": "auto"
  }'

Python 示例

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "run_code",
            "description": "执行Python代码并返回结果",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "要执行的Python代码"
                    }
                },
                "required": ["code"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="Qwen3-Coder-Plus",
    messages=[
        {"role": "user", "content": "计算斐波那契数列前20项的和"}
    ],
    tools=tools,
    tool_choice="auto"
)

print(response.choices[0].message.tool_calls)

七、数学模型（MATH）

7.1 支持的模型

模型名称	说明	特点
Qwen-Math-Plus	千问数学旗舰版	复杂数学解题，方程、计算、证明
Qwen-Math-Turbo	千问数学快速版	推理速度快，成本低

7.2 接口地址

数学模型使用 Chat Completions 接口：

text
复制代码
POST https://token.matpool.com/v1/chat/completions

7.3 请求参数

参数	类型	必填	默认值	说明
`model`	string	是	—	模型名称，如 `Qwen-Math-Plus`、`Qwen-Math-Turbo`
`messages`	array	是	—	对话消息列表
`temperature`	number	否	1.0	生成随机性
`max_tokens`	integer	否	模型默认	最大输出 Token 数
`top_p`	number	否	1.0	核采样概率
`stream`	boolean	否	false	是否开启流式输出

7.4 调用示例

curl

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer YOUR_API_TOKEN" \
  -d '{
    "model": "Qwen-Math-Plus",
    "messages": [
      {
        "role": "user",
        "content": "求解方程 x² - 5x + 6 = 0，并给出详细的解题过程"
      }
    ]
  }'

Python

python
复制代码
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

response = client.chat.completions.create(
    model="Qwen-Math-Plus",
    messages=[
        {
            "role": "user",
            "content": "求解方程 x² - 5x + 6 = 0，并给出详细的解题过程"
        }
    ]
)

print(response.choices[0].message.content)

八、LLM 文本模型（TEXT）

LLM详细的基础使用说明请参考 LLM API 教程中的第 6 节。

九、通用说明

9.1 鉴权方式

所有接口统一使用 Bearer Token 鉴权：

http
复制代码
Authorization: Bearer YOUR_API_TOKEN
Content-Type: application/json

9.2 推荐的 SDK 配置

Matpool 接口与 OpenAI 规范兼容，推荐使用 OpenAI 官方 SDK，只需覆盖 base_url：

Python

python
复制代码
from openai import OpenAI
client = OpenAI(
    api_key="YOUR_API_TOKEN",
    base_url="https://token.matpool.com/v1"
)

9.3 接口路径汇总

模型类型	接口路径	适用模型
TEXT / CODE / MATH	`/v1/chat/completions`	文本、代码、数学推理
VISION	`/v1/chat/completions`	Qwen3-VL 图片/视频理解，多模态输入通过 `messages.content` 传入（详见 §3）
AUDIO (Qwen3.5-Omni)	`/v1/chat/completions`	Qwen3.5-Omni 音频/视频理解、文本+语音流式输出（详见 §4）
IMAGE (GPT-Image-2 文生图)	`/v1/images/generations`	GPT-Image-2 稳定渠道，支持自定义分辨率（最高 4K），quality 枚举，仅支持 b64_json 返回，不支持 URL（详见 §1.3）
IMAGE (GPT-Image-2 图生图/编辑)	`/v1/images/edits`	GPT-Image-2 稳定渠道图生图编辑，需使用 multipart/form-data 上传图片文件（详见 §1.3）
IMAGE (GPT-Image-2-4K)	`/v1/images/generations`	GPT-Image-2-4K 高分辨率版，支持 1-4K 自定义分辨率，quality 枚举，base64 和 URL 返回（详见 §1.4）
IMAGE (GPT-Image-2-Spot)	`/v1/images/generations`	GPT-Image-2-Spot 闲时资源版，仅支持 1.5K 分辨率，不支持自定义分辨率和 quality 参数，base64 和 URL 返回（详见 §1.5）
IMAGE (GPT-Image-2-Flash)	`/v1/images/generations`	GPT-Image-2-Flash 简化版，仅支持 1K 和 URL 返回（详见 §1.6）
IMAGE (Nano-Banana 原版文生图)	`/v1/images/generations`	Nano-Banana / Nano-Banana-Pro / Nano-Banana-2 文本生成图像（详见 §1.7.1-§1.7.3）
IMAGE (Nano-Banana 原版图生图/编辑)	`/v1/images/edits`	Nano-Banana / Nano-Banana-Pro / Nano-Banana-2 图像编辑、多图融合、Base64 输入和 mask 局部编辑（详见 §1.7.1-§1.7.3）
IMAGE (Nano-Banana-2-Lite)	`/v1/chat/completions`	Nano-Banana-2-Lite Chat 模式文生图、图生图、多轮本地修改；按 Token 计费，Base64 输出（详见 §1.7.4）
IMAGE (Nano-Banana Spot)	`/v1/images/generations`	Nano-Banana Spot 系列文生图、图生图、多图融合；图像输入通过 `image` 字段传入（详见 §1.8.1-§1.8.3）
IMAGE (Qwen 文生图)	`/v1/images/generations`	Qwen-Image-2.0 / 2.0-Pro 文本生成图像（详见 §1.9.1-§1.9.2）
IMAGE (Qwen 图生图/编辑)	`/v1/images/edits`	Qwen-Image-2.0 / 2.0-Pro 多图编辑、文字渲染编辑（详见 §1.9.1-§1.9.2）
IMAGE (Wan2.7 文生图)	`/v1/images/generations`	Wan2.7 / Wan2.7-pro 文本生成图像、组图生成（详见 §1.10.1-§1.10.2）
IMAGE (Wan2.7 图生图/编辑)	`/v1/images/edits`	Wan2.7 / Wan2.7-pro 多图参考、主体一致性编辑（详见 §1.10.1-§1.10.2）
IMAGE (Doubao-Seedream)	`/v1/images/generations`	Doubao-Seedream-4.0 / 4.5 / 5.0-lite 文生图、图生图、多图融合、组图生成（详见 §1.11.1-§1.11.3）
VIDEO (Seedance)	`/v1/video/generations`	Seedance-2.0 / Seedance-2.0-fast 视频生成、图生视频、多模态参考、视频编辑与延长（详见 §2）
EMBEDDING	`/v1/embeddings`	Text-Embedding-V4 文本向量；多模态向量以 Token 平台映射为准（详见 §5）

9.4 计费说明

基础计费：(输入 Token ÷ 1,000,000) × 输入单价 + (输出 Token ÷ 1,000,000) × 输出单价
图像模型：部分模型按固定价格计费（如 GPT-Image-2-Spot：0.14 模力豆/张），部分按比例计费
视频模型：采用阶梯计费，并使用预扣费 + 结算退款模式；任务创建时先预扣，任务结束后按实际消耗补扣或退回差额
音频模型：除文本 Token 外，音频输入/输出有独立的计费倍率
Spot 模型：闲时资源，价格更低但稳定性可能波动
限时免费模型：活动期间免费使用

详细价格请参考模型广场

入门指引

教程与案例

参考资料

联系我们

多模态模型 API 详细教程

一、图像生成模型（IMAGE）

1.1 支持的模型

1.2 接口地址

1.3 GPT-Image-2

请求参数

size 参数说明

调用示例

响应格式

费用参考

1.4 GPT-Image-2-4K

请求参数

size 参数说明

调用示例

响应格式

1.5 GPT-Image-2-Spot

请求参数

size 参数说明

调用示例

响应格式

1.6 GPT-Image-2-Flash

请求参数

size 参数说明

调用示例

响应格式

1.7 Nano-Banana 系列

模型对应关系

接口地址

文生图请求参数

图生图 / 图像编辑请求参数

size 参数说明（Nano-Banana 系列专用）

响应格式

1.7.1 Nano-Banana

1.7.2 Nano-Banana-2

1.7.3 Nano-Banana-Pro

1.7.4 Nano-Banana-2-Lite

接口地址

请求参数

调用示例

响应格式

1.8 Nano-Banana Spot 系列

模型对应关系

接口地址

请求参数

size 参数说明（Spot 系列专用）

响应格式

1.8.1 Nano-Banana-Spot

1.8.2 Nano-Banana-2-Spot

1.8.3 Nano-Banana-Pro-Spot

1.9 Qwen-Image 系列

模型对应关系

接口地址

文生图请求参数

Qwen-Image-2.0 推荐分辨率

图生图 / 图像编辑请求参数

1.9.1 Qwen-Image-2.0-Pro

1.9.2 Qwen-Image-2.0

1.10 Wan2.7 系列

模型对应关系

接口地址

文生图请求参数

图生图 / 图像编辑请求参数

1.10.1 Wan2.7-pro

1.10.2 Wan2.7

1.11 Doubao-Seedream 系列

模型对应关系

接口地址

请求参数

响应格式

1.11.1 Doubao-Seedream-4.0

1.11.2 Doubao-Seedream-4.5

1.11.3 Doubao-Seedream-5.0-lite

二、视频生成模型（VIDEO）

2.1 支持的模型

2.2 接口地址

2.3 请求参数

`metadata` 参数

`metadata.content` 数组格式