多模态模型详细教程
多模态模型详细教程
- 模型路由:
https://token.matpool.com/v1- 路由规则与 OpenAI 标准一致
- 鉴权方式:
Authorization: Bearer YOUR_API_TOKEN- 文本模型基础调用说明请参考 LLM API 入门教程
一、图像生成模型(IMAGE)
1.1 支持的模型
| 模型名称 | 说明 | 特点 |
|---|---|---|
| GPT-Image-2 | OpenAI 最新图像模型 | 支持自定义分辨率(最高 4K),quality 枚举(auto/low/medium/high),支持 base64 和 URL 返回 |
| GPT-Image-2-Flash | OpenAI 最新图像模型(简化版) | 仅支持 1K 分辨率和 URL 返回,价格更优 |
| Nano-Banana | Gemini 2.5 Flash Image | 速度快,编辑能力强,性价比高 |
| Nano-Banana-2 | Gemini 高效视觉生成 | 快速交互式响应,高并发出图 |
| Nano-Banana-Pro | Gemini 3 Pro Image | 复杂多轮图像生成与编辑,具备思维推理能力 |
| Nano-Banana-Spot | Nano-Banana 闲时资源 | 价格便宜,稳定性可能波动 |
| Nano-Banana-2-Spot | Nano-Banana-2 闲时资源 | 价格便宜,性价比高 |
| Nano-Banana-Pro-Spot | Nano-Banana-Pro 闲时资源 | 价格便宜,质量高 |
| Qwen-Image-2.0 | 千问文生图 | 中文文本渲染突出,亚洲人像表现好 |
| Qwen-Image-2.0-Pro | 千问文生图专业版 | 中文文本渲染增强 |
| Doubao-Seedream-4.0 | 豆包图像创作 | 多图融合,组图生成,主体一致性 |
| Doubao-Seedream-4.5 | 豆包图像创作升级版 | 人像美化,图像美学增强 |
| Doubao-Seedream-5.0-lite | 豆包最新图像创作 | 联网检索,精准解析复杂指令 |
| Wan2.7 | 万相2.7 图像生成与编辑 | 多图参考,主体一致性 |
| Wan2.7-pro | 万相2.7 旗舰版 | 复杂指令遵循,文字渲染更强 |
Spot 模型说明:Spot(闲时资源)模型价格更低,但稳定性可能因供应问题波动,适合对成功率无极高要求的场景。
1.2 接口地址
图像模型按 OpenAI 标准接口调用。文生图使用生成端点;支持图像输入的编辑/图生图场景使用编辑端点。
text复制代码POST https://token.matpool.com/v1/images/generations POST https://token.matpool.com/v1/images/edits
注意:不同模型系列的请求参数格式有差异,请根据所使用的模型参考对应的参数说明。Nano-Banana 原版、Qwen-Image 和 Wan2.7 系列的图生图/编辑使用
/v1/images/edits;Nano-Banana Spot 和 Doubao-Seedream 系列按上游文档使用/v1/images/generations,并在同一个请求体中传image。
1.3 GPT-Image-2
OpenAI 最新图像生成模型的完整版本,支持自定义分辨率(最高 4K),支持 base64 和 url 两种返回格式,适用于对分辨率和输出格式有灵活要求的场景。
请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,固定为 GPT-Image-2 |
prompt | string | 是 | — | 图像描述文本,最长 5000 字符 |
size | string | 否 | auto | 图片尺寸,支持自定义像素分辨率(见下方说明) |
quality | string | 否 | auto | 图像质量:auto、low、medium、high |
response_format | string | 否 | url | 返回格式:url(返回临时链接)或 base64(返回 Base64 编码数据) |
image | string / array | 否 | — | 参考图像,用于图生图。支持 URL 或 Base64,单张传字符串,多张传数组 ["url1", "url2"] |
size 参数说明
GPT-Image-2 在 size 参数中支持传入任意像素分辨率,但需要满足以下约束条件。
常用分辨率(按宽高比分类):
| 比例 | 1K | 2K | 4K |
|---|---|---|---|
| 1:1 | 1024x1024 | 2048x2048 | 2880x2880 |
| 2:3 | 816x1232 | 1360x2048 | 2352x3520 |
| 3:2 | 1232x816 | 2048x1360 | 3520x2352 |
| 3:4 | 880x1184 | 1552x2080 | 2336x3120 |
| 4:3 | 1184x880 | 2080x1552 | 3120x2336 |
| 16:9 | 1360x768 | 2048x1152 | 3536x1984 |
| 9:16 | 768x1360 | 1152x2048 | 1984x3536 |
| auto | — | — | — |
说明:上表中
auto表示由模型自动选择最佳尺寸。
尺寸限制:
- 最大边长必须 小于或等于 3840px
- 宽和高都必须是 16px 的整数倍
- 长边与短边的比例不能超过 3:1
- 总像素数必须 不少于 655,360,且不超过 8,294,400
注意:上表中的分辨率均已通过约束验证。如需自定义尺寸,请确保满足以上所有限制条件。
调用示例
文生图(URL 返回)
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "一只可爱的橘猫坐在窗台上,阳光透过窗帘洒在它身上,水彩画风格", "size": "1024x1024", "quality": "auto", "response_format": "url" }'
Python
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.images.generate( model="GPT-Image-2", prompt="一只可爱的橘猫坐在窗台上,阳光透过窗帘洒在它身上,水彩画风格", size="1024x1024", quality="auto", response_format="url" ) # 获取图片 URL print(response.data[0].url)
文生图(Base64 返回)
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "一幅未来城市的概念艺术画", "quality": "medium", "response_format": "base64" }'
Python
python复制代码import base64 response = client.images.generate( model="GPT-Image-2", prompt="一幅未来城市的概念艺术画", quality="medium", response_format="base64" ) # 解码 Base64 并保存图片 image_data = base64.b64decode(response.data[0].b64_json) with open("output.png", "wb") as f: f.write(image_data)
4K 高分辨率生成
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "一张超高清的山川风景照片,细节丰富", "size": "3840x2160", "quality": "high", "response_format": "url" }'
Python
python复制代码response = client.images.generate( model="GPT-Image-2", prompt="一张超高清的山川风景照片,细节丰富", size="3840x2160", quality="high", response_format="url" ) print(response.data[0].url)
图生图(参考图像编辑)
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "将图片中的角色改为在吃饭的姿态", "image": "https://example.com/reference_image.jpg", "size": "1024x1024", "response_format": "url" }'
Python
python复制代码import base64 # 方式一:通过 URL 传入参考图像 response = client.images.generate( model="GPT-Image-2", prompt="将图片中的角色改为在吃饭的姿态", image="https://example.com/reference_image.jpg", size="1024x1024", response_format="url" ) # 方式二:通过 Base64 传入本地图像 with open("reference.jpg", "rb") as f: image_base64 = base64.b64encode(f.read()).decode("utf-8") response = client.images.generate( model="GPT-Image-2", prompt="将图片中的角色改为在吃饭的姿态", image=f"data:image/jpeg;base64,{image_base64}", size="1024x1024", response_format="url" ) print(response.data[0].url)
多图参考输入
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "融合这两张图片的风格,生成一张新图", "image": ["https://example.com/image1.jpg", "https://example.com/image2.jpg"], "size": "1024x1024", "response_format": "url" }'
Python
python复制代码response = client.images.generate( model="GPT-Image-2", prompt="融合这两张图片的风格,生成一张新图", image=[ "https://example.com/image1.jpg", "https://example.com/image2.jpg" ], size="1024x1024", response_format="url" ) print(response.data[0].url)
响应格式
URL 返回(response_format: "url"):
json复制代码{ "created": 1589478378, "data": [ { "url": "https://..." } ] }
Base64 返回(response_format: "base64"):
json复制代码{ "created": 1589478378, "data": [ { "b64_json": "iVBORw0KGgo..." } ] }
| 字段 | 类型 | 说明 |
|---|---|---|
created | integer | 创建时间的 Unix 时间戳 |
data | array | 生成结果数组,根据 response_format 包含 url 或 b64_json 字段 |
1.4 GPT-Image-2-Flash
OpenAI 最新模型的简化/特价版,返回参数已经做了简化配置,适用于需要快速接入且对高级参数/分辨率无特殊要求的场景。
请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,固定为 GPT-Image-2-Flash |
prompt | string | 是 | — | 图像描述文本,最长 5000 字符 |
size | string | 否 | auto | 图片尺寸,支持比例格式和像素格式(见下方说明) |
image | string / array | 否 | — | 参考图像,用于图生图。支持 URL 或 Base64,单张传字符串,多张传数组 ["url1", "url2"] |
size 参数说明
GPT-Image-2-Flash 支持自定义像素分辨率,支持分辨率:1K:
自定义分辨率:
- 宽高必须为 16 的整数倍
- 长短边比不超过 3:1
常用分辨率:1024x1024、1536x1024、1024x1536、auto
调用示例
文生图
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2-Flash", "prompt": "一只可爱的橘猫坐在窗台上,阳光透过窗帘洒在它身上,水彩画风格", "size": "1024x1024" }'
Python
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.images.generate( model="GPT-Image-2-Flash", prompt="一只可爱的橘猫坐在窗台上,阳光透过窗帘洒在它身上,水彩画风格", size="1024x1024" ) # 获取图片 URL print(response.data[0].url)
图生图(参考图像编辑)
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2-Flash", "prompt": "将图片中的角色改为在吃饭的姿态", "image": "https://example.com/reference_image.jpg", "size": "1024x1024" }'
Python
python复制代码from openai import OpenAI import base64 client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) # 方式一:通过 URL 传入参考图像 response = client.images.generate( model="GPT-Image-2-Flash", prompt="将图片中的角色改为在吃饭的姿态", image="https://example.com/reference_image.jpg", size="1024x1024" ) # 方式二:通过 Base64 传入本地图像 with open("reference.jpg", "rb") as f: image_base64 = base64.b64encode(f.read()).decode("utf-8") response = client.images.generate( model="GPT-Image-2-Flash", prompt="将图片中的角色改为在吃饭的姿态", image=f"data:image/jpeg;base64,{image_base64}", size="1024x1024" ) print(response.data[0].url)
多图参考输入
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2-Flash", "prompt": "融合这两张图片的风格,生成一张新图", "image": ["https://example.com/image1.jpg", "https://example.com/image2.jpg"], "size": "1024x1024" }'
Python
python复制代码response = client.images.generate( model="GPT-Image-2-Flash", prompt="融合这两张图片的风格,生成一张新图", image=[ "https://example.com/image1.jpg", "https://example.com/image2.jpg" ], size="1024x1024" ) print(response.data[0].url)
响应格式
json复制代码{ "created": 1589478378, "data": [ { "url": "https://..." } ] }
| 字段 | 类型 | 说明 |
|---|---|---|
created | integer | 创建时间的 Unix 时间戳 |
data | array | 生成结果数组,每个元素包含 url 字段 |
1.5 Nano-Banana 系列
Nano-Banana 原版系列包含 Gemini 图像模型的多个版本,覆盖快速 1K 出图、高质量 2K/4K 出图和复杂图像编辑。原版系列与 Spot 系列的接口用法不同:原版图生图/编辑使用 /v1/images/edits,Spot 系列请见 §1.6。
模型对应关系
| Token 模型名称 | 对应官方模型 | 推荐场景 | 分辨率能力 |
|---|---|---|---|
Nano-Banana | gemini-2.5-flash-image | 快速文生图、基础图像编辑 | 1K |
Nano-Banana-Pro | gemini-3.0-pro-image-preview | 高质量生成、复杂指令、多图编辑 | 支持 2K / 4K |
Nano-Banana-2 | gemini-3.1-flash-image-preview | 新一代快速高质量出图、多图融合 | 支持 2K / 4K |
接口地址
text复制代码文生图:POST https://token.matpool.com/v1/images/generations 图生图 / 图像编辑:POST https://token.matpool.com/v1/images/edits
文生图请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称:Nano-Banana、Nano-Banana-Pro、Nano-Banana-2 |
prompt | string | 是 | — | 图像描述文本,建议清晰描述主体、风格、构图、光线和输出目标 |
size | string | 否 | 1x1 | 图片比例,格式为 宽比x高比,如 1x1、16x9、9x16 |
quality | string | 否 | — | 图像质量档位:2k、4k。适用于 Nano-Banana-Pro、Nano-Banana-2;Nano-Banana 基础版固定 1K,通常不传 |
response_format | string | 否 | url | 返回格式:url(临时图片链接)或 b64_json(Base64 编码) |
图生图 / 图像编辑请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,同文生图 |
image | string / array | 是 | — | 输入图像。支持图片 URL、Base64,单图传字符串,多图传数组 |
prompt | string | 是 | — | 编辑指令,如风格转换、局部修改、主体融合、场景替换等 |
mask | string | 否 | — | 遮罩图,用于局部精确编辑;更适合 Nano-Banana-Pro、Nano-Banana-2 系列 |
size | string | 否 | 1x1 | 输出图片比例,格式同文生图 |
quality | string | 否 | — | 图像质量档位,适用范围同文生图 |
response_format | string | 否 | url | 返回格式:url 或 b64_json |
size 参数说明(Nano-Banana 系列专用)
Nano-Banana 系列使用比例格式,常用比例与 1K 参考分辨率如下:
| 参数值 | 比例 | 1K 参考分辨率 | 适用场景 |
|---|---|---|---|
1x1 | 1:1 | 1024×1024 | 头像、商品图、通用方图 |
2x3 | 2:3 | 832×1248 | 竖版海报、人像 |
3x2 | 3:2 | 1248×832 | 横版摄影、封面图 |
3x4 | 3:4 | 864×1184 | 竖版内容图 |
4x3 | 4:3 | 1184×864 | 横版内容图 |
4x5 | 4:5 | 896×1152 | 社媒竖图 |
5x4 | 5:4 | 1152×896 | 社媒横图 |
9x16 | 9:16 | 768×1344 | 手机壁纸、短视频封面 |
16x9 | 16:9 | 1344×768 | 横版封面、演示页 |
21x9 | 21:9 | 1536×672 | 超宽横幅 |
注意:这里的
size是比例值(如16x9),不是像素值(如1344x768)。需要更高分辨率时使用quality: "2k"或quality: "4k",不要把size改成像素分辨率。
调用示例
Nano-Banana 文生图(1K)
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana", "prompt": "一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质", "size": "1x1", "response_format": "url" }'
Python
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.images.generate( model="Nano-Banana", prompt="一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质", size="1x1", response_format="url" ) print(response.data[0].url)
Nano-Banana-Pro 生成 4K 图像
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-Pro", "prompt": "一只穿着太空服的猫咪在月球上漫步,背景是地球,电影感光照,细节丰富", "size": "16x9", "quality": "4k", "response_format": "url" }'
Python
python复制代码response = client.images.generate( model="Nano-Banana-Pro", prompt="一只穿着太空服的猫咪在月球上漫步,背景是地球,电影感光照,细节丰富", size="16x9", quality="4k", response_format="url" ) print(response.data[0].url)
Nano-Banana-2 文生图(2K)
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-2", "prompt": "一幅超现实主义的城市风景画,建筑物倒映在水面上,色彩鲜明", "size": "16x9", "quality": "2k", "response_format": "url" }'
Python
python复制代码response = client.images.generate( model="Nano-Banana-2", prompt="一幅超现实主义的城市风景画,建筑物倒映在水面上,色彩鲜明", size="16x9", quality="2k", response_format="url" ) print(response.data[0].url)
图生图 / 风格转换
curl
bash复制代码curl https://token.matpool.com/v1/images/edits \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-Pro", "image": "https://example.com/reference_image.jpg", "prompt": "为这个场景添加日落效果,让整体色调更温暖", "size": "1x1", "response_format": "url" }'
Python
python复制代码import requests response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Nano-Banana-Pro", "image": "https://example.com/reference_image.jpg", "prompt": "为这个场景添加日落效果,让整体色调更温暖", "size": "1x1", "response_format": "url" } ) response.raise_for_status() print(response.json()["data"][0]["url"])
多图融合输入
curl
bash复制代码curl https://token.matpool.com/v1/images/edits \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-2", "image": [ "https://example.com/cat1.png", "https://example.com/cat2.png" ], "prompt": "将这两张图片中的角色放在同一场景中,保持主体外观一致", "size": "3x2", "quality": "4k", "response_format": "url" }'
Python
python复制代码import requests response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Nano-Banana-2", "image": [ "https://example.com/cat1.png", "https://example.com/cat2.png" ], "prompt": "将这两张图片中的角色放在同一场景中,保持主体外观一致", "size": "3x2", "quality": "4k", "response_format": "url" } ) response.raise_for_status() print(response.json()["data"][0]["url"])
Base64 输入图像
Python
python复制代码import base64 import requests with open("reference.png", "rb") as f: image_base64 = base64.b64encode(f.read()).decode("utf-8") response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Nano-Banana-Pro", "image": f"data:image/png;base64,{image_base64}", "prompt": "把图片改成水彩插画风格,保留主体构图", "size": "1x1", "response_format": "url" } ) response.raise_for_status() print(response.json()["data"][0]["url"])
响应格式
URL 返回(response_format: "url"):
json复制代码{ "created": 1589478378, "data": [ { "url": "https://..." } ] }
Base64 返回(response_format: "b64_json"):
json复制代码{ "created": 1234567890, "data": [ { "b64_json": "iVBORw0KGgoAAAANSUhEUgA..." } ], "output_format": "png", "usage": { "total_tokens": 5234, "input_tokens": 1234, "output_tokens": 4000, "input_tokens_details": { "text_tokens": 234, "image_tokens": 1000 } } }
| 字段 | 类型 | 说明 |
|---|---|---|
created | integer | 创建时间的 Unix 时间戳 |
data | array | 生成结果数组,根据 response_format 包含 url 或 b64_json 字段 |
output_format | string | 输出图片格式,通常为 png;Base64 返回时可能出现 |
usage | object | Token 用量信息;部分上游返回,包含文本和图像 token 明细 |
1.6 Nano-Banana Spot 系列
Nano-Banana Spot 系列使用闲时资源,价格更低,但成功率和稳定性可能随上游资源波动。Spot 系列的调用方式与原版不同:文生图和图生图/多图融合都使用 /v1/images/generations,图像输入通过请求体里的 image 字段传入,不使用 /v1/images/edits。
模型对应关系
| Token 模型名称 | 对应官方模型 | 推荐场景 | 分辨率能力 |
|---|---|---|---|
Nano-Banana-Spot | gemini-2.5-flash-image | 闲时低价、可接受稳定性波动的基础出图 | 1K |
Nano-Banana-Pro-Spot | gemini-3.0-pro-image-preview | 闲时低价的高质量生成与编辑 | 支持 2K / 4K |
Nano-Banana-2-Spot | gemini-3.1-flash-image-preview | 闲时低价的新一代高质量出图、多图融合 | 支持 2K / 4K |
接口地址
text复制代码POST https://token.matpool.com/v1/images/generations
请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | Spot 模型名称:Nano-Banana-Spot、Nano-Banana-Pro-Spot、Nano-Banana-2-Spot |
prompt | string | 是 | — | 图像生成或编辑指令,建议明确描述主体、风格、构图、光线和修改目标 |
image | string / array | 否 | — | 参考图像。文生图时不传;图生图/多图融合时传图片 URL 或 Base64,单图传字符串,多图传数组 |
size | string | 否 | 1x1 | 图片比例,格式为 宽比x高比,如 1x1、16x9、9x16;Spot 上游示例也支持 1x8 这类超长比例 |
quality | string | 否 | — | 图像质量档位:2k、4k。基础 Spot 版通常固定 1K,Pro/2 Spot 可按模型能力传入 |
response_format | string | 否 | url | 返回格式。Spot 上游文档示例使用 url,推荐保持 url |
size 参数说明(Spot 系列专用)
Spot 系列使用比例格式,与原版 Nano-Banana 一样使用 宽比x高比,但图像输入仍走 /v1/images/generations。
| 参数值 | 比例 | 适用场景 |
|---|---|---|
1x1 | 1:1 | 头像、商品图、通用方图 |
2x3 | 2:3 | 竖版海报、人像 |
3x2 | 3:2 | 横版摄影、封面图 |
3x4 | 3:4 | 竖版内容图 |
4x3 | 4:3 | 横版内容图 |
9x16 | 9:16 | 手机壁纸、短视频封面 |
16x9 | 16:9 | 横版封面、演示页 |
1x8 | 1:8 | 超长竖图、长条画面;来自 Spot 上游示例 |
注意:这里的
size是比例值,不是像素分辨率。需要更高分辨率时使用quality: "2k"或quality: "4k"。
调用示例
Spot 文生图
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-Spot", "prompt": "一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质", "size": "1x1", "response_format": "url" }'
Python
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.images.generate( model="Nano-Banana-Spot", prompt="一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质", size="1x1", response_format="url" ) print(response.data[0].url)
Spot 多图融合 / 图生图
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-2-Spot", "prompt": "图中两个形象和一位身着兔子 coser 服饰的美少女艺术家正在将电脑屏幕上的图像手工复制到画布上,创作出一幅油画", "image": [ "https://example.com/cat_3.png", "https://example.com/cat_4.png" ], "size": "1x8", "quality": "4k", "response_format": "url" }'
Python
python复制代码import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Nano-Banana-2-Spot", "prompt": "图中两个形象和一位身着兔子 coser 服饰的美少女艺术家正在将电脑屏幕上的图像手工复制到画布上,创作出一幅油画", "image": [ "https://example.com/cat_3.png", "https://example.com/cat_4.png" ], "size": "1x8", "quality": "4k", "response_format": "url" } ) response.raise_for_status() print(response.json()["data"][0]["url"])
响应格式
json复制代码{ "created": 1589478378, "data": [ { "url": "https://..." } ] }
| 字段 | 类型 | 说明 |
|---|---|---|
created | integer | 创建时间的 Unix 时间戳 |
data | array | 生成结果数组,每个元素包含 url 字段 |
1.7 Qwen-Image 系列
Qwen-Image 系列来自阿里云百炼千问图像模型,适合中文文字渲染、海报/PPT/信息图、复杂图文混排和通用图像编辑。文生图与图生图的上游请求结构不同,因此建议按以下两类接口分别调用。
模型对应关系
| Token 模型名称 | 对应官方模型 | 推荐场景 | 说明 |
|---|---|---|---|
Qwen-Image-2.0-Pro | qwen-image-2.0-pro | 复杂文字渲染、海报、信息图、图文混排 | 推荐优先使用 |
Qwen-Image-2.0 | qwen-image-2.0 | 通用文生图、图像编辑 | 兼顾质量与成本 |
接口地址
text复制代码文生图:POST https://token.matpool.com/v1/images/generations 图生图 / 图像编辑:POST https://token.matpool.com/v1/images/edits
文生图请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称:Qwen-Image-2.0 或 Qwen-Image-2.0-Pro |
prompt | string | 是 | — | 正向提示词。Qwen-Image 适合明确描述画面主体、文字内容、排版、字体、材质和构图 |
response_format | string | 否 | url | 返回格式:url 或 b64_json |
parameters.size | string | 否 | 2048*2048 | 输出分辨率。使用 parameters 原生参数时按阿里格式传 宽*高 |
parameters.n | integer | 否 | 1 | 生成图片数量。Qwen-Image-2.0 系列支持 1~6 张 |
parameters.watermark | boolean | 否 | false | 是否添加 Qwen-Image 水印 |
parameters.negative_prompt | string | 否 | — | 反向提示词,最多 500 字符 |
parameters.prompt_extend | boolean | 否 | true | 是否开启提示词智能改写 |
parameters.seed | integer | 否 | — | 随机种子,范围 [0, 2147483647],用于提高结果稳定性 |
Qwen-Image-2.0 推荐分辨率
| 比例 | 推荐分辨率 |
|---|---|
| 1:1 | 2048x2048 |
| 4:3 | 2368x1728 |
| 3:4 | 1728x2368 |
| 16:9 | 2688x1536 |
| 9:16 | 1536x2688 |
说明:Qwen-Image-2.0 系列输出图像总像素需在
512x512至2048x2048的等效范围内;上表用x便于阅读,放入parameters.size时按阿里原生格式写成宽*高。
图生图 / 图像编辑请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称:Qwen-Image-2.0 或 Qwen-Image-2.0-Pro |
prompt | string | 是 | — | 编辑指令。Qwen 图像编辑支持中英文,2.0 系列上限约 1300 Token |
input.messages[].content[].image | string | 是 | — | 图片 URL、OSS 临时 URL 或 Base64,支持 1~3 张;多图时输出比例默认参考最后一张 |
parameters.size | string | 否 | 接近 1K | 输出分辨率,如 1024*1024、1536*1024。实际输出会对齐到最接近的 16 的倍数 |
parameters.n | integer | 否 | 1 | 生成图片数量。2.0 系列支持 1~6 张 |
parameters.watermark | boolean | 否 | false | 是否添加水印 |
parameters.negative_prompt | string | 否 | — | 反向提示词 |
parameters.prompt_extend | boolean | 否 | true | 是否开启提示词智能改写 |
parameters.seed | integer | 否 | — | 随机种子 |
图生图推荐分辨率:
| 比例 | 推荐分辨率 |
|---|---|
| 1:1 | 1024x1024、1536x1536 |
| 2:3 | 768x1152、1024x1536 |
| 3:2 | 1152x768、1536x1024 |
| 3:4 | 960x1280、1080x1440 |
| 4:3 | 1280x960、1440x1080 |
| 9:16 | 720x1280、1080x1920 |
| 16:9 | 1280x720、1920x1080 |
| 21:9 | 1344x576、2048x872 |
调用示例
Qwen 文生图
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen-Image-2.0-Pro", "prompt": "一张中文科技发布会海报,主标题为「矩池云 Token API」,副标题为「国内模型统一调用」,蓝紫渐变背景,清晰中文排版,现代设计", "response_format": "url", "parameters": { "size": "2048*2048", "n": 1, "watermark": false, "negative_prompt": "低画质,文字模糊,错别字,排版混乱", "prompt_extend": true, "seed": 12345 } }'
Python
python复制代码import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Qwen-Image-2.0-Pro", "prompt": "一张中文科技发布会海报,主标题为「矩池云 Token API」,副标题为「国内模型统一调用」,蓝紫渐变背景,清晰中文排版,现代设计", "response_format": "url", "parameters": { "size": "2048*2048", "n": 1, "watermark": False, "negative_prompt": "低画质,文字模糊,错别字,排版混乱", "prompt_extend": True, "seed": 12345 } } ) response.raise_for_status() print(response.json()["data"][0]["url"])
Qwen 图生图 / 多图编辑
curl
bash复制代码curl https://token.matpool.com/v1/images/edits \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen-Image-2.0-Pro", "prompt": "保持第一张图片的真实街景不变,把第二张图片中的卡通角色画到建筑旁边,风格像海报插画,边缘清晰", "input": { "messages": [ { "role": "user", "content": [ { "image": "https://example.com/street.png" }, { "image": "https://example.com/character.png" }, { "text": "保持第一张图片的真实街景不变,把第二张图片中的卡通角色画到建筑旁边,风格像海报插画,边缘清晰" } ] } ] }, "parameters": { "size": "1536*1024", "n": 1, "watermark": false, "prompt_extend": true } }'
Python
python复制代码import requests prompt = "保持第一张图片的真实街景不变,把第二张图片中的卡通角色画到建筑旁边,风格像海报插画,边缘清晰" response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Qwen-Image-2.0-Pro", "prompt": prompt, "input": { "messages": [ { "role": "user", "content": [ {"image": "https://example.com/street.png"}, {"image": "https://example.com/character.png"}, {"text": prompt} ] } ] }, "parameters": { "size": "1536*1024", "n": 1, "watermark": False, "prompt_extend": True } } ) response.raise_for_status() print(response.json()["data"][0]["url"])
1.8 Wan2.7 系列
Wan2.7 系列适合组图生成、多图参考、主体一致性、复杂指令遵循和更强的文字渲染。Wan2.7-pro 功能更全面,适合质量优先场景;Wan2.7 适合常规图像生成与编辑。
模型对应关系
| Token 模型名称 | 对应官方模型 | 推荐场景 |
|---|---|---|
Wan2.7-pro | wan2.7-image-pro | 高质量组图生成、复杂编辑、主体一致性、较高分辨率 |
Wan2.7 | wan2.7-image | 通用文生图、图生图、图片编辑 |
接口地址
text复制代码文生图:POST https://token.matpool.com/v1/images/generations 图生图 / 图像编辑:POST https://token.matpool.com/v1/images/edits
文生图请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称:Wan2.7 或 Wan2.7-pro |
prompt | string | 是 | — | 正向提示词,描述生成图像内容、风格、构图和文字要求 |
parameters.size | string | 否 | 2K | 输出尺寸。Wan2.7 支持 1K、2K、4K 等档位,部分场景也可传具体分辨率 |
parameters.n | integer | 否 | 1 | 生成图片数量 |
parameters.enable_sequential | boolean | 否 | false | 是否开启组图/序列图生成;需要多张连续图片时设为 true |
parameters.negative_prompt | string | 否 | — | 反向提示词 |
parameters.watermark | boolean | 否 | false | 是否添加水印 |
parameters.seed | integer | 否 | — | 随机种子 |
图生图 / 图像编辑请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称:Wan2.7 或 Wan2.7-pro |
prompt | string | 是 | — | 编辑指令,如主体替换、风格迁移、场景扩展、组图生成 |
input.images | array | 是 | — | 参考图像 URL 或 Base64 数组 |
parameters.n | integer | 否 | 1 | 生成图片数量 |
parameters.negative_prompt | string | 否 | — | 反向提示词 |
parameters.watermark | boolean | 否 | false | 是否添加水印 |
parameters.seed | integer | 否 | — | 随机种子 |
调用示例
Wan2.7 文生图
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Wan2.7-pro", "prompt": "一组国风茶饮品牌主视觉,包含产品包装、茶杯、竹叶和水墨背景,画面有统一品牌色,适合电商详情页", "parameters": { "size": "2K", "n": 1, "enable_sequential": false, "negative_prompt": "低画质,文字错误,主体变形", "watermark": false, "seed": 2026 } }'
Python
python复制代码import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Wan2.7-pro", "prompt": "一组国风茶饮品牌主视觉,包含产品包装、茶杯、竹叶和水墨背景,画面有统一品牌色,适合电商详情页", "parameters": { "size": "2K", "n": 1, "enable_sequential": False, "negative_prompt": "低画质,文字错误,主体变形", "watermark": False, "seed": 2026 } } ) response.raise_for_status() print(response.json()["data"][0]["url"])
Wan2.7 图生图 / 参考图编辑
curl
bash复制代码curl https://token.matpool.com/v1/images/edits \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Wan2.7-pro", "prompt": "参考这两张图片,生成同一角色在咖啡馆阅读的场景,保持人物五官和服装风格一致,电影感光照", "input": { "prompt": "参考这两张图片,生成同一角色在咖啡馆阅读的场景,保持人物五官和服装风格一致,电影感光照", "images": [ "https://example.com/person.png", "https://example.com/style.png" ], "negative_prompt": "五官变形,服装不一致,低画质" }, "parameters": { "n": 1, "watermark": false, "seed": 2026 } }'
Python
python复制代码import requests prompt = "参考这两张图片,生成同一角色在咖啡馆阅读的场景,保持人物五官和服装风格一致,电影感光照" response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Wan2.7-pro", "prompt": prompt, "input": { "prompt": prompt, "images": [ "https://example.com/person.png", "https://example.com/style.png" ], "negative_prompt": "五官变形,服装不一致,低画质" }, "parameters": { "n": 1, "watermark": False, "seed": 2026 } } ) response.raise_for_status() print(response.json()["data"][0]["url"])
1.9 Doubao-Seedream 系列
该系列的图生图也走 /v1/images/generations,通过请求体中的 image 字段传入参考图,适合多图融合、主体一致性、组图生成、品牌视觉和复杂指令解析。
模型对应关系
| Token 模型名称 | 推荐场景 | 特点 |
|---|---|---|
Doubao-Seedream-4.0 | 通用文生图、图生图、多图融合 | 质量稳定,支持多图参考 |
Doubao-Seedream-4.5 | 人像、美学增强、商业视觉 | 更强人像与画面美感 |
Doubao-Seedream-5.0-lite | 复杂指令、轻量快速出图 | 最新轻量版,适合高频调用 |
接口地址
text复制代码POST https://token.matpool.com/v1/images/generations
请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称:Doubao-Seedream-4.0、Doubao-Seedream-4.5、Doubao-Seedream-5.0-lite |
prompt | string | 是 | — | 文生图提示词或图生图编辑指令 |
image | string / array | 否 | — | 参考图像。文生图不传;图生图/多图融合时传图片 URL、Base64 或数组 |
size | string | 否 | 1024x1024 | 图片尺寸,如 1024x1024、2048x2048、1664x936 等 |
n | integer | 否 | 1 | 生成图片数量。Seedream 4.0 支持多图输出,最多可到 15 张;其他模型以实际能力为准 |
seed | integer | 否 | -1 | 随机种子,-1 表示随机;固定数值可提高复现性 |
response_format | string | 否 | url | 返回格式:url 或 b64_json |
watermark | string / boolean | 否 | 模型默认 | 水印开关。上游常见取值为 enable / disable,也可按渠道能力使用布尔值 |
sequential_image_generation | string | 否 | disabled | 序列/组图生成模式。需要分镜、故事连环图或品牌组图时可传 auto |
max_images | integer | 否 | — | 配合 sequential_image_generation: "auto" 控制最多输出张数 |
尺寸说明:Seedream 4.x/5.x 可使用具体像素分辨率。常用值包括
1024x1024、2048x2048、1664x936、936x1664;生成大图或多图会增加耗时和费用。
调用示例
Doubao 文生图
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Doubao-Seedream-4.0", "prompt": "一张高端咖啡品牌海报,木质桌面上摆放拿铁和咖啡豆,暖色自然光,商业摄影风格", "size": "2048x2048", "n": 1, "seed": -1, "response_format": "url", "watermark": "disable" }'
Python
python复制代码import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Doubao-Seedream-4.0", "prompt": "一张高端咖啡品牌海报,木质桌面上摆放拿铁和咖啡豆,暖色自然光,商业摄影风格", "size": "2048x2048", "n": 1, "seed": -1, "response_format": "url", "watermark": "disable" } ) response.raise_for_status() print(response.json()["data"][0]["url"])
Doubao 图生图 / 多图融合
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Doubao-Seedream-4.5", "prompt": "参考这些图片,生成同一款产品在夏季户外场景中的广告图,保持产品外观一致,背景清爽明亮", "image": [ "https://example.com/product.png", "https://example.com/style-reference.png" ], "size": "1664x936", "n": 1, "response_format": "url", "watermark": "disable" }'
Python
python复制代码import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Doubao-Seedream-4.5", "prompt": "参考这些图片,生成同一款产品在夏季户外场景中的广告图,保持产品外观一致,背景清爽明亮", "image": [ "https://example.com/product.png", "https://example.com/style-reference.png" ], "size": "1664x936", "n": 1, "response_format": "url", "watermark": "disable" } ) response.raise_for_status() print(response.json()["data"][0]["url"])
Doubao 组图 / 分镜生成
curl
bash复制代码curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Doubao-Seedream-5.0-lite", "prompt": "为一款智能手表生成三张连续广告分镜:开箱、佩戴运动、夜间健康监测。要求同一产品外观一致,画面干净现代", "size": "1024x1024", "sequential_image_generation": "auto", "max_images": 3, "response_format": "url", "watermark": "disable" }'
Python
python复制代码import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Doubao-Seedream-5.0-lite", "prompt": "为一款智能手表生成三张连续广告分镜:开箱、佩戴运动、夜间健康监测。要求同一产品外观一致,画面干净现代", "size": "1024x1024", "sequential_image_generation": "auto", "max_images": 3, "response_format": "url", "watermark": "disable" } ) response.raise_for_status() for item in response.json()["data"]: print(item["url"])
响应格式
json复制代码{ "created": 1589478378, "data": [ { "url": "https://..." } ] }
| 字段 | 类型 | 说明 |
|---|---|---|
created | integer | 创建时间的 Unix 时间戳 |
data | array | 生成结果数组,根据 response_format 包含 url 或 b64_json 字段 |
二、视频生成模型(VIDEO)
2.1 支持的模型
| 模型名称 | 对应官方 Model ID | 说明 | 输出规格 |
|---|---|---|---|
| Seedance-2.0 | doubao-seedance-2-0-260128 | 专业级视频创作模型,追求最高生成质量 | 480p / 720p / 1080p;4~15 秒 |
| Seedance-2.0-fast | doubao-seedance-2-0-fast-260128 | 快速版,能力与 2.0 基本一致,更注重速度和成本 | 480p / 720p;4~15 秒 |
Seedance 2.0 系列支持以下典型能力:
- 文生视频:仅输入文本提示词生成视频。
- 图生视频:输入首帧、尾帧或多张参考图生成视频。
- 多模态参考:组合文本、图片、视频、音频作为参考素材。
- 视频编辑:对参考视频进行主体替换、对象增删改、局部修复、风格调整等。
- 视频延长:基于一段或多段参考视频继续生成后续内容。
- 生成有声视频:通过
generate_audio=true生成带音频的视频。
2.2 接口地址
text复制代码POST https://token.matpool.com/v1/video/generations
视频生成是异步任务。创建任务后会返回任务 ID,之后通过任务查询接口轮询结果:
text复制代码GET https://token.matpool.com/v1/video/generations/{task_id}
2.3 请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,如 Seedance-2.0、Seedance-2.0-fast |
content | array | 是 | — | 多模态输入数组。每项使用 type 区分 text、image_url、video_url、audio_url |
prompt | string | 否 | — | 兼容简写字段。只做文生视频时可直接传 prompt,等价于 content 中的一条 text |
ratio | string | 否 | 16:9 | 输出宽高比,支持 21:9、16:9、4:3、1:1、3:4、9:16 |
resolution | string | 否 | 720p | 输出分辨率。Seedance-2.0 支持 480p、720p、1080p;Seedance-2.0-fast 支持 480p、720p |
duration | integer | 否 | 5 | 输出视频时长,范围 4~15 秒 |
generate_audio | boolean | 否 | false | 是否生成有声视频。需要有声结果时设为 true |
watermark | boolean | 否 | false | 是否在生成结果中添加水印 |
return_last_frame | boolean | 否 | false | 是否同时返回视频产物对应的尾帧图 |
service_tier | string | 否 | — | 推理服务档位。上游支持 flex 离线推理时,可按实际接入情况传入 |
content 数组格式
| type | 字段示例 | role | 说明 |
|---|---|---|---|
text | { "type": "text", "text": "..." } | — | 文本提示词,描述画面、运镜、动作、声音、风格等 |
image_url | { "type": "image_url", "image_url": { "url": "https://..." }, "role": "reference_image" } | reference_image / first_frame / last_frame | 参考图、首帧、尾帧 |
video_url | { "type": "video_url", "video_url": { "url": "https://..." }, "role": "reference_video" } | reference_video | 参考视频,用于编辑、延长或继承运镜/主体/风格 |
audio_url | { "type": "audio_url", "audio_url": { "url": "https://..." }, "role": "reference_audio" } | reference_audio | 参考音频,用于继承音色、音乐旋律、对白内容等 |
输入限制:官方 Seedance 2.0 教程中说明,多模态参考可组合文本、图片、视频和音频,但不支持「文本 + 音频」或「纯音频」输入。图片支持 0
9 张,视频支持 03 个,音频支持 0~3 个。素材 URL 必须是公网可访问链接。
计费说明:Seedance 系列采用阶梯计费,模型、分辨率、视频时长和输入方式会影响最终价格。
1080p通常高于720p,Seedance-2.0-fast通常更适合低成本或快速生成场景。
2.4 调用示例
文生视频
curl
bash复制代码curl https://token.matpool.com/v1/video/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "一只金毛犬在海边奔跑,慢动作,夕阳余晖,电影感镜头" } ], "ratio": "16:9", "resolution": "720p", "duration": 5, "generate_audio": true, "watermark": false }'
Python
python复制代码from openai import OpenAI import time client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) task = client.post( "/video/generations", json={ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "一只金毛犬在海边奔跑,慢动作,夕阳余晖,电影感镜头" } ], "ratio": "16:9", "resolution": "720p", "duration": 5, "generate_audio": True, "watermark": False } ) task_id = task.json()["id"] while True: result = client.get(f"/video/generations/{task_id}") data = result.json() if data.get("status") in ("succeeded", "failed"): print(data) break time.sleep(30)
图生视频(首尾帧)
curl
bash复制代码curl https://token.matpool.com/v1/video/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "从清晨花苞过渡到傍晚盛放,镜头缓慢推进,延时摄影质感" }, { "type": "image_url", "image_url": { "url": "https://example.com/flower-start.jpg" }, "role": "first_frame" }, { "type": "image_url", "image_url": { "url": "https://example.com/flower-end.jpg" }, "role": "last_frame" } ], "ratio": "16:9", "resolution": "720p", "duration": 6 }'
Python
python复制代码from openai import OpenAI import time client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) task = client.post( "/video/generations", json={ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "从清晨花苞过渡到傍晚盛放,镜头缓慢推进,延时摄影质感" }, { "type": "image_url", "image_url": { "url": "https://example.com/flower-start.jpg" }, "role": "first_frame" }, { "type": "image_url", "image_url": { "url": "https://example.com/flower-end.jpg" }, "role": "last_frame" } ], "ratio": "16:9", "resolution": "720p", "duration": 6 } ) task_id = task.json()["id"] while True: result = client.get(f"/video/generations/{task_id}") data = result.json() if data.get("status") in ("succeeded", "failed"): print(data) break time.sleep(30)
多模态参考 / 视频编辑
适合参考图片、参考视频、参考音频组合输入。例如:根据参考视频保留运镜,将视频中的礼盒香水替换为参考图片中的面霜。
curl
bash复制代码curl https://token.matpool.com/v1/video/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "将视频1礼盒中的香水替换成图片1中的面霜,保持原视频运镜不变,产品质感自然" }, { "type": "image_url", "image_url": { "url": "https://example.com/cream.jpg" }, "role": "reference_image" }, { "type": "video_url", "video_url": { "url": "https://example.com/gift-video.mp4" }, "role": "reference_video" } ], "ratio": "16:9", "resolution": "720p", "duration": 5, "generate_audio": true, "watermark": false }'
Python
python复制代码from openai import OpenAI import time client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) task = client.post( "/video/generations", json={ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "将视频1礼盒中的香水替换成图片1中的面霜,保持原视频运镜不变,产品质感自然" }, { "type": "image_url", "image_url": { "url": "https://example.com/cream.jpg" }, "role": "reference_image" }, { "type": "video_url", "video_url": { "url": "https://example.com/gift-video.mp4" }, "role": "reference_video" } ], "ratio": "16:9", "resolution": "720p", "duration": 5, "generate_audio": True, "watermark": False } ) task_id = task.json()["id"] while True: result = client.get(f"/video/generations/{task_id}") data = result.json() if data.get("status") in ("succeeded", "failed"): print(data) break time.sleep(30)
视频延长
视频延长通常传入一段或多段 reference_video,再用文本说明需要延长的方向。生成结果会在参考视频基础上继续发展剧情、动作或镜头。
curl
bash复制代码curl https://token.matpool.com/v1/video/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "延续视频1的镜头语言和主体动作,让人物继续向前奔跑,镜头逐渐拉远,保持电影质感" }, { "type": "video_url", "video_url": { "url": "https://example.com/input-video.mp4" }, "role": "reference_video" } ], "ratio": "16:9", "resolution": "720p", "duration": 8, "generate_audio": true }'
Python
python复制代码from openai import OpenAI import time client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) task = client.post( "/video/generations", json={ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "延续视频1的镜头语言和主体动作,让人物继续向前奔跑,镜头逐渐拉远,保持电影质感" }, { "type": "video_url", "video_url": { "url": "https://example.com/input-video.mp4" }, "role": "reference_video" } ], "ratio": "16:9", "resolution": "720p", "duration": 8, "generate_audio": True } ) task_id = task.json()["id"] while True: result = client.get(f"/video/generations/{task_id}") data = result.json() if data.get("status") in ("succeeded", "failed"): print(data) break time.sleep(30)
2.5 响应格式
创建任务响应
json复制代码{ "id": "video_task_123", "object": "video.generation.task", "status": "queued", "created": 1710000000 }
查询任务响应
json复制代码{ "id": "video_task_123", "object": "video.generation.task", "status": "succeeded", "created": 1710000000, "data": [ { "url": "https://example.com/result.mp4", "last_frame_url": "https://example.com/last-frame.png" } ] }
| 字段 | 类型 | 说明 |
|---|---|---|
id | string | 视频生成任务 ID |
status | string | 任务状态,常见值:queued、running、succeeded、failed |
data[].url | string | 生成视频 URL |
data[].last_frame_url | string | 当 return_last_frame=true 时返回的尾帧图 URL |
注意:视频生成为异步操作,生成时间较长。建议每 30 秒轮询一次任务状态。最终字段名以实际接口返回为准。
三、视觉理解模型(VISION)
3.1 支持的模型
| 模型名称 | 说明 | 特点 |
|---|---|---|
| Qwen3-VL-Plus | 千问视觉理解旗舰版 | 复杂视觉推理、多图/视频理解、视觉 Agent、视觉 coding、空间感知 |
| Qwen3-VL-Flash | 千问视觉理解轻量版 | 响应速度快,适合批量识别、长视频/长文档解析、2D/3D 定位 |
上游 Model ID:阿里百炼文档中的模型名通常为
qwen3-vl-plus、qwen3-vl-flash及其快照版本;Token 路由中使用上表的模型名即可。
3.2 接口地址
视觉理解模型使用 Chat Completions 接口:
text复制代码POST https://token.matpool.com/v1/chat/completions
区别在于 messages.content 是多模态数组,可以传入文本、图片和视频。
3.3 请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,如 Qwen3-VL-Plus、Qwen3-VL-Flash |
messages | array | 是 | — | 对话消息列表,支持在 content 中混合传入 text、image_url、video_url |
temperature | number | 否 | 1.0 | 生成随机性,值越低输出越确定(0~2) |
max_tokens | integer | 否 | 模型默认 | 最大输出 Token 数 |
top_p | number | 否 | 1.0 | 核采样概率,与 temperature 二选一调整 |
stream | boolean | 否 | false | 是否开启流式输出 |
messages 中的多模态输入方式:
json复制代码{ "role": "user", "content": [ { "type": "text", "text": "请总结这张图和这段视频的重点" }, { "type": "image_url", "image_url": { "url": "https://example.com/image.jpg" } }, { "type": "video_url", "video_url": { "url": ["https://example.com/video.mp4"] } } ] }
支持的输入格式:
- URL 链接:
{ "type": "image_url", "image_url": { "url": "https://..." } } - Base64 编码:
{ "type": "image_url", "image_url": { "url": "data:image/jpeg;base64,..." } } - 多图输入:在
content数组中传入多个image_url对象即可 - 视频输入:
{ "type": "video_url", "video_url": { "url": ["https://...mp4"] } },用于视频描述、字幕总结、时间线分析等
输入规模参考:Qwen3-VL 系列适合多图片、多视频理解。官方 OpenAI 兼容文档支持图片 URL/Base64 和视频 URL 输入;实际可上传数量、单图像素、视频时长和文件大小以当前路由的模型规格为准。长视频或高分辨率图片会显著增加输入 Token。
3.4 调用示例
单图理解
bash复制代码curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3-VL-Plus", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "请描述这张图片的内容" }, { "type": "image_url", "image_url": { "url": "https://example.com/photo.jpg" } } ] } ] }'
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.chat.completions.create( model="Qwen3-VL-Plus", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请描述这张图片的内容"}, {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}} ] } ] ) print(response.choices[0].message.content)
Base64 图片输入
python复制代码import base64 from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) # 读取本地图片并编码为 Base64 with open("local_image.jpg", "rb") as f: image_base64 = base64.b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="Qwen3-VL-Plus", messages=[ { "role": "user", "content": [ {"type": "text", "text": "这张图片里有什么?"}, { "type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"} } ] } ] ) print(response.choices[0].message.content)
多图对比
python复制代码response = client.chat.completions.create( model="Qwen3-VL-Plus", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请对比这两张图片的区别"}, {"type": "image_url", "image_url": {"url": "https://example.com/image1.jpg"}}, {"type": "image_url", "image_url": {"url": "https://example.com/image2.jpg"}} ] } ] ) print(response.choices[0].message.content)
视频理解
python复制代码response = client.chat.completions.create( model="Qwen3-VL-Flash", messages=[ { "role": "user", "content": [ { "type": "text", "text": "请按时间顺序总结视频内容,并列出可见文字和关键画面。" }, { "type": "video_url", "video_url": {"url": ["https://example.com/video.mp4"]} } ] } ], stream=True ) for chunk in response: delta = chunk.choices[0].delta if delta.content: print(delta.content, end="")
四、音频模型(AUDIO)
4.1 支持的模型
| 模型名称 | 说明 | 特点 |
|---|---|---|
| Qwen3.5-Omni-Plus | 千问全能多模态高级版 | 长音视频理解、会议纪要、字幕生成、内容审核、音视频交互助手 |
| Qwen3.5-Omni-Flash | 千问全能多模态极速版 | 成本和延迟更优,适合语音助手、批量音频理解、实时交互 |
上游 Model ID:阿里百炼文档中的模型名通常为
qwen3.5-omni-plus、qwen3.5-omni-flash。Qwen3.5-Omni 支持文本、图片、音频、视频组合输入,可输出文本或文本+音频。
4.2 接口地址
Qwen3.5-Omni 系列按 OpenAI 兼容的 Chat Completions 调用。需要语音输出时,必须使用流式响应收集音频片段。
text复制代码POST https://token.matpool.com/v1/chat/completions
4.3 请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,如 Qwen3.5-Omni-Plus、Qwen3.5-Omni-Flash |
messages | array | 是 | — | 对话消息列表,支持文本、图片、音频、视频等多模态输入 |
modalities | array | 否 | ["text"] | 输出模态,["text"] 仅文本,["text", "audio"] 文本+语音 |
audio | object | 否 | — | 音频输出配置,当 modalities 包含 audio 时必填,含 voice 和 format |
temperature | number | 否 | 1.0 | 生成随机性(0~2) |
max_tokens | integer | 否 | 模型默认 | 最大输出 Token 数 |
stream | boolean | 语音输出时是 | false | Qwen3.5-Omni 语音输出必须设为 true |
stream_options | object | 否 | — | 流式统计配置,如 { "include_usage": true } |
messages 中的音频输入方式(Base64):
json复制代码{ "role": "user", "content": [ { "type": "text", "text": "这段音频说了什么?" }, { "type": "input_audio", "input_audio": { "data": "<base64编码的音频>", "format": "wav" } } ] }
| 字段 | 说明 |
|---|---|
type | 固定为 input_audio |
input_audio.data | Base64 编码的音频数据 |
input_audio.format | 音频格式,如 wav、mp3 |
音频输出配置:
| 字段 | 说明 |
|---|---|
audio.voice | 输出音色。阿里百炼示例使用 Tina;不同模型可用音色数量不同,以模型列表为准 |
audio.format | 输出音频格式,如 wav;返回内容为 Base64 编码的 PCM/WAV 数据片段 |
使用建议:音视频理解、会议纪要、字幕生成等场景使用
modalities=["text"]即可;语音助手、朗读、拟人对话等场景使用modalities=["text", "audio"],并在流式响应中拼接delta.audio.data。
4.4 调用示例
音频输入,文本输出
bash复制代码curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3.5-Omni-Plus", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "请转述这段音频的内容" }, { "type": "input_audio", "input_audio": { "data": "<base64_encoded_audio>", "format": "wav" } } ] } ] }'
python复制代码import base64 from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) with open("meeting.wav", "rb") as f: audio_base64 = base64.b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="Qwen3.5-Omni-Plus", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请提取这段会议录音的待办事项"}, { "type": "input_audio", "input_audio": { "data": audio_base64, "format": "wav" } } ] } ] ) print(response.choices[0].message.content)
文本输入,流式返回文本 + 语音
python复制代码import base64 import wave stream = client.chat.completions.create( model="Qwen3.5-Omni-Plus", messages=[ {"role": "user", "content": "请用温柔自然的语气介绍 Matpool 大模型平台。"} ], modalities=["text", "audio"], audio={"voice": "Tina", "format": "wav"}, stream=True, stream_options={"include_usage": True} ) audio_base64 = "" for chunk in stream: if not chunk.choices: continue delta = chunk.choices[0].delta if delta.content: print(delta.content, end="") if getattr(delta, "audio", None) and delta.audio.get("data"): audio_base64 += delta.audio["data"] if audio_base64: pcm_bytes = base64.b64decode(audio_base64) with wave.open("omni_reply.wav", "wb") as wf: wf.setnchannels(1) wf.setsampwidth(2) wf.setframerate(24000) wf.writeframes(pcm_bytes)
音视频内容分析 Prompt 示例
text复制代码请分析这段视频,输出: 1. 按时间戳组织的画面和声音描述 2. 可见文字及其出现时间 3. 语音转写、说话人、语气和情绪 4. 最后给出 5 条摘要和 3 条待办事项
音频计费说明:音频模型除文本 Token 外,还包含音频输入/输出 Token 计费。语音输出会额外产生 audio completion 相关费用。
纯 TTS 说明:如果只需要文本转语音,请优先使用 Qwen3.5-Omni 的
modalities=["text", "audio"]。若 Token 平台后续单独开放/v1/audio/speech路由,应以模型列表和接口返回为准。
五、向量模型(EMBEDDING)
5.1 支持的模型
| 模型名称 | 说明 | 特点 |
|---|---|---|
| Text-Embedding-V4 | 通义实验室多语言文本向量模型 | 基于 Qwen3 训练,适合语义检索、RAG、聚类、分类,支持自定义维度 |
| Qwen3-VL-Embedding | 千问多模态向量模型 | 支持文本、图片、视频独立向量与融合向量,适合跨模态检索 |
上游 Model ID:阿里百炼文本向量模型为
text-embedding-v4;多模态向量模型常见为qwen3-vl-embedding。Token 路由是否开放多模态向量模型,以模型列表和接口返回为准。
5.2 接口地址
文本向量使用 OpenAI Embeddings 兼容接口:
text复制代码POST https://token.matpool.com/v1/embeddings
多模态向量在阿里百炼官方文档中使用 DashScope 多模态向量接口;如果 Token 路由没有提供对应兼容接口,请先在业务侧确认是否已映射为 /v1/embeddings 或单独路由。
5.3 请求参数
文本向量参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,如 Text-Embedding-V4 |
input | string / array | 是 | — | 输入文本,支持单条字符串或批量数组 |
encoding_format | string | 否 | float | 编码格式,float(浮点数组)或 base64(Base64 编码) |
dimensions | integer | 否 | 模型默认 | 向量维度,Text-Embedding-V4 支持自定义维度(常用 512、1024、1536、2048) |
多模态向量参数(如已开放)
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,如 Qwen3-VL-Embedding |
input | array | 是 | — | 多模态内容数组,可包含 { "text": "..." }、{ "image": "https://..." }、{ "video": "https://..." } |
enable_fusion | boolean | 否 | false | 是否生成融合向量。true 时将多模态内容融合为一个向量 |
dimensions / dimension | integer | 否 | 模型默认 | 输出向量维度。具体可选值以当前模型规格为准 |
5.4 调用示例
单条文本向量化
curl
bash复制代码curl https://token.matpool.com/v1/embeddings \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Text-Embedding-V4", "input": "人工智能正在改变世界" }'
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.embeddings.create( model="Text-Embedding-V4", input="人工智能正在改变世界" ) print(f"向量维度: {len(response.data[0].embedding)}") print(f"前5个值: {response.data[0].embedding[:5]}")
批量文本 + 自定义维度
curl
bash复制代码curl https://token.matpool.com/v1/embeddings \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Text-Embedding-V4", "input": [ "人工智能正在改变世界", "大语言模型是AI领域的重要突破", "向量数据库用于存储和检索嵌入向量" ], "dimensions": 512 }'
Python
python复制代码response = client.embeddings.create( model="Text-Embedding-V4", input=[ "人工智能正在改变世界", "大语言模型是AI领域的重要突破", "向量数据库用于存储和检索嵌入向量" ], dimensions=512 # 自定义向量维度(64~2048) ) for i, item in enumerate(response.data): print(f"文本 {i}: 向量维度 {len(item.embedding)}")
多模态融合向量(如路由已开放)
适用于文搜图、图搜图、文搜视频、跨模态召回等场景。下面示例展示推荐的请求体结构;实际接口路径和参数命名请以 Token 平台映射为准。
bash复制代码curl https://token.matpool.com/v1/embeddings \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3-VL-Embedding", "input": [ { "text": "白色运动鞋,轻量透气,适合跑步" }, { "image": "https://example.com/shoes.jpg" } ], "enable_fusion": true, "dimensions": 1024 }'
python复制代码response = client.embeddings.create( model="Qwen3-VL-Embedding", input=[ {"text": "白色运动鞋,轻量透气,适合跑步"}, {"image": "https://example.com/shoes.jpg"} ], extra_body={ "enable_fusion": True, "dimensions": 1024 } ) print(len(response.data[0].embedding))
计算文本相似度
python复制代码import numpy as np
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_TOKEN",
base_url="https://token.matpool.com/v1"
)
texts = ["今天天气真好", "今天阳光明媚", "股票市场今天大跌"]
response = client.embeddings.create(
model="Text-Embedding-V4",
input=texts
)
embeddings = [item.embedding for item in response.data]
# 计算余弦相似度
def cosine_similarity(a, b):
return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))
print(f"'天气好' vs '阳光': {cosine_similarity(embeddings[0], embeddings[1]):.4f}")
print(f"'天气好' vs '股票': {cosine_similarity(embeddings[0], embeddings[2]):.4f}")
六、代码模型(CODE)
6.1 支持的模型
| 模型名称 | 说明 | 特点 |
|---|---|---|
| Qwen3-Coder-Plus | 千问代码旗舰版 | 复杂编程、代码审查,支持超长上下文 |
| Qwen3-Coder-Flash | 千问代码轻量版 | 多轮工具交互,仓库级理解,速度快 |
| Doubao-Seed-2.0-Code | 豆包编程专用模型 | 前端能力优化,支持 Skills,IDE 工具调用 |
6.2 接口地址
代码模型使用 Chat Completions 接口:
text复制代码POST https://token.matpool.com/v1/chat/completions
代码模型特别擅长工具调用(Function Calling)和多轮交互,适合集成到 IDE 和编程助手中。
6.3 请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,如 Qwen3-Coder-Plus、Doubao-Seed-2.0-Code |
messages | array | 是 | — | 对话消息列表 |
temperature | number | 否 | 1.0 | 生成随机性,编程任务推荐 0~0.3(低温更确定) |
max_tokens | integer | 否 | 模型默认 | 最大输出 Token 数 |
top_p | number | 否 | 1.0 | 核采样概率 |
tools | array | 否 | — | 工具定义列表(Function Calling),定义可供模型调用的外部函数 |
tool_choice | string | 否 | auto | 工具选择策略:auto(模型自主决定)、none(不使用工具)、required(必须使用工具) |
stream | boolean | 否 | false | 是否开启流式输出 |
6.4 调用示例
代码生成
curl
bash复制代码curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3-Coder-Plus", "messages": [ { "role": "system", "content": "你是一个专业的Python开发者" }, { "role": "user", "content": "写一个快速排序算法的实现,并添加类型注解" } ], "temperature": 0.1 }'
Python
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.chat.completions.create( model="Qwen3-Coder-Plus", messages=[ {"role": "system", "content": "你是一个专业的Python开发者"}, {"role": "user", "content": "写一个快速排序算法的实现,并添加类型注解"} ], temperature=0.1 ) print(response.choices[0].message.content)
带工具调用(Function Calling)
curl
bash复制代码curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3-Coder-Plus", "messages": [ { "role": "user", "content": "计算斐波那契数列前20项的和" } ], "tools": [ { "type": "function", "function": { "name": "run_code", "description": "执行Python代码并返回结果", "parameters": { "type": "object", "properties": { "code": { "type": "string", "description": "要执行的Python代码" } }, "required": ["code"] } } } ], "tool_choice": "auto" }'
Python
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) tools = [ { "type": "function", "function": { "name": "run_code", "description": "执行Python代码并返回结果", "parameters": { "type": "object", "properties": { "code": { "type": "string", "description": "要执行的Python代码" } }, "required": ["code"] } } } ] response = client.chat.completions.create( model="Qwen3-Coder-Plus", messages=[ {"role": "user", "content": "计算斐波那契数列前20项的和"} ], tools=tools, tool_choice="auto" ) print(response.choices[0].message.tool_calls)
七、数学模型(MATH)
7.1 支持的模型
| 模型名称 | 说明 | 特点 |
|---|---|---|
| Qwen-Math-Plus | 千问数学旗舰版 | 复杂数学解题,方程、计算、证明 |
| Qwen-Math-Turbo | 千问数学快速版 | 推理速度快,成本低 |
7.2 接口地址
数学模型使用 Chat Completions 接口:
text复制代码POST https://token.matpool.com/v1/chat/completions
7.3 请求参数
| 参数 | 类型 | 必填 | 默认值 | 说明 |
|---|---|---|---|---|
model | string | 是 | — | 模型名称,如 Qwen-Math-Plus、Qwen-Math-Turbo |
messages | array | 是 | — | 对话消息列表 |
temperature | number | 否 | 1.0 | 生成随机性 |
max_tokens | integer | 否 | 模型默认 | 最大输出 Token 数 |
top_p | number | 否 | 1.0 | 核采样概率 |
stream | boolean | 否 | false | 是否开启流式输出 |
7.4 调用示例
curl
bash复制代码curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen-Math-Plus", "messages": [ { "role": "user", "content": "求解方程 x² - 5x + 6 = 0,并给出详细的解题过程" } ] }'
Python
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.chat.completions.create( model="Qwen-Math-Plus", messages=[ { "role": "user", "content": "求解方程 x² - 5x + 6 = 0,并给出详细的解题过程" } ] ) print(response.choices[0].message.content)
八、LLM 文本模型(TEXT)
LLM详细的基础使用说明请参考 LLM API 教程 中的第 6 节。
九、通用说明
9.1 鉴权方式
所有接口统一使用 Bearer Token 鉴权:
http复制代码Authorization: Bearer YOUR_API_TOKEN Content-Type: application/json
9.2 推荐的 SDK 配置
Matpool 接口与 OpenAI 规范兼容,推荐使用 OpenAI 官方 SDK,只需覆盖 base_url:
Python
python复制代码from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" )
9.3 接口路径汇总
| 模型类型 | 接口路径 | 适用模型 |
|---|---|---|
| TEXT / CODE / MATH | /v1/chat/completions | 文本、代码、数学推理 |
| VISION | /v1/chat/completions | Qwen3-VL 图片/视频理解,多模态输入通过 messages.content 传入(详见 §3) |
| AUDIO (Qwen3.5-Omni) | /v1/chat/completions | Qwen3.5-Omni 音频/视频理解、文本+语音流式输出(详见 §4) |
| IMAGE (GPT-Image-2) | /v1/images/generations | GPT-Image-2 完整版,支持自定义分辨率(最高 4K),quality 枚举,base64 和 URL 返回(详见 §1.3) |
| IMAGE (GPT-Image-2-Flash) | /v1/images/generations | GPT-Image-2-Flash 简化版,仅支持 1K 和 URL 返回(详见 §1.4) |
| IMAGE (Nano-Banana 原版文生图) | /v1/images/generations | Nano-Banana / Nano-Banana-Pro / Nano-Banana-2 文本生成图像(详见 §1.5) |
| IMAGE (Nano-Banana 原版图生图/编辑) | /v1/images/edits | Nano-Banana / Nano-Banana-Pro / Nano-Banana-2 图像编辑、多图融合、Base64 输入和 mask 局部编辑(详见 §1.5) |
| IMAGE (Nano-Banana Spot) | /v1/images/generations | Nano-Banana Spot 系列文生图、图生图、多图融合;图像输入通过 image 字段传入(详见 §1.6) |
| IMAGE (Qwen 文生图) | /v1/images/generations | Qwen-Image-2.0 / 2.0-Pro 文本生成图像(详见 §1.7) |
| IMAGE (Qwen 图生图/编辑) | /v1/images/edits | Qwen-Image-2.0 / 2.0-Pro 多图编辑、文字渲染编辑(详见 §1.7) |
| IMAGE (Wan2.7 文生图) | /v1/images/generations | Wan2.7 / Wan2.7-pro 文本生成图像、组图生成(详见 §1.8) |
| IMAGE (Wan2.7 图生图/编辑) | /v1/images/edits | Wan2.7 / Wan2.7-pro 多图参考、主体一致性编辑(详见 §1.8) |
| IMAGE (Doubao-Seedream) | /v1/images/generations | Doubao-Seedream-4.0 / 4.5 / 5.0-lite 文生图、图生图、多图融合、组图生成(详见 §1.9) |
| VIDEO (Seedance) | /v1/video/generations | Seedance-2.0 / Seedance-2.0-fast 视频生成、图生视频、多模态参考、视频编辑与延长(详见 §2) |
| EMBEDDING | /v1/embeddings | Text-Embedding-V4 文本向量;多模态向量以 Token 平台映射为准(详见 §5) |
9.4 计费说明
- 基础计费:(输入 Token ÷ 1,000,000) × 输入单价 + (输出 Token ÷ 1,000,000) × 输出单价
- 图像模型:部分模型按固定价格计费(如 GPT-Image-2:0.14 模力豆/张),部分按比例计费
- 视频模型:采用阶梯计费,根据分辨率和输入方式不同价格不同
- 音频模型:除文本 Token 外,音频输入/输出有独立的计费倍率
- Spot 模型:闲时资源,价格更低但稳定性可能波动
- 限时免费模型:活动期间免费使用
详细价格请参考 模型广场