多模态模型详细教程

本文介绍 Matpool Token API 中图像、视频、视觉理解、音频和向量等多模态模型的接口地址、参数说明与调用示例。

多模态模型详细教程

  • 模型路由:https://token.matpool.com/v1
  • 路由规则与 OpenAI 标准一致
  • 鉴权方式:Authorization: Bearer YOUR_API_TOKEN
  • 文本模型基础调用说明请参考 LLM API 入门教程

一、图像生成模型(IMAGE)

1.1 支持的模型

模型名称说明特点
GPT-Image-2OpenAI 最新图像模型支持自定义分辨率(最高 4K),quality 枚举(auto/low/medium/high),支持 base64 和 URL 返回
GPT-Image-2-FlashOpenAI 最新图像模型(简化版)仅支持 1K 分辨率和 URL 返回,价格更优
Nano-BananaGemini 2.5 Flash Image速度快,编辑能力强,性价比高
Nano-Banana-2Gemini 高效视觉生成快速交互式响应,高并发出图
Nano-Banana-ProGemini 3 Pro Image复杂多轮图像生成与编辑,具备思维推理能力
Nano-Banana-SpotNano-Banana 闲时资源价格便宜,稳定性可能波动
Nano-Banana-2-SpotNano-Banana-2 闲时资源价格便宜,性价比高
Nano-Banana-Pro-SpotNano-Banana-Pro 闲时资源价格便宜,质量高
Qwen-Image-2.0千问文生图中文文本渲染突出,亚洲人像表现好
Qwen-Image-2.0-Pro千问文生图专业版中文文本渲染增强
Doubao-Seedream-4.0豆包图像创作多图融合,组图生成,主体一致性
Doubao-Seedream-4.5豆包图像创作升级版人像美化,图像美学增强
Doubao-Seedream-5.0-lite豆包最新图像创作联网检索,精准解析复杂指令
Wan2.7万相2.7 图像生成与编辑多图参考,主体一致性
Wan2.7-pro万相2.7 旗舰版复杂指令遵循,文字渲染更强

Spot 模型说明:Spot(闲时资源)模型价格更低,但稳定性可能因供应问题波动,适合对成功率无极高要求的场景。

1.2 接口地址

图像模型按 OpenAI 标准接口调用。文生图使用生成端点;支持图像输入的编辑/图生图场景使用编辑端点。

text
复制代码
POST https://token.matpool.com/v1/images/generations POST https://token.matpool.com/v1/images/edits

注意:不同模型系列的请求参数格式有差异,请根据所使用的模型参考对应的参数说明。Nano-Banana 原版、Qwen-Image 和 Wan2.7 系列的图生图/编辑使用 /v1/images/edits;Nano-Banana Spot 和 Doubao-Seedream 系列按上游文档使用 /v1/images/generations,并在同一个请求体中传 image


1.3 GPT-Image-2

OpenAI 最新图像生成模型的完整版本,支持自定义分辨率(最高 4K),支持 base64url 两种返回格式,适用于对分辨率和输出格式有灵活要求的场景。

请求参数

参数类型必填默认值说明
modelstring模型名称,固定为 GPT-Image-2
promptstring图像描述文本,最长 5000 字符
sizestringauto图片尺寸,支持自定义像素分辨率(见下方说明)
qualitystringauto图像质量:autolowmediumhigh
response_formatstringurl返回格式:url(返回临时链接)或 base64(返回 Base64 编码数据)
imagestring / array参考图像,用于图生图。支持 URL 或 Base64,单张传字符串,多张传数组 ["url1", "url2"]

size 参数说明

GPT-Image-2 在 size 参数中支持传入任意像素分辨率,但需要满足以下约束条件。

常用分辨率(按宽高比分类)

比例1K2K4K
1:11024x10242048x20482880x2880
2:3816x12321360x20482352x3520
3:21232x8162048x13603520x2352
3:4880x11841552x20802336x3120
4:31184x8802080x15523120x2336
16:91360x7682048x11523536x1984
9:16768x13601152x20481984x3536
auto

说明:上表中 auto 表示由模型自动选择最佳尺寸。

尺寸限制

  • 最大边长必须 小于或等于 3840px
  • 宽和高都必须是 16px 的整数倍
  • 长边与短边的比例不能超过 3:1
  • 总像素数必须 不少于 655,360,且不超过 8,294,400

注意:上表中的分辨率均已通过约束验证。如需自定义尺寸,请确保满足以上所有限制条件。

调用示例

文生图(URL 返回)

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "一只可爱的橘猫坐在窗台上,阳光透过窗帘洒在它身上,水彩画风格", "size": "1024x1024", "quality": "auto", "response_format": "url" }'

Python

python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.images.generate( model="GPT-Image-2", prompt="一只可爱的橘猫坐在窗台上,阳光透过窗帘洒在它身上,水彩画风格", size="1024x1024", quality="auto", response_format="url" ) # 获取图片 URL print(response.data[0].url)

文生图(Base64 返回)

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "一幅未来城市的概念艺术画", "quality": "medium", "response_format": "base64" }'

Python

python
复制代码
import base64 response = client.images.generate( model="GPT-Image-2", prompt="一幅未来城市的概念艺术画", quality="medium", response_format="base64" ) # 解码 Base64 并保存图片 image_data = base64.b64decode(response.data[0].b64_json) with open("output.png", "wb") as f: f.write(image_data)

4K 高分辨率生成

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "一张超高清的山川风景照片,细节丰富", "size": "3840x2160", "quality": "high", "response_format": "url" }'

Python

python
复制代码
response = client.images.generate( model="GPT-Image-2", prompt="一张超高清的山川风景照片,细节丰富", size="3840x2160", quality="high", response_format="url" ) print(response.data[0].url)

图生图(参考图像编辑)

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "将图片中的角色改为在吃饭的姿态", "image": "https://example.com/reference_image.jpg", "size": "1024x1024", "response_format": "url" }'

Python

python
复制代码
import base64 # 方式一:通过 URL 传入参考图像 response = client.images.generate( model="GPT-Image-2", prompt="将图片中的角色改为在吃饭的姿态", image="https://example.com/reference_image.jpg", size="1024x1024", response_format="url" ) # 方式二:通过 Base64 传入本地图像 with open("reference.jpg", "rb") as f: image_base64 = base64.b64encode(f.read()).decode("utf-8") response = client.images.generate( model="GPT-Image-2", prompt="将图片中的角色改为在吃饭的姿态", image=f"data:image/jpeg;base64,{image_base64}", size="1024x1024", response_format="url" ) print(response.data[0].url)

多图参考输入

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2", "prompt": "融合这两张图片的风格,生成一张新图", "image": ["https://example.com/image1.jpg", "https://example.com/image2.jpg"], "size": "1024x1024", "response_format": "url" }'

Python

python
复制代码
response = client.images.generate( model="GPT-Image-2", prompt="融合这两张图片的风格,生成一张新图", image=[ "https://example.com/image1.jpg", "https://example.com/image2.jpg" ], size="1024x1024", response_format="url" ) print(response.data[0].url)

响应格式

URL 返回response_format: "url"):

json
复制代码
{ "created": 1589478378, "data": [ { "url": "https://..." } ] }

Base64 返回response_format: "base64"):

json
复制代码
{ "created": 1589478378, "data": [ { "b64_json": "iVBORw0KGgo..." } ] }
字段类型说明
createdinteger创建时间的 Unix 时间戳
dataarray生成结果数组,根据 response_format 包含 urlb64_json 字段

1.4 GPT-Image-2-Flash

OpenAI 最新模型的简化/特价版,返回参数已经做了简化配置,适用于需要快速接入且对高级参数/分辨率无特殊要求的场景。

请求参数

参数类型必填默认值说明
modelstring模型名称,固定为 GPT-Image-2-Flash
promptstring图像描述文本,最长 5000 字符
sizestringauto图片尺寸,支持比例格式和像素格式(见下方说明)
imagestring / array参考图像,用于图生图。支持 URL 或 Base64,单张传字符串,多张传数组 ["url1", "url2"]

size 参数说明

GPT-Image-2-Flash 支持自定义像素分辨率,支持分辨率:1K:

自定义分辨率

  • 宽高必须为 16 的整数倍
  • 长短边比不超过 3:1

常用分辨率1024x10241536x10241024x1536auto

调用示例

文生图

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2-Flash", "prompt": "一只可爱的橘猫坐在窗台上,阳光透过窗帘洒在它身上,水彩画风格", "size": "1024x1024" }'

Python

python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.images.generate( model="GPT-Image-2-Flash", prompt="一只可爱的橘猫坐在窗台上,阳光透过窗帘洒在它身上,水彩画风格", size="1024x1024" ) # 获取图片 URL print(response.data[0].url)

图生图(参考图像编辑)

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2-Flash", "prompt": "将图片中的角色改为在吃饭的姿态", "image": "https://example.com/reference_image.jpg", "size": "1024x1024" }'

Python

python
复制代码
from openai import OpenAI import base64 client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) # 方式一:通过 URL 传入参考图像 response = client.images.generate( model="GPT-Image-2-Flash", prompt="将图片中的角色改为在吃饭的姿态", image="https://example.com/reference_image.jpg", size="1024x1024" ) # 方式二:通过 Base64 传入本地图像 with open("reference.jpg", "rb") as f: image_base64 = base64.b64encode(f.read()).decode("utf-8") response = client.images.generate( model="GPT-Image-2-Flash", prompt="将图片中的角色改为在吃饭的姿态", image=f"data:image/jpeg;base64,{image_base64}", size="1024x1024" ) print(response.data[0].url)

多图参考输入

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "GPT-Image-2-Flash", "prompt": "融合这两张图片的风格,生成一张新图", "image": ["https://example.com/image1.jpg", "https://example.com/image2.jpg"], "size": "1024x1024" }'

Python

python
复制代码
response = client.images.generate( model="GPT-Image-2-Flash", prompt="融合这两张图片的风格,生成一张新图", image=[ "https://example.com/image1.jpg", "https://example.com/image2.jpg" ], size="1024x1024" ) print(response.data[0].url)

响应格式

json
复制代码
{ "created": 1589478378, "data": [ { "url": "https://..." } ] }
字段类型说明
createdinteger创建时间的 Unix 时间戳
dataarray生成结果数组,每个元素包含 url 字段

1.5 Nano-Banana 系列

Nano-Banana 原版系列包含 Gemini 图像模型的多个版本,覆盖快速 1K 出图、高质量 2K/4K 出图和复杂图像编辑。原版系列与 Spot 系列的接口用法不同:原版图生图/编辑使用 /v1/images/edits,Spot 系列请见 §1.6。

模型对应关系

Token 模型名称对应官方模型推荐场景分辨率能力
Nano-Bananagemini-2.5-flash-image快速文生图、基础图像编辑1K
Nano-Banana-Progemini-3.0-pro-image-preview高质量生成、复杂指令、多图编辑支持 2K / 4K
Nano-Banana-2gemini-3.1-flash-image-preview新一代快速高质量出图、多图融合支持 2K / 4K

接口地址

text
复制代码
文生图:POST https://token.matpool.com/v1/images/generations 图生图 / 图像编辑:POST https://token.matpool.com/v1/images/edits

文生图请求参数

参数类型必填默认值说明
modelstring模型名称:Nano-BananaNano-Banana-ProNano-Banana-2
promptstring图像描述文本,建议清晰描述主体、风格、构图、光线和输出目标
sizestring1x1图片比例,格式为 宽比x高比,如 1x116x99x16
qualitystring图像质量档位:2k4k。适用于 Nano-Banana-ProNano-Banana-2Nano-Banana 基础版固定 1K,通常不传
response_formatstringurl返回格式:url(临时图片链接)或 b64_json(Base64 编码)

图生图 / 图像编辑请求参数

参数类型必填默认值说明
modelstring模型名称,同文生图
imagestring / array输入图像。支持图片 URL、Base64,单图传字符串,多图传数组
promptstring编辑指令,如风格转换、局部修改、主体融合、场景替换等
maskstring遮罩图,用于局部精确编辑;更适合 Nano-Banana-ProNano-Banana-2 系列
sizestring1x1输出图片比例,格式同文生图
qualitystring图像质量档位,适用范围同文生图
response_formatstringurl返回格式:urlb64_json

size 参数说明(Nano-Banana 系列专用)

Nano-Banana 系列使用比例格式,常用比例与 1K 参考分辨率如下:

参数值比例1K 参考分辨率适用场景
1x11:11024×1024头像、商品图、通用方图
2x32:3832×1248竖版海报、人像
3x23:21248×832横版摄影、封面图
3x43:4864×1184竖版内容图
4x34:31184×864横版内容图
4x54:5896×1152社媒竖图
5x45:41152×896社媒横图
9x169:16768×1344手机壁纸、短视频封面
16x916:91344×768横版封面、演示页
21x921:91536×672超宽横幅

注意:这里的 size 是比例值(如 16x9),不是像素值(如 1344x768)。需要更高分辨率时使用 quality: "2k"quality: "4k",不要把 size 改成像素分辨率。

调用示例

Nano-Banana 文生图(1K)

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana", "prompt": "一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质", "size": "1x1", "response_format": "url" }'

Python

python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.images.generate( model="Nano-Banana", prompt="一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质", size="1x1", response_format="url" ) print(response.data[0].url)

Nano-Banana-Pro 生成 4K 图像

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-Pro", "prompt": "一只穿着太空服的猫咪在月球上漫步,背景是地球,电影感光照,细节丰富", "size": "16x9", "quality": "4k", "response_format": "url" }'

Python

python
复制代码
response = client.images.generate( model="Nano-Banana-Pro", prompt="一只穿着太空服的猫咪在月球上漫步,背景是地球,电影感光照,细节丰富", size="16x9", quality="4k", response_format="url" ) print(response.data[0].url)

Nano-Banana-2 文生图(2K)

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-2", "prompt": "一幅超现实主义的城市风景画,建筑物倒映在水面上,色彩鲜明", "size": "16x9", "quality": "2k", "response_format": "url" }'

Python

python
复制代码
response = client.images.generate( model="Nano-Banana-2", prompt="一幅超现实主义的城市风景画,建筑物倒映在水面上,色彩鲜明", size="16x9", quality="2k", response_format="url" ) print(response.data[0].url)

图生图 / 风格转换

curl

bash
复制代码
curl https://token.matpool.com/v1/images/edits \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-Pro", "image": "https://example.com/reference_image.jpg", "prompt": "为这个场景添加日落效果,让整体色调更温暖", "size": "1x1", "response_format": "url" }'

Python

python
复制代码
import requests response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Nano-Banana-Pro", "image": "https://example.com/reference_image.jpg", "prompt": "为这个场景添加日落效果,让整体色调更温暖", "size": "1x1", "response_format": "url" } ) response.raise_for_status() print(response.json()["data"][0]["url"])

多图融合输入

curl

bash
复制代码
curl https://token.matpool.com/v1/images/edits \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-2", "image": [ "https://example.com/cat1.png", "https://example.com/cat2.png" ], "prompt": "将这两张图片中的角色放在同一场景中,保持主体外观一致", "size": "3x2", "quality": "4k", "response_format": "url" }'

Python

python
复制代码
import requests response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Nano-Banana-2", "image": [ "https://example.com/cat1.png", "https://example.com/cat2.png" ], "prompt": "将这两张图片中的角色放在同一场景中,保持主体外观一致", "size": "3x2", "quality": "4k", "response_format": "url" } ) response.raise_for_status() print(response.json()["data"][0]["url"])

Base64 输入图像

Python

python
复制代码
import base64 import requests with open("reference.png", "rb") as f: image_base64 = base64.b64encode(f.read()).decode("utf-8") response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Nano-Banana-Pro", "image": f"data:image/png;base64,{image_base64}", "prompt": "把图片改成水彩插画风格,保留主体构图", "size": "1x1", "response_format": "url" } ) response.raise_for_status() print(response.json()["data"][0]["url"])

响应格式

URL 返回response_format: "url"):

json
复制代码
{ "created": 1589478378, "data": [ { "url": "https://..." } ] }

Base64 返回response_format: "b64_json"):

json
复制代码
{ "created": 1234567890, "data": [ { "b64_json": "iVBORw0KGgoAAAANSUhEUgA..." } ], "output_format": "png", "usage": { "total_tokens": 5234, "input_tokens": 1234, "output_tokens": 4000, "input_tokens_details": { "text_tokens": 234, "image_tokens": 1000 } } }
字段类型说明
createdinteger创建时间的 Unix 时间戳
dataarray生成结果数组,根据 response_format 包含 urlb64_json 字段
output_formatstring输出图片格式,通常为 png;Base64 返回时可能出现
usageobjectToken 用量信息;部分上游返回,包含文本和图像 token 明细

1.6 Nano-Banana Spot 系列

Nano-Banana Spot 系列使用闲时资源,价格更低,但成功率和稳定性可能随上游资源波动。Spot 系列的调用方式与原版不同:文生图和图生图/多图融合都使用 /v1/images/generations,图像输入通过请求体里的 image 字段传入,不使用 /v1/images/edits

模型对应关系

Token 模型名称对应官方模型推荐场景分辨率能力
Nano-Banana-Spotgemini-2.5-flash-image闲时低价、可接受稳定性波动的基础出图1K
Nano-Banana-Pro-Spotgemini-3.0-pro-image-preview闲时低价的高质量生成与编辑支持 2K / 4K
Nano-Banana-2-Spotgemini-3.1-flash-image-preview闲时低价的新一代高质量出图、多图融合支持 2K / 4K

接口地址

text
复制代码
POST https://token.matpool.com/v1/images/generations

请求参数

参数类型必填默认值说明
modelstringSpot 模型名称:Nano-Banana-SpotNano-Banana-Pro-SpotNano-Banana-2-Spot
promptstring图像生成或编辑指令,建议明确描述主体、风格、构图、光线和修改目标
imagestring / array参考图像。文生图时不传;图生图/多图融合时传图片 URL 或 Base64,单图传字符串,多图传数组
sizestring1x1图片比例,格式为 宽比x高比,如 1x116x99x16;Spot 上游示例也支持 1x8 这类超长比例
qualitystring图像质量档位:2k4k。基础 Spot 版通常固定 1K,Pro/2 Spot 可按模型能力传入
response_formatstringurl返回格式。Spot 上游文档示例使用 url,推荐保持 url

size 参数说明(Spot 系列专用)

Spot 系列使用比例格式,与原版 Nano-Banana 一样使用 宽比x高比,但图像输入仍走 /v1/images/generations

参数值比例适用场景
1x11:1头像、商品图、通用方图
2x32:3竖版海报、人像
3x23:2横版摄影、封面图
3x43:4竖版内容图
4x34:3横版内容图
9x169:16手机壁纸、短视频封面
16x916:9横版封面、演示页
1x81:8超长竖图、长条画面;来自 Spot 上游示例

注意:这里的 size 是比例值,不是像素分辨率。需要更高分辨率时使用 quality: "2k"quality: "4k"

调用示例

Spot 文生图

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-Spot", "prompt": "一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质", "size": "1x1", "response_format": "url" }'

Python

python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.images.generate( model="Nano-Banana-Spot", prompt="一只可爱的橘猫坐在窗台上看着夕阳,照片风格,高清画质", size="1x1", response_format="url" ) print(response.data[0].url)

Spot 多图融合 / 图生图

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Nano-Banana-2-Spot", "prompt": "图中两个形象和一位身着兔子 coser 服饰的美少女艺术家正在将电脑屏幕上的图像手工复制到画布上,创作出一幅油画", "image": [ "https://example.com/cat_3.png", "https://example.com/cat_4.png" ], "size": "1x8", "quality": "4k", "response_format": "url" }'

Python

python
复制代码
import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Nano-Banana-2-Spot", "prompt": "图中两个形象和一位身着兔子 coser 服饰的美少女艺术家正在将电脑屏幕上的图像手工复制到画布上,创作出一幅油画", "image": [ "https://example.com/cat_3.png", "https://example.com/cat_4.png" ], "size": "1x8", "quality": "4k", "response_format": "url" } ) response.raise_for_status() print(response.json()["data"][0]["url"])

响应格式

json
复制代码
{ "created": 1589478378, "data": [ { "url": "https://..." } ] }
字段类型说明
createdinteger创建时间的 Unix 时间戳
dataarray生成结果数组,每个元素包含 url 字段

1.7 Qwen-Image 系列

Qwen-Image 系列来自阿里云百炼千问图像模型,适合中文文字渲染、海报/PPT/信息图、复杂图文混排和通用图像编辑。文生图与图生图的上游请求结构不同,因此建议按以下两类接口分别调用。

模型对应关系

Token 模型名称对应官方模型推荐场景说明
Qwen-Image-2.0-Proqwen-image-2.0-pro复杂文字渲染、海报、信息图、图文混排推荐优先使用
Qwen-Image-2.0qwen-image-2.0通用文生图、图像编辑兼顾质量与成本

接口地址

text
复制代码
文生图:POST https://token.matpool.com/v1/images/generations 图生图 / 图像编辑:POST https://token.matpool.com/v1/images/edits

文生图请求参数

参数类型必填默认值说明
modelstring模型名称:Qwen-Image-2.0Qwen-Image-2.0-Pro
promptstring正向提示词。Qwen-Image 适合明确描述画面主体、文字内容、排版、字体、材质和构图
response_formatstringurl返回格式:urlb64_json
parameters.sizestring2048*2048输出分辨率。使用 parameters 原生参数时按阿里格式传 宽*高
parameters.ninteger1生成图片数量。Qwen-Image-2.0 系列支持 1~6 张
parameters.watermarkbooleanfalse是否添加 Qwen-Image 水印
parameters.negative_promptstring反向提示词,最多 500 字符
parameters.prompt_extendbooleantrue是否开启提示词智能改写
parameters.seedinteger随机种子,范围 [0, 2147483647],用于提高结果稳定性

Qwen-Image-2.0 推荐分辨率

比例推荐分辨率
1:12048x2048
4:32368x1728
3:41728x2368
16:92688x1536
9:161536x2688

说明:Qwen-Image-2.0 系列输出图像总像素需在 512x5122048x2048 的等效范围内;上表用 x 便于阅读,放入 parameters.size 时按阿里原生格式写成 宽*高

图生图 / 图像编辑请求参数

参数类型必填默认值说明
modelstring模型名称:Qwen-Image-2.0Qwen-Image-2.0-Pro
promptstring编辑指令。Qwen 图像编辑支持中英文,2.0 系列上限约 1300 Token
input.messages[].content[].imagestring图片 URL、OSS 临时 URL 或 Base64,支持 1~3 张;多图时输出比例默认参考最后一张
parameters.sizestring接近 1K输出分辨率,如 1024*10241536*1024。实际输出会对齐到最接近的 16 的倍数
parameters.ninteger1生成图片数量。2.0 系列支持 1~6 张
parameters.watermarkbooleanfalse是否添加水印
parameters.negative_promptstring反向提示词
parameters.prompt_extendbooleantrue是否开启提示词智能改写
parameters.seedinteger随机种子

图生图推荐分辨率

比例推荐分辨率
1:11024x10241536x1536
2:3768x11521024x1536
3:21152x7681536x1024
3:4960x12801080x1440
4:31280x9601440x1080
9:16720x12801080x1920
16:91280x7201920x1080
21:91344x5762048x872

调用示例

Qwen 文生图

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen-Image-2.0-Pro", "prompt": "一张中文科技发布会海报,主标题为「矩池云 Token API」,副标题为「国内模型统一调用」,蓝紫渐变背景,清晰中文排版,现代设计", "response_format": "url", "parameters": { "size": "2048*2048", "n": 1, "watermark": false, "negative_prompt": "低画质,文字模糊,错别字,排版混乱", "prompt_extend": true, "seed": 12345 } }'

Python

python
复制代码
import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Qwen-Image-2.0-Pro", "prompt": "一张中文科技发布会海报,主标题为「矩池云 Token API」,副标题为「国内模型统一调用」,蓝紫渐变背景,清晰中文排版,现代设计", "response_format": "url", "parameters": { "size": "2048*2048", "n": 1, "watermark": False, "negative_prompt": "低画质,文字模糊,错别字,排版混乱", "prompt_extend": True, "seed": 12345 } } ) response.raise_for_status() print(response.json()["data"][0]["url"])

Qwen 图生图 / 多图编辑

curl

bash
复制代码
curl https://token.matpool.com/v1/images/edits \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen-Image-2.0-Pro", "prompt": "保持第一张图片的真实街景不变,把第二张图片中的卡通角色画到建筑旁边,风格像海报插画,边缘清晰", "input": { "messages": [ { "role": "user", "content": [ { "image": "https://example.com/street.png" }, { "image": "https://example.com/character.png" }, { "text": "保持第一张图片的真实街景不变,把第二张图片中的卡通角色画到建筑旁边,风格像海报插画,边缘清晰" } ] } ] }, "parameters": { "size": "1536*1024", "n": 1, "watermark": false, "prompt_extend": true } }'

Python

python
复制代码
import requests prompt = "保持第一张图片的真实街景不变,把第二张图片中的卡通角色画到建筑旁边,风格像海报插画,边缘清晰" response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Qwen-Image-2.0-Pro", "prompt": prompt, "input": { "messages": [ { "role": "user", "content": [ {"image": "https://example.com/street.png"}, {"image": "https://example.com/character.png"}, {"text": prompt} ] } ] }, "parameters": { "size": "1536*1024", "n": 1, "watermark": False, "prompt_extend": True } } ) response.raise_for_status() print(response.json()["data"][0]["url"])

1.8 Wan2.7 系列

Wan2.7 系列适合组图生成、多图参考、主体一致性、复杂指令遵循和更强的文字渲染。Wan2.7-pro 功能更全面,适合质量优先场景;Wan2.7 适合常规图像生成与编辑。

模型对应关系

Token 模型名称对应官方模型推荐场景
Wan2.7-prowan2.7-image-pro高质量组图生成、复杂编辑、主体一致性、较高分辨率
Wan2.7wan2.7-image通用文生图、图生图、图片编辑

接口地址

text
复制代码
文生图:POST https://token.matpool.com/v1/images/generations 图生图 / 图像编辑:POST https://token.matpool.com/v1/images/edits

文生图请求参数

参数类型必填默认值说明
modelstring模型名称:Wan2.7Wan2.7-pro
promptstring正向提示词,描述生成图像内容、风格、构图和文字要求
parameters.sizestring2K输出尺寸。Wan2.7 支持 1K2K4K 等档位,部分场景也可传具体分辨率
parameters.ninteger1生成图片数量
parameters.enable_sequentialbooleanfalse是否开启组图/序列图生成;需要多张连续图片时设为 true
parameters.negative_promptstring反向提示词
parameters.watermarkbooleanfalse是否添加水印
parameters.seedinteger随机种子

图生图 / 图像编辑请求参数

参数类型必填默认值说明
modelstring模型名称:Wan2.7Wan2.7-pro
promptstring编辑指令,如主体替换、风格迁移、场景扩展、组图生成
input.imagesarray参考图像 URL 或 Base64 数组
parameters.ninteger1生成图片数量
parameters.negative_promptstring反向提示词
parameters.watermarkbooleanfalse是否添加水印
parameters.seedinteger随机种子

调用示例

Wan2.7 文生图

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Wan2.7-pro", "prompt": "一组国风茶饮品牌主视觉,包含产品包装、茶杯、竹叶和水墨背景,画面有统一品牌色,适合电商详情页", "parameters": { "size": "2K", "n": 1, "enable_sequential": false, "negative_prompt": "低画质,文字错误,主体变形", "watermark": false, "seed": 2026 } }'

Python

python
复制代码
import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Wan2.7-pro", "prompt": "一组国风茶饮品牌主视觉,包含产品包装、茶杯、竹叶和水墨背景,画面有统一品牌色,适合电商详情页", "parameters": { "size": "2K", "n": 1, "enable_sequential": False, "negative_prompt": "低画质,文字错误,主体变形", "watermark": False, "seed": 2026 } } ) response.raise_for_status() print(response.json()["data"][0]["url"])

Wan2.7 图生图 / 参考图编辑

curl

bash
复制代码
curl https://token.matpool.com/v1/images/edits \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Wan2.7-pro", "prompt": "参考这两张图片,生成同一角色在咖啡馆阅读的场景,保持人物五官和服装风格一致,电影感光照", "input": { "prompt": "参考这两张图片,生成同一角色在咖啡馆阅读的场景,保持人物五官和服装风格一致,电影感光照", "images": [ "https://example.com/person.png", "https://example.com/style.png" ], "negative_prompt": "五官变形,服装不一致,低画质" }, "parameters": { "n": 1, "watermark": false, "seed": 2026 } }'

Python

python
复制代码
import requests prompt = "参考这两张图片,生成同一角色在咖啡馆阅读的场景,保持人物五官和服装风格一致,电影感光照" response = requests.post( "https://token.matpool.com/v1/images/edits", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Wan2.7-pro", "prompt": prompt, "input": { "prompt": prompt, "images": [ "https://example.com/person.png", "https://example.com/style.png" ], "negative_prompt": "五官变形,服装不一致,低画质" }, "parameters": { "n": 1, "watermark": False, "seed": 2026 } } ) response.raise_for_status() print(response.json()["data"][0]["url"])

1.9 Doubao-Seedream 系列

该系列的图生图也走 /v1/images/generations,通过请求体中的 image 字段传入参考图,适合多图融合、主体一致性、组图生成、品牌视觉和复杂指令解析。

模型对应关系

Token 模型名称推荐场景特点
Doubao-Seedream-4.0通用文生图、图生图、多图融合质量稳定,支持多图参考
Doubao-Seedream-4.5人像、美学增强、商业视觉更强人像与画面美感
Doubao-Seedream-5.0-lite复杂指令、轻量快速出图最新轻量版,适合高频调用

接口地址

text
复制代码
POST https://token.matpool.com/v1/images/generations

请求参数

参数类型必填默认值说明
modelstring模型名称:Doubao-Seedream-4.0Doubao-Seedream-4.5Doubao-Seedream-5.0-lite
promptstring文生图提示词或图生图编辑指令
imagestring / array参考图像。文生图不传;图生图/多图融合时传图片 URL、Base64 或数组
sizestring1024x1024图片尺寸,如 1024x10242048x20481664x936
ninteger1生成图片数量。Seedream 4.0 支持多图输出,最多可到 15 张;其他模型以实际能力为准
seedinteger-1随机种子,-1 表示随机;固定数值可提高复现性
response_formatstringurl返回格式:urlb64_json
watermarkstring / boolean模型默认水印开关。上游常见取值为 enable / disable,也可按渠道能力使用布尔值
sequential_image_generationstringdisabled序列/组图生成模式。需要分镜、故事连环图或品牌组图时可传 auto
max_imagesinteger配合 sequential_image_generation: "auto" 控制最多输出张数

尺寸说明:Seedream 4.x/5.x 可使用具体像素分辨率。常用值包括 1024x10242048x20481664x936936x1664;生成大图或多图会增加耗时和费用。

调用示例

Doubao 文生图

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Doubao-Seedream-4.0", "prompt": "一张高端咖啡品牌海报,木质桌面上摆放拿铁和咖啡豆,暖色自然光,商业摄影风格", "size": "2048x2048", "n": 1, "seed": -1, "response_format": "url", "watermark": "disable" }'

Python

python
复制代码
import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Doubao-Seedream-4.0", "prompt": "一张高端咖啡品牌海报,木质桌面上摆放拿铁和咖啡豆,暖色自然光,商业摄影风格", "size": "2048x2048", "n": 1, "seed": -1, "response_format": "url", "watermark": "disable" } ) response.raise_for_status() print(response.json()["data"][0]["url"])

Doubao 图生图 / 多图融合

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Doubao-Seedream-4.5", "prompt": "参考这些图片,生成同一款产品在夏季户外场景中的广告图,保持产品外观一致,背景清爽明亮", "image": [ "https://example.com/product.png", "https://example.com/style-reference.png" ], "size": "1664x936", "n": 1, "response_format": "url", "watermark": "disable" }'

Python

python
复制代码
import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Doubao-Seedream-4.5", "prompt": "参考这些图片,生成同一款产品在夏季户外场景中的广告图,保持产品外观一致,背景清爽明亮", "image": [ "https://example.com/product.png", "https://example.com/style-reference.png" ], "size": "1664x936", "n": 1, "response_format": "url", "watermark": "disable" } ) response.raise_for_status() print(response.json()["data"][0]["url"])

Doubao 组图 / 分镜生成

curl

bash
复制代码
curl https://token.matpool.com/v1/images/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Doubao-Seedream-5.0-lite", "prompt": "为一款智能手表生成三张连续广告分镜:开箱、佩戴运动、夜间健康监测。要求同一产品外观一致,画面干净现代", "size": "1024x1024", "sequential_image_generation": "auto", "max_images": 3, "response_format": "url", "watermark": "disable" }'

Python

python
复制代码
import requests response = requests.post( "https://token.matpool.com/v1/images/generations", headers={ "Authorization": "Bearer YOUR_API_TOKEN", "Content-Type": "application/json" }, json={ "model": "Doubao-Seedream-5.0-lite", "prompt": "为一款智能手表生成三张连续广告分镜:开箱、佩戴运动、夜间健康监测。要求同一产品外观一致,画面干净现代", "size": "1024x1024", "sequential_image_generation": "auto", "max_images": 3, "response_format": "url", "watermark": "disable" } ) response.raise_for_status() for item in response.json()["data"]: print(item["url"])

响应格式

json
复制代码
{ "created": 1589478378, "data": [ { "url": "https://..." } ] }
字段类型说明
createdinteger创建时间的 Unix 时间戳
dataarray生成结果数组,根据 response_format 包含 urlb64_json 字段

二、视频生成模型(VIDEO)

2.1 支持的模型

模型名称对应官方 Model ID说明输出规格
Seedance-2.0doubao-seedance-2-0-260128专业级视频创作模型,追求最高生成质量480p / 720p / 1080p;4~15 秒
Seedance-2.0-fastdoubao-seedance-2-0-fast-260128快速版,能力与 2.0 基本一致,更注重速度和成本480p / 720p;4~15 秒

Seedance 2.0 系列支持以下典型能力:

  • 文生视频:仅输入文本提示词生成视频。
  • 图生视频:输入首帧、尾帧或多张参考图生成视频。
  • 多模态参考:组合文本、图片、视频、音频作为参考素材。
  • 视频编辑:对参考视频进行主体替换、对象增删改、局部修复、风格调整等。
  • 视频延长:基于一段或多段参考视频继续生成后续内容。
  • 生成有声视频:通过 generate_audio=true 生成带音频的视频。

2.2 接口地址

text
复制代码
POST https://token.matpool.com/v1/video/generations

视频生成是异步任务。创建任务后会返回任务 ID,之后通过任务查询接口轮询结果:

text
复制代码
GET https://token.matpool.com/v1/video/generations/{task_id}

2.3 请求参数

参数类型必填默认值说明
modelstring模型名称,如 Seedance-2.0Seedance-2.0-fast
contentarray多模态输入数组。每项使用 type 区分 textimage_urlvideo_urlaudio_url
promptstring兼容简写字段。只做文生视频时可直接传 prompt,等价于 content 中的一条 text
ratiostring16:9输出宽高比,支持 21:916:94:31:13:49:16
resolutionstring720p输出分辨率。Seedance-2.0 支持 480p720p1080pSeedance-2.0-fast 支持 480p720p
durationinteger5输出视频时长,范围 4~15 秒
generate_audiobooleanfalse是否生成有声视频。需要有声结果时设为 true
watermarkbooleanfalse是否在生成结果中添加水印
return_last_framebooleanfalse是否同时返回视频产物对应的尾帧图
service_tierstring推理服务档位。上游支持 flex 离线推理时,可按实际接入情况传入

content 数组格式

type字段示例role说明
text{ "type": "text", "text": "..." }文本提示词,描述画面、运镜、动作、声音、风格等
image_url{ "type": "image_url", "image_url": { "url": "https://..." }, "role": "reference_image" }reference_image / first_frame / last_frame参考图、首帧、尾帧
video_url{ "type": "video_url", "video_url": { "url": "https://..." }, "role": "reference_video" }reference_video参考视频,用于编辑、延长或继承运镜/主体/风格
audio_url{ "type": "audio_url", "audio_url": { "url": "https://..." }, "role": "reference_audio" }reference_audio参考音频,用于继承音色、音乐旋律、对白内容等

输入限制:官方 Seedance 2.0 教程中说明,多模态参考可组合文本、图片、视频和音频,但不支持「文本 + 音频」或「纯音频」输入。图片支持 09 张,视频支持 03 个,音频支持 0~3 个。素材 URL 必须是公网可访问链接。

计费说明:Seedance 系列采用阶梯计费,模型、分辨率、视频时长和输入方式会影响最终价格。1080p 通常高于 720pSeedance-2.0-fast 通常更适合低成本或快速生成场景。

2.4 调用示例

文生视频

curl

bash
复制代码
curl https://token.matpool.com/v1/video/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "一只金毛犬在海边奔跑,慢动作,夕阳余晖,电影感镜头" } ], "ratio": "16:9", "resolution": "720p", "duration": 5, "generate_audio": true, "watermark": false }'

Python

python
复制代码
from openai import OpenAI import time client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) task = client.post( "/video/generations", json={ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "一只金毛犬在海边奔跑,慢动作,夕阳余晖,电影感镜头" } ], "ratio": "16:9", "resolution": "720p", "duration": 5, "generate_audio": True, "watermark": False } ) task_id = task.json()["id"] while True: result = client.get(f"/video/generations/{task_id}") data = result.json() if data.get("status") in ("succeeded", "failed"): print(data) break time.sleep(30)

图生视频(首尾帧)

curl

bash
复制代码
curl https://token.matpool.com/v1/video/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "从清晨花苞过渡到傍晚盛放,镜头缓慢推进,延时摄影质感" }, { "type": "image_url", "image_url": { "url": "https://example.com/flower-start.jpg" }, "role": "first_frame" }, { "type": "image_url", "image_url": { "url": "https://example.com/flower-end.jpg" }, "role": "last_frame" } ], "ratio": "16:9", "resolution": "720p", "duration": 6 }'

Python

python
复制代码
from openai import OpenAI import time client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) task = client.post( "/video/generations", json={ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "从清晨花苞过渡到傍晚盛放,镜头缓慢推进,延时摄影质感" }, { "type": "image_url", "image_url": { "url": "https://example.com/flower-start.jpg" }, "role": "first_frame" }, { "type": "image_url", "image_url": { "url": "https://example.com/flower-end.jpg" }, "role": "last_frame" } ], "ratio": "16:9", "resolution": "720p", "duration": 6 } ) task_id = task.json()["id"] while True: result = client.get(f"/video/generations/{task_id}") data = result.json() if data.get("status") in ("succeeded", "failed"): print(data) break time.sleep(30)

多模态参考 / 视频编辑

适合参考图片、参考视频、参考音频组合输入。例如:根据参考视频保留运镜,将视频中的礼盒香水替换为参考图片中的面霜。

curl

bash
复制代码
curl https://token.matpool.com/v1/video/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "将视频1礼盒中的香水替换成图片1中的面霜,保持原视频运镜不变,产品质感自然" }, { "type": "image_url", "image_url": { "url": "https://example.com/cream.jpg" }, "role": "reference_image" }, { "type": "video_url", "video_url": { "url": "https://example.com/gift-video.mp4" }, "role": "reference_video" } ], "ratio": "16:9", "resolution": "720p", "duration": 5, "generate_audio": true, "watermark": false }'

Python

python
复制代码
from openai import OpenAI import time client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) task = client.post( "/video/generations", json={ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "将视频1礼盒中的香水替换成图片1中的面霜,保持原视频运镜不变,产品质感自然" }, { "type": "image_url", "image_url": { "url": "https://example.com/cream.jpg" }, "role": "reference_image" }, { "type": "video_url", "video_url": { "url": "https://example.com/gift-video.mp4" }, "role": "reference_video" } ], "ratio": "16:9", "resolution": "720p", "duration": 5, "generate_audio": True, "watermark": False } ) task_id = task.json()["id"] while True: result = client.get(f"/video/generations/{task_id}") data = result.json() if data.get("status") in ("succeeded", "failed"): print(data) break time.sleep(30)

视频延长

视频延长通常传入一段或多段 reference_video,再用文本说明需要延长的方向。生成结果会在参考视频基础上继续发展剧情、动作或镜头。

curl

bash
复制代码
curl https://token.matpool.com/v1/video/generations \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "延续视频1的镜头语言和主体动作,让人物继续向前奔跑,镜头逐渐拉远,保持电影质感" }, { "type": "video_url", "video_url": { "url": "https://example.com/input-video.mp4" }, "role": "reference_video" } ], "ratio": "16:9", "resolution": "720p", "duration": 8, "generate_audio": true }'

Python

python
复制代码
from openai import OpenAI import time client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) task = client.post( "/video/generations", json={ "model": "Seedance-2.0", "content": [ { "type": "text", "text": "延续视频1的镜头语言和主体动作,让人物继续向前奔跑,镜头逐渐拉远,保持电影质感" }, { "type": "video_url", "video_url": { "url": "https://example.com/input-video.mp4" }, "role": "reference_video" } ], "ratio": "16:9", "resolution": "720p", "duration": 8, "generate_audio": True } ) task_id = task.json()["id"] while True: result = client.get(f"/video/generations/{task_id}") data = result.json() if data.get("status") in ("succeeded", "failed"): print(data) break time.sleep(30)

2.5 响应格式

创建任务响应

json
复制代码
{ "id": "video_task_123", "object": "video.generation.task", "status": "queued", "created": 1710000000 }

查询任务响应

json
复制代码
{ "id": "video_task_123", "object": "video.generation.task", "status": "succeeded", "created": 1710000000, "data": [ { "url": "https://example.com/result.mp4", "last_frame_url": "https://example.com/last-frame.png" } ] }
字段类型说明
idstring视频生成任务 ID
statusstring任务状态,常见值:queuedrunningsucceededfailed
data[].urlstring生成视频 URL
data[].last_frame_urlstringreturn_last_frame=true 时返回的尾帧图 URL

注意:视频生成为异步操作,生成时间较长。建议每 30 秒轮询一次任务状态。最终字段名以实际接口返回为准。


三、视觉理解模型(VISION)

3.1 支持的模型

模型名称说明特点
Qwen3-VL-Plus千问视觉理解旗舰版复杂视觉推理、多图/视频理解、视觉 Agent、视觉 coding、空间感知
Qwen3-VL-Flash千问视觉理解轻量版响应速度快,适合批量识别、长视频/长文档解析、2D/3D 定位

上游 Model ID:阿里百炼文档中的模型名通常为 qwen3-vl-plusqwen3-vl-flash 及其快照版本;Token 路由中使用上表的模型名即可。

3.2 接口地址

视觉理解模型使用 Chat Completions 接口:

text
复制代码
POST https://token.matpool.com/v1/chat/completions

区别在于 messages.content 是多模态数组,可以传入文本、图片和视频。

3.3 请求参数

参数类型必填默认值说明
modelstring模型名称,如 Qwen3-VL-PlusQwen3-VL-Flash
messagesarray对话消息列表,支持在 content 中混合传入 textimage_urlvideo_url
temperaturenumber1.0生成随机性,值越低输出越确定(0~2)
max_tokensinteger模型默认最大输出 Token 数
top_pnumber1.0核采样概率,与 temperature 二选一调整
streambooleanfalse是否开启流式输出

messages 中的多模态输入方式

json
复制代码
{ "role": "user", "content": [ { "type": "text", "text": "请总结这张图和这段视频的重点" }, { "type": "image_url", "image_url": { "url": "https://example.com/image.jpg" } }, { "type": "video_url", "video_url": { "url": ["https://example.com/video.mp4"] } } ] }

支持的输入格式:

  • URL 链接{ "type": "image_url", "image_url": { "url": "https://..." } }
  • Base64 编码{ "type": "image_url", "image_url": { "url": "data:image/jpeg;base64,..." } }
  • 多图输入:在 content 数组中传入多个 image_url 对象即可
  • 视频输入{ "type": "video_url", "video_url": { "url": ["https://...mp4"] } },用于视频描述、字幕总结、时间线分析等

输入规模参考:Qwen3-VL 系列适合多图片、多视频理解。官方 OpenAI 兼容文档支持图片 URL/Base64 和视频 URL 输入;实际可上传数量、单图像素、视频时长和文件大小以当前路由的模型规格为准。长视频或高分辨率图片会显著增加输入 Token。

3.4 调用示例

单图理解

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3-VL-Plus", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "请描述这张图片的内容" }, { "type": "image_url", "image_url": { "url": "https://example.com/photo.jpg" } } ] } ] }'
python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.chat.completions.create( model="Qwen3-VL-Plus", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请描述这张图片的内容"}, {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}} ] } ] ) print(response.choices[0].message.content)

Base64 图片输入

python
复制代码
import base64 from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) # 读取本地图片并编码为 Base64 with open("local_image.jpg", "rb") as f: image_base64 = base64.b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="Qwen3-VL-Plus", messages=[ { "role": "user", "content": [ {"type": "text", "text": "这张图片里有什么?"}, { "type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_base64}"} } ] } ] ) print(response.choices[0].message.content)

多图对比

python
复制代码
response = client.chat.completions.create( model="Qwen3-VL-Plus", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请对比这两张图片的区别"}, {"type": "image_url", "image_url": {"url": "https://example.com/image1.jpg"}}, {"type": "image_url", "image_url": {"url": "https://example.com/image2.jpg"}} ] } ] ) print(response.choices[0].message.content)

视频理解

python
复制代码
response = client.chat.completions.create( model="Qwen3-VL-Flash", messages=[ { "role": "user", "content": [ { "type": "text", "text": "请按时间顺序总结视频内容,并列出可见文字和关键画面。" }, { "type": "video_url", "video_url": {"url": ["https://example.com/video.mp4"]} } ] } ], stream=True ) for chunk in response: delta = chunk.choices[0].delta if delta.content: print(delta.content, end="")

四、音频模型(AUDIO)

4.1 支持的模型

模型名称说明特点
Qwen3.5-Omni-Plus千问全能多模态高级版长音视频理解、会议纪要、字幕生成、内容审核、音视频交互助手
Qwen3.5-Omni-Flash千问全能多模态极速版成本和延迟更优,适合语音助手、批量音频理解、实时交互

上游 Model ID:阿里百炼文档中的模型名通常为 qwen3.5-omni-plusqwen3.5-omni-flash。Qwen3.5-Omni 支持文本、图片、音频、视频组合输入,可输出文本或文本+音频。

4.2 接口地址

Qwen3.5-Omni 系列按 OpenAI 兼容的 Chat Completions 调用。需要语音输出时,必须使用流式响应收集音频片段。

text
复制代码
POST https://token.matpool.com/v1/chat/completions

4.3 请求参数

参数类型必填默认值说明
modelstring模型名称,如 Qwen3.5-Omni-PlusQwen3.5-Omni-Flash
messagesarray对话消息列表,支持文本、图片、音频、视频等多模态输入
modalitiesarray["text"]输出模态,["text"] 仅文本,["text", "audio"] 文本+语音
audioobject音频输出配置,当 modalities 包含 audio 时必填,含 voiceformat
temperaturenumber1.0生成随机性(0~2)
max_tokensinteger模型默认最大输出 Token 数
streamboolean语音输出时是falseQwen3.5-Omni 语音输出必须设为 true
stream_optionsobject流式统计配置,如 { "include_usage": true }

messages 中的音频输入方式(Base64)

json
复制代码
{ "role": "user", "content": [ { "type": "text", "text": "这段音频说了什么?" }, { "type": "input_audio", "input_audio": { "data": "<base64编码的音频>", "format": "wav" } } ] }
字段说明
type固定为 input_audio
input_audio.dataBase64 编码的音频数据
input_audio.format音频格式,如 wavmp3

音频输出配置

字段说明
audio.voice输出音色。阿里百炼示例使用 Tina;不同模型可用音色数量不同,以模型列表为准
audio.format输出音频格式,如 wav;返回内容为 Base64 编码的 PCM/WAV 数据片段

使用建议:音视频理解、会议纪要、字幕生成等场景使用 modalities=["text"] 即可;语音助手、朗读、拟人对话等场景使用 modalities=["text", "audio"],并在流式响应中拼接 delta.audio.data

4.4 调用示例

音频输入,文本输出

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3.5-Omni-Plus", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "请转述这段音频的内容" }, { "type": "input_audio", "input_audio": { "data": "<base64_encoded_audio>", "format": "wav" } } ] } ] }'
python
复制代码
import base64 from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) with open("meeting.wav", "rb") as f: audio_base64 = base64.b64encode(f.read()).decode("utf-8") response = client.chat.completions.create( model="Qwen3.5-Omni-Plus", messages=[ { "role": "user", "content": [ {"type": "text", "text": "请提取这段会议录音的待办事项"}, { "type": "input_audio", "input_audio": { "data": audio_base64, "format": "wav" } } ] } ] ) print(response.choices[0].message.content)

文本输入,流式返回文本 + 语音

python
复制代码
import base64 import wave stream = client.chat.completions.create( model="Qwen3.5-Omni-Plus", messages=[ {"role": "user", "content": "请用温柔自然的语气介绍 Matpool 大模型平台。"} ], modalities=["text", "audio"], audio={"voice": "Tina", "format": "wav"}, stream=True, stream_options={"include_usage": True} ) audio_base64 = "" for chunk in stream: if not chunk.choices: continue delta = chunk.choices[0].delta if delta.content: print(delta.content, end="") if getattr(delta, "audio", None) and delta.audio.get("data"): audio_base64 += delta.audio["data"] if audio_base64: pcm_bytes = base64.b64decode(audio_base64) with wave.open("omni_reply.wav", "wb") as wf: wf.setnchannels(1) wf.setsampwidth(2) wf.setframerate(24000) wf.writeframes(pcm_bytes)

音视频内容分析 Prompt 示例

text
复制代码
请分析这段视频,输出: 1. 按时间戳组织的画面和声音描述 2. 可见文字及其出现时间 3. 语音转写、说话人、语气和情绪 4. 最后给出 5 条摘要和 3 条待办事项

音频计费说明:音频模型除文本 Token 外,还包含音频输入/输出 Token 计费。语音输出会额外产生 audio completion 相关费用。

纯 TTS 说明:如果只需要文本转语音,请优先使用 Qwen3.5-Omni 的 modalities=["text", "audio"]。若 Token 平台后续单独开放 /v1/audio/speech 路由,应以模型列表和接口返回为准。


五、向量模型(EMBEDDING)

5.1 支持的模型

模型名称说明特点
Text-Embedding-V4通义实验室多语言文本向量模型基于 Qwen3 训练,适合语义检索、RAG、聚类、分类,支持自定义维度
Qwen3-VL-Embedding千问多模态向量模型支持文本、图片、视频独立向量与融合向量,适合跨模态检索

上游 Model ID:阿里百炼文本向量模型为 text-embedding-v4;多模态向量模型常见为 qwen3-vl-embedding。Token 路由是否开放多模态向量模型,以模型列表和接口返回为准。

5.2 接口地址

文本向量使用 OpenAI Embeddings 兼容接口:

text
复制代码
POST https://token.matpool.com/v1/embeddings

多模态向量在阿里百炼官方文档中使用 DashScope 多模态向量接口;如果 Token 路由没有提供对应兼容接口,请先在业务侧确认是否已映射为 /v1/embeddings 或单独路由。

5.3 请求参数

文本向量参数

参数类型必填默认值说明
modelstring模型名称,如 Text-Embedding-V4
inputstring / array输入文本,支持单条字符串或批量数组
encoding_formatstringfloat编码格式,float(浮点数组)或 base64(Base64 编码)
dimensionsinteger模型默认向量维度,Text-Embedding-V4 支持自定义维度(常用 512、1024、1536、2048)

多模态向量参数(如已开放)

参数类型必填默认值说明
modelstring模型名称,如 Qwen3-VL-Embedding
inputarray多模态内容数组,可包含 { "text": "..." }{ "image": "https://..." }{ "video": "https://..." }
enable_fusionbooleanfalse是否生成融合向量。true 时将多模态内容融合为一个向量
dimensions / dimensioninteger模型默认输出向量维度。具体可选值以当前模型规格为准

5.4 调用示例

单条文本向量化

curl

bash
复制代码
curl https://token.matpool.com/v1/embeddings \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Text-Embedding-V4", "input": "人工智能正在改变世界" }'
python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.embeddings.create( model="Text-Embedding-V4", input="人工智能正在改变世界" ) print(f"向量维度: {len(response.data[0].embedding)}") print(f"前5个值: {response.data[0].embedding[:5]}")

批量文本 + 自定义维度

curl

bash
复制代码
curl https://token.matpool.com/v1/embeddings \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Text-Embedding-V4", "input": [ "人工智能正在改变世界", "大语言模型是AI领域的重要突破", "向量数据库用于存储和检索嵌入向量" ], "dimensions": 512 }'

Python

python
复制代码
response = client.embeddings.create( model="Text-Embedding-V4", input=[ "人工智能正在改变世界", "大语言模型是AI领域的重要突破", "向量数据库用于存储和检索嵌入向量" ], dimensions=512 # 自定义向量维度(64~2048) ) for i, item in enumerate(response.data): print(f"文本 {i}: 向量维度 {len(item.embedding)}")

多模态融合向量(如路由已开放)

适用于文搜图、图搜图、文搜视频、跨模态召回等场景。下面示例展示推荐的请求体结构;实际接口路径和参数命名请以 Token 平台映射为准。

bash
复制代码
curl https://token.matpool.com/v1/embeddings \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3-VL-Embedding", "input": [ { "text": "白色运动鞋,轻量透气,适合跑步" }, { "image": "https://example.com/shoes.jpg" } ], "enable_fusion": true, "dimensions": 1024 }'
python
复制代码
response = client.embeddings.create( model="Qwen3-VL-Embedding", input=[ {"text": "白色运动鞋,轻量透气,适合跑步"}, {"image": "https://example.com/shoes.jpg"} ], extra_body={ "enable_fusion": True, "dimensions": 1024 } ) print(len(response.data[0].embedding))

计算文本相似度

python
复制代码
import numpy as np from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) texts = ["今天天气真好", "今天阳光明媚", "股票市场今天大跌"] response = client.embeddings.create( model="Text-Embedding-V4", input=texts ) embeddings = [item.embedding for item in response.data] # 计算余弦相似度 def cosine_similarity(a, b): return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b)) print(f"'天气好' vs '阳光': {cosine_similarity(embeddings[0], embeddings[1]):.4f}") print(f"'天气好' vs '股票': {cosine_similarity(embeddings[0], embeddings[2]):.4f}")

六、代码模型(CODE)

6.1 支持的模型

模型名称说明特点
Qwen3-Coder-Plus千问代码旗舰版复杂编程、代码审查,支持超长上下文
Qwen3-Coder-Flash千问代码轻量版多轮工具交互,仓库级理解,速度快
Doubao-Seed-2.0-Code豆包编程专用模型前端能力优化,支持 Skills,IDE 工具调用

6.2 接口地址

代码模型使用 Chat Completions 接口:

text
复制代码
POST https://token.matpool.com/v1/chat/completions

代码模型特别擅长工具调用(Function Calling)和多轮交互,适合集成到 IDE 和编程助手中。

6.3 请求参数

参数类型必填默认值说明
modelstring模型名称,如 Qwen3-Coder-PlusDoubao-Seed-2.0-Code
messagesarray对话消息列表
temperaturenumber1.0生成随机性,编程任务推荐 0~0.3(低温更确定)
max_tokensinteger模型默认最大输出 Token 数
top_pnumber1.0核采样概率
toolsarray工具定义列表(Function Calling),定义可供模型调用的外部函数
tool_choicestringauto工具选择策略:auto(模型自主决定)、none(不使用工具)、required(必须使用工具)
streambooleanfalse是否开启流式输出

6.4 调用示例

代码生成

curl

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3-Coder-Plus", "messages": [ { "role": "system", "content": "你是一个专业的Python开发者" }, { "role": "user", "content": "写一个快速排序算法的实现,并添加类型注解" } ], "temperature": 0.1 }'

Python

python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.chat.completions.create( model="Qwen3-Coder-Plus", messages=[ {"role": "system", "content": "你是一个专业的Python开发者"}, {"role": "user", "content": "写一个快速排序算法的实现,并添加类型注解"} ], temperature=0.1 ) print(response.choices[0].message.content)

带工具调用(Function Calling)

curl

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen3-Coder-Plus", "messages": [ { "role": "user", "content": "计算斐波那契数列前20项的和" } ], "tools": [ { "type": "function", "function": { "name": "run_code", "description": "执行Python代码并返回结果", "parameters": { "type": "object", "properties": { "code": { "type": "string", "description": "要执行的Python代码" } }, "required": ["code"] } } } ], "tool_choice": "auto" }'

Python

python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) tools = [ { "type": "function", "function": { "name": "run_code", "description": "执行Python代码并返回结果", "parameters": { "type": "object", "properties": { "code": { "type": "string", "description": "要执行的Python代码" } }, "required": ["code"] } } } ] response = client.chat.completions.create( model="Qwen3-Coder-Plus", messages=[ {"role": "user", "content": "计算斐波那契数列前20项的和"} ], tools=tools, tool_choice="auto" ) print(response.choices[0].message.tool_calls)

七、数学模型(MATH)

7.1 支持的模型

模型名称说明特点
Qwen-Math-Plus千问数学旗舰版复杂数学解题,方程、计算、证明
Qwen-Math-Turbo千问数学快速版推理速度快,成本低

7.2 接口地址

数学模型使用 Chat Completions 接口:

text
复制代码
POST https://token.matpool.com/v1/chat/completions

7.3 请求参数

参数类型必填默认值说明
modelstring模型名称,如 Qwen-Math-PlusQwen-Math-Turbo
messagesarray对话消息列表
temperaturenumber1.0生成随机性
max_tokensinteger模型默认最大输出 Token 数
top_pnumber1.0核采样概率
streambooleanfalse是否开启流式输出

7.4 调用示例

curl

bash
复制代码
curl https://token.matpool.com/v1/chat/completions \ -H "Content-Type: application/json" \ -H "Authorization: Bearer YOUR_API_TOKEN" \ -d '{ "model": "Qwen-Math-Plus", "messages": [ { "role": "user", "content": "求解方程 x² - 5x + 6 = 0,并给出详细的解题过程" } ] }'

Python

python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" ) response = client.chat.completions.create( model="Qwen-Math-Plus", messages=[ { "role": "user", "content": "求解方程 x² - 5x + 6 = 0,并给出详细的解题过程" } ] ) print(response.choices[0].message.content)

八、LLM 文本模型(TEXT)

LLM详细的基础使用说明请参考 LLM API 教程 中的第 6 节。

九、通用说明

9.1 鉴权方式

所有接口统一使用 Bearer Token 鉴权:

http
复制代码
Authorization: Bearer YOUR_API_TOKEN Content-Type: application/json

9.2 推荐的 SDK 配置

Matpool 接口与 OpenAI 规范兼容,推荐使用 OpenAI 官方 SDK,只需覆盖 base_url

Python

python
复制代码
from openai import OpenAI client = OpenAI( api_key="YOUR_API_TOKEN", base_url="https://token.matpool.com/v1" )

9.3 接口路径汇总

模型类型接口路径适用模型
TEXT / CODE / MATH/v1/chat/completions文本、代码、数学推理
VISION/v1/chat/completionsQwen3-VL 图片/视频理解,多模态输入通过 messages.content 传入(详见 §3)
AUDIO (Qwen3.5-Omni)/v1/chat/completionsQwen3.5-Omni 音频/视频理解、文本+语音流式输出(详见 §4)
IMAGE (GPT-Image-2)/v1/images/generationsGPT-Image-2 完整版,支持自定义分辨率(最高 4K),quality 枚举,base64 和 URL 返回(详见 §1.3)
IMAGE (GPT-Image-2-Flash)/v1/images/generationsGPT-Image-2-Flash 简化版,仅支持 1K 和 URL 返回(详见 §1.4)
IMAGE (Nano-Banana 原版文生图)/v1/images/generationsNano-Banana / Nano-Banana-Pro / Nano-Banana-2 文本生成图像(详见 §1.5)
IMAGE (Nano-Banana 原版图生图/编辑)/v1/images/editsNano-Banana / Nano-Banana-Pro / Nano-Banana-2 图像编辑、多图融合、Base64 输入和 mask 局部编辑(详见 §1.5)
IMAGE (Nano-Banana Spot)/v1/images/generationsNano-Banana Spot 系列文生图、图生图、多图融合;图像输入通过 image 字段传入(详见 §1.6)
IMAGE (Qwen 文生图)/v1/images/generationsQwen-Image-2.0 / 2.0-Pro 文本生成图像(详见 §1.7)
IMAGE (Qwen 图生图/编辑)/v1/images/editsQwen-Image-2.0 / 2.0-Pro 多图编辑、文字渲染编辑(详见 §1.7)
IMAGE (Wan2.7 文生图)/v1/images/generationsWan2.7 / Wan2.7-pro 文本生成图像、组图生成(详见 §1.8)
IMAGE (Wan2.7 图生图/编辑)/v1/images/editsWan2.7 / Wan2.7-pro 多图参考、主体一致性编辑(详见 §1.8)
IMAGE (Doubao-Seedream)/v1/images/generationsDoubao-Seedream-4.0 / 4.5 / 5.0-lite 文生图、图生图、多图融合、组图生成(详见 §1.9)
VIDEO (Seedance)/v1/video/generationsSeedance-2.0 / Seedance-2.0-fast 视频生成、图生视频、多模态参考、视频编辑与延长(详见 §2)
EMBEDDING/v1/embeddingsText-Embedding-V4 文本向量;多模态向量以 Token 平台映射为准(详见 §5)

9.4 计费说明

  • 基础计费:(输入 Token ÷ 1,000,000) × 输入单价 + (输出 Token ÷ 1,000,000) × 输出单价
  • 图像模型:部分模型按固定价格计费(如 GPT-Image-2:0.14 模力豆/张),部分按比例计费
  • 视频模型:采用阶梯计费,根据分辨率和输入方式不同价格不同
  • 音频模型:除文本 Token 外,音频输入/输出有独立的计费倍率
  • Spot 模型:闲时资源,价格更低但稳定性可能波动
  • 限时免费模型:活动期间免费使用

详细价格请参考 模型广场

Copyright © 2019-2026 matpool.com. All rights reserved.

Command Palette

Search for a command to run...