多模态工具
多模态工具组支持分析文本文件与图片,结合模型能力生成用户问题相关的解读结果。支持 S3、HTTP、HTTPS 等 URL。
🧭 工具清单
analyze_text_file:下载并提取文本文件内容后进行分析analyze_image:下载图片并使用视觉语言模型进行理解与描述
🧰 使用场景示例
- 对上传到存储桶的文档进行快速摘要或要点提取
- 对截图、产品图片、报表图进行内容解读或关键信息提取
- 结合问题指令,对多份文件/图片分别生成答案列表
🧾 参数要求与行为
analyze_text_file
file_url_list:文件 URL 列表,支持s3://bucket/key、/bucket/key、http(s)://。query:用户问题/分析需求。- 会逐个文件下载、提取文本,再基于问题生成对应分析结果数组。
analyze_image
image_urls_list:图片 URL 列表,支持s3://bucket/key、/bucket/key、http(s)://。query:用户问题/关注点。- 会逐张图片下载并调用视觉语言模型,返回与顺序对应的描述或答案数组。
⚙️ 前置配置
- 确保已在平台配置可用的存储客户端(如 MinIO/S3)及数据处理服务地址,保证能下载文件。
- 为
analyze_text_file配置可用的 LLM;为analyze_image配置可用的视觉语言模型。
🛠️ 操作指引
- 准备文件或图片的可访问 URL,确认权限与路径正确。
- 调用相应工具,填写 URL 列表与问题描述;支持一次处理多条资源。
- 检查返回的数组结果顺序与输入列表一致,便于继续引用或展示。
💡 最佳实践
- 对体积较大的文件可先在数据处理服务中做预处理或分片,减少超时风险。
- 处理多张图片时,可在问题中明确关注点(如“只关注图表中的趋势”)以提升回答质量。
- 若返回为空或报错,先验证 URL 可访问性和模型配置是否就绪。
