Skip to content

多模态工具

多模态工具组支持分析文本文件与图片,结合模型能力生成用户问题相关的解读结果。支持 S3、HTTP、HTTPS 等 URL。

🧭 工具清单

  • analyze_text_file:下载并提取文本文件内容后进行分析
  • analyze_image:下载图片并使用视觉语言模型进行理解与描述

🧰 使用场景示例

  • 对上传到存储桶的文档进行快速摘要或要点提取
  • 对截图、产品图片、报表图进行内容解读或关键信息提取
  • 结合问题指令,对多份文件/图片分别生成答案列表

🧾 参数要求与行为

analyze_text_file

  • file_url_list:文件 URL 列表,支持 s3://bucket/key/bucket/keyhttp(s)://
  • query:用户问题/分析需求。
  • 会逐个文件下载、提取文本,再基于问题生成对应分析结果数组。

analyze_image

  • image_urls_list:图片 URL 列表,支持 s3://bucket/key/bucket/keyhttp(s)://
  • query:用户问题/关注点。
  • 会逐张图片下载并调用视觉语言模型,返回与顺序对应的描述或答案数组。

⚙️ 前置配置

  • 确保已在平台配置可用的存储客户端(如 MinIO/S3)及数据处理服务地址,保证能下载文件。
  • analyze_text_file 配置可用的 LLM;为 analyze_image 配置可用的视觉语言模型。

🛠️ 操作指引

  1. 准备文件或图片的可访问 URL,确认权限与路径正确。
  2. 调用相应工具,填写 URL 列表与问题描述;支持一次处理多条资源。
  3. 检查返回的数组结果顺序与输入列表一致,便于继续引用或展示。

💡 最佳实践

  • 对体积较大的文件可先在数据处理服务中做预处理或分片,减少超时风险。
  • 处理多张图片时,可在问题中明确关注点(如“只关注图表中的趋势”)以提升回答质量。
  • 若返回为空或报错,先验证 URL 可访问性和模型配置是否就绪。