多模态工具

多模态工具组支持分析文本文件与图片，结合模型能力生成用户问题相关的解读结果。支持 S3、HTTP、HTTPS 等 URL。

🧭 工具清单

analyze_text_file：下载并提取文本文件内容后进行分析
analyze_image：下载图片并使用视觉语言模型进行理解与描述

🧰 使用场景示例

对上传到存储桶的文档进行快速摘要或要点提取
对截图、产品图片、报表图进行内容解读或关键信息提取
结合问题指令，对多份文件/图片分别生成答案列表

🧾 参数要求与行为

analyze_text_file

file_url_list：文件 URL 列表，支持 s3://bucket/key、/bucket/key、http(s)://。
query：用户问题/分析需求。
会逐个文件下载、提取文本，再基于问题生成对应分析结果数组。

analyze_image

image_urls_list：图片 URL 列表，支持 s3://bucket/key、/bucket/key、http(s)://。
query：用户问题/关注点。
会逐张图片下载并调用视觉语言模型，返回与顺序对应的描述或答案数组。

⚙️ 前置配置

确保已在平台配置可用的存储客户端（如 MinIO/S3）及数据处理服务地址，保证能下载文件。
为 analyze_text_file 配置可用的 LLM；为 analyze_image 配置可用的视觉语言模型。

🛠️ 操作指引

准备文件或图片的可访问 URL，确认权限与路径正确。
调用相应工具，填写 URL 列表与问题描述；支持一次处理多条资源。
检查返回的数组结果顺序与输入列表一致，便于继续引用或展示。

💡 最佳实践

对体积较大的文件可先在数据处理服务中做预处理或分片，减少超时风险。
处理多张图片时，可在问题中明确关注点（如“只关注图表中的趋势”）以提升回答质量。
若返回为空或报错，先验证 URL 可访问性和模型配置是否就绪。