I

Skill 详情

image-analysis

图片分析与识别,可分析本地图片、网络图片、视频、文件。适用于 OCR、物体识别、场景理解等。当用户发送图片或要求分析图片时必须使用此技能。

来源平台:ModelScope
来源标识:ModelScope/countbot-ai/image-analysis
源文件:原始说明
AI 平台与模型 超热门 ModelScope 高 风险 下载 399访问 1.7千Stars 215 ModelScopeGitHub Copilot
来源平台ModelScope
文档版本master
热度超热门
排名信号下载 399
概述 安装 文档 下载

快速判断

图片分析与识别,可分析本地图片、网络图片、视频、文件。适用于 OCR、物体识别、场景理解等。当用户发送图片或要求分析图片时必须使用此技能。

最后校验2026-03-14
来源平台ModelScope
安全提示
下载副本ZIP 可用

适合任务

  • 按 ModelScope 收录说明完成平台、开发或工作流任务。
  • 通过下载包离线保存 Skill 内容。
  • 结合下载量、访问量和喜欢数评估优先级。

输入与输出

输入:任务目标、上下文材料、平台信息、文件路径、约束条件或需要处理的内容。

输出:按 Skill 说明生成的文档、代码、检查结果、计划、建议或操作步骤。

示例任务

  • 使用 image-analysis 帮我完成当前任务,并先确认必要上下文。
  • 根据 image-analysis 的说明,列出操作步骤和风险检查点。

安装方式

  1. 下载本站提供的 Skill ZIP 并解压。
  2. 把解压后的 Skill 目录放入当前 AI 工具支持的 skills 目录。
  3. 如需在线查看原始内容,可打开 GitHub 的 SKILL.md

在线原始地址:modelscope-countbot-ai-image-analysis/SKILL.md

风险边界

使用前请检查权限、外部依赖和要处理的数据类型。第三方平台数据、支付、部署、账号和密钥相关内容应先核对官方说明。

SKILL.md 文档介绍

图片分析与识别

支持智谱 GLM-4V 和千问 Qwen-VL 两种视觉模型。

当用户发送图片或要求分析图片时,必须使用此技能,不要使用 PIL、pytesseract 等其他方法。

配置

编辑 skills/image-analysis/scripts/config.json

{
  "default_model": "zhipu",
  "zhipu": {
    "api_key": "your-zhipu-api-key",
    "model": "glm-4.6v-flash"
  },
  "qwen": {
    "api_key": "your-qwen-api-key",
    "model": "qwen3-vl-plus"
  }
}

API Key 获取:

  • 智谱(免费):https://open.bigmodel.cn/
  • 千问:https://help.aliyun.com/zh/model-studio/get-api-key

命令行调用

# 分析本地图片(最常用)
python3 skills/image-analysis/scripts/vision.py analyze --image 图片路径 --prompt "描述图片内容"

# 分析网络图片
python3 skills/image-analysis/scripts/vision.py analyze --image https://example.com/image.jpg --prompt "描述图片"

# 多图对比
python3 skills/image-analysis/scripts/vision.py analyze --image img1.jpg --image img2.jpg --prompt "对比差异"

# 指定模型
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --model qwen

# 开启思考模式(仅智谱,提升准确度)
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "详细分析" --thinking

# 视频分析
python3 skills/image-analysis/scripts/vision.py analyze --video video.mp4 --prompt "总结视频内容"

# JSON 输出
python3 skills/image-analysis/scripts/vision.py analyze --image image.jpg --prompt "描述图片" --json

AI 调用场景

用户发送图片后,系统下载到本地(如 data/temp/images/xxx.jpg):

# 图片描述
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "描述这张图片的内容"

# OCR 识别
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "提取图片中的所有文字信息"

# 物体定位(开启思考模式)
python3 skills/image-analysis/scripts/vision.py analyze --image data/temp/images/xxx.jpg --prompt "找出物体位置,返回坐标" --thinking

模型选择

| 场景 | 推荐 |

|------|------|

| 简单描述 | 任意 |

| 复杂推理、物体定位 | 智谱 + --thinking |

| 高精度识别、文档解析 | 千问 |

| 成本敏感 | 智谱(免费) |

注意事项

  • 本地图片自动转 Base64,支持 jpg/png/gif/webp/bmp
  • 智谱图片限制 5MB,像素不超过 6000x6000
  • 千问不支持同时处理图片、视频和文件
  • 思考模式会增加响应时间但提升准确度
建议反馈