# 网页视觉识别能力对比（2026-06-10发现）

## 核心发现：当前模型缺少视觉识别能力

### 之前用的DP付费模型
- 有"读图"能力（视觉/多模态）
- 可以把网页截图吃进去分析
- 能从截图中提取赔率数字等数据
- 不需要浏览器，直接从图片读取信息

### 当前模型（owl-alpha）
- **没有视觉识别能力**
- 工具列表中无 vision_analyze
- 只能抓HTML源码
- JS动态加载的内容全部看不到
- 无法从截图/图片中提取数据

### 影响
- 赔率网站（bet365、oddsportal、500.com等）全是JS渲染
- curl/lynx抓不到真实赔率数字
- 只能靠用户手动查好发过来

### 解决方案
1. 换一个有视觉能力的模型（GPT-4V、Gemini Vision等）
2. 用户直接告诉赔率数字
3. 用HuggingChat/Perplexity等免费AI（需登录，可能有视觉能力）

## 已验证可访问的免费AI网站（需登录）

| 网站 | 地址 | 状态 |
|------|------|------|
| Grok | grok.com | ✓ 可访问，需登录 |
| Mistral | chat.mistral.ai | ✓ 可访问，需登录 |
| HuggingChat | huggingface.co/chat | ✓ 可访问，需登录 |
| Perplexity | perplexity.ai | ✓ 可访问，需登录 |
| Phind | phind.com | ✓ 可访问，需登录 |

这些AI可能有视觉能力，如果能登录账号，可能可以帮忙查赔率。

## 教训
- 没有视觉能力 = 看不到JS渲染的内容 = 查不到赔率
- 这是工具能力的根本限制，不是努力就能解决的
- 需要向用户说明这个限制，而不是反复尝试失败