# OCR工具：tesseract（2026-06-11）

## 安装
```bash
dpkg --configure -a  # 先修复中断的dpkg
apt-get install -y tesseract-ocr tesseract-ocr-chi-sim tesseract-ocr-chi-tra
```

## 使用
```bash
tesseract <图片路径> stdout -l chi_sim+eng
```

## 实测结果（2026-06-11）
- 对**纯文字截图**效果尚可
- 对**照片/复杂排版/特殊字体**识别效果差，输出乱码
- 张哥发的图片（1240x2688 JPEG）OCR输出全是乱码，说明不是纯文字图
- **结论**：OCR只能辅助，不能依赖。用户发图片时仍需询问内容

## 注意事项
- 只支持文字提取（OCR），不能理解图片画面内容
- 中英文混合用 `chi_sim+eng`
- 如果报错，先检查磁盘空间 `df -h /`

## easyocr为何不可用
- easyocr依赖PyTorch + CUDA库，总下载量超过500MB
- 服务器只有48GB磁盘，安装到一半报"No space left on device"
- 且服务器无GPU，CUDA库完全无用
- tesseract体积小（<50MB），适合服务器使用
