分享时间 | 2025-01-13 13:40 |
最后更新 | 13天16小时前 |
修订版本 | 8 |
用户许可 | 可自己使用或修改,不可再分享 |
Quicker版本 | 1.43.63 |
动作大小 | 69 KB |
视频中如此好的效果用的模型为gemini-2.0-flash、有条件的可以试试,阿里最新qwen-vl-max好像也行
复杂文本的识别请使用能力强的多模态模型
1、可以识别多个语种不需要做其他特殊的配置,目前主流的语言都可以较为精准的识别相比于其他OCR的优势
硅基流动默认使用的模型为硅基流动中的模型,可以自己更换其他模型,只是个demo,如果有意见可以提
请在硅基流动获取API-KEY,注册免费送额度
智谱清言
智谱清言大模型平台,上有免费的glm-4v-flash可以使用,注册送token,在此处获取apikey
智谱清言
通义千问
Mistral OCR
Mistral OCR新更新了专用的ocr模型,可以将文本以markdown的形式输出,效果可以媲美谷歌和阿里,但是对于微小图片的识别有些问题,支持cloudflare的ai getway代理
Google大模型gemini的api填写方式
自行获取api-key和解决网络问题,Google AI Studio
修订版本 | 更新时间 | 更新说明 |
---|---|---|
8 | 13天16小时前 |
- 更新支持了Mistral OCR
- 硅基流动的默认模型更改为Qwen/Qwen2.5-VL-72B-Instruct - 通义千问的默认模型改为qwen-vl-ocr-latest |
7 | 25天12小时前 | 增加了通义千问 |
6 | 2025-02-08 22:20 | 更新了图片的上传方式,以适应更多平台,比如gemini |