AI-OCR识别

AI-OCR识别 公开 已发布

如何安装动作?

适用于
分类(旧)
OCR AI
关键词
AI; OCR;

设计4号线 就是看看 oooocoooo 先砸你土肥坡泔水锅 Reformat 5 人赞了这个动作

3 个动作单 收藏了此动作。

更多信息
分享时间 2025-01-13 13:40
最后更新 13天16小时前
修订版本 8
用户许可 可自己使用或修改,不可再分享
Quicker版本 1.43.63
动作大小 69 KB

分享到

「使用大模型的多模态能力进行OCR识别」

简介

视频中如此好的效果用的模型为gemini-2.0-flash、有条件的可以试试,阿里最新qwen-vl-max好像也行
复杂文本的识别请使用能力强的多模态模型

相比于其他OCR的优势

1、可以识别多个语种不需要做其他特殊的配置,目前主流的语言都可以较为精准的识别
2、可以识别公式,可以相对较好的识别公式
3、以上功能不需要单独特殊的配置,一次性ALL in

硅基流动
默认使用的模型为硅基流动中的模型,可以自己更换其他模型,只是个demo,如果有意见可以提



请在硅基流动获取API-KEY,注册免费送额度


智谱清言

智谱清言大模型平台,上有免费的glm-4v-flash可以使用,注册送token,在此处获取apikey
智谱清言



通义千问

可以使用通义千问的多模态大模型,质量相当不错


Mistral OCR

Mistral OCR新更新了专用的ocr模型,可以将文本以markdown的形式输出,效果可以媲美谷歌和阿里,但是对于微小图片的识别有些问题,支持cloudflare的ai getway代理




Google大模型gemini的api填写方式

自行获取api-key和解决网络问题,Google AI Studio



具体的apibase填写可以参考quicker的官方文档


作者所声明的动作特征:
  • 依赖第三在线服务

最近更新

修订版本 更新时间 更新说明
8 13天16小时前 - 更新支持了Mistral OCR
- 硅基流动的默认模型更改为Qwen/Qwen2.5-VL-72B-Instruct
- 通义千问的默认模型改为qwen-vl-ocr-latest
7 25天12小时前 增加了通义千问
6 2025-02-08 22:20 更新了图片的上传方式,以适应更多平台,比如gemini

最近讨论

使用问题 · 43
e213fdsxcvcxvxc 17天1小时前 车站里的守望者 16天19小时前
使用问题 · 127
就是看看 25天16小时前 车站里的守望者 25天12小时前