AI-OCR识别 - by 车站里的守望者 - 动作信息

车站里的守望者

复制Ta的推荐码

适用于

通用 OCR 公式识别

分类(旧)

OCR AI

关键词

AI; OCR;

设计4号线就是看看 oooocoooo 先砸你土肥坡泔水锅 Reformat 等 5 人赞了这个动作。

3 个动作单收藏了此动作。

简介

视频中如此好的效果用的模型为gemini-2.0-flash、有条件的可以试试，阿里最新qwen-vl-max好像也行
复杂文本的识别请使用能力强的多模态模型

相比于其他OCR的优势

1、可以识别多个语种不需要做其他特殊的配置，目前主流的语言都可以较为精准的识别
2、可以识别公式，可以相对较好的识别公式
3、以上功能不需要单独特殊的配置，一次性ALL in

硅基流动

默认使用的模型为硅基流动中的模型，可以自己更换其他模型，只是个demo，如果有意见可以提

请在硅基流动获取API-KEY，注册免费送额度

智谱清言

智谱清言大模型平台，上有免费的glm-4v-flash可以使用，注册送token，在此处获取apikey
智谱清言

通义千问

可以使用通义千问的多模态大模型，质量相当不错

Mistral OCR

Mistral OCR新更新了专用的ocr模型，可以将文本以markdown的形式输出，效果可以媲美谷歌和阿里，但是对于微小图片的识别有些问题,支持cloudflare的ai getway代理

Google大模型gemini的api填写方式

自行获取api-key和解决网络问题，Google AI Studio

具体的apibase填写可以参考quicker的官方文档

作者所声明的动作特征：

依赖第三在线服务

分享时间	2025-01-13 13:40
最后更新	13天16小时前
修订版本	8
用户许可	可自己使用或修改，不可再分享
Quicker版本	1.43.63
动作大小	69 KB

修订版本	更新时间	更新说明
8	13天16小时前	- 更新支持了Mistral OCR - 硅基流动的默认模型更改为Qwen/Qwen2.5-VL-72B-Instruct - 通义千问的默认模型改为qwen-vl-ocr-latest
7	25天12小时前	增加了通义千问
6	2025-02-08 22:20	更新了图片的上传方式，以适应更多平台，比如gemini

AI-OCR识别公开已发布

适用于

分类(旧)

关键词

更多信息

简介

作者所声明的动作特征：

最近更新

最近讨论

AI-OCR识别 公开 已发布

适用于

分类(旧)

关键词

更多信息

简介

作者所声明的动作特征：

最近更新

最近讨论

AI-OCR识别公开已发布