首页 › AI相关 › 最强开源0.9B级OCR模型！本地Agent、知识库都有救了～

0
0

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～

今天，百度悄悄发布并开源了一款多模态文档解析模型：PaddleOCR-VL。

我看的第一眼，注意力全被它的参数量吸引了，0.9B。

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

这么小的参数量，意味着它对算力的要求极低，我感觉扔到手机上都能跑得动。

这对于很多想在本地环境，或者资源受限的设备上玩AI的朋友来说，简直是福音。

我之前做过不少AI知识库的业务，也用过很多OCR工具，那些OCR或多或少都会有一些问题。

要么出现阅读顺序混乱。在处理多栏排版的报纸、论文或杂志的时候，会把不同区块的文字拼接在一起，导致提取出的内容逻辑不通，就没法用。

要么表格解析一塌糊涂。一个清清楚楚的表格，它能给你识别成一堆丢掉结构的零散文字，还得你手动去重新整理。

另外就是公式识别，经常把各种数学公式，识别成一堆无意义的乱码。。。

现在，对于任何一个新出的OCR工具，我都是抱着期待又怀疑的态度。

于是，我很快就上手试用了PaddleOCR-VL。

没想到，这个0.9B的小鼻嘎，还挺不错。

比如我找了一张9月开的发票，上传给它识别

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

结果，它完成的相当不错，不仅精准识别了上面的文字、数字，还给我输出了一个表格。

像这种双语合同也是轻松识别

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

我又找了一些一些柱状图、折线图让它识别：

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

他竟然能识别出图表数据的关联关系，并转成一个markdown格式的数据

这两个小测试，瞬间就勾起了我的兴趣。我决定，得再给它上上强度。

不过在这之前，还是先给大家介绍一下PaddleOCR-VL到底是个啥？

我查了一下：

这款模型，来自百度飞桨的PaddleOCR团队。

这个团队，在OCR领域，相当强劲。

他们的PaddleOCR开源项目，在GitHub上是中国唯一一个Star数超过50k的OCR项目（现在57.2K了），累计下载量超900万，被超过5.9k开源项目直接或间接使用，绝对是业内的老大哥。

https://github.com/PaddlePaddle/PaddleOCR

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

这次的PaddleOCR-VL，可以看作是他们把OCR技术和最新的大模型能力结合起来的产物。

PaddleOCR-VL基于ERNIE-4.5-0.3B的语言模型训练而来，是文心4.5的最强衍生模型。

在最新的OmniDocBench V1.5这个国际权威榜单上，直接屠榜了。

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

把GPT-4o，Gemini-2.5 Pro这些国际大厂的顶级多模态模型，都甩在了后面。

在文本识别，公式识别，表格理解，阅读顺序这四个OCR的核心能力上，也全部拿了第一。

OmniDocBench V1.5是目前国际上最系统、最具代表性的文档视觉语言理解基准之一，由OpenDataLab联合清华大学、阿里达摩院、上海人工智能实验室等多家机构共同建设。

覆盖了学术论文、财务报表、手写笔记等九大类真实世界里最复杂的文档场景，是目前行业里公认最全面、最难的文档理解评测基准之一

像GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL这些国际主流的顶级模型，都把它作为官方的评测标准，来证明自己的文档处理能力。

昨晚才发布，今天PaddleOCR-VL就拿下了HuggingFace Trending全球第一

最强开源0.9B级OCR模型！本地Agent、知识库都有救了～-DoTmT分享网

我觉得完全可以用它来拯救那些本地Agent的视觉能力。

以及解决本地AI知识库难以有效果处理多模态文件的问题。

而且这个成本是非常低的。

电脑上非常好用的工具(uTools)

上一篇

无需微软账号、5GB 装系统：Tiny11 精简版 Windows 11 25H2发布

下一篇

评论 (0)

暂无评论

阿里把「豆包」塞进夸克，用了半天后我发现它和 OpenAI 想一块去了

29999 元起，2025 款苹果 Vision Pro 头显发布

饭圈女孩，冲在抵制AI第一线

Claude「最香」模型发布，速度翻倍价格大砍，编程能力直逼 GPT-5

Nano Banana又出13种邪修玩法，插画转手办已经落后N个版本了

字节连发4款豆包大模型

比征信花更可怕的事，正在悄悄拉黑贷款普通人…

字节这款 AI 应用，在海外悄悄「爆了」

发行测评：TrinityDE——一款字面意义上复古的桌面环境

猜你喜欢

时隔 9 年，黄仁勋再次给马斯克送货上门，跳票大半年的 AI 个人超算终于来了

时隔 9 年，黄仁勋再次给马斯克送货上门，跳票大半年的 AI 个人超算终于来了

1 天前

DeepSeek 团队真是鬼才啊

DeepSeek 团队真是鬼才啊

2 天前

6个AI，用42W炒币，DeepSeek赚钱第一！

6个AI，用42W炒币，DeepSeek赚钱第一！

2 天前

百度蒸汽机团队：Sora2发布后大家都没休假

百度蒸汽机团队：Sora2发布后大家都没休假

1 天前