上海铁皮保温施工 百度开源限OCR, 跑通长程解析, 中枢作家YY疑是来自DeepSeek - 贵州铁皮保温施工_鑫诚防腐保温工程有限公司
贵州铁皮保温施工_鑫诚防腐保温工程有限公司
贵州铁皮保温施工_鑫诚防腐保温工程有限公司

上海铁皮保温施工 百度开源限OCR, 跑通长程解析, 中枢作家YY疑是来自DeepSeek

2026-06-25 19:53:17

上海铁皮保温施工 百度开源限OCR, 跑通长程解析, 中枢作家YY疑是来自DeepSeek
铁皮保温

剪辑|张倩、陈陈

DeepSeek OCR 留住的个问题,好像被东说念主接上了。

昨天,咱们在 HuggingFace 上刷到个新开源模子,径直被惊艳到了。

它叫 Unlimited OCR,百度出的。

引诱眼球的地是,在按序大崎岖文长度 32K 的条款下,它让 OCR 模子次概况语气读竣工本书。

贯穿:https://mp.weixin.qq.com/s/Fcdv7KZaLYcwlKFJjZL-4A

防范,这不是逐页处理,不是 for-loop 式拆任务,也不是靠外部更始器把遣散拼起来,而是确切意旨上的次前向理径直完成数十页文档解析。

的是,它不仅作念到了,还作念得特等好。在文档解析主流基准 OmniDocBench v1.5 上,Unlimited OCR 以 93.23 的总分拿下端到端 SOTA,比 DeepSeek OCR 整整出 6 个百分点。

看到这里,咱们不酷爱:它到底是如何作念到的?于是怒放本事申报,遣散越看越非常念念。

因为 Unlimited OCR 并不是别辟门户。恰恰相背,它径直构建在 DeepSeek OCR 的基础之上。

原因很肤浅:在视觉压缩这件事上,DeepSeek OCR 照旧把事情作念到特等致。张 1024×1024 的文档页面,经过 DeepEncoder 编码之后,终只剩下 256 个视觉 token。即使放到今天看,这依然是个特等激进的遐想。

但之后,个问题缓缓浮现 —— 若是输入侧照旧压缩得这样狠,为什么此前的 OCR 模子照旧很难确切处理长文档?

谜底在解码端。视觉 token 压缩之后,模子生成的文本却不会捏造散失。跟着输出越来越长,解码器里的 KV Cache 仍然会束缚增长。输出越长,存占用越;历史越长,防范力计较越重;生成速率也会越来越慢。

这亦然为什么昔日的大大量 OCR 系统,终都会璧还到逐页解析的方式。因为再的编码器,也处分不了解码阶段束缚推广的历史拖累。

而 Unlimited OCR 的切入点,恰好落在这里。它莫得重作念编码器,而是把一起元气心灵放在了解码阶段。形势界面上有句很耐东说念主寻味的话:「push DeepSeek-OCR one step further」。

看到这里的时候,咱们门且归翻了遍 DeepSeek OCR,然后发现两者温雅的,似乎偶合是同条本事阶梯上的两个不同方法。

DeepSeek OCR 处分的是输入侧的问题 —— 如何把别离率文档压缩成尽可能少的视觉 token。Unlimited OCR 处分的是输出侧的问题 —— 如何让模子在永劫刻生成过程中,不被束缚推广的 KV Cache 拖垮。

个发生在编码端,个发生在解码端。单看,两者各自开辟,放在起看,却不测地连贯。

非常念念的是,Unlimited OCR 本事申报对 DeepSeek OCR 的征询频率特等,整整达 40 次。好多地读起来不像是在作念相愉快旨上的竞品对标,反而像是在接着念念路,延续往前。

至于为什么会给东说念主这种嗅觉,咱们有个斗胆的算计。

申报标题:Unlimited OCR Works

形势地址:https://github.com/baidu/Unlimited-OCR

Hugging Face:https://huggingface.co/baidu/Unlimited-OCR

像东说念主类样抄书:Unlimited OCR 处分大模子的长程失忆症

要瓦解 Unlimited OCR 的意旨,需要先回到传统 OCR 模子处理长文档的式。

昔日的 OCR 系统处理长文档上海铁皮保温施工,相同经受逐页解析的式。模子识别页,终局;然后识别二页,再终局;通盘历程依赖外部按序页页调用模子。从模子才调自己看,它并莫得确切一语气地完成次长程任务。每页都像次再行开动,上页的解析情状被清空,模子并不确切知说念我正大在完本钱书别的一语气转写。

这种 For-loop 范式,骨子上依赖外部更始器(External Scheduler)来拼接遣散。这特等于把本竣工的书远离辟碎屑,不仅割裂了语义连贯,是种工程上的权宜之策(Engineering Workaround),而非迈向 AGI 的旅途。

东说念主类处理长程任务的式,然接近另种方式。

举例,个东说念主手手本书时,防范力并不会平中分派给整本书。你不会边写现时这个字,边竣工回忆前边照旧抄过的几百页内容。真实情况相同是:眼睛盯着原始书页,脑子里记取刚刚写下的小段翰墨,然后把防范力放到下个要写的字上。

受东说念主类抄书过程的启发,百度提议了 Unlimited OCR。当个东说念主手手本书时,防范力相同邻接在三个地:原始书页、刚刚写下的小段内容(相同惟有几个字),以及接下来要写的阿谁字。

东说念主类之是以概况一语气抄竣工本书、翻译数百页内容,或者转录数小时音频,并不是因为大脑竣工保存了扫数历史输出。相背,东说念主并不会竣工记取扫数照旧转写过的内容,而是会进行种软淡忘(Soft Forgetting)。

恰是受这不雅察启发,百度提议了 Unlimited OCR。

Unlimited OCR 以 DeepSeek OCR 算作基线模子。它由 DeepEncoder 和搀杂架构(Mixture-of-Experts,MoE)构成,模子总参数目为 3B,其中激活参数为 500M,这是其保捏率的底之。

DeepEncoder 的凸起势在于出的视觉 token 压缩才调。它概况在保留平稳光学文本特征索要才调的同期,大幅裁汰 prefill 阶段的 KV cache 占用。

除了 DeepSeek OCR 编码器,百度的立异是将按序多头防范力机制(MHA)替换为 R-SWA(Reference Sliding Window Attention)。借助这新的防范力机制,只需要在原有参考 KV cache 的基础上,增多个宽度为 的固定容量输出 KV 缓冲区,就不错竣事长程解析。

R-SWA 如何稳住长程解码?

尽管 DeepEncoder 在输入侧照旧竣事了令东说念主满足的视觉 token 压缩,但次解析整本书果深刻瓶颈在于解码阶段。

假定视觉 token 与文本 token 之间的压缩比为 1:10,也即是说,个视觉 token 约莫不错解码出 10 个文本 token。那么,1 万个视觉 token,也即是约等于 1024×1024 别离率下的 20 到 30 页文档,在竣工解码时就需要输出过 10 万个 token。

对往常 LLM 驱动的 OCR 模子来说,这会带来两个问题:

,KV cache 会束缚增长。每生成个 token,模子都要把它的 Key 和 Value 存下来,供背面 token 使用。

二,防范力计较会越来越重。越到背面,模子要回看的历史越长,生成速率也就越慢。

为此,百度提议了参考滑动窗口防范力机制 R-SWA(Reference Sliding Window Attention),它把模子能看到的信息分红两部分。

部分是 Reference tokens,也即是参考信息。在 OCR 里,它主要包括视觉 token 和 prompt。不错把它瓦解成模子直放在目下的原始文档。

二部分是近生成的小段输出 token,默许窗口大小是 128,也即是说,模子只保留近 128 个输出 token 算作做事挂牵。这恰好模拟了东说念主类「只难忘近刚写下的几个字」的知道情状。

R-SWA 清楚图。每个生成 token 都会温雅扫数参考 token,铁皮保温施工也即是 OCR 中的视觉 token,以及前边 个输出 token,其中 默许设为 128。与按序全防范力比较,R-SWA 在通盘解码过程中都能保捏恒定的 KV cache。与往常滑动窗口防范力(vanilla SWA)比较,R-SWA 将视觉 token 抹杀在情状更始除外,从而保留视觉 token 的保真度,避视觉特征在长程过程中缓缓毅力。

因此,R-SWA 的中枢逻辑不错详细为:原始文档恒久可见,照旧输出过的文本只保留近段。

这和东说念主抄书很像,东说念主抄书时,不会边写现时这个字,边回忆前边几百页一起内容。确切灵验的是:原书还在目下,刚刚写过的几个字还在脑子里,然后延续写下个字。

这样来模子不再需要跟着输出变长而束缚使命越来越大的历史缓存,解码阶段的计较支拨和存占用也就不会路推广。下图直不雅展示了这点: DeepSeek OCR 基线模子和 Unlimited OCR Works(图中记为 UOW)在 Flash Attention v3 内核上的单次调用耗时。

图中不错了了看到,DeepSeek OCR 中的按序 MHA 内核会跟着解码步数增多而产生越来越的延伸;而在 Unlimited OCR 中,单次调用耗时基本保捏恒定。这恰是因为 Unlimited OCR 在 LLM 解码器的扫数层中都经受了 R-SWA。

DeepSeek OCR 中出现的延伸峰,是因为 KV cache 长度跨过了某个对都边界,致数据传输率一霎下落;而经受 R-SWA 后,这个问题也不会出现。

此外,理过程中的 GPU 存使用也会呈现近似趋势:在原始 DeepSeek OCR 中,存占用会线增长;而在 Unlimited OCR 中,存占用保捏固定。

计较本钱和内存占用的双重平稳,恰是长程解析得以竣事的关节。

Flash Attention v3 内核延伸随解码长度增多而变化的情况。

准确率没掉,长输出稳,R-SWA 的长程解析跑通了

天然,防范力机制遐想得再玄妙,终还要实际来考据。除了主遣散(前文 table 1),论文还在 OmniDocBench v1.5 的 9 类文档上作念了细分类别分析,包括 PPT、学术论文、册本、彩课本、试卷、杂志、报纸、条记、筹办申报等。

细分类别分析:复杂版式下也莫得掉队

如表 2 所示,与 DeepSeek OCR 比较,Unlimited OCR 在所筹办上都获得了明且致的擢升。与 DeepSeek OCR 2 比较,Unlimited OCR 也保捏了明势。

关节的是,在 PPT、报纸、杂志、条记这类复杂版式文档上,Unlimited OCR 也莫得弘扬出谬误。这讲明 R-SWA 的果不是只适用于肤浅纯文本,而是不错狡饰复杂的文档解析场景。

长程解析实际:次处理多页文档

长程解析是 Unlimited OCR 的项新才调。

此前的模子难以竣事这点,主要有两个险阻:,过长的输出序列很容易过大 token 法例;二,输出延伸会跟着序列长度增多而上涨,致几十页文档的 OCR 解析越往后越慢。

实际中,百度构建了里面长文档测试集,按页数分为 2、5、10、15、20、40+ 页几组,测试模子在多页次 OCR 场景下的弘扬。

遣散示,Unlimited OCR 在同期输入 20 页时仍能保捏较好果;在 40+ 页场景下,剪辑距离仍低于 0.11,Distinct-35 约为 97(Distinct-n 不错瓦解为生成文本中 n-gram 的各样野心,数值越,讲明模子越禁绝易堕入叠加输出)。

输出越长,R-SWA 势越明

后,论文比较了 Unlimited OCR 和 DeepSeek OCR 在不同输出长度下的 TPS,也即是每秒输出 token 数。

遣散示,当输出长度为 256 个 token 时,两个模子的理速率简直辩论。但跟着输出长度增多,DeepSeek OCR 的 TPS 会捏续下落;当输出长度达到 6000 个 token 时,DeepSeek OCR 的速率照旧比经受 R-SWA 的 Unlimited OCR 逾期 35。

这和前边 Figure 3 的 kernel latency 遣散是致的:按序 MHA 会跟着 KV cache 变长而越来越慢;R-SWA 将输出侧 KV cache 法例在固定窗口内,因此解码支拨不会跟着输出长度捏续推广。

个斗胆的算计:百度把 DeepSeek 的筹办员挖过来了?

咦?读完 Unlimited OCR 的本事申报,如何有种似曾清楚的嗅觉。没错,它的本事作风、抒发式,都让东说念主想起 DeepSeek OCR 的本事申报。

本事上自不消说,Unlimited OCR 径直构建在 DeepSeek OCR 的基础之上,对 DeepEncoder 等中枢组件进行了进步交融。同期,二者之间的这种近乎缝的衔尾,也让咱们嗅觉,这不像是次对开源形势的肤浅学习,而像是在竣工瓦解的基础上,延续上前进,让该本事铿锵有劲地走入下个阶段。

而在行文作风上,Unlimited OCR 申报给东说念主种故事强、认识颇为激进,同期又带有激烈探索彩的嗅觉。而这种嗅觉,之前读 DeepSeek 本事申报的时候咱们曾经略过。

这就不得不让东说念主斗胆料到:难说念百度把 DeepSeek 的筹办员挖过来了?

这也不是不成能。因为前段时刻,果真有不少筹办员从 DeepSeek 辞职,比如 DeepSeek V4 本事申报里被「*」标出来的那些东说念主,有些行止已知,如郭达雅去了字节高出 Seed 团队、炳宣去了腾讯混元 (Hunyuan) 团队。

然而还有些东说念主于今行止不解,如 OCR 系列模子作家魏浩然于今未公开败露行止。等等,百度不会把魏浩然挖来了吧?这也不是没可能,毕竟他在 DeepSeek 时间,是 OCR 系列模子的中枢作家。

此外,在 HuggingFace 主页,咱们还防范到致谢栏写着:感谢 Deepseek-OCR、Deepseek-OCR-2。

天然,Unlimited OCR 本事申报莫得明确讲明,但有个签字「YY」的玄妙作家。ta 是这份做事的「technical director」,相同来讲,这个角要厚爱本事阶梯的举座把关,若是 ta 照实来自 DeepSeek,那么 Unlimited OCR 与 DeepSeek OCR 之间那种缝衔尾感便不再令东说念主不测;同期,Unlimited OCR 本事申报的措辞也像是在对自身先前筹办进行反念念与阅兵,而非般意旨上的竞品对标。

若这测属实,这也算是场双向奔赴 —— 毕竟,百度的 PaddleOCR 历久稳居行业榜,对有关域的东说念主才本就有着特的引诱力。而如今,百度有可能正在开辟新的本事阶梯,崭新液的注入也加快了遣散的露出。手机:18632699551(微信同号)相关词条:管道保温     塑料管材生产线     锚索    玻璃棉毡    PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》上海铁皮保温施工,以此来变相勒索商家索要赔偿的违法恶意行为。