Vary团队 投稿 凹非寺量子位 | 公众号 QbitAI巨屌 推特
在AI-2.0时期,OCR模子的商量难谈到头了吗!?(OCR:一种将图像中的翰墨雷同为可裁剪和可搜索文本的时候)
Vary作家团队开源了第一个迈向OCR-2.0的通用端到端模子GOT。
用践诺截止向东谈主们讲明:No~No~No~
GOT模子成果若何?
话未几说,径直上成果图:
商量团队称,尽管GOT模子发扬可以,但也存在一些局限,如更多的讲话复古,更复杂的几何图,chart上的OCR性能。
他们说OCR-2.0的商量还远的很,GOT也还有不小进步空间(该方式在数据和算力资源上都吊唁常受限的)。
恰是因为深知GOT以及OCR-2.0的后劲,咱们但愿通过开源GOT迷惑更多的东谈主,废弃VQA,再次投向强感知。都说纯OCR容易背锅,但也碰巧阐明作念的不够work,不是吗?GOT: Towards OCR-2.0
通用OCR模子须要够通用巨屌 推特,体当今输入输出都要通用上。
GOT的通用具体发扬为:在输入方面,模子复古Scene Text OCR、Document OCR、Fine-grained OCR、More General OCR等任务。
输出方面,模子同期复古plain texts输出以及可读性强、可裁剪的formatted文本输出,如markdown等。
模子的结构和检察递次,禁受vision encoder+input embedding layer+decoder的pipeline。
Encoder主体禁受带local attention的VITDet架构,不会让CLIP决策的全程global attention在高分辨率下激活太大,炸显存。
Encoder后两层禁受Vary的双卷积筹算决策。扫数Encoder将1024×1024×3的图像压缩为256×1024的image tokens,足以作念好A4纸级别的dense OCR。
商量团队将扫数检察经由分为三个要领,莫得一个阶段锁LLM,经由中莫得存在图像到文本的对都阶段,进而导致挫伤image token的翰墨压缩率。
三个检察阶段分离为:
第一阶段:高效预检察encoder,GOT在扫数检察经由中,莫得A100级别的卡,为了省俭资源,该阶段使用袖珍OPT-125M动作decoder为encoder提供优化所在,快速灌入多数数据。
第二阶段:集结检察encoder-decoder,该阶段GOT的基本结构搭建完成,为上一阶段预检察好的encoder,以及Qwen团队预检察好的Qwen0.5B。
商量团队稍许加大了decoder的大小,因为该阶段需要喂入多数OCR-2.0的学问,而不少数据(如化学式的OCR)其实亦然带点reasoning的,不外更小的decoder他们未敢尝试。
第三阶段:锁住encoder,加强decoder以适配更多的OCR应用场景,如复古坐标大要方法指引的细粒度OCR(点读笔可能会用到),复古动态分辨率OCR时候(超大分辨率图可能会用到),多页OCR时候。
丝袜英文该feature主淌若为了后续follower能更好地检察Arxiv这种数据,咱们的设思是多页PDF径直检察,无须再对.tex断页而烦扰!
濒临扫数GOT模子筹算中最艰巨的数据工程要害。商量团队为了构造多样万般的数据,还学习了庞杂数据渲染用具,包括Latex,Mathpix-markdown-it,Matplotlib,Tikz,Verovio, Pyecharts等等。
OCR的商量才刚刚运行
对于为什么在大模子相互梭哈的时期不竭商量OCR?
商量团队有他们我方的原理:
OCR一直是离落地最近的商量所在之一,是AI-1.0时期的时候结晶。到了以LLM(LVLM)为中枢的AI-2.0时期,OCR成了多模大模子的一项基本技艺,各家模子致使有梭哈之势。多模态大模子动作通用模子,总有种降维打击OCR模子的嗅觉。那么纯OCR的商量确实到头了吗?咱们思说:固然莫得!没准才刚刚运行。最初盘一下AI-1.0 OCR系统和LVLM OCR的过错:最初是AI-1.0活水线式的OCR系统,过错毋庸多说,各个模块比拟颓靡,局部最优,防御资本也大。最进攻的是欠亨用,不同OCR任务需路由不同模子,不太通俗。那么多模态大模子在pure OCR任务上有什么弱势呢?咱们合计有以下两点:1、为Reasoning让开势必导致image token数目过多,进而导致在纯OCR任务上存在bottle-neck。Reasoning(VQA-like)技艺来自LLM(decoder),要思赢得更好的VQA技艺(至少在刷点上),就要充分诈欺起LLM来,那么image token就得越像text token(至少高维上,这样就会让LLM更惬意)。试思一下,100个text token在LLM词表上能编码若干翰墨?那么一页PDF的翰墨,又需要若干token呢?不难发现,保VQA就会导致在作念OCR任务上,尤其是dense OCR任务上,模子搞得比拟丑陋。举例,一页PDF图片唯有A4纸大小,好多LVLM要都需要切图作念OCR,切出几千个image token。单张都要切图,拿出多页PDF拼接图,尊驾又当若何搪塞?咱们合计对于OCR模子这样多token大可不必。2、相配直不雅的少许等于模子太大,迭代艰巨。要思引入新OCR feature如复古一项新讲话,不是SFT一下就能训进模子的,得大开vision encoder作念pre-training大要post-training,这都是十分耗资源的。对于OCR需求来说太蹧跶了。有东谈主会说,小模子能同期作念好这样多OCR任务吗?咱们的谜底是详情的,何况致使还能更好