通用端到端OCR模型开源,拒绝多模态大模型降维打击

Vary 团队开源 OCR-2.0 的通用端到端模型 GOT。该模型在 PDF image 转 markdown、双栏文本感知、自然场景及细粒度 OCR、动态分辨率 OCR、多页 OCR、更多符号 OCR 等方面的能力更强。尽管 GOT 表现不错,但存在一些局限,如更多语言支持、更复杂几何图及 chart 上的 OCR 性能有待提升。

GOT 的通用体现在输入支持多种 OCR 任务,输出同时支持 plain texts 及 formatted 文本输出。其结构和训练方法采用 vision encoder+input embedding layer+decoder 的 pipeline,Encoder 主体采用带 local attention 的 VITDet 架构,后两层采用 Vary 的双卷积设计方案。整个训练过程分为三个阶段:第一阶段高效预训练 encoder,使用小型 OPT-125M 作为 decoder 为 encoder 提供优化方向;第二阶段联合训练 encoder-decoder,采用预训练好的 encoder 和 Qwen0.5B 作为 decoder,并加大 decoder 大小;第三阶段锁住 encoder,加强 decoder 以适配更多 OCR 应用场景。

面对数据工程难题,研究团队学习了众多数据渲染工具。关于在大模型相互梭哈时代继续研究 OCR 的理由,研究团队认为 OCR 离落地近,是 AI-1.0 时代技术结晶,在 AI-2.0 时代成多模大模型基本能力,但纯 OCR 研究未到终点。

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索

亲爱的同学, AISCK不支持网页右键喔!

你可以鼠标左键选择内容后,按Ctrl+C复制

嗨! 我是AI助手Ceres