通用端到端OCR模型开源,拒绝多模态大模型降维打击

AI快讯
9月11日

AISCK

Vary 团队开源 OCR-2.0 的通用端到端模型 GOT。该模型在 PDF image 转 markdown、双栏文本感知、自然场景及细粒度 OCR、动态分辨率 OCR、多页 OCR、更多符号 OCR 等方面的能力更强。尽管 GOT 表现不错，但存在一些局限，如更多语言支持、更复杂几何图及 chart 上的 OCR 性能有待提升。

GOT 的通用体现在输入支持多种 OCR 任务，输出同时支持 plain texts 及 formatted 文本输出。其结构和训练方法采用 vision encoder+input embedding layer+decoder 的 pipeline，Encoder 主体采用带 local attention 的 VITDet 架构，后两层采用 Vary 的双卷积设计方案。整个训练过程分为三个阶段：第一阶段高效预训练 encoder，使用小型 OPT-125M 作为 decoder 为 encoder 提供优化方向；第二阶段联合训练 encoder-decoder，采用预训练好的 encoder 和 Qwen0.5B 作为 decoder，并加大 decoder 大小；第三阶段锁住 encoder，加强 decoder 以适配更多 OCR 应用场景。

面对数据工程难题，研究团队学习了众多数据渲染工具。关于在大模型相互梭哈时代继续研究 OCR 的理由，研究团队认为 OCR 离落地近，是 AI-1.0 时代技术结晶，在 AI-2.0 时代成多模大模型基本能力，但纯 OCR 研究未到终点。

{{userData.name}}已认证

如何用AI将手绘素描图生成未来科技感高清概念图

机器人驾驶着未来概念汽车

赛博朋克风格的未来概念车/赛车

田径比赛跑步冲刺精彩瞬间镜头（AI绘画+Midjourney提示词）

田径比赛冲刺特写卡通风格小运动员（AI绘画+Midjourney提示词）

健美运动员在喝水（AI绘画+Midjourney提示词）

女运动员喝水健美（AI绘画+Midjourney提示词）

通用端到端OCR模型开源,拒绝多模态大模型降维打击

【限量款】2024龙年大吉微信红包封面

【精品AI进阶课】零基础快速学会高效运用AI

探索AIGC创作之美，共享人工智能学习之乐

欢迎来到 AISCK , 开启你的AI学习探索之旅 , 一起创造无限可能的精彩世界！

科学

优秀AI生成

品质素材！每日更新AIGC干货

AISCK

强烈推荐！AISCK官方品牌微博

AISCK

官方微博，海量教程看不完

AI基础训练营

零基础入门，带你成为AIGC高手

创造力

AIGC

抖音号：AISCK

AISCK·AI

抖音号：AISCK

知识

每天实训五分钟

一年萌新变大神

扫码关注AISCK

官方微信公众号

AISCK

AI前沿研究室

关于AISCK

产品服务

热门灵感

热门教程

{{userData.name}}已认证

如何用AI将手绘素描图生成未来科技感高清概念图

机器人驾驶着未来概念汽车

赛博朋克风格的未来概念车/赛车

田径比赛跑步冲刺精彩瞬间镜头（AI绘画+Midjourney提示词）

田径比赛冲刺特写卡通风格小运动员（AI绘画+Midjourney提示词）

健美运动员在喝水（AI绘画+Midjourney提示词）

女运动员喝水健美（AI绘画+Midjourney提示词）

【限量款】2024龙年大吉微信红包封面

【精品AI进阶课】零基础快速学会高效运用AI

探索AIGC创作之美，共享人工智能学习之乐

欢迎来到 AISCK , 开启你的AI学习探索之旅 , 一起创造无限可能的精彩世界 ！

科学

优秀AI生成

品质素材！每日更新AIGC干货

AISCK

强烈推荐！AISCK官方品牌微博

AISCK

官方微博，海量教程看不完

AI基础训练营

零基础入门，带你成为AIGC高手

创造力

AIGC

抖音号：AISCK

AISCK·AI

抖音号：AISCK

知识

每天实训五分钟

一年萌新变大神

扫码关注AISCK

官方微信公众号

AISCK

AI前沿研究室

关于AISCK

产品服务

热门灵感

热门教程

欢迎来到 AISCK , 开启你的AI学习探索之旅 , 一起创造无限可能的精彩世界！