
GitHub - clovaai/donut: Official Implementation of OCR-free …
2023年6月15日 · Donut does not require off-the-shelf OCR engines/APIs, yet it shows state-of-the-art performances on various visual document understanding tasks, such as visual …
Donut:不用OCR中间过程也能理解图片文档 - 知乎
我们引入了一个新的无OCR VDU模型,以解决由OCR依赖性引起的问题。 我们的模型基于仅有Transformer的架构,被称为文档理解transformer (Donut),这是继视觉和语言 [8,9,29]取得巨 …
Donut - Hugging Face
To address these issues, in this paper, we introduce a novel OCR-free VDU model named Donut, which stands for Document understanding transformer. As the first step in OCR-free VDU …
Donut模型-图像文本阅读以及下游任务的多模态大模型-CSDN博客
2024年4月16日 · donut相比于传统的方式,直接用给一个E2E的模型取代解耦的OCR+下游语言模型。 时间上更快,准确率也更高。 结构很简单,一个视觉编码器和一个NLP的语言解码器构 …
[2111.15664] OCR-free Document Understanding Transformer
2021年11月30日 · Through extensive experiments and analyses, we show a simple OCR-free VDU model, Donut, achieves state-of-the-art performances on various VDU tasks in terms of …
[论文] Donut: OCR-free Document Understanding Transformer
Donut模型通过直接映射原始输入图像到需要的输出,避免了OCR的依赖。 文章还提供了一个合成数据生成器 SynthDoG,使模型的预训练过程可以适应不同的语言和领域。
Donut - Hugging Face 机器学习平台
Donut 模型由 Geewook Kim、Teakgyu Hong、Moonbin Yim、Jeongyeon Nam、Jinyoung Park、Jinyeong Yim、Wonseok Hwang、Sangdoo Yun、Dongyoon Han 和 Seunghyun Park 在 …
不需要OCR的文档理解Transformer:Donut - ECNU ICALK 702
2022年10月20日 · 通过基于深度学习的光学字符识别(OCR)的显著进步,大多数现有的 VDU 系统共享类似的架构,该架构依赖于单独的 OCR 模块从目标文档图像中提取文本信息。
GitHub - WalysonGO/donut-ocr: Official Implementation of OCR …
Donut 🍩, Do cume n t u nderstanding t ransformer, is a new method of document understanding that utilizes an OCR-free end-to-end Transformer model. Donut does not require off-the-shelf …
无需OCR的文档理解Transformer模型Donut - SegmentFault 思否
2025年2月14日 · Donut是一个用于文档图像通用理解的端到端(即自包含)视觉文档理解(VDU)模型。 Donut的架构相当简单,由基于Transformer的视觉编码器和文本解码器模块 …
- 某些结果已被删除