首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战

5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。

1.jpg

测试结果显示,Gemini2.5Flash在综合实力上力压群雄,但却在OCR和分类任务中出现意外"滑铁卢",表现甚至不如上一代的Gemini2.0Flash,分别下降了1.84%和0.05%。业内分析认为,这一现象可能源于谷歌在模型迭代中过度侧重多模态推理能力,而相对忽视了基础文本识别功能的优化。

与此同时,OpenAI的GPT-4o-mini在图表和绘图理解方面表现亮眼,尤其在ChartQA等视觉问答任务中脱颖而出。然而,该模型每请求Token成本高居榜首,成为实际应用中不可忽视的限制因素。开发者社区讨论热点也集中在如何权衡性能与成本之间的平衡。

2.jpg

值得注意的是,长文档处理和表格提取仍然是当前视觉-语言模型的"阿喀琉斯之踵"。即使表现最佳的模型,在长文档任务(LongDocBench)上的得分也仅为69.08%,表格提取(基于GriTS指标)最高也只达到66.64%。这一结果凸显了AI在处理复杂布局和长上下文时的局限性。

IDP Leaderboard采用了极具挑战性的多样化数据集,涵盖手写文本、印刷文本、带变音符号文本、结构化与非结构化表格,以及长达21页的复杂文档。评估指标也根据任务特性灵活选择,如OCR、KIE、VQA和长文档处理使用编辑距离准确率,分类采用精确匹配准确率,表格提取则采用GriTS指标,确保评估的全面性和公正性。

该基准测试计划定期更新数据集并引入更多模型(如Claude系列),以保持评估的动态性和权威性。开发者可通过GitHub(https://github.com/nanonets/idp-leaderboard)访问相关数据集和评估代码,参与社区讨论。

智能文档处理基准的发布标志着多模态AI在文档处理领域进入了可量化评估的新阶段。虽然Gemini2.5Flash展现了强大实力,但测试也揭示了当前技术面临的挑战。随着数据集的不断扩充和模型优化的深入,智能文档处理技术有望在企业自动化、档案数字化和智能搜索等领域释放更大价值,为数字化转型提供更强大的技术支撑。

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/56899

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 20小时前
下一篇 20小时前

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注