Hugging Face 推出 Idefics2 视觉语言模型

Hugging Face 公司宣布推出 Idefics2，这是一个多功能模型，能够理解和生成基于图像和文本的文字回复。该模型为回答视觉问题、描述视觉内容、根据图像创作故事、文档信息提取，甚至根据视觉输入执行算术运算树立了新的标杆。

Idefics2 仅有 80 亿个参数，其开放许可证（Apache 2.0）带来的多功能性以及显著增强的光学字符识别（OCR）功能，使其超越了前代产品 Idefics1。

该模型不仅在可视化问题解答基准测试中表现出色，而且在与 LLava-Next-34B 和 MM1-30B-chat 等规模更大的同类产品的竞争中也毫不逊色：

Idefics2 最吸引人的地方在于它从一开始就与 Hugging Face 的 Transformers 相集成，从而确保可以轻松地对各种多模式应用进行微调。对于那些急于深入研究的人，Hugging Face Hub 上提供了可供实验的模型。

Idefics2 的一个突出特点是其全面的训练理念，它融合了公开可用的数据集，包括网络文档、图像字幕对和 OCR 数据。此外，它还引入了被称为 “熔炉 “的创新微调数据集，将 50 个精心策划的数据集整合在一起，用于多方面的会话训练。

Idefics2 采用了一种精细的图像处理方法，保持了原始分辨率和长宽比–这与计算机视觉领域传统的大小调整规范大相径庭。它的架构明显得益于先进的 OCR 功能，能够熟练地转录图像和文档中的文本内容，在解读图表和数字方面的性能也得到了提高。

简化视觉特征与语言主干的整合，标志着 Idefics2 与其前身架构的转变，采用学习型感知器池和 MLP 模式投影增强了 Idefics2 的整体功效。

视觉语言模型的这一进步为探索多模态交互开辟了新途径，Idefics2 将成为该领域的基础工具。它的性能提升和技术创新凸显了将视觉和文本数据结合起来，创建复杂的、能感知上下文的人工智能系统的潜力。