百度發佈PP-OCRv6:千萬級參數媲美十億級VLM,單模型支持50種語言

來源 Jinse_news
金色財經報道,百度飛槳團隊發佈新一代 OCR 系統 PP-OCRv6,提供 Tiny 1.5M、Small 7.7M 和 Medium 34.5M 三個版本,覆蓋邊緣設備、瀏覽器和雲端部署場景。相比前代 PP-OCRv5,檢測準確率提升 4.6%,識別準確率提升 5.1%,並將中文、英文、日文及 46 種拉丁語系語言整合進同一個統一模型。 PP-OCRv6 對檢測與識別網絡進行了重新設計,引入統一模塊結構和結構重參數化(Structural Reparameterization)技術,在提升精度的同時降低計算開銷。在 OpenVINO 優化下,Medium 版本端到端 CPU 推理速度最高提升 5.2 倍。 官方公佈的測試結果顯示,PP-OCRv6 在多項 OCR 基準上以千萬級參數規模取得接近甚至超過部分十億級視覺語言模型 VLM 的表現。團隊還針對手寫體、工業元器件標識、數碼管、PCB 絲印和 CAD 圖紙等場景進行了專項優化。目前相關代碼已併入 PaddleOCR 項目並開源。
免責聲明:僅供參考。 過去的表現並不預示未來的結果。
goTop
quote