要約
特許画像は、特許の革新に関する情報を伝える技術的な図面です。
特許画像検索システムは、膨大なコレクションを検索し、最も関連性の高い画像を取得することを目指しています。
情報検索の最近の進歩にもかかわらず、特許画像は、技術的な複雑さと複雑なセマンティック情報のために依然として大きな課題をもたらし、ドメイン適応に効率的な微調整を必要とします。
現在の方法は、Locarno International Classification(LIC)システムで定義されているものなど、特許の階層的な関係を無視します。
この作業では、LICの分類法を活用して検索プロセスでそのような関係を誘導する階層的な多陽性対照損失を導入します。
私たちのアプローチは、バッチ内の各特許画像に複数の正のペアを割り当て、階層分類法に基づいて類似性スコアが異なります。
Deeppatent2データセットのさまざまな視力モデルとマルチモーダルモデルを使用した実験分析は、提案された方法が検索結果を促進することを示しています。
特に、この方法は低パラメーターモデルで効果的であり、計算リソースが少なくなり、ハードウェアが限られている環境に展開できます。
要約(オリジナル)
Patent images are technical drawings that convey information about a patent’s innovation. Patent image retrieval systems aim to search in vast collections and retrieve the most relevant images. Despite recent advances in information retrieval, patent images still pose significant challenges due to their technical intricacies and complex semantic information, requiring efficient fine-tuning for domain adaptation. Current methods neglect patents’ hierarchical relationships, such as those defined by the Locarno International Classification (LIC) system, which groups broad categories (e.g., ‘furnishing’) into subclasses (e.g., ‘seats’ and ‘beds’) and further into specific patent designs. In this work, we introduce a hierarchical multi-positive contrastive loss that leverages the LIC’s taxonomy to induce such relations in the retrieval process. Our approach assigns multiple positive pairs to each patent image within a batch, with varying similarity scores based on the hierarchical taxonomy. Our experimental analysis with various vision and multimodal models on the DeepPatent2 dataset shows that the proposed method enhances the retrieval results. Notably, our method is effective with low-parameter models, which require fewer computational resources and can be deployed on environments with limited hardware.
arxiv情報
著者 | Kshitij Kavimandan,Angelos Nalmpantis,Emma Beauxis-Aussalet,Robert-Jan Sips |
発行日 | 2025-06-16 13:53:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google