Interfacing Foundation Models’ Embeddings

要約

基礎モデルの埋め込みを調整するための汎用インターフェイスである FIND を紹介します。
ティーザー図に示すように、基礎モデルの重みを調整しない軽量のトランスフォーマー インターフェイスは、統合された画像 (セグメンテーション) とデータセット レベル (取得) を理解するのに十分です。
提案されたインターフェイスには、次のような有利な属性があります。 (1) 一般化可能。
これは、同じアーキテクチャと重みの下で、検索、セグメンテーション、\textit{etc.} にわたるさまざまなタスクに適用されます。
(2) 試作可能。
アテンション マスクのプロトタイピングとタイプの埋め込みを通じて、さまざまなタスクを実装できます。
(3) 拡張可能。
提案されたインターフェイスは、新しいタスクや新しいモデルに適応します。
(4) インタリーブ可能。
マルチタスク、マルチモーダル トレーニングの利点により、提案されたインターフェイスはインターリーブされた共有埋め込み空間を作成します。
インターリーブ埋め込み空間を考慮して、インターリーブのセグメンテーションと取得のために COCO データセットに新しいトレーニングと評価のアノテーションを導入する FIND-Bench を導入します。
私たちのアプローチは、FIND-Bench で最先端のパフォーマンスを実現し、標準の検索およびセグメンテーション設定で競争力のあるパフォーマンスを実現します。
トレーニング、評価、デモ コードとデータセットは https://github.com/UX-Decoder/FIND でリリースされています。

要約(オリジナル)

We present FIND, a generalized interface for aligning foundation models’ embeddings. As shown in teaser figure, a lightweight transformer interface without tuning any foundation model weights is enough for a unified image (segmentation) and dataset-level (retrieval) understanding. The proposed interface has the following favorable attributes: (1) Generalizable. It applies to various tasks spanning retrieval, segmentation, \textit{etc.}, under the same architecture and weights. (2) Prototypable. Different tasks are able to be implemented through prototyping attention masks and embedding types. (3) Extendable. The proposed interface is adaptive to new tasks, and new models. (4) Interleavable. With the benefit of multi-task multi-modal training, the proposed interface creates an interleaved shared embedding space. In light of the interleaved embedding space, we introduce the FIND-Bench, which introduces new training and evaluation annotations to the COCO dataset for interleave segmentation and retrieval. Our approach achieves state-of-the-art performance on FIND-Bench and competitive performance on standard retrieval and segmentation settings. The training, evaluation, and demo code as well as the dataset have been released at https://github.com/UX-Decoder/FIND.

arxiv情報

著者 Xueyan Zou,Linjie Li,Jianfeng Wang,Jianwei Yang,Mingyu Ding,Zhengyuan Yang,Feng Li,Hao Zhang,Shilong Liu,Arul Aravinthan,Yong Jae Lee,Lijuan Wang
発行日 2023-12-12 18:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク