ET tu, CLIP? Addressing Common Object Errors for Unseen Environments

要約

ALFRED タスクでのモデルの一般化を強化するために、事前トレーニングされた CLIP エンコーダーを使用する簡単な方法を紹介します。
CLIP がビジュアル エンコーダを置き換える以前の文献とは対照的に、補助的な物体検出目標を通じて追加モジュールとして CLIP を使用することを提案します。
最近提案された Episodic Transformer アーキテクチャでメソッドを検証し、CLIP を組み込むことで目に見えない検証セットでのタスクのパフォーマンスが向上することを実証します。
さらに、私たちの分析結果は、CLIP がオブジェクトの説明の活用、小さなオブジェクトの検出、珍しい単語の解釈に特に役立つことを裏付けています。

要約(オリジナル)

We introduce a simple method that employs pre-trained CLIP encoders to enhance model generalization in the ALFRED task. In contrast to previous literature where CLIP replaces the visual encoder, we suggest using CLIP as an additional module through an auxiliary object detection objective. We validate our method on the recently proposed Episodic Transformer architecture and demonstrate that incorporating CLIP improves task performance on the unseen validation set. Additionally, our analysis results support that CLIP especially helps with leveraging object descriptions, detecting small objects, and interpreting rare words.

arxiv情報

著者 Ye Won Byun,Cathy Jiao,Shahriar Noroozizadeh,Jimin Sun,Rosa Vitiello
発行日 2024-06-25 18:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク