Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology

要約

視覚言語ナビゲーション (VLN) として知られる、言語指示と視覚情報に基づいて目的の場所に移動できるエージェントの開発は、幅広い関心を集めています。
ほとんどの研究は地上のエージェントに焦点を当てていますが、UAV ベースの VLN はまだ比較的研究されていません。
UAV ビジョン言語ナビゲーションにおける最近の取り組みでは、主に地上ベースの VLN 設定が採用されており、事前に定義された個別のアクション スペースに依存し、エージェントの移動ダイナミクスに固有の差異や、地上環境と航空環境の間のナビゲーション タスクの複雑さは無視されています。
これらの格差と課題に対処するために、私たちはプラットフォーム、ベンチマーク、方法論の 3 つの観点からソリューションを提案します。
VLN タスクで現実的な UAV 軌道シミュレーションを可能にするために、多様な環境、現実的な飛行制御、広範なアルゴリズム サポートを特徴とする OpenUAV プラットフォームを提案します。
さらに、このプラットフォーム上で約 12,000 の軌道から構成されるターゲット指向の VLN データセットを構築し、現実的な UAV VLN タスク用に特別に設計された最初のデータセットとして機能します。
複雑な航空環境によってもたらされる課題に取り組むために、私たちは、UAV-Need-Help と呼ばれるアシスタントガイド付きの UAV オブジェクト検索ベンチマークを提案します。これは、UAV が現実的な VLN タスクをより適切に達成できるように、さまざまなレベルのガイダンス情報を提供します。
また、マルチビュー画像、タスクの説明、およびアシスタントの指示が与えられると、MLLM のマルチモーダル理解機能を活用して視覚情報とテキスト情報を共同処理し、階層的な軌道生成を実行する UAV ナビゲーション LLM も提案します。
私たちの方法の評価結果はベースラインモデルを大幅に上回っていますが、私たちの結果と人間のオペレーターによって達成された結果との間には依然としてかなりのギャップがあり、UAV-Need-Helpタスクによってもたらされる課題を浮き彫りにしています。

要約(オリジナル)

Developing agents capable of navigating to a target location based on language instructions and visual information, known as vision-language navigation (VLN), has attracted widespread interest. Most research has focused on ground-based agents, while UAV-based VLN remains relatively underexplored. Recent efforts in UAV vision-language navigation predominantly adopt ground-based VLN settings, relying on predefined discrete action spaces and neglecting the inherent disparities in agent movement dynamics and the complexity of navigation tasks between ground and aerial environments. To address these disparities and challenges, we propose solutions from three perspectives: platform, benchmark, and methodology. To enable realistic UAV trajectory simulation in VLN tasks, we propose the OpenUAV platform, which features diverse environments, realistic flight control, and extensive algorithmic support. We further construct a target-oriented VLN dataset consisting of approximately 12k trajectories on this platform, serving as the first dataset specifically designed for realistic UAV VLN tasks. To tackle the challenges posed by complex aerial environments, we propose an assistant-guided UAV object search benchmark called UAV-Need-Help, which provides varying levels of guidance information to help UAVs better accomplish realistic VLN tasks. We also propose a UAV navigation LLM that, given multi-view images, task descriptions, and assistant instructions, leverages the multimodal understanding capabilities of the MLLM to jointly process visual and textual information, and performs hierarchical trajectory generation. The evaluation results of our method significantly outperform the baseline models, while there remains a considerable gap between our results and those achieved by human operators, underscoring the challenge presented by the UAV-Need-Help task.

arxiv情報

著者 Xiangyu Wang,Donglin Yang,Ziqin Wang,Hohin Kwan,Jinyu Chen,Wenjun Wu,Hongsheng Li,Yue Liao,Si Liu
発行日 2024-10-09 17:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | コメントする

LaMP: Language-Motion Pretraining for Motion Generation, Retrieval, and Captioning

要約

言語は人間の動作の領域において重要な役割を果たします。
既存の方法は、モーション生成のために CLIP テキスト埋め込みに大きく依存していましたが、静止画像とテキストのペアに対する CLIP の事前トレーニングのため、言語とモーションを効果的に調整するには不十分でした。
この研究では、言語視覚からより適切な言語運動潜在空間に移行する、新しい言語運動事前訓練モデルである LaMP を紹介します。
モーション情報を提供するテキスト埋め込みを生成することで主要な制限に対処し、生成されたモーション シーケンスの関連性とセマンティクスを大幅に強化します。
LaMP を使用して、言語と動作の表現を調整して学習することで、テキストからモーションの生成、モーション テキストの取得、およびモーション キャプションの 3 つの主要なタスクを推進します。
生成には、CLIP の代わりに LaMP を利用してテキスト条件を提供し、自己回帰マスク予測は、トランスフォーマーでのランク崩壊なしでマスク モデリングを実現するように設計されています。
取得の場合、LaMP のモーション トランスフォーマーからのモーション フィーチャはクエリ トークンと対話してテキスト トランスフォーマーからテキスト フィーチャを取得し、その逆も同様です。
キャプションについては、言語情報を提供するモーション機能を備えた大規模な言語モデルを微調整して、強力なモーション キャプション モデルを開発します。
さらに、生成されたモーションとテキストの説明の整合性を評価するために、LaMP-BertScore メトリクスを導入します。
複数のデータセットに関する広範な実験結果は、3 つのタスクすべてにおいて以前の方法に比べて大幅な改善を示しています。
私たちのメソッドのコードは公開されます。

要約(オリジナル)

Language plays a vital role in the realm of human motion. Existing methods have largely depended on CLIP text embeddings for motion generation, yet they fall short in effectively aligning language and motion due to CLIP’s pretraining on static image-text pairs. This work introduces LaMP, a novel Language-Motion Pretraining model, which transitions from a language-vision to a more suitable language-motion latent space. It addresses key limitations by generating motion-informative text embeddings, significantly enhancing the relevance and semantics of generated motion sequences. With LaMP, we advance three key tasks: text-to-motion generation, motion-text retrieval, and motion captioning through aligned language-motion representation learning. For generation, we utilize LaMP to provide the text condition instead of CLIP, and an autoregressive masked prediction is designed to achieve mask modeling without rank collapse in transformers. For retrieval, motion features from LaMP’s motion transformer interact with query tokens to retrieve text features from the text transformer, and vice versa. For captioning, we finetune a large language model with the language-informative motion features to develop a strong motion captioning model. In addition, we introduce the LaMP-BertScore metric to assess the alignment of generated motions with textual descriptions. Extensive experimental results on multiple datasets demonstrate substantial improvements over previous methods across all three tasks. The code of our method will be made public.

arxiv情報

著者 Zhe Li,Weihao Yuan,Yisheng He,Lingteng Qiu,Shenhao Zhu,Xiaodong Gu,Weichao Shen,Yuan Dong,Zilong Dong,Laurence T. Yang
発行日 2024-10-09 17:33:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Topologically Faithful Multi-class Segmentation in Medical Images

要約

医用画像セグメンテーションにおけるトポロジカルな精度は、ネットワーク解析や血管内のフロー モデリング、細胞計数などの下流アプリケーションにとって非常に重要な特性です。
最近、方法論の大幅な進歩により、代数トポロジーからバイナリ セグメンテーションまで、十分に根拠のある概念がもたらされました。
ただし、これらのアプローチは、トポロジ エラーがよく発生するマルチクラス セグメンテーション シナリオでは十分に検討されていません。
我々は、永続性バーコードの誘導マッチングに基づく最近の Betti マッチング概念を拡張した、位相的に忠実なマルチクラス セグメンテーションのための一般的な損失関数を提案します。
N クラス セグメンテーション問題を N 個の単一クラス セグメンテーション タスクに投影すると、1 パラメーターの永続的相同性を使用できるようになり、ニューラル ネットワークのトレーニングが計算的に実行可能になります。
私たちは、非常に多様なトポロジ特性を持つ 4 つの医療データセットからなる包括的なセットで方法を検証します。
当社の損失定式化は、心臓、細胞、動脈静脈、ウィリス輪のセグメンテーションにおけるトポロジカルな正確性を大幅に強化します。

要約(オリジナル)

Topological accuracy in medical image segmentation is a highly important property for downstream applications such as network analysis and flow modeling in vessels or cell counting. Recently, significant methodological advancements have brought well-founded concepts from algebraic topology to binary segmentation. However, these approaches have been underexplored in multi-class segmentation scenarios, where topological errors are common. We propose a general loss function for topologically faithful multi-class segmentation extending the recent Betti matching concept, which is based on induced matchings of persistence barcodes. We project the N-class segmentation problem to N single-class segmentation tasks, which allows us to use 1-parameter persistent homology, making training of neural networks computationally feasible. We validate our method on a comprehensive set of four medical datasets with highly variant topological characteristics. Our loss formulation significantly enhances topological correctness in cardiac, cell, artery-vein, and Circle of Willis segmentation.

arxiv情報

著者 Alexander H. Berger,Nico Stucki,Laurin Lux,Vincent Buergin,Suprosanna Shit,Anna Banaszak,Daniel Rueckert,Ulrich Bauer,Johannes C. Paetzold
発行日 2024-10-09 17:44:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Continual Learning: Less Forgetting, More OOD Generalization via Adaptive Contrastive Replay

要約

機械学習モデルは、新しいクラスを学習するときに、以前に学習した知識を壊滅的に忘れてしまうという問題に悩まされることがよくあります。
この問題を軽減するために、さまざまな方法が提案されています。
ただし、以前のクラスのサンプルを保持するリハーサルベースの学習は、通常、優れたパフォーマンスを達成しますが、特定のインスタンスを記憶する傾向があり、配布外 (OOD) 一般化に苦労します。
これは、多くの場合、高い忘却率と貧弱な一般化につながります。
驚くべきことに、これらのメソッドの OOD 一般化機能はほとんど調査されていません。
このホワイトペーパーでは、この問題に焦点を当て、それに対処するための対照学習とデータ中心の原則にヒントを得た、シンプルかつ効果的な戦略を提案します。
Adaptive Contrastive Replay (ACR) を導入します。これは、二重最適化を採用してエンコーダーと分類器の両方を同時にトレーニングする方法です。
ACR は、クラスとタスクのバランスの取れた表現を保証しながら、誤って分類されたサンプルをリプレイ バッファーに適応的に設定します。
このように決定境界を改良することにより、ACR は安定性と可塑性のバランスを実現します。
私たちの方法は、OOD 一般化の点で以前のアプローチを大幅に上回り、Split CIFAR-100 で 13.41\%、Split Mini-ImageNet で 9.91\%、Split Tiny-ImageNet で 5.98\% の改善を達成しました。

要約(オリジナル)

Machine learning models often suffer from catastrophic forgetting of previously learned knowledge when learning new classes. Various methods have been proposed to mitigate this issue. However, rehearsal-based learning, which retains samples from previous classes, typically achieves good performance but tends to memorize specific instances, struggling with Out-of-Distribution (OOD) generalization. This often leads to high forgetting rates and poor generalization. Surprisingly, the OOD generalization capabilities of these methods have been largely unexplored. In this paper, we highlight this issue and propose a simple yet effective strategy inspired by contrastive learning and data-centric principles to address it. We introduce Adaptive Contrastive Replay (ACR), a method that employs dual optimization to simultaneously train both the encoder and the classifier. ACR adaptively populates the replay buffer with misclassified samples while ensuring a balanced representation of classes and tasks. By refining the decision boundary in this way, ACR achieves a balance between stability and plasticity. Our method significantly outperforms previous approaches in terms of OOD generalization, achieving an improvement of 13.41\% on Split CIFAR-100, 9.91\% on Split Mini-ImageNet, and 5.98\% on Split Tiny-ImageNet.

arxiv情報

著者 Hossein Rezaei,Mohammad Sabokrou
発行日 2024-10-09 17:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

VHELM: A Holistic Evaluation of Vision Language Models

要約

視覚言語モデル (VLM) を評価するための現在のベンチマークは、多くの場合、その認識能力や問題解決能力に重点を置き、公平性、多言語性、有害性などの他の重要な側面を無視しています。
さらに、評価手順や評価範囲が異なるため、モデルの比較が困難になります。
これらの問題に対処するために、HELM フレームワークを VLM に拡張して、ビジョン言語モデルの全体的評価 (VHELM) を提示します。
VHELM は、視覚認識、知識、推論、偏見、公平性、多言語性、堅牢性、毒性、安全性の 9 つの側面のうち 1 つ以上をカバーするためにさまざまなデータセットを集約します。
そうすることで、これらの重要な要素全体にわたる VLM の機能について、包括的かつ多次元のビューを作成します。
さらに、モデル間の公平な比較を可能にするために、標準的な推論パラメータ、プロンプトの方法、および評価指標を標準化します。
私たちのフレームワークは軽量かつ自動になるように設計されているため、評価の実行が安価かつ迅速になります。
最初の実行では、21 の既存のデータセットで 22 の VLM を評価し、モデルの全体的なスナップショットを提供します。
効率重視のモデル (Claude 3 Haiku や Gemini 1.5 Flash など) は、バイアス ベンチマークではフル モデル (Claude 3 Opus や Gemini 1.5 Pro) よりも大幅にパフォーマンスが低いものの、そうではないという事実など、新たな重要な発見を発見しました。
他の側面から評価すると。
透明性を確保するために、生のモデル生成と完全な結果を Web サイト (https://crfm.stanford.edu/helm/vhelm/v2.0.1) で公開します。
VHELM は生きたベンチマークとなることを目的としており、今後も新しいデータセットとモデルを追加し続けたいと考えています。

要約(オリジナル)

Current benchmarks for assessing vision-language models (VLMs) often focus on their perception or problem-solving capabilities and neglect other critical aspects such as fairness, multilinguality, or toxicity. Furthermore, they differ in their evaluation procedures and the scope of the evaluation, making it difficult to compare models. To address these issues, we extend the HELM framework to VLMs to present the Holistic Evaluation of Vision Language Models (VHELM). VHELM aggregates various datasets to cover one or more of the 9 aspects: visual perception, knowledge, reasoning, bias, fairness, multilinguality, robustness, toxicity, and safety. In doing so, we produce a comprehensive, multi-dimensional view of the capabilities of the VLMs across these important factors. In addition, we standardize the standard inference parameters, methods of prompting, and evaluation metrics to enable fair comparisons across models. Our framework is designed to be lightweight and automatic so that evaluation runs are cheap and fast. Our initial run evaluates 22 VLMs on 21 existing datasets to provide a holistic snapshot of the models. We uncover new key findings, such as the fact that efficiency-focused models (e.g., Claude 3 Haiku or Gemini 1.5 Flash) perform significantly worse than their full models (e.g., Claude 3 Opus or Gemini 1.5 Pro) on the bias benchmark but not when evaluated on the other aspects. For transparency, we release the raw model generations and complete results on our website (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM is intended to be a living benchmark, and we hope to continue adding new datasets and models over time.

arxiv情報

著者 Tony Lee,Haoqin Tu,Chi Heem Wong,Wenhao Zheng,Yiyang Zhou,Yifan Mai,Josselin Somerville Roberts,Michihiro Yasunaga,Huaxiu Yao,Cihang Xie,Percy Liang
発行日 2024-10-09 17:46:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | コメントする

Personalized Visual Instruction Tuning

要約

マルチモーダル大規模言語モデル (MLLM) の最近の進歩は、顕著な進歩を示しています。
ただし、これらのモデルには、「顔の盲目」と呼ばれる顕著な制限があります。
具体的には、一般的な会話には参加できますが、特定の個人を対象としたパーソナライズされた会話を行うことができません。
この欠陥により、モバイル デバイス上のカスタマイズされた視覚アシスタントや、家族のメンバーを認識する必要がある家庭用ロボットなど、個人化された環境での MLLM の適用が妨げられます。
このペーパーでは、MLLM が画像内のターゲット個人を識別し、パーソナライズされた一貫した対話を行えるように設計された新しいデータ キュレーションおよびトレーニング フレームワークである Personalized Visual structs Tuning (PVIT) について紹介します。
私たちのアプローチには、パーソナライズされた会話を含むトレーニング データを自律的に生成する洗練されたパイプラインの開発が含まれます。
このパイプラインは、さまざまなビジュアル エキスパート、画像生成モデル、および (マルチモーダル) 大規模言語モデルの機能を活用します。
MLLM のパーソナライズされた可能性を評価するために、さまざまな難易度のさまざまな質問タイプを網羅する P-Bench と呼ばれるベンチマークを提示します。
この実験では、厳選されたデータセットを使用して微調整した後、パーソナライズされたパフォーマンスが大幅に向上することが実証されています。

要約(オリジナル)

Recent advancements in multimodal large language models (MLLMs) have demonstrated significant progress; however, these models exhibit a notable limitation, which we refer to as ‘face blindness’. Specifically, they can engage in general conversations but fail to conduct personalized dialogues targeting at specific individuals. This deficiency hinders the application of MLLMs in personalized settings, such as tailored visual assistants on mobile devices, or domestic robots that need to recognize members of the family. In this paper, we introduce Personalized Visual Instruction Tuning (PVIT), a novel data curation and training framework designed to enable MLLMs to identify target individuals within an image and engage in personalized and coherent dialogues. Our approach involves the development of a sophisticated pipeline that autonomously generates training data containing personalized conversations. This pipeline leverages the capabilities of various visual experts, image generation models, and (multi-modal) large language models. To evaluate the personalized potential of MLLMs, we present a benchmark called P-Bench, which encompasses various question types with different levels of difficulty. The experiments demonstrate a substantial personalized performance enhancement after fine-tuning with our curated dataset.

arxiv情報

著者 Renjie Pi,Jianshu Zhang,Tianyang Han,Jipeng Zhang,Rui Pan,Tong Zhang
発行日 2024-10-09 17:46:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Thing2Reality: Transforming 2D Content into Conditioned Multiviews and 3D Gaussian Objects for XR Communication

要約

リモートコミュニケーション中、参加者は相互理解を高めるために、製品デザイン、デジタル資産、環境などのデジタルコンテンツと物理コンテンツの両方を共有することがよくあります。
最近の拡張通信の進歩により、ユーザーはビデオ フィードから物理オブジェクトのデジタル 2D コピーを迅速に作成し、共有スペースに共有できるようになりました。
しかし、デジタル オブジェクトの従来の 2D 表現では、共有没入型環境でユーザーがアイテムを空間的に参照する能力が制限されます。
これに対処するために、リモート セッション中にデジタルと物理的なアイテムの両方についての自発的なディスカッションを強化する拡張現実 (XR) コミュニケーション プラットフォームである Thing2Reality を提案します。
Thing2Reality を使用すると、ユーザーは没入型環境でアイデアや物理オブジェクトをすばやく実現し、それらを条件付きマルチビュー レンダリングまたは 3D ガウスとして共有できます。
Thing2Reality を使用すると、ユーザーはリモート オブジェクトと対話したり、協力して概念について話し合ったりできます。
私たちのユーザー調査により、オブジェクトの 3D 表現を操作して対話する機能により、ディスカッションの効率が大幅に向上し、2D アーティファクトのディスカッションが強化される可能性があることが明らかになりました。

要約(オリジナル)

During remote communication, participants often share both digital and physical content, such as product designs, digital assets, and environments, to enhance mutual understanding. Recent advances in augmented communication have facilitated users to swiftly create and share digital 2D copies of physical objects from video feeds into a shared space. However, conventional 2D representations of digital objects restricts users’ ability to spatially reference items in a shared immersive environment. To address this, we propose Thing2Reality, an Extended Reality (XR) communication platform that enhances spontaneous discussions of both digital and physical items during remote sessions. With Thing2Reality, users can quickly materialize ideas or physical objects in immersive environments and share them as conditioned multiview renderings or 3D Gaussians. Thing2Reality enables users to interact with remote objects or discuss concepts in a collaborative manner. Our user study revealed that the ability to interact with and manipulate 3D representations of objects significantly enhances the efficiency of discussions, with the potential to augment discussion of 2D artifacts.

arxiv情報

著者 Erzhen Hu,Mingyi Li,Jungtaek Hong,Xun Qian,Alex Olwal,David Kim,Seongkook Heo,Ruofei Du
発行日 2024-10-09 17:49:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC | コメントする

EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

要約

生成モデルの最近の進歩により、素晴らしいコンテンツを生成する際の顕著な機能が実証されました。
ただし、そのほとんどは独自の高品質データでトレーニングされており、一部のモデルはパラメーターを差し控え、アクセス可能なアプリケーション プログラミング インターフェイス (API) のみを提供するため、下流タスクでの利点が制限されます。
公開されているリソースを使用して、高度なモデルに匹敵するテキストから画像への生成モデルをトレーニングする実現可能性を検討するために、EvolveDirector を紹介します。
このフレームワークは、パブリック API を通じて高度なモデルと対話し、基本モデルをトレーニングするためのテキストと画像のデータのペアを取得します。
広範なデータを用いた実験により、高度なモデルの生成データでトレーニングされたモデルがその生成能力を近似できることが示されました。
ただし、1,000万以上の大規模サンプルが必要です。
これにより、時間、計算リソース、特に有料 API の呼び出しに関連するコストが大幅に増加します。
この問題に対処するために、事前トレーニングされた大規模ビジョン言語モデル (VLM) を活用して、基本モデルの進化をガイドします。
VLM はトレーニング中にベース モデルを継続的に評価し、識別、拡張、削除、突然変異の操作によってトレーニング データセットを動的に更新および改良します。
実験結果は、このパラダイムにより必要なデータ量が大幅に削減されることを示しています。
さらに、複数の高度なモデルに近づくと、EvolveDirector はそれらのモデルによって生成された最良のサンプルを選択して、強力でバランスのとれた能力を学習できます。
最終的にトレーニングされたモデル Edgen は、これらの高度なモデルよりも優れたパフォーマンスを発揮することが実証されています。
コードとモデルの重みは https://github.com/showlab/EvolveDirector で入手できます。

要約(オリジナル)

Recent advancements in generation models have showcased remarkable capabilities in generating fantastic content. However, most of them are trained on proprietary high-quality data, and some models withhold their parameters and only provide accessible application programming interfaces (APIs), limiting their benefits for downstream tasks. To explore the feasibility of training a text-to-image generation model comparable to advanced models using publicly available resources, we introduce EvolveDirector. This framework interacts with advanced models through their public APIs to obtain text-image data pairs to train a base model. Our experiments with extensive data indicate that the model trained on generated data of the advanced model can approximate its generation capability. However, it requires large-scale samples of 10 million or more. This incurs significant expenses in time, computational resources, and especially the costs associated with calling fee-based APIs. To address this problem, we leverage pre-trained large vision-language models (VLMs) to guide the evolution of the base model. VLM continuously evaluates the base model during training and dynamically updates and refines the training dataset by the discrimination, expansion, deletion, and mutation operations. Experimental results show that this paradigm significantly reduces the required data volume. Furthermore, when approaching multiple advanced models, EvolveDirector can select the best samples generated by them to learn powerful and balanced abilities. The final trained model Edgen is demonstrated to outperform these advanced models. The code and model weights are available at https://github.com/showlab/EvolveDirector.

arxiv情報

著者 Rui Zhao,Hangjie Yuan,Yujie Wei,Shiwei Zhang,Yuchao Gu,Lingmin Ran,Xiang Wang,Zhangjie Wu,Junhao Zhang,Yingya Zhang,Mike Zheng Shou
発行日 2024-10-09 17:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Towards Interpreting Visual Information Processing in Vision-Language Models

要約

視覚言語モデル (VLM) は、テキストと画像を処理および理解するための強力なツールです。
私たちは、著名な VLM である LLaVA の言語モデル コンポーネントにおけるビジュアル トークンの処理を研究します。
私たちのアプローチは、オブジェクト情報の位置特定、レイヤー全体にわたる視覚的なトークン表現の進化、予測のために視覚情報を統合するメカニズムの分析に焦点を当てています。
アブレーション研究を通じて、オブジェクト固有のトークンが削除されるとオブジェクト識別精度が 70% 以上低下することが実証されました。
私たちは、視覚的なトークン表現がレイヤー全体の語彙空間でますます解釈可能になっていることを観察し、画像コンテンツに対応するテキストトークンとの整合性を示唆しています。
最後に、このモデルは、予測のために最後のトークン位置でこれらの洗練された表現からオブジェクト情報を抽出し、事実関連タスクのテキストのみの言語モデルのプロセスを反映していることがわかりました。
これらの発見は、VLM がどのように視覚情報を処理および統合するかについて重要な洞察を提供し、言語モデルと視覚モデルの理解の間のギャップを埋め、より解釈可能で制御可能なマルチモーダル システムへの道を切り開きます。

要約(オリジナル)

Vision-Language Models (VLMs) are powerful tools for processing and understanding text and images. We study the processing of visual tokens in the language model component of LLaVA, a prominent VLM. Our approach focuses on analyzing the localization of object information, the evolution of visual token representations across layers, and the mechanism of integrating visual information for predictions. Through ablation studies, we demonstrated that object identification accuracy drops by over 70\% when object-specific tokens are removed. We observed that visual token representations become increasingly interpretable in the vocabulary space across layers, suggesting an alignment with textual tokens corresponding to image content. Finally, we found that the model extracts object information from these refined representations at the last token position for prediction, mirroring the process in text-only language models for factual association tasks. These findings provide crucial insights into how VLMs process and integrate visual information, bridging the gap between our understanding of language and vision models, and paving the way for more interpretable and controllable multimodal systems.

arxiv情報

著者 Clement Neo,Luke Ong,Philip Torr,Mor Geva,David Krueger,Fazl Barez
発行日 2024-10-09 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition

要約

スケルトンベースのマルチエンティティのアクション認識は、複数の多様なエンティティが関与するインタラクティブなアクションやグループ活動を識別することを目的とした難しいタスクです。
個人向けの既存のモデルでは、エンティティ スケルトン間の固有の分布の不一致により、このタスクでは不十分なことが多く、バックボーンの最適化が最適化されていません。
この目的を達成するために、エンティティ間の分布ギャップを緩和し、後続のバックボーンを公平化する、凸包適応シフト ベースのマルチエンティティ アクション認識方法 (CHASE) を導入します。
具体的には、CHASE は、学習可能なパラメータ化されたネットワークと補助目標で構成されます。
パラメーター化されたネットワークは、2 つの主要なコンポーネントを通じて、サンプルに適応したスケルトン シーケンスの再配置を実現します。
まず、暗黙的な凸包制約適応シフトにより、座標系の新しい原点がスケルトン凸包内にあることが保証されます。
第 2 に、係数学習ブロックは、スケルトン シーケンスから凸組み合わせの特定の係数へのマッピングの軽量パラメータ化を提供します。
さらに、不一致を最小限に抑えるためのこのネットワークの最適化を導くために、追加の目的としてミニバッチのペアごとの最大平均不一致を提案します。
CHASE は、エンティティ間の分布の不一致を軽減するサンプル適応正規化手法として動作し、それによってデータの偏りを軽減し、後続の分類器のマルチエンティティ アクション認識パフォーマンスを向上させます。
NTU Mutual 11/26、H2O、Assembly101、集団アクティビティ、バレーボールを含む 6 つのデータセットに対する広範な実験により、単一エンティティのバックボーンにシームレスに適応し、複数エンティティのシナリオでのパフォーマンスを向上させることで、私たちのアプローチが一貫して検証されています。
私たちのコードは https://github.com/Necolizer/CHASE で公開されています。

要約(オリジナル)

Skeleton-based multi-entity action recognition is a challenging task aiming to identify interactive actions or group activities involving multiple diverse entities. Existing models for individuals often fall short in this task due to the inherent distribution discrepancies among entity skeletons, leading to suboptimal backbone optimization. To this end, we introduce a Convex Hull Adaptive Shift based multi-Entity action recognition method (CHASE), which mitigates inter-entity distribution gaps and unbiases subsequent backbones. Specifically, CHASE comprises a learnable parameterized network and an auxiliary objective. The parameterized network achieves plausible, sample-adaptive repositioning of skeleton sequences through two key components. First, the Implicit Convex Hull Constrained Adaptive Shift ensures that the new origin of the coordinate system is within the skeleton convex hull. Second, the Coefficient Learning Block provides a lightweight parameterization of the mapping from skeleton sequences to their specific coefficients in convex combinations. Moreover, to guide the optimization of this network for discrepancy minimization, we propose the Mini-batch Pair-wise Maximum Mean Discrepancy as the additional objective. CHASE operates as a sample-adaptive normalization method to mitigate inter-entity distribution discrepancies, thereby reducing data bias and improving the subsequent classifier’s multi-entity action recognition performance. Extensive experiments on six datasets, including NTU Mutual 11/26, H2O, Assembly101, Collective Activity and Volleyball, consistently verify our approach by seamlessly adapting to single-entity backbones and boosting their performance in multi-entity scenarios. Our code is publicly available at https://github.com/Necolizer/CHASE .

arxiv情報

著者 Yuhang Wen,Mengyuan Liu,Songtao Wu,Beichen Ding
発行日 2024-10-09 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする