Towards Interpreting Visual Information Processing in Vision-Language Models

要約

視覚言語モデル (VLM) は、テキストと画像を処理および理解するための強力なツールです。
私たちは、著名な VLM である LLaVA の言語モデル コンポーネントにおけるビジュアル トークンの処理を研究します。
私たちのアプローチは、オブジェクト情報の位置特定、レイヤー全体にわたる視覚的なトークン表現の進化、予測のために視覚情報を統合するメカニズムの分析に焦点を当てています。
アブレーション研究を通じて、オブジェクト固有のトークンが削除されるとオブジェクト識別精度が 70% 以上低下することが実証されました。
私たちは、視覚的なトークン表現がレイヤー全体の語彙空間でますます解釈可能になっていることを観察し、画像コンテンツに対応するテキストトークンとの整合性を示唆しています。
最後に、このモデルは、予測のために最後のトークン位置でこれらの洗練された表現からオブジェクト情報を抽出し、事実関連タスクのテキストのみの言語モデルのプロセスを反映していることがわかりました。
これらの発見は、VLM がどのように視覚情報を処理および統合するかについて重要な洞察を提供し、言語モデルと視覚モデルの理解の間のギャップを埋め、より解釈可能で制御可能なマルチモーダル システムへの道を切り開きます。

要約(オリジナル)

Vision-Language Models (VLMs) are powerful tools for processing and understanding text and images. We study the processing of visual tokens in the language model component of LLaVA, a prominent VLM. Our approach focuses on analyzing the localization of object information, the evolution of visual token representations across layers, and the mechanism of integrating visual information for predictions. Through ablation studies, we demonstrated that object identification accuracy drops by over 70\% when object-specific tokens are removed. We observed that visual token representations become increasingly interpretable in the vocabulary space across layers, suggesting an alignment with textual tokens corresponding to image content. Finally, we found that the model extracts object information from these refined representations at the last token position for prediction, mirroring the process in text-only language models for factual association tasks. These findings provide crucial insights into how VLMs process and integrate visual information, bridging the gap between our understanding of language and vision models, and paving the way for more interpretable and controllable multimodal systems.

arxiv情報

著者 Clement Neo,Luke Ong,Philip Torr,Mor Geva,David Krueger,Fazl Barez
発行日 2024-10-09 17:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition

要約

スケルトンベースのマルチエンティティのアクション認識は、複数の多様なエンティティが関与するインタラクティブなアクションやグループ活動を識別することを目的とした難しいタスクです。
個人向けの既存のモデルでは、エンティティ スケルトン間の固有の分布の不一致により、このタスクでは不十分なことが多く、バックボーンの最適化が最適化されていません。
この目的を達成するために、エンティティ間の分布ギャップを緩和し、後続のバックボーンを公平化する、凸包適応シフト ベースのマルチエンティティ アクション認識方法 (CHASE) を導入します。
具体的には、CHASE は、学習可能なパラメータ化されたネットワークと補助目標で構成されます。
パラメーター化されたネットワークは、2 つの主要なコンポーネントを通じて、サンプルに適応したスケルトン シーケンスの再配置を実現します。
まず、暗黙的な凸包制約適応シフトにより、座標系の新しい原点がスケルトン凸包内にあることが保証されます。
第 2 に、係数学習ブロックは、スケルトン シーケンスから凸組み合わせの特定の係数へのマッピングの軽量パラメータ化を提供します。
さらに、不一致を最小限に抑えるためのこのネットワークの最適化を導くために、追加の目的としてミニバッチのペアごとの最大平均不一致を提案します。
CHASE は、エンティティ間の分布の不一致を軽減するサンプル適応正規化手法として動作し、それによってデータの偏りを軽減し、後続の分類器のマルチエンティティ アクション認識パフォーマンスを向上させます。
NTU Mutual 11/26、H2O、Assembly101、集団アクティビティ、バレーボールを含む 6 つのデータセットに対する広範な実験により、単一エンティティのバックボーンにシームレスに適応し、複数エンティティのシナリオでのパフォーマンスを向上させることで、私たちのアプローチが一貫して検証されています。
私たちのコードは https://github.com/Necolizer/CHASE で公開されています。

要約(オリジナル)

Skeleton-based multi-entity action recognition is a challenging task aiming to identify interactive actions or group activities involving multiple diverse entities. Existing models for individuals often fall short in this task due to the inherent distribution discrepancies among entity skeletons, leading to suboptimal backbone optimization. To this end, we introduce a Convex Hull Adaptive Shift based multi-Entity action recognition method (CHASE), which mitigates inter-entity distribution gaps and unbiases subsequent backbones. Specifically, CHASE comprises a learnable parameterized network and an auxiliary objective. The parameterized network achieves plausible, sample-adaptive repositioning of skeleton sequences through two key components. First, the Implicit Convex Hull Constrained Adaptive Shift ensures that the new origin of the coordinate system is within the skeleton convex hull. Second, the Coefficient Learning Block provides a lightweight parameterization of the mapping from skeleton sequences to their specific coefficients in convex combinations. Moreover, to guide the optimization of this network for discrepancy minimization, we propose the Mini-batch Pair-wise Maximum Mean Discrepancy as the additional objective. CHASE operates as a sample-adaptive normalization method to mitigate inter-entity distribution discrepancies, thereby reducing data bias and improving the subsequent classifier’s multi-entity action recognition performance. Extensive experiments on six datasets, including NTU Mutual 11/26, H2O, Assembly101, Collective Activity and Volleyball, consistently verify our approach by seamlessly adapting to single-entity backbones and boosting their performance in multi-entity scenarios. Our code is publicly available at https://github.com/Necolizer/CHASE .

arxiv情報

著者 Yuhang Wen,Mengyuan Liu,Songtao Wu,Beichen Ding
発行日 2024-10-09 17:55:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | コメントする

Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis

要約

拡散モデルの最近の進歩により、画像とビデオの生成において優れた機能が実証され、4D 合成の効率がさらに向上しました。
既存の 4D 生成方法は、ユーザーフレンドリーな条件に基づいて高品質の 4D オブジェクトまたはシーンを生成でき、ゲーム業界やビデオ業界に利益をもたらします。
ただし、これらの方法では、シーン内の複雑な 4D トランジションやインタラクションの大幅なオブジェクト変形を合成するのが困難です。
この課題に対処するために、リアルで複雑なシーンの遷移を可能にする新しいテキストから 4D への合成フレームワークである Trans4D を提案します。
具体的には、まずマルチモーダル大規模言語モデル (MLLM) を使用して、4D シーンの初期化と効果的な遷移タイミング計画のための物理を意識したシーン記述を生成します。
次に、表現力豊かな幾何学的オブジェクトの変形を伴う、計画に基づいた複雑なシーンレベルの 4D トランジションを実現するための、ジオメトリを意識した 4D トランジション ネットワークを提案します。
広範な実験により、Trans4D が正確かつ高品質のトランジションを備えた 4D シーンの生成において既存の最先端の方法を常に上回るパフォーマンスを示し、その有効性が検証されました。
コード: https://github.com/YangLing0818/Trans4D

要約(オリジナル)

Recent advances in diffusion models have demonstrated exceptional capabilities in image and video generation, further improving the effectiveness of 4D synthesis. Existing 4D generation methods can generate high-quality 4D objects or scenes based on user-friendly conditions, benefiting the gaming and video industries. However, these methods struggle to synthesize significant object deformation of complex 4D transitions and interactions within scenes. To address this challenge, we propose Trans4D, a novel text-to-4D synthesis framework that enables realistic complex scene transitions. Specifically, we first use multi-modal large language models (MLLMs) to produce a physic-aware scene description for 4D scene initialization and effective transition timing planning. Then we propose a geometry-aware 4D transition network to realize a complex scene-level 4D transition based on the plan, which involves expressive geometrical object deformation. Extensive experiments demonstrate that Trans4D consistently outperforms existing state-of-the-art methods in generating 4D scenes with accurate and high-quality transitions, validating its effectiveness. Code: https://github.com/YangLing0818/Trans4D

arxiv情報

著者 Bohan Zeng,Ling Yang,Siyu Li,Jiaming Liu,Zixiang Zhang,Juanxi Tian,Kaixin Zhu,Yongzhen Guo,Fu-Yun Wang,Minkai Xu,Stefano Ermon,Wentao Zhang
発行日 2024-10-09 17:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

InstructG2I: Synthesizing Images from Multimodal Attributed Graphs

要約

この論文では、見落とされているが重要なタスク Graph2Image、つまりマルチモーダル属性グラフ (MMAG) から画像を生成することに取り組みます。
このタスクは、グラフ サイズの爆発的な増加、グラフ エンティティ間の依存関係、およびグラフ条件の制御性の必要性により、重大な課題を引き起こします。
これらの課題に対処するために、InstructG2I と呼ばれるグラフのコンテキスト条件付き拡散モデルを提案します。
InstructG2I はまず、グラフ構造とマルチモーダル情報を利用して、パーソナライズされたページ ランクと視覚言語機能に基づく再ランキングを組み合わせて、有益な近傍サンプリングを実行します。
次に、Graph-QFormer エンコーダは、グラフ ノードをグラフ プロンプトの補助セットに適応的にエンコードして、拡散のノイズ除去プロセスをガイドします。
最後に、グラフ分類子を使用しないガイダンスを提案します。これにより、グラフ ガイダンスの強度とノードに接続された複数のエッジを変更することで、制御可能な生成が可能になります。
異なるドメインの 3 つのデータセットに対して行われた広範な実験により、私たちのアプローチの有効性と制御可能性が実証されました。
コードは https://github.com/PeterGriffinJin/InstructG2I で入手できます。

要約(オリジナル)

In this paper, we approach an overlooked yet critical task Graph2Image: generating images from multimodal attributed graphs (MMAGs). This task poses significant challenges due to the explosion in graph size, dependencies among graph entities, and the need for controllability in graph conditions. To address these challenges, we propose a graph context-conditioned diffusion model called InstructG2I. InstructG2I first exploits the graph structure and multimodal information to conduct informative neighbor sampling by combining personalized page rank and re-ranking based on vision-language features. Then, a Graph-QFormer encoder adaptively encodes the graph nodes into an auxiliary set of graph prompts to guide the denoising process of diffusion. Finally, we propose graph classifier-free guidance, enabling controllable generation by varying the strength of graph guidance and multiple connected edges to a node. Extensive experiments conducted on three datasets from different domains demonstrate the effectiveness and controllability of our approach. The code is available at https://github.com/PeterGriffinJin/InstructG2I.

arxiv情報

著者 Bowen Jin,Ziqi Pang,Bingjun Guo,Yu-Xiong Wang,Jiaxuan You,Jiawei Han
発行日 2024-10-09 17:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SI | コメントする

AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation

要約

拡散モデルの最近の進歩により、4D 全身ヒューマン オブジェクト インタラクション (HOI) の生成とアニメーションが大幅に改善されました。
それにもかかわらず、既存の方法は主に SMPL ベースのモーション生成に焦点を当てており、現実的な大規模インタラクション データの不足によって制限されています。
この制約は、日常の HOI シーンを作成する能力に影響します。
このペーパーでは、事前トレーニングされた拡散モデルを使用したゼロショット アプローチを使用して、この課題に取り組みます。
この可能性にもかかわらず、拡散モデルには物体が「どこで」「どのように」人体と相互作用するかが理解されていないため、目標を達成することは困難です。
これらの問題に取り組むために、テキスト入力から直接アニメーション化可能な 4D HOI シーンを生成するように設計された新しいフレームワークである AvatarGO を紹介します。
具体的には、1) 「どこ」の課題に対して、LLM ガイドによる接触リターゲティングを提案します。これは、Lang-SAM を使用してテキスト プロンプトから接触体の部分を特定し、人間と物体の空間関係の正確な表現を保証します。
2) 「どのように」という課題については、SMPL-X の線形ブレンド スキニング関数を使用して、人間とオブジェクトの両方のモデルのモーション フィールドを構築する、対応を意識したモーションの最適化を導入します。
私たちのフレームワークは、一貫した構成モーションを生成するだけでなく、貫通問題の処理において優れた堅牢性も示します。
既存の手法を用いた広範な実験により、さまざまな人間とオブジェクトのペアや多様なポーズに対する AvatarGO の優れた生成およびアニメーション機能が検証されました。
オブジェクトのインタラクションを使用して 4D アバターを合成する最初の試みとして、AvatarGO が人間中心の 4D コンテンツ作成の新たな扉を開くことができることを期待しています。

要約(オリジナル)

Recent advancements in diffusion models have led to significant improvements in the generation and animation of 4D full-body human-object interactions (HOI). Nevertheless, existing methods primarily focus on SMPL-based motion generation, which is limited by the scarcity of realistic large-scale interaction data. This constraint affects their ability to create everyday HOI scenes. This paper addresses this challenge using a zero-shot approach with a pre-trained diffusion model. Despite this potential, achieving our goals is difficult due to the diffusion model’s lack of understanding of ”where” and ”how” objects interact with the human body. To tackle these issues, we introduce AvatarGO, a novel framework designed to generate animatable 4D HOI scenes directly from textual inputs. Specifically, 1) for the ”where” challenge, we propose LLM-guided contact retargeting, which employs Lang-SAM to identify the contact body part from text prompts, ensuring precise representation of human-object spatial relations. 2) For the ”how” challenge, we introduce correspondence-aware motion optimization that constructs motion fields for both human and object models using the linear blend skinning function from SMPL-X. Our framework not only generates coherent compositional motions, but also exhibits greater robustness in handling penetration issues. Extensive experiments with existing methods validate AvatarGO’s superior generation and animation capabilities on a variety of human-object pairs and diverse poses. As the first attempt to synthesize 4D avatars with object interactions, we hope AvatarGO could open new doors for human-centric 4D content creation.

arxiv情報

著者 Yukang Cao,Liang Pan,Kai Han,Kwan-Yee K. Wong,Ziwei Liu
発行日 2024-10-09 17:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

要約

ラージ ビジョン言語モデル (LVLM) のマルチモーダル事前トレーニング品質を示す、効果的で堅牢かつ一般化された指標であるモダリティ統合率 (MIR) を紹介します。
大規模な事前トレーニングは、有能な LVLM を構築する上で重要な役割を果たしますが、コストのかかる監視付き微調整段階なしでトレーニングの品質を評価する方法は十分に検討されていません。
損失、パープレキシティ、およびインコンテキスト評価の結果は、大規模言語モデル (LLM) のトレーニング前のメトリクスとしてよく使用されますが、十分にトレーニングされた LLM を新しいモダリティと調整する場合、これらのメトリクスはあまり示唆的ではないことが観察されました。
適切な指標が欠如しているため、トレーニング データの選択、効率的なモジュール設計などを含む、重要な事前トレーニング段階での LVLM の研究が大幅に妨げられています。この論文では、事前トレーニングの品質を相互に評価することを提案します。
– モーダル分布距離の観点と現在の MIR、モダリティ統合率。これは 1) \textbf{Effective} で、トレーニング前の品質を表し、教師付き微調整後のベンチマーク パフォーマンスと正の関係を示します。
2) さまざまなトレーニング/評価データに対して \textbf{堅牢}。
3) トレーニング構成とアーキテクチャの選択全体にわたって \textbf{一般化}します。
私たちは、MIR の有効性を調査するために一連の事前トレーニング実験を実施し、より良い事前トレーニング結果を得るために MIR がトレーニング データの選択、トレーニング戦略のスケジュール、モデル アーキテクチャの設計を示すという満足のいく結果を観察しました。
MIR が有能な LVLM を構築するための有用な指標となり、さまざまな分野でのモダリティ調整に関する次の研究に影響を与えることを願っています。
私たちのコードは https://github.com/sekiw/Modality-Integration-Rate にあります。

要約(オリジナル)

We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal pre-training quality of Large Vision Language Models (LVLMs). Large-scale pre-training plays a critical role in building capable LVLMs, while evaluating its training quality without the costly supervised fine-tuning stage is under-explored. Loss, perplexity, and in-context evaluation results are commonly used pre-training metrics for Large Language Models (LLMs), while we observed that these metrics are less indicative when aligning a well-trained LLM with a new modality. Due to the lack of proper metrics, the research of LVLMs in the critical pre-training stage is hindered greatly, including the training data choice, efficient module design, etc. In this paper, we propose evaluating the pre-training quality from the inter-modal distribution distance perspective and present MIR, the Modality Integration Rate, which is 1) \textbf{Effective} to represent the pre-training quality and show a positive relation with the benchmark performance after supervised fine-tuning. 2) \textbf{Robust} toward different training/evaluation data. 3) \textbf{Generalize} across training configurations and architecture choices. We conduct a series of pre-training experiments to explore the effectiveness of MIR and observe satisfactory results that MIR is indicative about training data selection, training strategy schedule, and model architecture design to get better pre-training results. We hope MIR could be a helpful metric for building capable LVLMs and inspire the following research about modality alignment in different areas. Our code is at: https://github.com/shikiw/Modality-Integration-Rate.

arxiv情報

著者 Qidong Huang,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Yuhang Cao,Jiaqi Wang,Dahua Lin,Weiming Zhang,Nenghai Yu
発行日 2024-10-09 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

要約

RPG、Stable Diffusion 3、FLUX などの高度な拡散モデルは、テキストから画像への合成生成において顕著な進歩を遂げました。
ただし、これらの方法は通常、属性バインディングの処理に優れているものや、空間関係の処理に優れているものなど、構成生成に関して明確な強みを示します。
この差異は、さまざまなモデルの補完的な長所を活用して、合成機能を包括的に向上させるアプローチの必要性を浮き彫りにしています。
この目的を達成するために、複数のモデルから構成を意識したモデル設定を集約し、反復フィードバック学習アプローチを採用して構成生成を強化する新しいフレームワークである IterComp を紹介します。
具体的には、6 つの強力なオープンソース拡散モデルのギャラリーを厳選し、それらの 3 つの主要な構成指標 (属性バインディング、空間関係、非空間関係) を評価します。
これらのメトリクスに基づいて、構図を意識した報酬モデルをトレーニングするために、多数の画像ランクのペアで構成される構図を意識したモデル嗜好データセットを開発します。
次に、閉ループ方式で構成性を強化する反復フィードバック学習方法を提案します。これにより、複数の反復にわたってベース拡散モデルと報酬モデルの両方の漸進的な自己洗練が可能になります。
理論的な証明によって有効性が実証され、広範な実験によって、特にマルチカテゴリのオブジェクトの構成と複雑なセマンティックの調整において、以前の SOTA 手法 (Omost や FLUX など) よりも大幅に優れていることが示されています。
IterComp は、拡散モデルと組成生成のための報酬フィードバック学習における新しい研究の道を開きます。
コード: https://github.com/YangLing0818/IterComp

要約(オリジナル)

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

arxiv情報

著者 Xinchen Zhang,Ling Yang,Guohao Li,Yaqi Cai,Jiake Xie,Yong Tang,Yujiu Yang,Mengdi Wang,Bin Cui
発行日 2024-10-09 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Do better language models have crisper vision?

要約

テキストのみの大規模言語モデル (LLM) は、視覚的な世界をどの程度理解できますか?
コンピュータ ビジョンで LLM がますます使用されるようになるにつれて、この問題に対処することが基本的かつ適切になります。
ただし、既存の研究は主に、ビジュアル コンテンツを生成したり、マルチモーダル データをクラスタリングしたりする機能など、限られたシナリオに焦点を当てています。
この目的を達成するために、言語モデルを視覚的な世界と適切に整合させる主要なプロパティを分離する Visual Text Representation Benchmark (ViTeRB) を提案します。
これにより、テキスト エンコーダを利用する現在の慣行に対抗して、視覚中心のコンテキストでテキストを表現するための理想的な候補として、大規模デコーダ ベースの LLM が特定されました。
これらの発見に基づいて、超軽量の CLIP のようなモデルである ShareLock を提案します。
ShareLock は、強力なビジョンと言語モデルからの事前計算可能な凍結特徴を活用することで、わずか 563,000 個の画像とキャプションのペアを使用しているにもかかわらず、ImageNet 上で 51% という驚異的な精度を達成します。
さらに、トレーニングに必要な時間は GPU 時間わずか 1 時間 (特徴の事前計算を含めると 10 時間) であり、従来の方法よりも大幅に短縮されます。
コードが公開されます。

要約(オリジナル)

How well do text-only Large Language Models (LLMs) grasp the visual world? As LLMs are increasingly used in computer vision, addressing this question becomes both fundamental and pertinent. However, existing studies have primarily focused on limited scenarios, such as their ability to generate visual content or cluster multimodal data. To this end, we propose the Visual Text Representation Benchmark (ViTeRB) to isolate key properties that make language models well-aligned with the visual world. With this, we identify large-scale decoder-based LLMs as ideal candidates for representing text in vision-centric contexts, counter to the current practice of utilizing text encoders. Building on these findings, we propose ShareLock, an ultra-lightweight CLIP-like model. By leveraging precomputable frozen features from strong vision and language models, ShareLock achieves an impressive 51% accuracy on ImageNet despite utilizing just 563k image-caption pairs. Moreover, training requires only 1 GPU hour (or 10 hours including the precomputation of features) – orders of magnitude less than prior methods. Code will be released.

arxiv情報

著者 Jona Ruthardt,Gertjan J. Burghouts,Serge Belongie,Yuki M. Asano
発行日 2024-10-09 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

MM-Ego: Towards Building Egocentric Multimodal LLMs

要約

この研究は、自己中心的なビデオ理解のためのマルチモーダル基盤モデルの構築を包括的に検討することを目的としています。
この目標を達成するために、私たちは 3 つの分野に取り組んでいます。
まず、自己中心的なビデオを理解するための QA データが不足しているため、人間が注釈を付けたデータに基づいて、長さ 30 秒から 1 時間の自己中心的なビデオ用の 700 万の高品質 QA サンプルを効率的に生成するデータ エンジンを開発します。
これは現在、最大の自己中心的な QA データセットです。
次に、さまざまな長さのビデオにわたって視覚的な詳細を認識および記憶するモデルの能力を評価するために、629 のビデオと 7,026 の質問を含む挑戦的な自己中心的な QA ベンチマークを提供します。
評価対象のモデルに存在する避けられない言語バイアスを軽減するために、新しいバイアス除去評価方法を導入します。
第三に、新しい「メモリ ポインタ プロンプト」メカニズムを特徴とする特殊なマルチモーダル アーキテクチャを提案します。
この設計には、ビデオ全体を包括的に理解し、主要なビジュアル情報を特定するためのグローバル グランス ステップと、その後にキー ビジュアル情報を利用して応答を生成するフォールバック ステップが含まれています。
これにより、モデルは拡張ビデオ コンテンツをより効果的に理解できるようになります。
データ、ベンチマーク、モデルを使用して、自己中心的なビデオ理解において強力なパフォーマンスを示す自己中心的なマルチモーダル LLM である MM-Ego の構築に成功しました。

要約(オリジナル)

This research aims to comprehensively explore building a multimodal foundation model for egocentric video understanding. To achieve this goal, we work on three fronts. First, as there is a lack of QA data for egocentric video understanding, we develop a data engine that efficiently generates 7M high-quality QA samples for egocentric videos ranging from 30 seconds to one hour long, based on human-annotated data. This is currently the largest egocentric QA dataset. Second, we contribute a challenging egocentric QA benchmark with 629 videos and 7,026 questions to evaluate the models’ ability in recognizing and memorizing visual details across videos of varying lengths. We introduce a new de-biasing evaluation method to help mitigate the unavoidable language bias present in the models being evaluated. Third, we propose a specialized multimodal architecture featuring a novel ‘Memory Pointer Prompting’ mechanism. This design includes a global glimpse step to gain an overarching understanding of the entire video and identify key visual information, followed by a fallback step that utilizes the key visual information to generate responses. This enables the model to more effectively comprehend extended video content. With the data, benchmark, and model, we successfully build MM-Ego, an egocentric multimodal LLM that shows powerful performance on egocentric video understanding.

arxiv情報

著者 Hanrong Ye,Haotian Zhang,Erik Daxberger,Lin Chen,Zongyu Lin,Yanghao Li,Bowen Zhang,Haoxuan You,Dan Xu,Zhe Gan,Jiasen Lu,Yinfei Yang
発行日 2024-10-09 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models

要約

プロンプトは、人間が大規模言語モデル (LLM) と対話する主な方法として機能します。
商用 AI システムは通常、システム プロンプトで LLM の役割を定義します。
たとえば、ChatGPT は、デフォルトのシステム プロンプトの一部として「あなたは役に立つアシスタントです」を使用します。
システム プロンプトにペルソナを追加する現在の慣行にもかかわらず、さまざまなペルソナが客観的なタスクにおけるモデルのパフォーマンスにどのような影響を与えるかは依然として不明です。
この研究では、システム プロンプトにおけるペルソナの体系的な評価を紹介します。
私たちは、6 つのタイプの対人関係と 8 つの専門分野をカバーする 162 の役割のリストを厳選しています。
LLM の 4 つの一般的なファミリーと 2,410 の事実に基づく質問の広範な分析を通じて、システム プロンプトにペルソナを追加しても、ペルソナを追加しないコントロール設定と比較して、さまざまな質問にわたってモデルのパフォーマンスが向上しないことを実証しました。
それにもかかわらず、さらなる分析により、ペルソナの性別、タイプ、ドメインがすべて、結果として得られる予測精度に影響を与える可能性があることが示唆されています。
さらに、ペルソナ検索戦略のリストを実験したところ、質問ごとに最適なペルソナの結果を集約すると予測の精度が大幅に向上する一方で、最適なペルソナを自動的に特定するのは難しく、予測のパフォーマンスがランダムな選択と同等であることが多いことがわかりました。
全体として、私たちの調査結果は、ペルソナを追加すると特定の設定ではパフォーマンスの向上につながる可能性があるものの、各ペルソナの効果はほぼランダムである可能性があることを示唆しています。
コードとデータは https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles で入手できます。

要約(オリジナル)

Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses “You are a helpful assistant” as part of its default system prompt. Despite current practices of adding personas to system prompts, it remains unclear how different personas affect a model’s performance on objective tasks. In this study, we present a systematic evaluation of personas in system prompts. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 domains of expertise. Through extensive analysis of 4 popular families of LLMs and 2,410 factual questions, we demonstrate that adding personas in system prompts does not improve model performance across a range of questions compared to the control setting where no persona is added. Nevertheless, further analysis suggests that the gender, type, and domain of the persona can all influence the resulting prediction accuracies. We further experimented with a list of persona search strategies and found that, while aggregating results from the best persona for each question significantly improves prediction accuracy, automatically identifying the best persona is challenging, with predictions often performing no better than random selection. Overall, our findings suggest that while adding a persona may lead to performance gains in certain settings, the effect of each persona can be largely random. Code and data are available at https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.

arxiv情報

著者 Mingqian Zheng,Jiaxin Pei,Lajanugen Logeswaran,Moontae Lee,David Jurgens
発行日 2024-10-09 15:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | コメントする