Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis

要約

拡散モデルの最近の進歩により、画像とビデオの生成において優れた機能が実証され、4D 合成の効率がさらに向上しました。
既存の 4D 生成方法は、ユーザーフレンドリーな条件に基づいて高品質の 4D オブジェクトまたはシーンを生成でき、ゲーム業界やビデオ業界に利益をもたらします。
ただし、これらの方法では、シーン内の複雑な 4D トランジションやインタラクションの大幅なオブジェクト変形を合成するのが困難です。
この課題に対処するために、リアルで複雑なシーンの遷移を可能にする新しいテキストから 4D への合成フレームワークである Trans4D を提案します。
具体的には、まずマルチモーダル大規模言語モデル (MLLM) を使用して、4D シーンの初期化と効果的な遷移タイミング計画のための物理を意識したシーン記述を生成します。
次に、表現力豊かな幾何学的オブジェクトの変形を伴う、計画に基づいた複雑なシーンレベルの 4D トランジションを実現するための、ジオメトリを意識した 4D トランジション ネットワークを提案します。
広範な実験により、Trans4D が正確かつ高品質のトランジションを備えた 4D シーンの生成において既存の最先端の方法を常に上回るパフォーマンスを示し、その有効性が検証されました。
コード: https://github.com/YangLing0818/Trans4D

要約(オリジナル)

Recent advances in diffusion models have demonstrated exceptional capabilities in image and video generation, further improving the effectiveness of 4D synthesis. Existing 4D generation methods can generate high-quality 4D objects or scenes based on user-friendly conditions, benefiting the gaming and video industries. However, these methods struggle to synthesize significant object deformation of complex 4D transitions and interactions within scenes. To address this challenge, we propose Trans4D, a novel text-to-4D synthesis framework that enables realistic complex scene transitions. Specifically, we first use multi-modal large language models (MLLMs) to produce a physic-aware scene description for 4D scene initialization and effective transition timing planning. Then we propose a geometry-aware 4D transition network to realize a complex scene-level 4D transition based on the plan, which involves expressive geometrical object deformation. Extensive experiments demonstrate that Trans4D consistently outperforms existing state-of-the-art methods in generating 4D scenes with accurate and high-quality transitions, validating its effectiveness. Code: https://github.com/YangLing0818/Trans4D

arxiv情報

著者 Bohan Zeng,Ling Yang,Siyu Li,Jiaming Liu,Zixiang Zhang,Juanxi Tian,Kaixin Zhu,Yongzhen Guo,Fu-Yun Wang,Minkai Xu,Stefano Ermon,Wentao Zhang
発行日 2024-10-09 17:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

InstructG2I: Synthesizing Images from Multimodal Attributed Graphs

要約

この論文では、見落とされているが重要なタスク Graph2Image、つまりマルチモーダル属性グラフ (MMAG) から画像を生成することに取り組みます。
このタスクは、グラフ サイズの爆発的な増加、グラフ エンティティ間の依存関係、およびグラフ条件の制御性の必要性により、重大な課題を引き起こします。
これらの課題に対処するために、InstructG2I と呼ばれるグラフのコンテキスト条件付き拡散モデルを提案します。
InstructG2I はまず、グラフ構造とマルチモーダル情報を利用して、パーソナライズされたページ ランクと視覚言語機能に基づく再ランキングを組み合わせて、有益な近傍サンプリングを実行します。
次に、Graph-QFormer エンコーダは、グラフ ノードをグラフ プロンプトの補助セットに適応的にエンコードして、拡散のノイズ除去プロセスをガイドします。
最後に、グラフ分類子を使用しないガイダンスを提案します。これにより、グラフ ガイダンスの強度とノードに接続された複数のエッジを変更することで、制御可能な生成が可能になります。
異なるドメインの 3 つのデータセットに対して行われた広範な実験により、私たちのアプローチの有効性と制御可能性が実証されました。
コードは https://github.com/PeterGriffinJin/InstructG2I で入手できます。

要約(オリジナル)

In this paper, we approach an overlooked yet critical task Graph2Image: generating images from multimodal attributed graphs (MMAGs). This task poses significant challenges due to the explosion in graph size, dependencies among graph entities, and the need for controllability in graph conditions. To address these challenges, we propose a graph context-conditioned diffusion model called InstructG2I. InstructG2I first exploits the graph structure and multimodal information to conduct informative neighbor sampling by combining personalized page rank and re-ranking based on vision-language features. Then, a Graph-QFormer encoder adaptively encodes the graph nodes into an auxiliary set of graph prompts to guide the denoising process of diffusion. Finally, we propose graph classifier-free guidance, enabling controllable generation by varying the strength of graph guidance and multiple connected edges to a node. Extensive experiments conducted on three datasets from different domains demonstrate the effectiveness and controllability of our approach. The code is available at https://github.com/PeterGriffinJin/InstructG2I.

arxiv情報

著者 Bowen Jin,Ziqi Pang,Bingjun Guo,Yu-Xiong Wang,Jiaxuan You,Jiawei Han
発行日 2024-10-09 17:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.SI | コメントする

AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation

要約

拡散モデルの最近の進歩により、4D 全身ヒューマン オブジェクト インタラクション (HOI) の生成とアニメーションが大幅に改善されました。
それにもかかわらず、既存の方法は主に SMPL ベースのモーション生成に焦点を当てており、現実的な大規模インタラクション データの不足によって制限されています。
この制約は、日常の HOI シーンを作成する能力に影響します。
このペーパーでは、事前トレーニングされた拡散モデルを使用したゼロショット アプローチを使用して、この課題に取り組みます。
この可能性にもかかわらず、拡散モデルには物体が「どこで」「どのように」人体と相互作用するかが理解されていないため、目標を達成することは困難です。
これらの問題に取り組むために、テキスト入力から直接アニメーション化可能な 4D HOI シーンを生成するように設計された新しいフレームワークである AvatarGO を紹介します。
具体的には、1) 「どこ」の課題に対して、LLM ガイドによる接触リターゲティングを提案します。これは、Lang-SAM を使用してテキスト プロンプトから接触体の部分を特定し、人間と物体の空間関係の正確な表現を保証します。
2) 「どのように」という課題については、SMPL-X の線形ブレンド スキニング関数を使用して、人間とオブジェクトの両方のモデルのモーション フィールドを構築する、対応を意識したモーションの最適化を導入します。
私たちのフレームワークは、一貫した構成モーションを生成するだけでなく、貫通問題の処理において優れた堅牢性も示します。
既存の手法を用いた広範な実験により、さまざまな人間とオブジェクトのペアや多様なポーズに対する AvatarGO の優れた生成およびアニメーション機能が検証されました。
オブジェクトのインタラクションを使用して 4D アバターを合成する最初の試みとして、AvatarGO が人間中心の 4D コンテンツ作成の新たな扉を開くことができることを期待しています。

要約(オリジナル)

Recent advancements in diffusion models have led to significant improvements in the generation and animation of 4D full-body human-object interactions (HOI). Nevertheless, existing methods primarily focus on SMPL-based motion generation, which is limited by the scarcity of realistic large-scale interaction data. This constraint affects their ability to create everyday HOI scenes. This paper addresses this challenge using a zero-shot approach with a pre-trained diffusion model. Despite this potential, achieving our goals is difficult due to the diffusion model’s lack of understanding of ”where” and ”how” objects interact with the human body. To tackle these issues, we introduce AvatarGO, a novel framework designed to generate animatable 4D HOI scenes directly from textual inputs. Specifically, 1) for the ”where” challenge, we propose LLM-guided contact retargeting, which employs Lang-SAM to identify the contact body part from text prompts, ensuring precise representation of human-object spatial relations. 2) For the ”how” challenge, we introduce correspondence-aware motion optimization that constructs motion fields for both human and object models using the linear blend skinning function from SMPL-X. Our framework not only generates coherent compositional motions, but also exhibits greater robustness in handling penetration issues. Extensive experiments with existing methods validate AvatarGO’s superior generation and animation capabilities on a variety of human-object pairs and diverse poses. As the first attempt to synthesize 4D avatars with object interactions, we hope AvatarGO could open new doors for human-centric 4D content creation.

arxiv情報

著者 Yukang Cao,Liang Pan,Kai Han,Kwan-Yee K. Wong,Ziwei Liu
発行日 2024-10-09 17:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate

要約

ラージ ビジョン言語モデル (LVLM) のマルチモーダル事前トレーニング品質を示す、効果的で堅牢かつ一般化された指標であるモダリティ統合率 (MIR) を紹介します。
大規模な事前トレーニングは、有能な LVLM を構築する上で重要な役割を果たしますが、コストのかかる監視付き微調整段階なしでトレーニングの品質を評価する方法は十分に検討されていません。
損失、パープレキシティ、およびインコンテキスト評価の結果は、大規模言語モデル (LLM) のトレーニング前のメトリクスとしてよく使用されますが、十分にトレーニングされた LLM を新しいモダリティと調整する場合、これらのメトリクスはあまり示唆的ではないことが観察されました。
適切な指標が欠如しているため、トレーニング データの選択、効率的なモジュール設計などを含む、重要な事前トレーニング段階での LVLM の研究が大幅に妨げられています。この論文では、事前トレーニングの品質を相互に評価することを提案します。
– モーダル分布距離の観点と現在の MIR、モダリティ統合率。これは 1) \textbf{Effective} で、トレーニング前の品質を表し、教師付き微調整後のベンチマーク パフォーマンスと正の関係を示します。
2) さまざまなトレーニング/評価データに対して \textbf{堅牢}。
3) トレーニング構成とアーキテクチャの選択全体にわたって \textbf{一般化}します。
私たちは、MIR の有効性を調査するために一連の事前トレーニング実験を実施し、より良い事前トレーニング結果を得るために MIR がトレーニング データの選択、トレーニング戦略のスケジュール、モデル アーキテクチャの設計を示すという満足のいく結果を観察しました。
MIR が有能な LVLM を構築するための有用な指標となり、さまざまな分野でのモダリティ調整に関する次の研究に影響を与えることを願っています。
私たちのコードは https://github.com/sekiw/Modality-Integration-Rate にあります。

要約(オリジナル)

We present the Modality Integration Rate (MIR), an effective, robust, and generalized metric to indicate the multi-modal pre-training quality of Large Vision Language Models (LVLMs). Large-scale pre-training plays a critical role in building capable LVLMs, while evaluating its training quality without the costly supervised fine-tuning stage is under-explored. Loss, perplexity, and in-context evaluation results are commonly used pre-training metrics for Large Language Models (LLMs), while we observed that these metrics are less indicative when aligning a well-trained LLM with a new modality. Due to the lack of proper metrics, the research of LVLMs in the critical pre-training stage is hindered greatly, including the training data choice, efficient module design, etc. In this paper, we propose evaluating the pre-training quality from the inter-modal distribution distance perspective and present MIR, the Modality Integration Rate, which is 1) \textbf{Effective} to represent the pre-training quality and show a positive relation with the benchmark performance after supervised fine-tuning. 2) \textbf{Robust} toward different training/evaluation data. 3) \textbf{Generalize} across training configurations and architecture choices. We conduct a series of pre-training experiments to explore the effectiveness of MIR and observe satisfactory results that MIR is indicative about training data selection, training strategy schedule, and model architecture design to get better pre-training results. We hope MIR could be a helpful metric for building capable LVLMs and inspire the following research about modality alignment in different areas. Our code is at: https://github.com/shikiw/Modality-Integration-Rate.

arxiv情報

著者 Qidong Huang,Xiaoyi Dong,Pan Zhang,Yuhang Zang,Yuhang Cao,Jiaqi Wang,Dahua Lin,Weiming Zhang,Nenghai Yu
発行日 2024-10-09 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | コメントする

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

要約

RPG、Stable Diffusion 3、FLUX などの高度な拡散モデルは、テキストから画像への合成生成において顕著な進歩を遂げました。
ただし、これらの方法は通常、属性バインディングの処理に優れているものや、空間関係の処理に優れているものなど、構成生成に関して明確な強みを示します。
この差異は、さまざまなモデルの補完的な長所を活用して、合成機能を包括的に向上させるアプローチの必要性を浮き彫りにしています。
この目的を達成するために、複数のモデルから構成を意識したモデル設定を集約し、反復フィードバック学習アプローチを採用して構成生成を強化する新しいフレームワークである IterComp を紹介します。
具体的には、6 つの強力なオープンソース拡散モデルのギャラリーを厳選し、それらの 3 つの主要な構成指標 (属性バインディング、空間関係、非空間関係) を評価します。
これらのメトリクスに基づいて、構図を意識した報酬モデルをトレーニングするために、多数の画像ランクのペアで構成される構図を意識したモデル嗜好データセットを開発します。
次に、閉ループ方式で構成性を強化する反復フィードバック学習方法を提案します。これにより、複数の反復にわたってベース拡散モデルと報酬モデルの両方の漸進的な自己洗練が可能になります。
理論的な証明によって有効性が実証され、広範な実験によって、特にマルチカテゴリのオブジェクトの構成と複雑なセマンティックの調整において、以前の SOTA 手法 (Omost や FLUX など) よりも大幅に優れていることが示されています。
IterComp は、拡散モデルと組成生成のための報酬フィードバック学習における新しい研究の道を開きます。
コード: https://github.com/YangLing0818/IterComp

要約(オリジナル)

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

arxiv情報

著者 Xinchen Zhang,Ling Yang,Guohao Li,Yaqi Cai,Jiake Xie,Yong Tang,Yujiu Yang,Mengdi Wang,Bin Cui
発行日 2024-10-09 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | コメントする

Do better language models have crisper vision?

要約

テキストのみの大規模言語モデル (LLM) は、視覚的な世界をどの程度理解できますか?
コンピュータ ビジョンで LLM がますます使用されるようになるにつれて、この問題に対処することが基本的かつ適切になります。
ただし、既存の研究は主に、ビジュアル コンテンツを生成したり、マルチモーダル データをクラスタリングしたりする機能など、限られたシナリオに焦点を当てています。
この目的を達成するために、言語モデルを視覚的な世界と適切に整合させる主要なプロパティを分離する Visual Text Representation Benchmark (ViTeRB) を提案します。
これにより、テキスト エンコーダを利用する現在の慣行に対抗して、視覚中心のコンテキストでテキストを表現するための理想的な候補として、大規模デコーダ ベースの LLM が特定されました。
これらの発見に基づいて、超軽量の CLIP のようなモデルである ShareLock を提案します。
ShareLock は、強力なビジョンと言語モデルからの事前計算可能な凍結特徴を活用することで、わずか 563,000 個の画像とキャプションのペアを使用しているにもかかわらず、ImageNet 上で 51% という驚異的な精度を達成します。
さらに、トレーニングに必要な時間は GPU 時間わずか 1 時間 (特徴の事前計算を含めると 10 時間) であり、従来の方法よりも大幅に短縮されます。
コードが公開されます。

要約(オリジナル)

How well do text-only Large Language Models (LLMs) grasp the visual world? As LLMs are increasingly used in computer vision, addressing this question becomes both fundamental and pertinent. However, existing studies have primarily focused on limited scenarios, such as their ability to generate visual content or cluster multimodal data. To this end, we propose the Visual Text Representation Benchmark (ViTeRB) to isolate key properties that make language models well-aligned with the visual world. With this, we identify large-scale decoder-based LLMs as ideal candidates for representing text in vision-centric contexts, counter to the current practice of utilizing text encoders. Building on these findings, we propose ShareLock, an ultra-lightweight CLIP-like model. By leveraging precomputable frozen features from strong vision and language models, ShareLock achieves an impressive 51% accuracy on ImageNet despite utilizing just 563k image-caption pairs. Moreover, training requires only 1 GPU hour (or 10 hours including the precomputation of features) – orders of magnitude less than prior methods. Code will be released.

arxiv情報

著者 Jona Ruthardt,Gertjan J. Burghouts,Serge Belongie,Yuki M. Asano
発行日 2024-10-09 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | コメントする

MM-Ego: Towards Building Egocentric Multimodal LLMs

要約

この研究は、自己中心的なビデオ理解のためのマルチモーダル基盤モデルの構築を包括的に検討することを目的としています。
この目標を達成するために、私たちは 3 つの分野に取り組んでいます。
まず、自己中心的なビデオを理解するための QA データが不足しているため、人間が注釈を付けたデータに基づいて、長さ 30 秒から 1 時間の自己中心的なビデオ用の 700 万の高品質 QA サンプルを効率的に生成するデータ エンジンを開発します。
これは現在、最大の自己中心的な QA データセットです。
次に、さまざまな長さのビデオにわたって視覚的な詳細を認識および記憶するモデルの能力を評価するために、629 のビデオと 7,026 の質問を含む挑戦的な自己中心的な QA ベンチマークを提供します。
評価対象のモデルに存在する避けられない言語バイアスを軽減するために、新しいバイアス除去評価方法を導入します。
第三に、新しい「メモリ ポインタ プロンプト」メカニズムを特徴とする特殊なマルチモーダル アーキテクチャを提案します。
この設計には、ビデオ全体を包括的に理解し、主要なビジュアル情報を特定するためのグローバル グランス ステップと、その後にキー ビジュアル情報を利用して応答を生成するフォールバック ステップが含まれています。
これにより、モデルは拡張ビデオ コンテンツをより効果的に理解できるようになります。
データ、ベンチマーク、モデルを使用して、自己中心的なビデオ理解において強力なパフォーマンスを示す自己中心的なマルチモーダル LLM である MM-Ego の構築に成功しました。

要約(オリジナル)

This research aims to comprehensively explore building a multimodal foundation model for egocentric video understanding. To achieve this goal, we work on three fronts. First, as there is a lack of QA data for egocentric video understanding, we develop a data engine that efficiently generates 7M high-quality QA samples for egocentric videos ranging from 30 seconds to one hour long, based on human-annotated data. This is currently the largest egocentric QA dataset. Second, we contribute a challenging egocentric QA benchmark with 629 videos and 7,026 questions to evaluate the models’ ability in recognizing and memorizing visual details across videos of varying lengths. We introduce a new de-biasing evaluation method to help mitigate the unavoidable language bias present in the models being evaluated. Third, we propose a specialized multimodal architecture featuring a novel ‘Memory Pointer Prompting’ mechanism. This design includes a global glimpse step to gain an overarching understanding of the entire video and identify key visual information, followed by a fallback step that utilizes the key visual information to generate responses. This enables the model to more effectively comprehend extended video content. With the data, benchmark, and model, we successfully build MM-Ego, an egocentric multimodal LLM that shows powerful performance on egocentric video understanding.

arxiv情報

著者 Hanrong Ye,Haotian Zhang,Erik Daxberger,Lin Chen,Zongyu Lin,Yanghao Li,Bowen Zhang,Haoxuan You,Dan Xu,Zhe Gan,Jiasen Lu,Yinfei Yang
発行日 2024-10-09 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | コメントする

When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models

要約

プロンプトは、人間が大規模言語モデル (LLM) と対話する主な方法として機能します。
商用 AI システムは通常、システム プロンプトで LLM の役割を定義します。
たとえば、ChatGPT は、デフォルトのシステム プロンプトの一部として「あなたは役に立つアシスタントです」を使用します。
システム プロンプトにペルソナを追加する現在の慣行にもかかわらず、さまざまなペルソナが客観的なタスクにおけるモデルのパフォーマンスにどのような影響を与えるかは依然として不明です。
この研究では、システム プロンプトにおけるペルソナの体系的な評価を紹介します。
私たちは、6 つのタイプの対人関係と 8 つの専門分野をカバーする 162 の役割のリストを厳選しています。
LLM の 4 つの一般的なファミリーと 2,410 の事実に基づく質問の広範な分析を通じて、システム プロンプトにペルソナを追加しても、ペルソナを追加しないコントロール設定と比較して、さまざまな質問にわたってモデルのパフォーマンスが向上しないことを実証しました。
それにもかかわらず、さらなる分析により、ペルソナの性別、タイプ、ドメインがすべて、結果として得られる予測精度に影響を与える可能性があることが示唆されています。
さらに、ペルソナ検索戦略のリストを実験したところ、質問ごとに最適なペルソナの結果を集約すると予測の精度が大幅に向上する一方で、最適なペルソナを自動的に特定するのは難しく、予測のパフォーマンスがランダムな選択と同等であることが多いことがわかりました。
全体として、私たちの調査結果は、ペルソナを追加すると特定の設定ではパフォーマンスの向上につながる可能性があるものの、各ペルソナの効果はほぼランダムである可能性があることを示唆しています。
コードとデータは https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles で入手できます。

要約(オリジナル)

Prompting serves as the major way humans interact with Large Language Models (LLM). Commercial AI systems commonly define the role of the LLM in system prompts. For example, ChatGPT uses “You are a helpful assistant” as part of its default system prompt. Despite current practices of adding personas to system prompts, it remains unclear how different personas affect a model’s performance on objective tasks. In this study, we present a systematic evaluation of personas in system prompts. We curate a list of 162 roles covering 6 types of interpersonal relationships and 8 domains of expertise. Through extensive analysis of 4 popular families of LLMs and 2,410 factual questions, we demonstrate that adding personas in system prompts does not improve model performance across a range of questions compared to the control setting where no persona is added. Nevertheless, further analysis suggests that the gender, type, and domain of the persona can all influence the resulting prediction accuracies. We further experimented with a list of persona search strategies and found that, while aggregating results from the best persona for each question significantly improves prediction accuracy, automatically identifying the best persona is challenging, with predictions often performing no better than random selection. Overall, our findings suggest that while adding a persona may lead to performance gains in certain settings, the effect of each persona can be largely random. Code and data are available at https://github.com/Jiaxin-Pei/Prompting-with-Social-Roles.

arxiv情報

著者 Mingqian Zheng,Jiaxin Pei,Lajanugen Logeswaran,Moontae Lee,David Jurgens
発行日 2024-10-09 15:44:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.HC, cs.LG | コメントする

LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management

要約

大規模言語モデル (LLM) のコンテキスト ウィンドウの拡張により、さまざまなアプリケーションの機能が大幅に強化されましたが、特に最初のトークンまでの時間 (TTFT) において、低遅延を維持する際に大きな課題も生じます。
このペーパーでは、コンテキストの長さが増加するにつれて TTFT が急激に上昇するのは、主にキュー遅延によって引き起こされていることがわかります。この遅延は、GPU キー/バリュー (KV) キャッシュ割り当てに対する需要の増大と、KV キャッシュ ブロックの限られた可用性との衝突によって引き起こされます。
この問題に対処するために、追加のハードウェアを必要とせず、出力パフォーマンスを犠牲にすることなく、既存の並列化戦略やスケジューリング技術とシームレスに統合しながら、TTFT を効果的に削減する、シンプルかつ効果的なプラグイン手法である LayerKV を提案します。
具体的には、LayerKV は、システム メモリをきめ細かく制御するためのレイヤーごとの KV ブロックの割り当て、管理、オフロードを導入し、SLO 対応スケジューラーと組み合わせて、全体的なサービス レベル目標 (SLO) を最適化します。
さまざまな GPU 構成にわたる 7B から 70B のパラメーターにわたる代表的なモデルの包括的な評価により、LayerKV が TTFT レイテンシを最大 69 倍に改善し、SLO 違反率を 28.7% 削減し、ユーザー エクスペリエンスが大幅に向上することが実証されました。

要約(オリジナル)

The expanding context windows in large language models (LLMs) have greatly enhanced their capabilities in various applications, but they also introduce significant challenges in maintaining low latency, particularly in Time to First Token (TTFT). This paper identifies that the sharp rise in TTFT as context length increases is predominantly driven by queuing delays, which are caused by the growing demands for GPU Key-Value (KV) cache allocation clashing with the limited availability of KV cache blocks. To address this issue, we propose LayerKV, a simple yet effective plug-in method that effectively reduces TTFT without requiring additional hardware or compromising output performance, while seamlessly integrating with existing parallelism strategies and scheduling techniques. Specifically, LayerKV introduces layer-wise KV block allocation, management, and offloading for fine-grained control over system memory, coupled with an SLO-aware scheduler to optimize overall Service Level Objectives (SLOs). Comprehensive evaluations on representative models, ranging from 7B to 70B parameters, across various GPU configurations, demonstrate that LayerKV improves TTFT latency up to 69x and reduces SLO violation rates by 28.7%, significantly enhancing the user experience.

arxiv情報

著者 Yi Xiong,Hao Wu,Changxu Shao,Ziqing Wang,Rui Zhang,Yuhong Guo,Junping Zhao,Ke Zhang,Zhenxuan Pan
発行日 2024-10-09 11:40:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.4, cs.AI, cs.DC, cs.LG | コメントする

Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training

要約

複数のタスクを完了できるジェネラリストの身体化エージェントを学習するには、主にアクションラベル付きロボットデータセットの不足に起因する課題が生じます。
対照的に、複雑なタスクや物理世界とのやり取りを捉えた人間のビデオが膨大に存在します。
事前トレーニングと知識の伝達に、アクションのない人間のビデオを利用して、限られたロボットのデモンストレーションを通じてロボットポリシーの学習を促進するという有望な見通しが生まれています。
しかし、人間とロボットの間には領域のギャップがあるため、依然として課題が残っています。
さらに、人間のビデオにはノイズが多く、マルチモーダルなデータ構造があるため、動的な世界を表す有用な情報を人間のビデオから抽出することは困難です。
この論文では、これらの課題に取り組むための新しいフレームワークを紹介します。このフレームワークは、統合された離散拡散を利用して、人間のビデオでの生成的な事前トレーニングと、アクションのラベルが付けられた少数のロボットのビデオでのポリシーの微調整を組み合わせます。
まず、人間とロボットの両方のビデオを統合ビデオ トークンに圧縮します。
事前トレーニング段階では、マスクと置換の拡散戦略を備えた離散拡散モデルを採用して、潜在空間内の将来のビデオ トークンを予測します。
微調整段階では、想像された未来のビデオを利用して、限られたロボット データのセットで低レベルのアクション学習をガイドします。
実験では、私たちの方法が計画用に忠実度の高い将来のビデオを生成し、以前の最先端のアプローチと比較して、優れたパフォーマンスで微調整されたポリシーを強化することを示しています。
私たちのプロジェクトの Web サイトは https://video-diff.github.io/ から入手できます。

要約(オリジナル)

Learning a generalist embodied agent capable of completing multiple tasks poses challenges, primarily stemming from the scarcity of action-labeled robotic datasets. In contrast, a vast amount of human videos exist, capturing intricate tasks and interactions with the physical world. Promising prospects arise for utilizing actionless human videos for pre-training and transferring the knowledge to facilitate robot policy learning through limited robot demonstrations. However, it remains a challenge due to the domain gap between humans and robots. Moreover, it is difficult to extract useful information representing the dynamic world from human videos, because of its noisy and multimodal data structure. In this paper, we introduce a novel framework to tackle these challenges, which leverages a unified discrete diffusion to combine generative pre-training on human videos and policy fine-tuning on a small number of action-labeled robot videos. We start by compressing both human and robot videos into unified video tokens. In the pre-training stage, we employ a discrete diffusion model with a mask-and-replace diffusion strategy to predict future video tokens in the latent space. In the fine-tuning stage, we harness the imagined future videos to guide low-level action learning with a limited set of robot data. Experiments demonstrate that our method generates high-fidelity future videos for planning and enhances the fine-tuned policies compared to previous state-of-the-art approaches with superior performance. Our project website is available at https://video-diff.github.io/.

arxiv情報

著者 Haoran He,Chenjia Bai,Ling Pan,Weinan Zhang,Bin Zhao,Xuelong Li
発行日 2024-10-09 04:25:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, cs.RO | コメントする