ControlAR: Controllable Image Generation with Autoregressive Models

要約

自己回帰(AR)モデルは、画像生成をネクストトーク予測として再構築し、顕著な可能性を示し、拡散モデルの強力な競争相手として台頭してきた。しかし、ControlNetのようなControl-to-Image生成は、ARモデルではほとんど未解明である。大規模言語モデルの進歩に触発された自然なアプローチは、制御画像をトークンにトークン化し、画像トークンをデコードする前に自己回帰モデルにプレフィルすることであるが、ControlNetと比較して生成品質がまだ不十分であり、非効率に悩まされている。このため、空間制御を自己回帰画像生成モデルに統合するための効率的かつ効果的なフレームワークであるControlARを紹介する。まず、ARモデルのための制御エンコーディングを探求し、空間入力(例えば、キャニーエッジや深度マップ)を制御トークンに変換する軽量制御エンコーダを提案する。次にControlARは、位置エンコーディングと同様に、制御トークンと画像トークン間のトークン毎の融合を条件として次の画像トークンを生成する条件付き復号法を利用する。トークンの前詰めに比べて、条件付き復号を用いることで、ARモデルの制御能力が大幅に強化されるだけでなく、モデルの効率も維持される。さらに、提案されたControlARは、条件付き復号と特定の制御により、任意解像度の画像生成でARモデルを驚くほど強化する。広範な実験により、エッジ、深度、セグメンテーションマスクを含む多様な入力に対して、自己回帰制御による画像生成のための提案ControlARの制御性を実証することができる。さらに、定量的かつ定性的な結果は、ControlARが、ControlNet++など、これまでの最先端の制御可能な拡散モデルを凌駕していることを示している。コード、モデル、デモは近日中にhttps://github.com/hustvl/ControlAR。

要約(オリジナル)

Autoregressive (AR) models have reformulated image generation as next-token prediction, demonstrating remarkable potential and emerging as strong competitors to diffusion models. However, control-to-image generation, akin to ControlNet, remains largely unexplored within AR models. Although a natural approach, inspired by advancements in Large Language Models, is to tokenize control images into tokens and prefill them into the autoregressive model before decoding image tokens, it still falls short in generation quality compared to ControlNet and suffers from inefficiency. To this end, we introduce ControlAR, an efficient and effective framework for integrating spatial controls into autoregressive image generation models. Firstly, we explore control encoding for AR models and propose a lightweight control encoder to transform spatial inputs (e.g., canny edges or depth maps) into control tokens. Then ControlAR exploits the conditional decoding method to generate the next image token conditioned on the per-token fusion between control and image tokens, similar to positional encodings. Compared to prefilling tokens, using conditional decoding significantly strengthens the control capability of AR models but also maintains the model’s efficiency. Furthermore, the proposed ControlAR surprisingly empowers AR models with arbitrary-resolution image generation via conditional decoding and specific controls. Extensive experiments can demonstrate the controllability of the proposed ControlAR for the autoregressive control-to-image generation across diverse inputs, including edges, depths, and segmentation masks. Furthermore, both quantitative and qualitative results indicate that ControlAR surpasses previous state-of-the-art controllable diffusion models, e.g., ControlNet++. Code, models, and demo will soon be available at https://github.com/hustvl/ControlAR.

arxiv情報

著者 Zongming Li,Tianheng Cheng,Shoufa Chen,Peize Sun,Haocheng Shen,Longjin Ran,Xiaoxin Chen,Wenyu Liu,Xinggang Wang
発行日 2024-10-03 17:28:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

LLaVA-Critic: Learning to Evaluate Multimodal Models

要約

LLaVA-Criticを紹介する。LLaVA-Criticは、幅広いマルチモーダルなタスクのパフォーマンスを評価するためのジェネラリスト評価器として設計された、初のオープンソース大規模マルチモーダルモデル(LMM)である。LLaVA-Criticは、多様な評価基準とシナリオを組み込んだ、高品質な批評家の指示に従うデータセットを用いて学習される。(1)LMM-as-a-Judgeでは、LLaVA-Criticは信頼性の高い評価スコアを提供し、複数の評価ベンチマークにおいてGPTモデルと同等か、GPTモデルを上回るパフォーマンスを示す。この研究は、オープンソースLMMの自己批評と評価の可能性を強調し、スケーラブルで超人的なLMMのアライメントフィードバックメカニズムの将来の研究のための舞台を提供する。

要約(オリジナル)

We introduce LLaVA-Critic, the first open-source large multimodal model (LMM) designed as a generalist evaluator to assess performance across a wide range of multimodal tasks. LLaVA-Critic is trained using a high-quality critic instruction-following dataset that incorporates diverse evaluation criteria and scenarios. Our experiments demonstrate the model’s effectiveness in two key areas: (1) LMM-as-a-Judge, where LLaVA-Critic provides reliable evaluation scores, performing on par with or surpassing GPT models on multiple evaluation benchmarks; and (2) Preference Learning, where it generates reward signals for preference learning, enhancing model alignment capabilities. This work underscores the potential of open-source LMMs in self-critique and evaluation, setting the stage for future research into scalable, superhuman alignment feedback mechanisms for LMMs.

arxiv情報

著者 Tianyi Xiong,Xiyao Wang,Dong Guo,Qinghao Ye,Haoqi Fan,Quanquan Gu,Heng Huang,Chunyuan Li
発行日 2024-10-03 17:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

Video Instruction Tuning With Synthetic Data

要約

動画ラージ・マルチモーダルモデル(LMM)の開発は、ウェブから大量の高品質な生データを収集することの困難さによって妨げられてきた。この問題に対処するため、我々はLLaVA-Video-178Kという、動画指示追従に特化した高品質な合成データセットを作成することで、代替アプローチを提案する。このデータセットには、詳細なキャプション、自由形式の質疑応答(QA)、多肢選択式のQAなどの主要なタスクが含まれている。このデータセットと既存の視覚命令チューニングデータを組み合わせて学習することで、新しいビデオLMMであるLLaVA-Videoを導入する。我々の実験により、LLaVA-Videoは様々なビデオベンチマークにおいて高い性能を達成し、我々のデータセットの有効性を明らかにした。今後、データセット、生成パイプライン、モデルのチェックポイントを公開する予定である。

要約(オリジナル)

The development of video large multimodal models (LMMs) has been hindered by the difficulty of curating large amounts of high-quality raw data from the web. To address this, we propose an alternative approach by creating a high-quality synthetic dataset specifically for video instruction-following, namely LLaVA-Video-178K. This dataset includes key tasks such as detailed captioning, open-ended question-answering (QA), and multiple-choice QA. By training on this dataset, in combination with existing visual instruction tuning data, we introduce LLaVA-Video, a new video LMM. Our experiments demonstrate that LLaVA-Video achieves strong performance across various video benchmarks, highlighting the effectiveness of our dataset. We plan to release the dataset, its generation pipeline, and the model checkpoints.

arxiv情報

著者 Yuanhan Zhang,Jinming Wu,Wei Li,Bo Li,Zejun Ma,Ziwei Liu,Chunyuan Li
発行日 2024-10-03 17:36:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

AlzhiNet: Traversing from 2DCNN to 3DCNN, Towards Early Detection and Diagnosis of Alzheimer’s Disease

要約

アルツハイマー病(AD)は進行性の神経変性疾患であり、高齢化社会の中で有病率が増加しているため、効果的な疾患管理のために早期かつ正確な診断が必要とされている。本研究では、2次元畳み込みニューラルネットワーク(2D-CNN)と3次元畳み込みニューラルネットワーク(3D-CNN)の両方を統合し、カスタム損失関数とボリューメトリックデータ補強を加えた、新しいハイブリッドディープラーニングフレームワークを提示することで、特徴抽出を強化し、AD診断における分類性能を向上させる。広範な実験によると、AlzhiNetは単独の2Dモデルや3Dモデルを凌駕しており、これらの補完的なデータ表現を組み合わせることの重要性を強調している。拡張された2Dスライスから得られる3Dボリュームの深さと質も、モデルの性能に大きく影響する。この結果は、最適な結果を得るためには、ハイブリッド予測における重み付け係数を注意深く選択することが不可欠であることを示している。我々のフレームワークはKaggleとMIRIADのMRIデータセットで検証され、それぞれ98.9%と99.99%の精度と100%のAUCを得た。さらに、AlzhiNetは、Alzheimer’s Kaggleデータセットにおいて、ガウスノイズ、明るさ、コントラスト、ソルト&ペッパーノイズ、カラージッター、オクルージョンなどの様々な摂動シナリオの下で研究された。その結果、AlzhiNetはResNet-18よりも摂動に強く、実世界のアプリケーションに最適であることがわかった。このアプローチは、アルツハイマー病の早期診断と治療計画における有望な進歩である。

要約(オリジナル)

Alzheimer’s disease (AD) is a progressive neurodegenerative disorder with increasing prevalence among the aging population, necessitating early and accurate diagnosis for effective disease management. In this study, we present a novel hybrid deep learning framework that integrates both 2D Convolutional Neural Networks (2D-CNN) and 3D Convolutional Neural Networks (3D-CNN), along with a custom loss function and volumetric data augmentation, to enhance feature extraction and improve classification performance in AD diagnosis. According to extensive experiments, AlzhiNet outperforms standalone 2D and 3D models, highlighting the importance of combining these complementary representations of data. The depth and quality of 3D volumes derived from the augmented 2D slices also significantly influence the model’s performance. The results indicate that carefully selecting weighting factors in hybrid predictions is imperative for achieving optimal results. Our framework has been validated on the Magnetic Resonance Imaging (MRI) from Kaggle and MIRIAD datasets, obtaining accuracies of 98.9% and 99.99%, respectively, with an AUC of 100%. Furthermore, AlzhiNet was studied under a variety of perturbation scenarios on the Alzheimer’s Kaggle dataset, including Gaussian noise, brightness, contrast, salt and pepper noise, color jitter, and occlusion. The results obtained show that AlzhiNet is more robust to perturbations than ResNet-18, making it an excellent choice for real-world applications. This approach represents a promising advancement in the early diagnosis and treatment planning for Alzheimer’s disease.

arxiv情報

著者 Romoke Grace Akindele,Samuel Adebayo,Paul Shekonya Kanda,Ming Yu
発行日 2024-10-03 17:37:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, eess.IV | コメントする

Autoregressive Pre-Training on Pixels and Texts

要約

視覚情報とテキスト情報の統合は、言語モデルの進歩において有望な方向性を示している。本論文では、文書画像とテキストの両方で事前訓練された自己回帰フレームワークの中で、視覚とテキストの両方の言語の二重モダリティを探求する。我々の手法はマルチモーダルな学習戦略を採用しており、回帰ヘッドによる次のパッチ予測を通じて視覚データを利用し、分類ヘッドによる次のトークン予測を通じてテキストデータを利用する。我々は、これら2つのモダリティ間の相互作用と、それらの組み合わせがモデルの性能に与える影響を理解することに重点を置いている。広範なベンチマークにおける我々の広範な評価により、ビジュアルデータとテキストデータの両方を組み込むことで、ピクセルベースの言語モデルの性能が大幅に向上することが示された。驚くべきことに、視覚データのみで訓練された一方向のピクセルベースモデルが、いくつかの言語理解タスクにおいて、最先端の双方向モデルと同等の結果を達成できることがわかった。この研究は、より効果的な言語モデリングのために、視覚的モダリティとテキスト的モダリティを統合することの未開発の可能性を明らかにするものである。私たちのコード、データ、モデルのチェックポイントは୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛で公開しています。

要約(オリジナル)

The integration of visual and textual information represents a promising direction in the advancement of language models. In this paper, we explore the dual modality of language–both visual and textual–within an autoregressive framework, pre-trained on both document images and texts. Our method employs a multimodal training strategy, utilizing visual data through next patch prediction with a regression head and/or textual data through next token prediction with a classification head. We focus on understanding the interaction between these two modalities and their combined impact on model performance. Our extensive evaluation across a wide range of benchmarks shows that incorporating both visual and textual data significantly improves the performance of pixel-based language models. Remarkably, we find that a unidirectional pixel-based model trained solely on visual data can achieve comparable results to state-of-the-art bidirectional models on several language understanding tasks. This work uncovers the untapped potential of integrating visual and textual modalities for more effective language modeling. We release our code, data, and model checkpoints at \url{https://github.com/ernie-research/pixelgpt}.

arxiv情報

著者 Yekun Chai,Qingyi Liu,Jingwu Xiao,Shuohuan Wang,Yu Sun,Hua Wu
発行日 2024-10-03 17:46:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV | コメントする

DivScene: Benchmarking LVLMs for Object Navigation with Diverse Scenes and Objects

要約

未知の環境におけるオブジェクトナビゲーションは、実世界のアプリケーションに具現化エージェントを導入する上で極めて重要である。大規模なシーンデータセット、より高速なシミュレータ、より強力なモデルにより、我々は大きな進歩を目の当たりにしてきたが、先行研究は主に限られたシーンタイプとターゲットオブジェクトに焦点を当てている。本論文では、多数のシーンタイプにおける多様なターゲットオブジェクトへのナビゲートという新しいタスクを研究する。この問題のベンチマークとして、81の異なるタイプにわたる4,614のシーンを含む大規模なシーンデータセットDivSceneを提示する。このデータセットを用いて、模倣学習により大型視覚言語モデル(LVLM)を微調整することで、エンドツーエンドの具現化エージェントNatVLMを構築する。LVLMは、環境からの過去の観測を取り込み、次の行動を生成するように訓練される。また、LVLMをチューニングする際に、より良いパフォーマンスを得るために、行動予測のCoT説明トレースを導入する。我々の広範な実験により、BFSプランナにより構築された最短経路を模倣学習することで、人間の監視なしに高性能なLVLMベースのエージェントを構築できることがわかった。我々のエージェントはGPT-4oを20%以上上回る成功率を達成した。また、我々のエージェントの汎化能力を示す様々な分析を行う。

要約(オリジナル)

Object navigation in unknown environments is crucial for deploying embodied agents in real-world applications. While we have witnessed huge progress due to large-scale scene datasets, faster simulators, and stronger models, previous studies mainly focus on limited scene types and target objects. In this paper, we study a new task of navigating to diverse target objects in a large number of scene types. To benchmark the problem, we present a large-scale scene dataset, DivScene, which contains 4,614 scenes across 81 different types. With the dataset, we build an end-to-end embodied agent, NatVLM, by fine-tuning a Large Vision Language Model (LVLM) through imitation learning. The LVLM is trained to take previous observations from the environment and generate the next actions. We also introduce CoT explanation traces of the action prediction for better performance when tuning LVLMs. Our extensive experiments find that we can build a performant LVLM-based agent through imitation learning on the shortest paths constructed by a BFS planner without any human supervision. Our agent achieves a success rate that surpasses GPT-4o by over 20%. Meanwhile, we carry out various analyses showing the generalization ability of our agent.

arxiv情報

著者 Zhaowei Wang,Hongming Zhang,Tianqing Fang,Ye Tian,Yue Yang,Kaixin Ma,Xiaoman Pan,Yangqiu Song,Dong Yu
発行日 2024-10-03 17:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CV, cs.RO | コメントする

Towards Foundation Models and Few-Shot Parameter-Efficient Fine-Tuning for Volumetric Organ Segmentation

要約

近年、基礎モデルや、大規模モデルを下流のタスクに転送する事前学習と適応のパラダイムが、ボリュームメトリックな医用画像セグメンテーションのために注目されている。しかし、現在の転移学習戦略は、転移学習のための完全なファインチューニングに専念しており、ターゲットタスクのラベル付きデータが乏しい場合、多大なリソースを必要とし、最適とは言えない結果をもたらす可能性がある。このため、実際の臨床現場では、独自の解決策を開発するためのデータや計算資源に制約があるため、その適用が困難である。この課題に対処するため、我々は、医療画像セグメンテーション基礎モデルを適応させるための、新規かつ現実的なシナリオである、Few-Shot Efficient Fine-Tuning (FSEFT)を定式化する。この設定では、適応の際のデータ効率とパラメータ効率の両方の重要な役割を考慮する。オープンアクセスCT臓器セグメンテーションソースで事前に訓練された基礎モデルをベースに、パラメータ効率的ファインチューニングとブラックボックスアダプタを活用して、このような課題に対処することを提案する。さらに、本研究では、密な予測タスクに適した空間ブラックボックスアダプタや、タスク固有の事前知識を活用した制約付き転移推論を含む、新しい効率的な適応手法を導入する。我々の包括的な転移学習実験により、医用画像セグメンテーションにおける基礎モデルの適合性が確認され、数ショットのシナリオにおける一般的な微調整戦略の限界が明らかになった。

要約(オリジナル)

The recent popularity of foundation models and the pre-train-and-adapt paradigm, where a large-scale model is transferred to downstream tasks, is gaining attention for volumetric medical image segmentation. However, current transfer learning strategies devoted to full fine-tuning for transfer learning may require significant resources and yield sub-optimal results when the labeled data of the target task is scarce. This makes its applicability in real clinical settings challenging since these institutions are usually constrained on data and computational resources to develop proprietary solutions. To address this challenge, we formalize Few-Shot Efficient Fine-Tuning (FSEFT), a novel and realistic scenario for adapting medical image segmentation foundation models. This setting considers the key role of both data- and parameter- efficiency during adaptation. Building on a foundation model pre-trained on open-access CT organ segmentation sources, we propose leveraging Parameter-Efficient Fine-Tuning and black-box Adapters to address such challenges. Furthermore, novel efficient adaptation methodologies are introduced in this work, which include Spatial black-box Adapters that are more appropriate for dense prediction tasks and constrained transductive inference, leveraging task-specific prior knowledge. Our comprehensive transfer learning experiments confirm the suitability of foundation models in medical image segmentation and unveil the limitations of popular fine-tuning strategies in few-shot scenarios.

arxiv情報

著者 Julio Silva-Rodríguez,Jose Dolz,Ismail Ben Ayed
発行日 2024-10-03 17:53:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Contrastive Localized Language-Image Pre-Training

要約

コントラスト言語画像事前学習(CLIP)は、様々なアプリケーションを促進する画像/テキスト表現を生成するビジョンエンコーダを訓練するための有名な手法である。近年、CLIPは、言語相互作用のための画像入力を接続するためのマルチモーダル大規模言語モデル(MLLM)の視覚バックボーンとして広く採用されている。視覚-言語基盤モデルとしてのCLIPの成功は、ウェブクローリングされたノイズの多いテキスト注釈を画像レベルで整列させることに依存している。それにもかかわらず、このような基準は、特に領域レベルの理解がMLLMに要求されるような、きめ細かい視覚表現を必要とする下流のタスクには不十分となる可能性がある。本論文では、CLIPのローカリゼーション能力をいくつかの進歩により向上させる。CLIPを領域-テキスト対比損失とモジュールで補完することで、CLOC(Contrastive Localized Language-Image Pre-training)と呼ばれる事前学習法を提案する。CLOCでは、空間的なヒントが与えられると、エンコーダが領域表現に変換しやすい画像埋め込みを生成する。大規模な事前学習をサポートするために、視覚的に強化され、空間的に局所化されたキャプションフレームワークを設計し、領域テキスト擬似ラベルを効果的に生成する。CLOCは、数十億の注釈付き画像までスケールアップすることで、画像領域の認識と検索タスクのための高品質な領域埋め込みを可能にし、特に参照と接地タスクにおいて、MLLMを強化するためのCLIPのドロップイン置き換えとなり得る。

要約(オリジナル)

Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP has been widely adopted as the vision backbone of multimodal large language models (MLLMs) to connect image inputs for language interactions. The success of CLIP as a vision-language foundation model relies on aligning web-crawled noisy text annotations at image levels. Nevertheless, such criteria may become insufficient for downstream tasks in need of fine-grained vision representations, especially when region-level understanding is demanding for MLLMs. In this paper, we improve the localization capability of CLIP with several advances. We propose a pre-training method called Contrastive Localized Language-Image Pre-training (CLOC) by complementing CLIP with region-text contrastive loss and modules. We formulate a new concept, promptable embeddings, of which the encoder produces image embeddings easy to transform into region representations given spatial hints. To support large-scale pre-training, we design a visually-enriched and spatially-localized captioning framework to effectively generate region-text pseudo-labels at scale. By scaling up to billions of annotated images, CLOC enables high-quality regional embeddings for image region recognition and retrieval tasks, and can be a drop-in replacement of CLIP to enhance MLLMs, especially on referring and grounding tasks.

arxiv情報

著者 Hong-You Chen,Zhengfeng Lai,Haotian Zhang,Xinze Wang,Marcin Eichner,Keen You,Meng Cao,Bowen Zhang,Yinfei Yang,Zhe Gan
発行日 2024-10-03 17:56:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | コメントする

NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation

要約

映像の奥行き推定は、時間的に一貫した奥行きを推測することを目的としている。1つのアプローチは、幾何学的制約を持つ各映像上の単一画像モデルを微調整することであるが、これは非効率的であり、ロバスト性に欠ける。もう一つの方法は、データから一貫性を強制する学習であり、これはよく設計されたモデルと十分なビデオ深度データを必要とする。この2つの課題を解決するために、様々な単一画像モデルによって推定された一貫性のない奥行きをプラグアンドプレイで安定化させるNVDS+を紹介する。また、大規模なVideo Depth in the Wild (VDW)データセットを精緻化する。このデータセットには14,203本の動画が含まれ、200万フレームを超える。さらに、前方予測と後方予測を適応的に融合することで、整合性を向上させる双方向推論戦略を設計する。我々は、様々なアプリケーションのために、小規模から大規模までのモデルファミリーをインスタンス化する。本手法をVDWデータセットと3つの公開ベンチマークで評価する。さらに汎用性を証明するために、NVDS+をビデオのセマンティックセグメンテーションや、ボケレンダリング、新しいビュー合成、3D再構成のようないくつかの下流アプリケーションに拡張する。実験結果は、我々の手法が一貫性、精度、効率性において大幅な改善を達成したことを示している。我々の研究は、学習ベースのビデオ深度推定のための強固なベースラインとデータ基盤として役立つ。コードとデータセットはhttps://github.com/RaymondWang987/NVDS。

要約(オリジナル)

Video depth estimation aims to infer temporally consistent depth. One approach is to finetune a single-image model on each video with geometry constraints, which proves inefficient and lacks robustness. An alternative is learning to enforce consistency from data, which requires well-designed models and sufficient video depth data. To address both challenges, we introduce NVDS+ that stabilizes inconsistent depth estimated by various single-image models in a plug-and-play manner. We also elaborate a large-scale Video Depth in the Wild (VDW) dataset, which contains 14,203 videos with over two million frames, making it the largest natural-scene video depth dataset. Additionally, a bidirectional inference strategy is designed to improve consistency by adaptively fusing forward and backward predictions. We instantiate a model family ranging from small to large scales for different applications. The method is evaluated on VDW dataset and three public benchmarks. To further prove the versatility, we extend NVDS+ to video semantic segmentation and several downstream applications like bokeh rendering, novel view synthesis, and 3D reconstruction. Experimental results show that our method achieves significant improvements in consistency, accuracy, and efficiency. Our work serves as a solid baseline and data foundation for learning-based video depth estimation. Code and dataset are available at: https://github.com/RaymondWang987/NVDS

arxiv情報

著者 Yiran Wang,Min Shi,Jiaqi Li,Chaoyi Hong,Zihao Huang,Juewen Peng,Zhiguo Cao,Jianming Zhang,Ke Xian,Guosheng Lin
発行日 2024-10-03 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする

Loong: Generating Minute-level Long Videos with Autoregressive Language Models

要約

分単位の長い動画を生成することは、望ましいが難しい。自己回帰型大規模言語モデル(LLM)は、自然言語処理の領域において、トークンの首尾一貫した長いシーケンスの生成において大きな成功を収めているが、動画生成のための自己回帰型LLMの探索は、数秒の短い動画の生成に限られている。本研究では、自己回帰LLMに基づく動画生成器が長い動画を生成することを妨げる課題について深い分析を行う。観察と分析に基づき、分単位の動画を生成できる新しい自己回帰型LLMベースの動画生成器Loongを提案する。具体的には、テキストトークンとビデオトークンを自己回帰LLMの統一シーケンスとしてモデル化し、ゼロからモデルを学習する。長時間の動画学習における損失の不均衡問題を緩和するために、損失再重み付けスキームを用いた漸進的な短時間から長時間の学習を提案する。さらに、ビデオトークンの再エンコードやサンプリング戦略などの推論戦略を検討し、推論中のエラー蓄積を減少させる。我々の提案するLoongは、10秒間の動画で学習可能であり、結果によって示されるように、テキストプロンプトを条件とする分レベルの長い動画を生成するために拡張可能である。より多くのサンプルはhttps://epiphqny.github.io/Loong-video。

要約(オリジナル)

It is desirable but challenging to generate content-rich long videos in the scale of minutes. Autoregressive large language models (LLMs) have achieved great success in generating coherent and long sequences of tokens in the domain of natural language processing, while the exploration of autoregressive LLMs for video generation is limited to generating short videos of several seconds. In this work, we conduct a deep analysis of the challenges that prevent autoregressive LLM-based video generators from generating long videos. Based on the observations and analysis, we propose Loong, a new autoregressive LLM-based video generator that can generate minute-long videos. Specifically, we model the text tokens and video tokens as a unified sequence for autoregressive LLMs and train the model from scratch. We propose progressive short-to-long training with a loss re-weighting scheme to mitigate the loss imbalance problem for long video training. We further investigate inference strategies, including video token re-encoding and sampling strategies, to diminish error accumulation during inference. Our proposed Loong can be trained on 10-second videos and be extended to generate minute-level long videos conditioned on text prompts, as demonstrated by the results. More samples are available at: https://epiphqny.github.io/Loong-video.

arxiv情報

著者 Yuqing Wang,Tianwei Xiong,Daquan Zhou,Zhijie Lin,Yang Zhao,Bingyi Kang,Jiashi Feng,Xihui Liu
発行日 2024-10-03 17:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | コメントする