Edge Attention Module for Object Classification

要約

この研究では、オブジェクト分類タスクに関する新しい「エッジ注意ベースの畳み込みニューラルネットワーク(CNN)」が提案されています。
高度なコンピューティングテクノロジーの出現により、CNNモデルは、特にコンピュータービジョンアプリケーションで顕著な成功を収めました。
それにもかかわらず、従来のCNNの有効性は、クラスの不均衡とクラス間の類似性の問題のためにしばしば妨げられます。これは、コンピュータービジョン分野で特に顕著です。
この研究では、マックスミンのプーリング層で構成される「エッジ注意モジュール(EAM)」を初めて紹介し、それに続いて畳み込み層を紹介します。
このマックスミンプーリングは、完全に新しいプーリング技術であり、オブジェクト分類タスクにとって重要なエッジ情報のみをキャプチャするように特別に設計されています。
したがって、この新しいプーリング手法を注意モジュールに統合することにより、CNNネットワークは本質的に必須エッジ機能を優先し、それによりモデルの精度とF1スコアが大幅に向上します。
CalTech-101、CalTech-256、CIFAR-100、および小さなImagenet-200データセットのいくつかの標準の事前訓練を受けたCNNモデルに提案されたEAMまたは2AIMを実装しました。
広範な実験では、提案されたフレームワーク(つまり、CNNを備えたEAMおよびCNNを使用した2AEM)が、すべての事前に訓練されたCNNモデルと最近のトレンドモデル「プーリングベースのビジョントランス(PIT)」、「畳み込み」を上回ることが明らかになりました。
かなりのマージンで、注意モジュール(CBAM) ”、およびCombNextをブロックします。
Caltech-101とCaltech-256データセットの提案されたフレームワークによって、それぞれ95.5%と86%の精度を達成しました。
これまでのところ、これは私たちの知る限り、これらのデータセットの最良の結果です。

要約(オリジナル)

A novel “edge attention-based Convolutional Neural Network (CNN)” is proposed in this research for object classification task. With the advent of advanced computing technology, CNN models have achieved to remarkable success, particularly in computer vision applications. Nevertheless, the efficacy of the conventional CNN is often hindered due to class imbalance and inter-class similarity problems, which are particularly prominent in the computer vision field. In this research, we introduce for the first time an “Edge Attention Module (EAM)” consisting of a Max-Min pooling layer, followed by convolutional layers. This Max-Min pooling is entirely a novel pooling technique, specifically designed to capture only the edge information that is crucial for any object classification task. Therefore, by integrating this novel pooling technique into the attention module, the CNN network inherently prioritizes on essential edge features, thereby boosting the accuracy and F1-score of the model significantly. We have implemented our proposed EAM or 2EAMs on several standard pre-trained CNN models for Caltech-101, Caltech-256, CIFAR-100 and Tiny ImageNet-200 datasets. The extensive experiments reveal that our proposed framework (that is, EAM with CNN and 2EAMs with CNN), outperforms all pre-trained CNN models as well as recent trend models “Pooling-based Vision Transformer (PiT)”, “Convolutional Block Attention Module (CBAM)”, and ConvNext, by substantial margins. We have achieved the accuracy of 95.5% and 86% by the proposed framework on Caltech-101 and Caltech-256 datasets, respectively. So far, this is the best results on these datasets, to the best of our knowledge.

arxiv情報

著者 Santanu Roy,Ashvath Suresh,Archit Gupta
発行日 2025-02-05 11:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Edge Attention Module for Object Classification はコメントを受け付けていません

Tell2Reg: Establishing spatial correspondence between images by the same language prompts

要約

空間的対応は、セグメント化された領域のペアで表すことができ、画像登録ネットワークは、変位フィールドまたは変換パラメーターを予測するのではなく、対応する領域をセグメント化することを目的としています。
この作業では、このような対応する領域ペアは、GroundingDinoとSAMに基づいた事前に訓練された大規模なマルチモーダルモデルを使用して、2つの異なる画像で同じ言語プロンプトによって予測できることを示します。
これにより、幅広い画像登録タスクに一般化可能な潜在的に一般化可能な完全に自動化されたトレーニングのない登録アルゴリズムが可能になります。
このホワイトペーパーでは、患者間の非常に多様な強度と形態の両方を含む、被験者間の前立腺MR画像を登録する挑戦的なタスクの1つを使用して実験結果を提示します。
Tell2regはトレーニングなしで、この登録タスクに以前に必要だった費用と時間のかかるデータキュレーションとラベル付けの必要性を排除します。
このアプローチは、テストされた監視されていない学習ベースの登録方法を上回り、弱く監視された方法に匹敵するパフォーマンスを持っています。
また、言語のセマンティクスと空間的対応の間に初めての相関があることを示唆するために、追加の定性的な結果も提示されます。言語造影領域の空間的不変性や、得られたローカルとグローバルの対応の間の言語の違いの違いも含まれます。
コードはhttps://github.com/yanwenci/tell2reg.gitで入手できます。

要約(オリジナル)

Spatial correspondence can be represented by pairs of segmented regions, such that the image registration networks aim to segment corresponding regions rather than predicting displacement fields or transformation parameters. In this work, we show that such a corresponding region pair can be predicted by the same language prompt on two different images using the pre-trained large multimodal models based on GroundingDINO and SAM. This enables a fully automated and training-free registration algorithm, potentially generalisable to a wide range of image registration tasks. In this paper, we present experimental results using one of the challenging tasks, registering inter-subject prostate MR images, which involves both highly variable intensity and morphology between patients. Tell2Reg is training-free, eliminating the need for costly and time-consuming data curation and labelling that was previously required for this registration task. This approach outperforms unsupervised learning-based registration methods tested, and has a performance comparable to weakly-supervised methods. Additional qualitative results are also presented to suggest that, for the first time, there is a potential correlation between language semantics and spatial correspondence, including the spatial invariance in language-prompted regions and the difference in language prompts between the obtained local and global correspondences. Code is available at https://github.com/yanwenCi/Tell2Reg.git.

arxiv情報

著者 Wen Yan,Qianye Yang,Shiqi Huang,Yipei Wang,Shonit Punwani,Mark Emberton,Vasilis Stavrinides,Yipeng Hu,Dean Barratt
発行日 2025-02-05 12:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 00B25, cs.AI, cs.CV, eess.IV, I.2.7 | Tell2Reg: Establishing spatial correspondence between images by the same language prompts はコメントを受け付けていません

3D Face Reconstruction From Radar Images

要約

顔の3D再構成は、コンピュータービジョンで広く注目され、たとえばアニメーション、バーチャルリアリティ、さらにはフォレンジックなど、アプリケーションの多くの分野で使用されています。
この作業は、睡眠研究所の患者を監視することで動機付けられています。
独自の特性により、レーダードメインのセンサーは、光学センサー、つまり電気的に非導電性材料の浸透と光の独立性と比較して利点があります。
レーダー信号のこれらの利点は、新しいアプリケーションのロックを解除し、3D再構成フレームワークの適応が必要です。
レーダー画像からの3D再構成のための新しいモデルベースの方法を提案します。
物理ベースではあるが異なるレーダーレンダラーを使用して、合成レーダー画像のデータセットを生成します。
このデータセットは、CNNベースのエンコーダーをトレーニングするために使用され、3Dの形態可能なフェイスモデルのパラメーターを推定します。
エンコーダーだけで合成データの強力な再構成につながりますが、再構成を分析ごとにモデルベースの自動エンコーダーに拡張します。
これは、オブジェクト固有の微分レーダーレンダラーとして機能するデコーダーでレンダリングプロセスを学習することで有効になります。
その後、両方のネットワークパーツの組み合わせがトレーニングされ、両方を最小限に抑え、パラメーターの喪失、結果の再構築されたレーダー画像の損失を最小限に抑えます。
これは、テスト時に画像の損失で監視されていない自動エンコーダーを微調整することでパラメーターをさらに最適化できる追加の利点につながります。
生成された合成フェイス画像と、4人の個人の3Dグラウンドトゥルースを持つ実際のレーダー画像に関するフレームワークを評価しました。

要約(オリジナル)

The 3D reconstruction of faces gains wide attention in computer vision and is used in many fields of application, for example, animation, virtual reality, and even forensics. This work is motivated by monitoring patients in sleep laboratories. Due to their unique characteristics, sensors from the radar domain have advantages compared to optical sensors, namely penetration of electrically non-conductive materials and independence of light. These advantages of radar signals unlock new applications and require adaptation of 3D reconstruction frameworks. We propose a novel model-based method for 3D reconstruction from radar images. We generate a dataset of synthetic radar images with a physics-based but non-differentiable radar renderer. This dataset is used to train a CNN-based encoder to estimate the parameters of a 3D morphable face model. Whilst the encoder alone already leads to strong reconstructions of synthetic data, we extend our reconstruction in an Analysis-by-Synthesis fashion to a model-based autoencoder. This is enabled by learning the rendering process in the decoder, which acts as an object-specific differentiable radar renderer. Subsequently, the combination of both network parts is trained to minimize both, the loss of the parameters and the loss of the resulting reconstructed radar image. This leads to the additional benefit, that at test time the parameters can be further optimized by finetuning the autoencoder unsupervised on the image loss. We evaluated our framework on generated synthetic face images as well as on real radar images with 3D ground truth of four individuals.

arxiv情報

著者 Valentin Braeutigam,Vanessa Wirth,Ingrid Ullmann,Christian Schüßler,Martin Vossiek,Matthias Berking,Bernhard Egger
発行日 2025-02-05 12:26:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | 3D Face Reconstruction From Radar Images はコメントを受け付けていません

Assessing Open-world Forgetting in Generative Image Model Customization

要約

拡散モデルの最近の進歩により、画像生成機能が大幅に向上しています。
ただし、これらのモデルを新しいクラスでカスタマイズすると、信頼性を損なう意図しない結果につながることがよくあります。
これらの意図しない変化の膨大な範囲を特徴付けるオープンワールドの概念を紹介します。
私たちの作品は、拡散モデルでのオープンワールドの忘却に関する最初の体系的な調査を提示し、表現の意味と外観のドリフトに焦点を当てています。
ゼロショット分類を使用して、マイナーモデルの適応でさえ、新たに導入された概念をはるかに超えた領域に影響を与える重要なセマンティックドリフトにつながる可能性があり、以前に学習された概念で最大60%の精度が低下することを実証します。
外観ドリフトの分析により、生成されたコンテンツのテクスチャと色の分布の大幅な変化が明らかになりました。
これらの問題に対処するために、新しい概念に対応しながら元の機能を効果的に保持する機能的な正則化戦略を提案します。
複数のデータセットと評価メトリックにわたる広範な実験を通じて、私たちのアプローチがセマンティックと外観の両方のドリフトを大幅に削減することを実証します。
私たちの研究は、モデルのカスタマイズと微調整方法に関する将来の研究で、オープンワールドの忘却を考慮することの重要性を強調しています。

要約(オリジナル)

Recent advances in diffusion models have significantly enhanced image generation capabilities. However, customizing these models with new classes often leads to unintended consequences that compromise their reliability. We introduce the concept of open-world forgetting to characterize the vast scope of these unintended alterations. Our work presents the first systematic investigation into open-world forgetting in diffusion models, focusing on semantic and appearance drift of representations. Using zero-shot classification, we demonstrate that even minor model adaptations can lead to significant semantic drift affecting areas far beyond newly introduced concepts, with accuracy drops of up to 60% on previously learned concepts. Our analysis of appearance drift reveals substantial changes in texture and color distributions of generated content. To address these issues, we propose a functional regularization strategy that effectively preserves original capabilities while accommodating new concepts. Through extensive experiments across multiple datasets and evaluation metrics, we demonstrate that our approach significantly reduces both semantic and appearance drift. Our study highlights the importance of considering open-world forgetting in future research on model customization and finetuning methods.

arxiv情報

著者 Héctor Laria,Alex Gomez-Villa,Kai Wang,Bogdan Raducanu,Joost van de Weijer
発行日 2025-02-05 13:06:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG | Assessing Open-world Forgetting in Generative Image Model Customization はコメントを受け付けていません

ImgTrojan: Jailbreaking Vision-Language Models with ONE Image

要約

大規模な言語モデル(LLMS)の人間の価値の調整に関心が高まっています。
ただし、ビジョンモジュールまたはビジョン言語モデル(VLM)との統合の安全性の問題は、比較的目立たないままです。
この論文では、ユーザーが有害な指示を入力したときに安全障壁をバイパスすることを目指して、VLMに対する新しい侵入攻撃を提案します。
トレーニングデータに中毒(画像、テキスト)データペアが含まれるシナリオが想定されます。
元のテキストキャプションを悪意のあるジェイルブレイクプロンプトに置き換えることにより、私たちの方法は毒された画像で脱獄攻撃を実行できます。
さらに、攻撃の成功率に対するトレーニング可能なパラメーターの毒比と位置の影響を分析します。
評価のために、2つのメトリックを設計して、攻撃の成功率とステルス性を定量化します。
キュレーションされた有害な指示のリストとともに、攻撃の有効性を測定するためのベンチマークが提供されます。
攻撃をベースラインメソッドと比較することにより、攻撃の有効性を示します。

要約(オリジナル)

There has been an increasing interest in the alignment of large language models (LLMs) with human values. However, the safety issues of their integration with a vision module, or vision language models (VLMs), remain relatively underexplored. In this paper, we propose a novel jailbreaking attack against VLMs, aiming to bypass their safety barrier when a user inputs harmful instructions. A scenario where our poisoned (image, text) data pairs are included in the training data is assumed. By replacing the original textual captions with malicious jailbreak prompts, our method can perform jailbreak attacks with the poisoned images. Moreover, we analyze the effect of poison ratios and positions of trainable parameters on our attack’s success rate. For evaluation, we design two metrics to quantify the success rate and the stealthiness of our attack. Together with a list of curated harmful instructions, a benchmark for measuring attack efficacy is provided. We demonstrate the efficacy of our attack by comparing it with baseline methods.

arxiv情報

著者 Xijia Tao,Shuai Zhong,Lei Li,Qi Liu,Lingpeng Kong
発行日 2025-02-05 13:20:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | ImgTrojan: Jailbreaking Vision-Language Models with ONE Image はコメントを受け付けていません

Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization

要約

敵対的な攻撃は、モデルの堅牢性を評価するために広く使用されており、ブラックボックスシナリオでは、これらの攻撃の移動性が重要になります。
既存のジェネレーターベースの攻撃には、インスタンスに依存しない性質のために、優れた一般化と転送可能性があります。
ただし、マルチターゲットタスクのジェネレーターをトレーニングする場合、モデルの容量の制限により、転送攻撃の成功率は比較的低くなります。
これらの課題に対処するために、カスケード分布シフトトレーニングを利用して敵対的速度関数を開発するために、マルチターゲットインスタンスに依存しない敵対攻撃のための新しいデュアルフローフレームワークを提案します。
広範な実験は、デュアルフローが以前のマルチターゲット生成攻撃にわたって譲渡可能性を大幅に改善することを示しています。
たとえば、Inception-V3からResNet-152に成功率を34.58%増加させます。
さらに、攻撃方法は、敵対的に訓練されたモデルなど、防御メカニズムに対する堅牢性が大幅に強いことを示しています。

要約(オリジナル)

Adversarial attacks are widely used to evaluate model robustness, and in black-box scenarios, the transferability of these attacks becomes crucial. Existing generator-based attacks have excellent generalization and transferability due to their instance-agnostic nature. However, when training generators for multi-target tasks, the success rate of transfer attacks is relatively low due to the limitations of the model’s capacity. To address these challenges, we propose a novel Dual-Flow framework for multi-target instance-agnostic adversarial attacks, utilizing Cascading Distribution Shift Training to develop an adversarial velocity function. Extensive experiments demonstrate that Dual-Flow significantly improves transferability over previous multi-target generative attacks. For example, it increases the success rate from Inception-v3 to ResNet-152 by 34.58%. Furthermore, our attack method shows substantially stronger robustness against defense mechanisms, such as adversarially trained models.

arxiv情報

著者 Yixiao Chen,Shikun Sun,Jianshu Li,Ruoyu Li,Zhe Li,Junliang Xing
発行日 2025-02-05 13:38:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Dual-Flow: Transferable Multi-Target, Instance-Agnostic Attacks via In-the-wild Cascading Flow Optimization はコメントを受け付けていません

MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding

要約

最新のビデオ大規模な言語モデル(VLLM)は、ビデオ理解のために均一なフレームサンプリングに依存することがよくありますが、このアプローチは、フレームの冗長性とビデオコンテンツのバリエーションのために重要な情報をキャプチャできないことがよくあります。
Maxinfoは、入力ビデオから最も代表的なフレームを選択および保持する最大体積原理に基づいたトレーニングなしの方法です。
選択された埋め込みによって形成される幾何学容量を最大化することにより、Maxinfoは、選択されたフレームが埋め込みスペースの最も有益な領域をカバーし、多様性を維持しながら冗長性を効果的に削減することを保証します。
この方法は、入力表現の品質を向上させ、ベンチマーク全体で長いビデオ理解のパフォーマンスを向上させます。
たとえば、MaxinfoはLlava-Video-7BのLongideobenchの3.28%の改善と6.4%のEgoschemaの改善を達成しています。
また、Llava-Video-72bの3.47%の改善も達成されます。
このアプローチは、実装が簡単で、追加のトレーニングを必要とせずに既存のVLLMを使用して動作するため、従来の均一なサンプリング方法に代わる実用的で効果的な代替手段になります。

要約(オリジナル)

Modern Video Large Language Models (VLLMs) often rely on uniform frame sampling for video understanding, but this approach frequently fails to capture critical information due to frame redundancy and variations in video content. We propose MaxInfo, a training-free method based on the maximum volume principle, which selects and retains the most representative frames from the input video. By maximizing the geometric volume formed by selected embeddings, MaxInfo ensures that the chosen frames cover the most informative regions of the embedding space, effectively reducing redundancy while preserving diversity. This method enhances the quality of input representations and improves long video comprehension performance across benchmarks. For instance, MaxInfo achieves a 3.28% improvement on LongVideoBench and a 6.4% improvement on EgoSchema for LLaVA-Video-7B. It also achieves a 3.47% improvement for LLaVA-Video-72B. The approach is simple to implement and works with existing VLLMs without the need for additional training, making it a practical and effective alternative to traditional uniform sampling methods.

arxiv情報

著者 Pengyi Li,Irina Abdullaeva,Alexander Gambashidze,Andrey Kuznetsov,Ivan Oseledets
発行日 2025-02-05 13:57:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | MaxInfo: A Training-Free Key-Frame Selection Method Using Maximum Volume for Enhanced Video Understanding はコメントを受け付けていません

IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation

要約

RPG、安定した拡散3、フラックスなどの高度な拡散モデルは、構成テキストから画像の生成において顕著な進歩を遂げました。
ただし、これらの方法は通常、組成の生成に対して明確な強度を示し、属性結合の取り扱いに優れているものと、空間的な関係にあるものもあります。
この格差は、さまざまなモデルの補完的な強さを活用して、構成能力を包括的に改善できるアプローチの必要性を強調しています。
この目的のために、複数のモデルから構成を意識したモデルの好みを集約し、組成の生成を強化するための反復フィードバック学習アプローチを採用する新しいフレームワークであるIterCompを紹介します。
具体的には、6つの強力なオープンソース拡散モデルのギャラリーをキュレートし、3つの重要な構成メトリックを評価します。属性結合、空間関係、および非空間関係です。
これらのメトリックに基づいて、構成認識モデルを訓練するための多数の画像ランクペアで構成される構成モデル優先データセットを開発します。
次に、閉ループの方法で構成性を強化するための反復フィードバック学習方法を提案し、複数の反復にわたってベース拡散モデルと報酬モデルの両方の進行性の自己修復を可能にします。
理論的証明は、特にマルチカテゴリオブジェクトの構成と複雑なセマンティックアライメントにおいて、有効性と広範な実験が以前のSOTAメソッド(例:OMOSTおよびフラックス)よりも重要な優位性を示しています。
ITERCOMPは、拡散モデルと組成生成のための報酬フィードバック学習の新しい研究手段を開きます。
コード:https://github.com/yangling0818/itercomp

要約(オリジナル)

Advanced diffusion models like RPG, Stable Diffusion 3 and FLUX have made notable strides in compositional text-to-image generation. However, these methods typically exhibit distinct strengths for compositional generation, with some excelling in handling attribute binding and others in spatial relationships. This disparity highlights the need for an approach that can leverage the complementary strengths of various models to comprehensively improve the composition capability. To this end, we introduce IterComp, a novel framework that aggregates composition-aware model preferences from multiple models and employs an iterative feedback learning approach to enhance compositional generation. Specifically, we curate a gallery of six powerful open-source diffusion models and evaluate their three key compositional metrics: attribute binding, spatial relationships, and non-spatial relationships. Based on these metrics, we develop a composition-aware model preference dataset comprising numerous image-rank pairs to train composition-aware reward models. Then, we propose an iterative feedback learning method to enhance compositionality in a closed-loop manner, enabling the progressive self-refinement of both the base diffusion model and reward models over multiple iterations. Theoretical proof demonstrates the effectiveness and extensive experiments show our significant superiority over previous SOTA methods (e.g., Omost and FLUX), particularly in multi-category object composition and complex semantic alignment. IterComp opens new research avenues in reward feedback learning for diffusion models and compositional generation. Code: https://github.com/YangLing0818/IterComp

arxiv情報

著者 Xinchen Zhang,Ling Yang,Guohao Li,Yaqi Cai,Jiake Xie,Yong Tang,Yujiu Yang,Mengdi Wang,Bin Cui
発行日 2025-02-05 14:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation はコメントを受け付けていません

LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence

要約

最近の具体化されたエージェントは、主に強化学習(RL)または大手言語モデル(LLM)に基づいて構築されています。
その中でも、RLエージェントは展開に効率的ですが、タスクはほとんど実行されません。
対照的に、巨大なLLMエージェント(多くの場合、1000B以上のパラメーター)は、膨大なコンピューティングリソースを要求しながら、強力な一般化を提示します。
この作業では、開発された大規模な自動回帰モデル(LARM)で提案された審判RLを実施することにより、それらの利点を和らぎながら欠点を避けます。
具体的には、LARMは軽量LLM(5B未満のパラメーター)の上に構築されており、テキストではなく実行する次のアクションを直接出力します。
長老様式の具体化された探査で古典的なRLフィードバックが消滅し、トレーニング中にこの報酬の消失を処理するために巨大なLLMベースの審判を導入することを数学的に明らかにします。
このようにして、Larmは、人間の介入なしに多様なオープンワールドタスクを完了することを学びます。
特に、LARMはMinecraftの魅惑的なダイヤモンド機器を正常に収穫します。これは、以前の最良の方法の最高の成果よりもかなり長い意思決定チェーンを必要とします。

要約(オリジナル)

Recent embodied agents are primarily built based on reinforcement learning (RL) or large language models (LLMs). Among them, RL agents are efficient for deployment but only perform very few tasks. By contrast, giant LLM agents (often more than 1000B parameters) present strong generalization while demanding enormous computing resources. In this work, we combine their advantages while avoiding the drawbacks by conducting the proposed referee RL on our developed large auto-regressive model (LARM). Specifically, LARM is built upon a lightweight LLM (fewer than 5B parameters) and directly outputs the next action to execute rather than text. We mathematically reveal that classic RL feedbacks vanish in long-horizon embodied exploration and introduce a giant LLM based referee to handle this reward vanishment during training LARM. In this way, LARM learns to complete diverse open-world tasks without human intervention. Especially, LARM successfully harvests enchanted diamond equipment in Minecraft, which demands significantly longer decision-making chains than the highest achievements of prior best methods.

arxiv情報

著者 Zhuoling Li,Xiaogang Xu,Zhenhua Xu,SerNam Lim,Hengshuang Zhao
発行日 2025-02-05 14:06:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence はコメントを受け付けていません

MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent

要約

MotionAgentを提案し、テキスト誘導画像からビデオへの生成のための細粒モーション制御を可能にします。
重要な手法は、テキストのモーション情報を明示的なモーションフィールドに変換するモーションフィールドエージェントであり、柔軟で正確なモーションガイダンスを提供します。
具体的には、エージェントは、テキストで説明されているオブジェクトの動きとカメラの動きを抽出し、それぞれオブジェクトの軌跡とカメラ外部に変換します。
分析的光学流量構成モジュールは、これらのモーション表現を3D空間に統合し、それらを統一された光流量に投影します。
オプティカルフローアダプターは、細粒の制御ビデオを生成するためのベース画像間拡散モデルを制御するためのフローを使用します。
Vbenchのビデオテキストカメラモーションメトリックの大幅な改善は、私たちの方法がカメラのモーションを正確に制御することを達成していることを示しています。
Vbenchのサブセットを構築して、テキスト内のモーション情報のアラインメントを評価し、生成されたビデオを評価し、モーション生成の精度に関する他の高度なモデルを上回ります。

要約(オリジナル)

We propose MotionAgent, enabling fine-grained motion control for text-guided image-to-video generation. The key technique is the motion field agent that converts motion information in text prompts into explicit motion fields, providing flexible and precise motion guidance. Specifically, the agent extracts the object movement and camera motion described in the text and converts them into object trajectories and camera extrinsics, respectively. An analytical optical flow composition module integrates these motion representations in 3D space and projects them into a unified optical flow. An optical flow adapter takes the flow to control the base image-to-video diffusion model for generating fine-grained controlled videos. The significant improvement in the Video-Text Camera Motion metrics on VBench indicates that our method achieves precise control over camera motion. We construct a subset of VBench to evaluate the alignment of motion information in the text and the generated video, outperforming other advanced models on motion generation accuracy.

arxiv情報

著者 Xinyao Liao,Xianfang Zeng,Liao Wang,Gang Yu,Guosheng Lin,Chi Zhang
発行日 2025-02-05 14:26:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MotionAgent: Fine-grained Controllable Video Generation via Motion Field Agent はコメントを受け付けていません