WeedsGalore: A Multispectral and Multitemporal UAV-based Dataset for Crop and Weed Segmentation in Agricultural Maize Fields

要約

雑草は、収穫量の損失の主な理由の1つですが、現在の除草習慣は効率的かつ標的にされた方法で雑草を管理できません。
効果的な雑草管理は、トウモロコシなどの世界的な生産量が多い作物の作物にとって特に重要です。
ほぼセンシングとコンピュータービジョンの進歩により、雑草管理のための新しいツールの開発が可能になります。
具体的には、新しいセンシングテクノロジーと相まって、最先端のセグメンテーションモデルは、タイムリーで正確な除草および監視システムを促進できます。
ただし、学習ベースのアプローチには注釈付きデータが必要であり、さまざまな作物の航空画像への一般化の欠如を示しています。
農業トウモロコシ畑の作物と雑草のセマンティックとインスタンスのセグメンテーションのための新しいデータセットを提示します。
マルチスペクトルUAVベースのデータセットには、RGB、レッドエッジ、および近赤外帯、多数の植物インスタンス、トウモロコシの密な注釈、4つの雑草クラスを備えた画像が含まれており、多面的です。
予測の不確実性を定量化し、モデルのキャリブレーションを改善し、分散除外データへのアプローチの適用性を実証するための確率的方法を含む、両方のタスクに広範なベースライン結果を提供します。
結果は、RGBのみと比較して2つの追加バンドの有効性を示し、既存のデータセットでトレーニングされたモデルよりもターゲットドメインでのパフォーマンスが向上しています。
私たちのデータセットが、細粒の雑草識別のための方法と運用システムに関する研究を進め、UAVベースの雑草管理の堅牢性と適用性を高めることを願っています。
データセットとコードは、https://github.com/gfz/weedsgaloreで入手できます

要約(オリジナル)

Weeds are one of the major reasons for crop yield loss but current weeding practices fail to manage weeds in an efficient and targeted manner. Effective weed management is especially important for crops with high worldwide production such as maize, to maximize crop yield for meeting increasing global demands. Advances in near-sensing and computer vision enable the development of new tools for weed management. Specifically, state-of-the-art segmentation models, coupled with novel sensing technologies, can facilitate timely and accurate weeding and monitoring systems. However, learning-based approaches require annotated data and show a lack of generalization to aerial imaging for different crops. We present a novel dataset for semantic and instance segmentation of crops and weeds in agricultural maize fields. The multispectral UAV-based dataset contains images with RGB, red-edge, and near-infrared bands, a large number of plant instances, dense annotations for maize and four weed classes, and is multitemporal. We provide extensive baseline results for both tasks, including probabilistic methods to quantify prediction uncertainty, improve model calibration, and demonstrate the approach’s applicability to out-of-distribution data. The results show the effectiveness of the two additional bands compared to RGB only, and better performance in our target domain than models trained on existing datasets. We hope our dataset advances research on methods and operational systems for fine-grained weed identification, enhancing the robustness and applicability of UAV-based weed management. The dataset and code are available at https://github.com/GFZ/weedsgalore

arxiv情報

著者 Ekin Celikkan,Timo Kunzmann,Yertay Yeskaliyev,Sibylle Itzerott,Nadja Klein,Martin Herold
発行日 2025-02-18 18:13:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | WeedsGalore: A Multispectral and Multitemporal UAV-based Dataset for Crop and Weed Segmentation in Agricultural Maize Fields はコメントを受け付けていません

STAR: Scale-wise Text-conditioned AutoRegressive image generation

要約

スケールごとの自動回帰パラダイムを使用するテキストから画像モデルであるStarを紹介します。
最大256 $ \ Times $ 256の画像のクラス条件付き合成に制約されているVARとは異なり、スターは、3つの重要なデザインで1024 $ \ Times $ 1024までのテキスト駆動型の画像生成を有効にします。
まず、事前に訓練されたテキストエンコーダーを導入して、テキストの制約のために表現を抽出および採用し、詳細と一般化を強化します。
第二に、異なるスケールにわたって固有の構造相関を考えると、2Dロータリー位置エンコード(ロープ)を活用して正規化されたバージョンに調整し、トークンマップ全体の相対位置の一貫した解釈を確保し、トレーニングプロセスを安定させます。
第三に、単一のスケール内のすべてのトークンを同時にサンプリングすると、特に高解像度の世代では、構造的不安定性につながる可能性があることがわかります。
これに対処するために、因果関係をサンプリングプロセスに組み込んだ新しい安定したサンプリング方法を提案し、豊富な詳細と安定した構造の両方を確保します。
以前の拡散モデルや自動回帰モデルと比較して、星は忠実度、テキストイメージの一貫性、美的品質の既存のベンチマークを上回り、A100で1024 $ \ Times $ 1024画像でわずか2.21秒を必要とします。
これは、高品質の画像合成における自己回帰方法の可能性を強調し、テキストから画像の生成のための新しい方向を提供します。

要約(オリジナル)

We introduce STAR, a text-to-image model that employs a scale-wise auto-regressive paradigm. Unlike VAR, which is constrained to class-conditioned synthesis for images up to 256$\times$256, STAR enables text-driven image generation up to 1024$\times$1024 through three key designs. First, we introduce a pre-trained text encoder to extract and adopt representations for textual constraints, enhancing details and generalizability. Second, given the inherent structural correlation across different scales, we leverage 2D Rotary Positional Encoding (RoPE) and tweak it into a normalized version, ensuring consistent interpretation of relative positions across token maps and stabilizing the training process. Third, we observe that simultaneously sampling all tokens within a single scale can disrupt inter-token relationships, leading to structural instability, particularly in high-resolution generation. To address this, we propose a novel stable sampling method that incorporates causal relationships into the sampling process, ensuring both rich details and stable structures. Compared to previous diffusion models and auto-regressive models, STAR surpasses existing benchmarks in fidelity, text-image consistency, and aesthetic quality, requiring just 2.21s for 1024$\times$1024 images on A100. This highlights the potential of auto-regressive methods in high-quality image synthesis, offering new directions for the text-to-image generation.

arxiv情報

著者 Xiaoxiao Ma,Mohan Zhou,Tao Liang,Yalong Bai,Tiejun Zhao,Biye Li,Huaian Chen,Yi Jin
発行日 2025-02-18 18:52:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | STAR: Scale-wise Text-conditioned AutoRegressive image generation はコメントを受け付けていません

Is Noise Conditioning Necessary for Denoising Generative Models?

要約

ノイズコンディショニングは、拡散モデルを除去するには不可欠であると広く信じられています。
この仕事はこの信念に挑戦します。
盲目のイメージ除去に関する研究に動機付けられ、ノイズコンディショニングがない場合に、さまざまな除去ベースの生成モデルを調査します。
驚いたことに、ほとんどのモデルは優雅な劣化を示し、場合によっては、ノイズコンディショニングなしでさらにパフォーマンスを発揮します。
ノイズコンディショニングを削除することによって引き起こされるエラーの理論的分析を提供し、分析が経験的観察と一致することを示します。
さらに、CIFAR-10で2.23の競争力のあるFIDを達成するノイズ非条件モデルを導入し、主要なノイズコンディショナルモデルへのギャップを大幅に絞り込みます。
私たちの調査結果が、生成モデルの除去の基礎と定式化を再訪するようコミュニティに刺激を与えることを願っています。

要約(オリジナル)

It is widely believed that noise conditioning is indispensable for denoising diffusion models to work successfully. This work challenges this belief. Motivated by research on blind image denoising, we investigate a variety of denoising-based generative models in the absence of noise conditioning. To our surprise, most models exhibit graceful degradation, and in some cases, they even perform better without noise conditioning. We provide a theoretical analysis of the error caused by removing noise conditioning and demonstrate that our analysis aligns with empirical observations. We further introduce a noise-unconditional model that achieves a competitive FID of 2.23 on CIFAR-10, significantly narrowing the gap to leading noise-conditional models. We hope our findings will inspire the community to revisit the foundations and formulations of denoising generative models.

arxiv情報

著者 Qiao Sun,Zhicheng Jiang,Hanhong Zhao,Kaiming He
発行日 2025-02-18 18:53:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Is Noise Conditioning Necessary for Denoising Generative Models? はコメントを受け付けていません

Magma: A Foundation Model for Multimodal AI Agents

要約

マグマは、デジタルワールドと物理世界の両方でマルチモーダルAIエージェントタスクを提供する基礎モデルです。
マグマは、後者のVL理解能力(言語知能)を保持するだけでなく、視覚空間の世界で計画し行動する能力も装備されているという点で、ビジョン言語(VL)モデルの重要な拡張です(空間)
-porlal Intelligence)およびUIナビゲーションからロボット操作に至るまでの完全なエージェントタスク。
エージェント機能に授与するために、マグマは画像、ビデオからロボット工学データにまたがる大量の不均一なデータセットで事前に処理されます。ここでは、画像の実用的な視覚オブジェクト(たとえば、GUIのクリック可能なボタン)にセットマーク(SOM)がラベル付けされています。
動画のアクションの接地とオブジェクトの動き(たとえば、人間の手やロボットアームの痕跡など)の場合、Trace-of-Mark(TOM)がラベル付けされています。
アクションプランニング。
広範な実験では、SOMとTOMが大きな相乗効果に到達し、図1に示すように広範囲のタスクの基本であるMAGMAモデルの空間的知能の獲得を促進することが示されています。
特に、Magmaは、これらのタスクに合わせて特別に調整された以前のモデルを上回るUIナビゲーションおよびロボット操作タスクに新しい最先端の結果を作成します。
画像関連のマルチモーダルタスクでは、マグマは、はるかに大きなデータセットでトレーニングされている一般的な大規模なマルチモーダルモデルとも好ましいものです。
https://microsoft.github.io/magmaで再現性のためにモデルとコードを公開します。

要約(オリジナル)

We present Magma, a foundation model that serves multimodal AI agentic tasks in both the digital and physical worlds. Magma is a significant extension of vision-language (VL) models in that it not only retains the VL understanding ability (verbal intelligence) of the latter, but is also equipped with the ability to plan and act in the visual-spatial world (spatial-temporal intelligence) and complete agentic tasks ranging from UI navigation to robot manipulation. To endow the agentic capabilities, Magma is pretrained on large amounts of heterogeneous datasets spanning from images, videos to robotics data, where the actionable visual objects (e.g., clickable buttons in GUI) in images are labeled by Set-of-Mark (SoM) for action grounding, and the object movements (e.g., the trace of human hands or robotic arms) in videos are labeled by Trace-of-Mark (ToM) for action planning. Extensive experiments show that SoM and ToM reach great synergy and facilitate the acquisition of spatial-temporal intelligence for our Magma model, which is fundamental to a wide range of tasks as shown in Fig.1. In particular, Magma creates new state-of-the-art results on UI navigation and robotic manipulation tasks, outperforming previous models that are specifically tailored to these tasks. On image and video-related multimodal tasks, Magma also compares favorably to popular large multimodal models that are trained on much larger datasets. We make our model and code public for reproducibility at https://microsoft.github.io/Magma.

arxiv情報

著者 Jianwei Yang,Reuben Tan,Qianhui Wu,Ruijie Zheng,Baolin Peng,Yongyuan Liang,Yu Gu,Mu Cai,Seonghyeon Ye,Joel Jang,Yuquan Deng,Lars Liden,Jianfeng Gao
発行日 2025-02-18 18:55:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, cs.LG, cs.RO | Magma: A Foundation Model for Multimodal AI Agents はコメントを受け付けていません

AV-Flow: Transforming Text to Audio-Visual Human-like Interactions

要約

テキスト入力のみが与えられた写真と現実的な4Dトーキングアバターをアニメーション化するオーディオビジュアル生成モデルであるAV-Flowを紹介します。
既存の音声信号を想定している以前の作業とは対照的に、音声とビジョンを共同で合成します。
人間のような音声統合、同期された唇の動き、活気のある表情、ヘッドポーズを示します。
すべてテキスト文字から生成されます。
私たちのアプローチの核となる前提は、2つの並列拡散変圧器のアーキテクチャにあります。
中間高速道路接続により、オーディオと視覚のモダリティとの間の通信が保証され、したがって、同期した音声イントネーションと顔のダイナミクス(眉の動きなど)が同期されます。
私たちのモデルは、フローマッチングでトレーニングされており、表現結果と迅速な推論につながります。
ダイアディックな会話の場合、AV-Flowは、ユーザーの視聴覚入力を積極的に聴き、反応する常にオンになっているアバターを生成します。
広範な実験を通じて、私たちの方法は、自然に見える4D話のアバターを統合して、以前の作業よりも優れていることを示しています。
プロジェクトページ:https://aggelinacha.github.io/av-flow/

要約(オリジナル)

We introduce AV-Flow, an audio-visual generative model that animates photo-realistic 4D talking avatars given only text input. In contrast to prior work that assumes an existing speech signal, we synthesize speech and vision jointly. We demonstrate human-like speech synthesis, synchronized lip motion, lively facial expressions and head pose; all generated from just text characters. The core premise of our approach lies in the architecture of our two parallel diffusion transformers. Intermediate highway connections ensure communication between the audio and visual modalities, and thus, synchronized speech intonation and facial dynamics (e.g., eyebrow motion). Our model is trained with flow matching, leading to expressive results and fast inference. In case of dyadic conversations, AV-Flow produces an always-on avatar, that actively listens and reacts to the audio-visual input of a user. Through extensive experiments, we show that our method outperforms prior work, synthesizing natural-looking 4D talking avatars. Project page: https://aggelinacha.github.io/AV-Flow/

arxiv情報

著者 Aggelina Chatziagapi,Louis-Philippe Morency,Hongyu Gong,Michael Zollhoefer,Dimitris Samaras,Alexander Richard
発行日 2025-02-18 18:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | AV-Flow: Transforming Text to Audio-Visual Human-like Interactions はコメントを受け付けていません

SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

要約

空間インテリジェンスは、具体化されたAIの重要なコンポーネントであり、ロボットが環境を理解し、相互作用するよう促進します。
最近の進歩により、VLMがオブジェクトの位置と位置関係を知覚する能力が向上しましたが、オブジェクトの方向を正確に理解する能力はまだ不足しています。
この制限に対処するには、幾何学的な推論だけでなく、オリエンテーションを表現する表現力豊かで直感的な方法も必要です。
これに関連して、自然言語は標準的なフレームよりも柔軟な表現スペースを提供し、指導に従うロボットシステムに特に適していることを提案します。
この論文では、セマンティックオリエンテーションの概念を紹介します。これは、自然言語を使用してリファレンスフレームフリーの方法でオブジェクトの向きを定義します(例えば、USBまたは「ハンドル」方向の「「プラグイン」の方向」
ナイフの)。
これをサポートするために、Orientext300Kを構築します。これは、幾何学的理解を機能的なセマンティクスにリンクするセマンティックオリエンテーションが注釈された3Dモデルの大規模なデータセットです。
セマンティックオリエンテーションをVLMシステムに統合することにより、ロボットが位置的制約と方向的な制約の両方で操作アクションを生成できるようにします。
シミュレーションと現実の世界での広範な実験は、このアプローチがロボット操作機能、たとえばOpen6Dorの48.7%の精度、74.9%の精度をよりシンプルで大幅に向上させることを示しています。

要約(オリジナル)

Spatial intelligence is a critical component of embodied AI, promoting robots to understand and interact with their environments. While recent advances have enhanced the ability of VLMs to perceive object locations and positional relationships, they still lack the capability to precisely understand object orientations-a key requirement for tasks involving fine-grained manipulations. Addressing this limitation not only requires geometric reasoning but also an expressive and intuitive way to represent orientation. In this context, we propose that natural language offers a more flexible representation space than canonical frames, making it particularly suitable for instruction-following robotic systems. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the ”plug-in” direction of a USB or the ”handle” direction of a knife). To support this, we construct OrienText300K, a large-scale dataset of 3D models annotated with semantic orientations that link geometric understanding to functional semantics. By integrating semantic orientation into a VLM system, we enable robots to generate manipulation actions with both positional and orientational constraints. Extensive experiments in simulation and real world demonstrate that our approach significantly enhances robotic manipulation capabilities, e.g., 48.7% accuracy on Open6DOR and 74.9% accuracy on SIMPLER.

arxiv情報

著者 Zekun Qi,Wenyao Zhang,Yufei Ding,Runpei Dong,Xinqiang Yu,Jingwen Li,Lingyun Xu,Baoyu Li,Xialin He,Guofan Fan,Jiazhao Zhang,Jiawei He,Jiayuan Gu,Xin Jin,Kaisheng Ma,Zhizheng Zhang,He Wang,Li Yi
発行日 2025-02-18 18:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation はコメントを受け付けていません

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

要約

既存のエンドツーエンドの自律運転(AD)アルゴリズムは通常、模倣学習(IL)パラダイムに従います。これは、因果的混乱やオープンループギャップなどの課題に直面しています。
この作業では、3DGSベースの閉ループ補強学習(RL)トレーニングパラダイムを確立します。
3DGSテクニックを活用することにより、実際の物理的世界のフォトリアリックなデジタルレプリカを構築し、ADポリシーが国家空間を広範囲に探索し、大規模な試行とエラーを通じて分散シナリオを処理することを学ぶことができます。
安全性を高めるために、安全性が批判的なイベントに効果的に対応し、現実世界の因果関係を理解するためのポリシーを導く専門の報酬を設計します。
人間の運転行動とのより良い整合のために、ILは正規化項としてRLトレーニングに組み込まれます。
多様で、以前は見えなかった3DGS環境で構成される閉ループ評価ベンチマークを紹介します。
ILベースの方法と比較して、RADはほとんどの閉ループメトリック、特に3倍低い衝突率でより強力なパフォーマンスを達成します。
豊富な閉ループの結果は、https://hgao-cv.github.io/radに表示されます。

要約(オリジナル)

Existing end-to-end autonomous driving (AD) algorithms typically follow the Imitation Learning (IL) paradigm, which faces challenges such as causal confusion and the open-loop gap. In this work, we establish a 3DGS-based closed-loop Reinforcement Learning (RL) training paradigm. By leveraging 3DGS techniques, we construct a photorealistic digital replica of the real physical world, enabling the AD policy to extensively explore the state space and learn to handle out-of-distribution scenarios through large-scale trial and error. To enhance safety, we design specialized rewards that guide the policy to effectively respond to safety-critical events and understand real-world causal relationships. For better alignment with human driving behavior, IL is incorporated into RL training as a regularization term. We introduce a closed-loop evaluation benchmark consisting of diverse, previously unseen 3DGS environments. Compared to IL-based methods, RAD achieves stronger performance in most closed-loop metrics, especially 3x lower collision rate. Abundant closed-loop results are presented at https://hgao-cv.github.io/RAD.

arxiv情報

著者 Hao Gao,Shaoyu Chen,Bo Jiang,Bencheng Liao,Yiang Shi,Xiaoyang Guo,Yuechuan Pu,Haoran Yin,Xiangyu Li,Xinbang Zhang,Ying Zhang,Wenyu Liu,Qian Zhang,Xinggang Wang
発行日 2025-02-18 18:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning はコメントを受け付けていません

Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization

要約

大型ビジョン言語モデル(VLMS)の出現により、視覚的モダリティを統合することにより、シングルモーダルの大手言語モデル(LLM)の範囲と機能が拡大し、さまざまな現実世界のシナリオで変換されるクロスモーダルアプリケーションを解き放ちました。
彼らの印象的なパフォーマンスにもかかわらず、VLMは、特にクロスモーダルの矛盾の形で、重要な幻覚を起こしやすいです。
LLMSの調整における人間のフィードバック(RLHF)からの強化学習の成功に基づいて、最近の進歩は、これらの問題を軽減するために慎重にキュレーションされたデータセットに直接優先最適化(DPO)を適用することに焦点を当てています。
しかし、そのようなアプローチは通常、視覚式信号をブルートフォースで導入し、アラインメントプロセスにおける視覚情報の重要な役割を無視します。
このホワイトペーパーでは、画像検索を活用してデュアルプレーファレンスデータセットを構築する新しいアライメントフレームワークであるReAlignを紹介し、テキストと視覚の両方の嗜好信号を効果的に組み込んでいます。
さらに、微調整中に追加の視覚選好目標を組み込んだ標準の直接優先最適化の拡張であるRDPOを紹介します。
私たちの実験結果は、再調整が以前の方法よりも効果的に幻覚を軽減するだけでなく、一般的な視覚的質問(VQA)タスクで大幅なパフォーマンスの向上をもたらすことを示しています。
さらに、幅広いVLMサイズとアーキテクチャにわたって再整合が堅牢性とスケーラビリティを維持することを示します。
この作業は、マルチモーダルLLMSを調整する際の重要な前進を表し、より信頼性が高く効果的なクロスモーダルアプリケーションへの道を開きます。
すべてのコードをhttps://github.com/taco-group/re-alignでリリースします。

要約(オリジナル)

The emergence of large Vision Language Models (VLMs) has broadened the scope and capabilities of single-modal Large Language Models (LLMs) by integrating visual modalities, thereby unlocking transformative cross-modal applications in a variety of real-world scenarios. Despite their impressive performance, VLMs are prone to significant hallucinations, particularly in the form of cross-modal inconsistencies. Building on the success of Reinforcement Learning from Human Feedback (RLHF) in aligning LLMs, recent advancements have focused on applying direct preference optimization (DPO) on carefully curated datasets to mitigate these issues. Yet, such approaches typically introduce preference signals in a brute-force manner, neglecting the crucial role of visual information in the alignment process. In this paper, we introduce Re-Align, a novel alignment framework that leverages image retrieval to construct a dual-preference dataset, effectively incorporating both textual and visual preference signals. We further introduce rDPO, an extension of the standard direct preference optimization that incorporates an additional visual preference objective during fine-tuning. Our experimental results demonstrate that Re-Align not only mitigates hallucinations more effectively than previous methods but also yields significant performance gains in general visual question-answering (VQA) tasks. Moreover, we show that Re-Align maintains robustness and scalability across a wide range of VLM sizes and architectures. This work represents a significant step forward in aligning multimodal LLMs, paving the way for more reliable and effective cross-modal applications. We release all the code in https://github.com/taco-group/Re-Align.

arxiv情報

著者 Shuo Xing,Yuping Wang,Peiran Li,Ruizheng Bai,Yueqi Wang,Chengxuan Qian,Huaxiu Yao,Zhengzhong Tu
発行日 2025-02-18 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Re-Align: Aligning Vision Language Models via Retrieval-Augmented Direct Preference Optimization はコメントを受け付けていません

Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

要約

最近のマルチモーダル大手言語モデル(MLLM)は驚くべきパフォーマンスを達成しましたが、2次計算の複雑さ、キー価値のキャッシュ要件の増加、および個別のビジョンエンコーダーへの依存により、展開の課題に直面しています。
中程度のアカデミック計算リソースを使用して、既存のMLLMからの進行性蒸留により、線形複数のネイティブマルチモーダル状態空間モデルを開発するためのフレームワークであるMmmambaを提案します。
当社のアプローチにより、訓練されたデコーダーのみのMLLMを、事前に訓練したRNNベースのLLMまたはビジョンエンコーダーを必要とせずに、線形複雑さアーキテクチャに直接変換することができます。
訓練されたトランスからマンバを彫るための播種戦略と3段階の蒸留レシピを提案します。これにより、マルチモーダル機能を保存しながら、トランスからマンバに知識を効果的に転送できます。
この方法は、カスタマイズ可能な効率パフォーマンスのトレードオフのために、変圧器とMamba層を組み合わせた柔軟なハイブリッドアーキテクチャもサポートしています。
変圧器ベースのデコーダーのみのホーブから蒸留されたMmmamba-Linearは、既存の線形および二次的複雑度VLMに対して競争力のあるパフォーマンスを達成し、Mmmamba-HybridはHovleの能力に近づき、パフォーマンスをさらに大幅に向上させます。
103kトークンでは、Mmmamba-LinearはHovleと比較して20.6 $ \ Times $ speedupと75.8%のGPUメモリ削減を示しますが、Mmmamba-Hybridは13.5 $ \ Times $ speedUpと60.2%のメモリの節約を達成します。
コードとモデルはhttps://github.com/hustvl/mmmambaでリリースされます

要約(オリジナル)

Recent Multimodal Large Language Models (MLLMs) have achieved remarkable performance but face deployment challenges due to their quadratic computational complexity, growing Key-Value cache requirements, and reliance on separate vision encoders. We propose mmMamba, a framework for developing linear-complexity native multimodal state space models through progressive distillation from existing MLLMs using moderate academic computational resources. Our approach enables the direct conversion of trained decoder-only MLLMs to linear-complexity architectures without requiring pre-trained RNN-based LLM or vision encoders. We propose an seeding strategy to carve Mamba from trained Transformer and a three-stage distillation recipe, which can effectively transfer the knowledge from Transformer to Mamba while preserving multimodal capabilities. Our method also supports flexible hybrid architectures that combine Transformer and Mamba layers for customizable efficiency-performance trade-offs. Distilled from the Transformer-based decoder-only HoVLE, mmMamba-linear achieves competitive performance against existing linear and quadratic-complexity VLMs, while mmMamba-hybrid further improves performance significantly, approaching HoVLE’s capabilities. At 103K tokens, mmMamba-linear demonstrates 20.6$\times$ speedup and 75.8% GPU memory reduction compared to HoVLE, while mmMamba-hybrid achieves 13.5$\times$ speedup and 60.2% memory savings. Code and models are released at https://github.com/hustvl/mmMamba

arxiv情報

著者 Bencheng Liao,Hongyuan Tao,Qian Zhang,Tianheng Cheng,Yingyue Li,Haoran Yin,Wenyu Liu,Xinggang Wang
発行日 2025-02-18 18:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation はコメントを受け付けていません

Scaling Test-Time Compute Without Verification or RL is Suboptimal

要約

テスト時間計算のスケーリングに大きな進歩にもかかわらず、コミュニティで継続的な議論は、スケーリングにより継続的かつ効率的な改善を可能にするために拡大する方法です。
主に2つのアプローチがあります。まず、成功した検索または思考の痕跡を蒸留することです。
第二に、強化学習(RL)と検索アルゴリズムを導くために、検証(0/1結果の報酬、報酬モデル、または検証剤)を使用します。
この論文では、RLまたは検索に基づいた検証剤ベースの(VB)メソッドを使用したFinetuning LLMSが、固定額のコンピューティング/データ予算を考慮して、検索トレースの蒸留またはクローニングに基づいた検証剤フリー(VF)アプローチよりもはるかに優れていることを証明します。

さらに、テスト時間計算(出力トークンの長さとして測定)とトレーニングデータをスケーリングする際に、ベースの事前訓練を受けたLLMが正しい溶液トレースよりも不均一な分布を提示する場合、VFメソッドのサブオプティマリティはVBと比較して不十分であることを示します(例えば
、異なる長さ、スタイルなど)、およびそれからサンプリングされたトレースの報酬よりも非鋭い分布を認めます。
抗濃縮[erd \ h {o} s、1945]を使用してこの状態を正式にします。
これは、VBメソッドがより漸近的にスケールし、VBとVFメソッドのパフォーマンスギャップがテスト時間の予算が増加するにつれて拡大するという強い結果を意味します。
3/8/32Bサイズの事前訓練を受けたLLMの教訓的および数学推論の両方の問題について、理論を実証的に裏付けています。テスト時間計算のスケーリングには検証が重要であることがわかります。

要約(オリジナル)

Despite substantial advances in scaling test-time compute, an ongoing debate in the community is how it should be scaled up to enable continued and efficient improvements with scaling. There are largely two approaches: first, distilling successful search or thinking traces; and second, using verification (e.g., 0/1 outcome rewards, reward models, or verifiers) to guide reinforcement learning (RL) and search algorithms. In this paper, we prove that finetuning LLMs with verifier-based (VB) methods based on RL or search is far superior to verifier-free (VF) approaches based on distilling or cloning search traces, given a fixed amount of compute/data budget. Further, we show that as we scale test-time compute (measured as the output token length) and training data, suboptimality of VF methods scales poorly compared to VB when the base pre-trained LLM presents a heterogeneous distribution over correct solution traces (e.g., different lengths, styles, etc.) and admits a non-sharp distribution over rewards on traces sampled from it. We formalize this condition using anti-concentration [Erd\H{o}s, 1945]. This implies a stronger result that VB methods scale better asymptotically, with the performance gap between VB and VF methods widening as test-time budget grows. We corroborate our theory empirically on both didactic and math reasoning problems with 3/8/32B-sized pre-trained LLMs, where we find verification is crucial for scaling test-time compute.

arxiv情報

著者 Amrith Setlur,Nived Rajaraman,Sergey Levine,Aviral Kumar
発行日 2025-02-18 18:54:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Scaling Test-Time Compute Without Verification or RL is Suboptimal はコメントを受け付けていません