How Animals Dance (When You’re Not Looking)

要約

音楽を同期し、振り付け認識アニマルダンスビデオを生成するためのキーフレームベースのフレームワークを紹介します。
テキストからイメージへのプロンプトまたはGPT-4Oを介して生成される明確な動物のポーズを表すいくつかのキーフレームから始まります。グラフの最適化問題としてダンス合成を策定します。参照ダンスビデオから自動的に推定できるいくつかのビートの振付パターンを満たす最適なキーフレーム構造を見つけます。
また、ダンスの対称性をキャプチャするために不可欠なミラーポーズ画像生成のアプローチを紹介します。
中間フレームは、ビデオ拡散モデルを使用して合成されます。
わずか6つの入力キーフレームを使用すると、幅広い動物や音楽トラックで最大30秒のダンスビデオを作成できます。

要約(オリジナル)

We present a keyframe-based framework for generating music-synchronized, choreography aware animal dance videos. Starting from a few keyframes representing distinct animal poses — generated via text-to-image prompting or GPT-4o — we formulate dance synthesis as a graph optimization problem: find the optimal keyframe structure that satisfies a specified choreography pattern of beats, which can be automatically estimated from a reference dance video. We also introduce an approach for mirrored pose image generation, essential for capturing symmetry in dance. In-between frames are synthesized using an video diffusion model. With as few as six input keyframes, our method can produce up to 30 second dance videos across a wide range of animals and music tracks.

arxiv情報

著者 Xiaojuan Wang,Aleksander Holynski,Brian Curless,Ira Kemelmacher,Steve Seitz
発行日 2025-05-29 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | How Animals Dance (When You’re Not Looking) はコメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

要約

基礎モデルと大規模な言語モデル(LLMS)の急速な進歩は、ミトリモーダル入力データから恩恵を受ける機械学習システムの機能を大幅に改善しました。
ただし、既存のマルチモーダルモデルは、主に事前に訓練されたLLMSの上に構築されており、他のモダリティにわたる時間的依存関係の正確なモデリングを制限することができ、したがってマルチモーダル入力を共同で処理およびレバレッジするモデルの能力を制限します。
LLMスタイル(デコーダーのみの)モデルのテキスト、ビデオ、および音声モダリティの整合性を具体的に調査するために、単純化されたマルチモーダル生成タスク、ビデオテキスト(VTT):対応するテキストと話す人のビデオの両方に条件付けられた音声生成を検討します。
究極の目標は、テキストに従うだけでなく、ビデオと一時的に一致し、表情と一致するスピーチを生成することです。
この論文では、最初に、LLMスタイルのアーキテクチャを採用して視覚、テキスト、および音声入力を共有サブスペースに埋め込み、すべてのモダリティを一時的に整合したトークンストリームとして扱う統一されたマルチモーダルデコーダーのみの変圧器モデルであるVisatronicを最初に紹介します。
次に、さまざまなトークンミキシング戦略を慎重に検討して、ビデオとテキストコンディショニングがオーディオが生成されるステップに入力されるステップから情報を伝播する最良の方法を理解します。
挑戦的なVoxceleB2データセットのビザトロニクスを広範囲に評価し、VoxceleB2で訓練されたVisatronicが4.5%WERで訓練されたLRS3でのみ訓練された以前のSOTAメソッドを上回るLRS3へのゼロショット一般化を実証し、21.4%を報告します。
さらに、生成された音声と参照音声の間の音素レベルの時間的アライメントを測定するように特別に設計された新しい客観的メトリック、Timesyncを提案し、同期の品質をさらに確保します。
デモ:https://apple.github.io/visatronic-demo/

要約(オリジナル)

The rapid progress of foundation models and large language models (LLMs) has fueled significantly improvement in the capabilities of machine learning systems that benefit from mutlimodal input data. However, existing multimodal models are predominantly built on top of pre-trained LLMs, which can limit accurate modeling of temporal dependencies across other modalities and thus limit the model’s ability to jointly process and leverage multimodal inputs. To specifically investigate the alignment of text, video, and speech modalities in LLM-style (decoder-only) models, we consider a simplified multimodal generation task, Video-Text to Speech (VTTS): speech generation conditioned on both its corresponding text and video of talking people. The ultimate goal is to generate speech that not only follows the text but also aligns temporally with the video and is consistent with the facial expressions. In this paper, we first introduce Visatronic, a unified multimodal decoder-only transformer model that adopts an LLM-style architecture to embed visual, textual, and speech inputs into a shared subspace, treating all modalities as temporally aligned token streams. Next, we carefully explore different token mixing strategies to understand the best way to propagate information from the steps where video and text conditioning is input to the steps where the audio is generated. We extensively evaluate Visatronic on the challenging VoxCeleb2 dataset and demonstrate zero-shot generalization to LRS3, where Visatronic, trained on VoxCeleb2, achieves a 4.5% WER, outperforming prior SOTA methods trained only on LRS3, which report a 21.4% WER. Additionally, we propose a new objective metric, TimeSync, specifically designed to measure phoneme-level temporal alignment between generated and reference speech, further ensuring synchronization quality. Demo: https://apple.github.io/visatronic-demo/

arxiv情報

著者 Akshita Gupta,Tatiana Likhomanenko,Karren Dai Yang,Richard He Bai,Zakaria Aldeneh,Navdeep Jaitly
発行日 2025-05-29 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis はコメントを受け付けていません

LayerPeeler: Autoregressive Peeling for Layer-wise Image Vectorization

要約

画像ベクトル化は、ラスター画像をベクターグラフィックスに変換する強力な手法であり、柔軟性とインタラクティブ性の向上を可能にします。
ただし、人気のある画像のベクトル化ツールは、閉塞領域と格闘し、編集可能性を妨げる不完全または断片化された形状を生成します。
最近の進歩により、ルールベースとデータ駆動型のレイヤーごとの画像のベクトル化が検討されていますが、これらの方法は、ベクトル化の品質と柔軟性の制限に直面しています。
このホワイトペーパーでは、進歩的な単純化パラダイムを通じてこれらの課題に対処する新しいレイヤーワイズ画像のベクトル化アプローチであるlayerpeelerを紹介します。
レイヤーピーラーの成功の鍵は、その自己回帰の剥離戦略にあります。基礎となるコンテンツを回復しながら、最上位の非閉鎖層を識別および削除することにより、完全なパスとコヒーレント層構造を持つベクトルグラフィックスを生成します。
私たちの方法は、ビジョン言語モデルを活用して、要素間の閉塞関係をキャプチャするレイヤーグラフを構築し、非閉鎖層の正確な検出と説明を可能にします。
これらの記述キャプションは、識別されたレイヤーを削除するために、微調ューされた画像拡散モデルの編集手順として使用されます。
正確な削除を確保するために、周囲のコンテンツを忠実に保存しながら、ターゲット領域にモデルを正確に導くローカライズされた注意制御を採用しています。
これをサポートするために、レイヤーピーリングタスク用に特別に設計された大規模なデータセットを提供します。
広範な定量的および定性的実験は、層状係が既存の手法を大幅に上回り、優れた経路セマンティクス、幾何学的規則性、視覚的忠実度を備えたベクトル化結果を生成することを示しています。

要約(オリジナル)

Image vectorization is a powerful technique that converts raster images into vector graphics, enabling enhanced flexibility and interactivity. However, popular image vectorization tools struggle with occluded regions, producing incomplete or fragmented shapes that hinder editability. While recent advancements have explored rule-based and data-driven layer-wise image vectorization, these methods face limitations in vectorization quality and flexibility. In this paper, we introduce LayerPeeler, a novel layer-wise image vectorization approach that addresses these challenges through a progressive simplification paradigm. The key to LayerPeeler’s success lies in its autoregressive peeling strategy: by identifying and removing the topmost non-occluded layers while recovering underlying content, we generate vector graphics with complete paths and coherent layer structures. Our method leverages vision-language models to construct a layer graph that captures occlusion relationships among elements, enabling precise detection and description for non-occluded layers. These descriptive captions are used as editing instructions for a finetuned image diffusion model to remove the identified layers. To ensure accurate removal, we employ localized attention control that precisely guides the model to target regions while faithfully preserving the surrounding content. To support this, we contribute a large-scale dataset specifically designed for layer peeling tasks. Extensive quantitative and qualitative experiments demonstrate that LayerPeeler significantly outperforms existing techniques, producing vectorization results with superior path semantics, geometric regularity, and visual fidelity.

arxiv情報

著者 Ronghuan Wu,Wanchao Su,Jing Liao
発行日 2025-05-29 17:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | LayerPeeler: Autoregressive Peeling for Layer-wise Image Vectorization はコメントを受け付けていません

MAGREF: Masked Guidance for Any-Reference Video Generation

要約

ビデオ生成は、深い生成モデル、特に拡散ベースのアプローチの出現に大きな進歩を遂げました。
ただし、複数の参照科目に基づくビデオ生成は、マルチサブジェクトの一貫性を維持し、高生成品質を確保する上で依然として重要な課題に直面しています。
この論文では、多様な参照画像とテキストプロンプトに条件付けられたコヒーレントマルチサブジェクトビデオ合成を可能にするマスクされたガイダンスを導入する、あらゆる参照ビデオ生成の統一されたフレームワークであるMagrefを提案します。
具体的には、(1)単一のモデルがアーキテクチャの変化なしに、人間、オブジェクト、背景を含むさまざまな主題推論を柔軟に処理できるようにする地域を意識した動的マスキングメカニズムを提案します。
私たちのモデルは、最先端のビデオ生成品質を提供し、単一のサブジェクトトレーニングから複雑なマルチサブジェクトシナリオに一般化し、コヒーレントな統合と個々の被験者を正確に制御し、既存のオープンソースと商業ベースラインを上回ります。
評価を容易にするために、包括的なマルチサブジェクトビデオベンチマークも紹介します。
広範な実験は、私たちのアプローチの有効性を実証し、スケーラブル、制御可能、高忠実度の多面的なマルチサブジェクトビデオ統合への道を開いています。
コードとモデルは、https://github.com/magref-video/magrefにあります

要約(オリジナル)

Video generation has made substantial strides with the emergence of deep generative models, especially diffusion-based approaches. However, video generation based on multiple reference subjects still faces significant challenges in maintaining multi-subject consistency and ensuring high generation quality. In this paper, we propose MAGREF, a unified framework for any-reference video generation that introduces masked guidance to enable coherent multi-subject video synthesis conditioned on diverse reference images and a textual prompt. Specifically, we propose (1) a region-aware dynamic masking mechanism that enables a single model to flexibly handle various subject inference, including humans, objects, and backgrounds, without architectural changes, and (2) a pixel-wise channel concatenation mechanism that operates on the channel dimension to better preserve appearance features. Our model delivers state-of-the-art video generation quality, generalizing from single-subject training to complex multi-subject scenarios with coherent synthesis and precise control over individual subjects, outperforming existing open-source and commercial baselines. To facilitate evaluation, we also introduce a comprehensive multi-subject video benchmark. Extensive experiments demonstrate the effectiveness of our approach, paving the way for scalable, controllable, and high-fidelity multi-subject video synthesis. Code and model can be found at: https://github.com/MAGREF-Video/MAGREF

arxiv情報

著者 Yufan Deng,Xun Guo,Yuanyang Yin,Jacob Zhiyuan Fang,Yiding Yang,Yizhi Wang,Shenghai Yuan,Angtian Wang,Bo Liu,Haibin Huang,Chongyang Ma
発行日 2025-05-29 17:58:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | MAGREF: Masked Guidance for Any-Reference Video Generation はコメントを受け付けていません

DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP

要約

極端な低光環境での高品質の写真は挑戦的ですが、デジタルカメラには影響力があります。
高度なコンピューティングハードウェアを使用すると、従来のカメラ画像信号プロセッサ(ISP)アルゴリズムが、騒々しい生の画像をよりインテリジェントに強化する効率的なディープネットワークに徐々に置き換えられています。
ただし、既存の回帰ベースのモデルは、多くの場合、ピクセルエラーを最小限に抑え、低光の写真や深い影の滑走をもたらします。
最近の作業は、拡散モデルをゼロからトレーニングすることにより、この制限に対処しようとしましたが、これらのモデルは依然としてシャープな画像の詳細と正確な色を回復するのに苦労しています。
カメラISPを使用して事前に訓練された生成拡散モデルを返済することにより、低光の生の画像を強化するための新しいフレームワークを紹介します。
広範な実験は、私たちの方法が、3つの挑戦的な低光の生の画像ベンチマークにわたって、知覚品質の最先端を上回ることを示しています。

要約(オリジナル)

High-quality photography in extreme low-light conditions is challenging but impactful for digital cameras. With advanced computing hardware, traditional camera image signal processor (ISP) algorithms are gradually being replaced by efficient deep networks that enhance noisy raw images more intelligently. However, existing regression-based models often minimize pixel errors and result in oversmoothing of low-light photos or deep shadows. Recent work has attempted to address this limitation by training a diffusion model from scratch, yet those models still struggle to recover sharp image details and accurate colors. We introduce a novel framework to enhance low-light raw images by retasking pre-trained generative diffusion models with the camera ISP. Extensive experiments demonstrate that our method outperforms the state-of-the-art in perceptual quality across three challenging low-light raw image benchmarks.

arxiv情報

著者 Amber Yijia Zheng,Yu Zhang,Jun Hu,Raymond A. Yeh,Chen Chen
発行日 2025-05-29 17:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP はコメントを受け付けていません

Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need

要約

深いニューラルネットワーク(DNN)は、データ分布が時間とともに変化する現実世界の動的な設定でしばしばパフォーマンスを低下させます。
ドメイン増分学習(DIL)は、継続的なモデル適応を可能にすることにより解決策を提供し、パラメーター分離DIL(ピディル)が知識の対立を減らすための有望なパラダイムとして浮上します。
ただし、既存のピジルメソッドは、特にドメインと対応するクラスの数が増加するため、パラメーターの選択精度と格闘しています。
これに対処するために、ピディルのドメイン選択を改善する軽量フレームワークであるSoyoを提案します。
Soyoは、ガウス混合コンプレッサー(GMC)とドメイン機能の再サンプラー(DFR)を導入して、以前のドメインデータを効率的に保存およびバランスさせ、マルチレベルドメイン特徴Fusion Fusion Network(MDFN)がドメイン機能の抽出を強化します。
当社のフレームワークは、複数のパラメーター効率の高い微調整(PEFT)メソッドをサポートし、画像分類、オブジェクト検出、音声強化などのタスク全体で検証されています。
6つのベンチマークでの実験結果は、既存のベースラインに対するSoyoの一貫した優位性を示しており、複雑で進化する環境での堅牢性と適応性を示しています。
コードはhttps://github.com/qwangcv/soyoでリリースされます。

要約(オリジナル)

Deep neural networks (DNNs) often underperform in real-world, dynamic settings where data distributions change over time. Domain Incremental Learning (DIL) offers a solution by enabling continual model adaptation, with Parameter-Isolation DIL (PIDIL) emerging as a promising paradigm to reduce knowledge conflicts. However, existing PIDIL methods struggle with parameter selection accuracy, especially as the number of domains and corresponding classes grows. To address this, we propose SOYO, a lightweight framework that improves domain selection in PIDIL. SOYO introduces a Gaussian Mixture Compressor (GMC) and Domain Feature Resampler (DFR) to store and balance prior domain data efficiently, while a Multi-level Domain Feature Fusion Network (MDFN) enhances domain feature extraction. Our framework supports multiple Parameter-Efficient Fine-Tuning (PEFT) methods and is validated across tasks such as image classification, object detection, and speech enhancement. Experimental results on six benchmarks demonstrate SOYO’s consistent superiority over existing baselines, showcasing its robustness and adaptability in complex, evolving environments. The codes will be released in https://github.com/qwangcv/SOYO.

arxiv情報

著者 Qiang Wang,Xiang Song,Yuhang He,Jizhou Han,Chenhao Ding,Xinyuan Gao,Yihong Gong
発行日 2025-05-29 17:58:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need はコメントを受け付けていません

To Trust Or Not To Trust Your Vision-Language Model’s Prediction

要約

ビジョン言語モデル(VLM)は、視覚的およびテキストのモダリティを調整する上で強力な能力を実証し、マルチモーダルの理解と生成の幅広いアプリケーションを可能にします。
彼らはゼロショットと転送学習シナリオで優れている間、VLMは誤分類の影響を受けやすく、しばしば自信を持っているが間違った予測をもたらします。
この制限は、誤った予測が深刻な結果につながる可能性がある安全性クリティカルなドメインに大きなリスクをもたらします。
この作業では、VLMの予測が信頼できる時期を推定するという重要な課題に対処するために設計されたトレーニングなしのフレームワークであるTrustVLMを紹介します。
VLMSの観察されたモダリティギャップと、特定の概念が画像埋め込みスペースでより明確に表されているという洞察に動機付けられているため、この空間を活用して誤分類の検出を改善する新しい信頼スコアリング機能を提案します。
4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットでアプローチを厳密に評価し、最先端のパフォーマンスを実証し、AURCで最大51.87%、AUROCで9.14%、FPR95で32.42%の改善があります。
再トレーニングを必要とせずにモデルの信頼性を向上させることにより、TrustVLMは、実際のアプリケーションでVLMSのより安全な展開への道を開きます。
このコードは、https://github.com/epfl-imos/trustvlmで入手できます。

要約(オリジナル)

Vision-Language Models (VLMs) have demonstrated strong capabilities in aligning visual and textual modalities, enabling a wide range of applications in multimodal understanding and generation. While they excel in zero-shot and transfer learning scenarios, VLMs remain susceptible to misclassification, often yielding confident yet incorrect predictions. This limitation poses a significant risk in safety-critical domains, where erroneous predictions can lead to severe consequences. In this work, we introduce TrustVLM, a training-free framework designed to address the critical challenge of estimating when VLM’s predictions can be trusted. Motivated by the observed modality gap in VLMs and the insight that certain concepts are more distinctly represented in the image embedding space, we propose a novel confidence-scoring function that leverages this space to improve misclassification detection. We rigorously evaluate our approach across 17 diverse datasets, employing 4 architectures and 2 VLMs, and demonstrate state-of-the-art performance, with improvements of up to 51.87% in AURC, 9.14% in AUROC, and 32.42% in FPR95 compared to existing baselines. By improving the reliability of the model without requiring retraining, TrustVLM paves the way for safer deployment of VLMs in real-world applications. The code will be available at https://github.com/EPFL-IMOS/TrustVLM.

arxiv情報

著者 Hao Dong,Moru Liu,Jian Liang,Eleni Chatzi,Olga Fink
発行日 2025-05-29 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | To Trust Or Not To Trust Your Vision-Language Model’s Prediction はコメントを受け付けていません

Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

要約

マルチモーダル大手言語モデル(MLLM)の最近の進歩により、2Dビジュアルタスクのパフォーマンスが大幅に向上しています。
ただし、空間的知性を改善することは依然として課題です。
既存の3D MLLMは、常に追加の3Dまたは2.5Dデータに依存して空間的認識を組み込み、画像やビデオなどの2D入力のみでシナリオにユーティリティを制限します。
この論文では、純粋に2D観測からの視覚ベースの空間推論のための新しいフレームワークであるSpatial-MLLMを紹介します。
セマンティック理解のために最適化されたクリップベースの視覚エンコーダーに依存する従来のビデオMLLMSとは異なり、私たちの重要な洞察は、フィードフォワードビジュアルジオメトリファンデーションモデルから以前の強力な構造を解き放つことです。
具体的には、デュアルエンコーダーアーキテクチャを提案します。セマンティック機能を抽出するための前処理された2Dビジュアルエンコーダーと、視覚ジオメトリモデルのバックボーンから3D構造機能を抽出するための空間エンコーダが開始されます。
次に、コネクタは両方の機能を統合された視覚トークンに統合して、空間的理解を強化します。
さらに、ビデオシーケンスの空間的に有益なフレームを選択し、トークンの長さが制限されていても、モデルが空間推論に重要なフレームに焦点を当てることを保証する推論時間に、スペース認識フレームサンプリング戦略を提案します。
アーキテクチャの改善を超えて、Spatial-MLLM-120Kデータセットを構築し、監視された微調整とGRPOを使用してモデルをトレーニングします。
さまざまな現実世界のデータセットでの広範な実験は、当社の空間MLLMが幅広い視覚ベースの空間理解と推論タスクで最先端のパフォーマンスを達成することを示しています。
プロジェクトページ:https://diankun-wu.github.io/spatial-mllm/。

要約(オリジナル)

Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced performance on 2D visual tasks. However, improving their spatial intelligence remains a challenge. Existing 3D MLLMs always rely on additional 3D or 2.5D data to incorporate spatial awareness, restricting their utility in scenarios with only 2D inputs, such as images or videos. In this paper, we present Spatial-MLLM, a novel framework for visual-based spatial reasoning from purely 2D observations. Unlike conventional video MLLMs which rely on CLIP-based visual encoders optimized for semantic understanding, our key insight is to unleash the strong structure prior from the feed-forward visual geometry foundation model. Specifically, we propose a dual-encoder architecture: a pretrained 2D visual encoder to extract semantic features, and a spatial encoder-initialized from the backbone of the visual geometry model-to extract 3D structure features. A connector then integrates both features into unified visual tokens for enhanced spatial understanding. Furthermore, we propose a space-aware frame sampling strategy at inference time, which selects the spatially informative frames of a video sequence, ensuring that even under limited token length, the model focuses on frames critical for spatial reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k dataset and train the model on it using supervised fine-tuning and GRPO. Extensive experiments on various real-world datasets demonstrate that our spatial-MLLM achieves state-of-the-art performance in a wide range of visual-based spatial understanding and reasoning tasks. Project page: https://diankun-wu.github.io/Spatial-MLLM/.

arxiv情報

著者 Diankun Wu,Fangfu Liu,Yi-Hsin Hung,Yueqi Duan
発行日 2025-05-29 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence はコメントを受け付けていません

REOrdering Patches Improves Vision Models

要約

トランスなどのシーケンスモデルでは、入力を1次元シーケンスとして表す必要があります。
ビジョンでは、これには通常、固定のrow-major(ラスタースキャン)順序を使用して画像の平坦化が含まれます。
完全な自己関節は順位順にequivariantですが、現代の長シーケンス変圧器は、この不変性を破り、パッチ順序に感度を導入する建築上の近似にますます依存しています。
パッチの順序は、このような設定でのモデルのパフォーマンスに大きく影響することを示しています。列 – 主要な曲線などの単純な代替品が顕著な精度シフトをもたらします。
これにより動機付けられていると、タスク最適なパッチの順序を発見するための2段階のフレームワークであるReorderを提案します。
まず、さまざまなパッチシーケンスの圧縮率を評価することにより、情報理論の事前に導き出します。
次に、Renforceを使用してPlackett-Luceポリシーを最適化することにより、順列をめぐるポリシーを学びます。
このアプローチにより、組み合わせの順列空間で効率的な学習が可能になります。
Reorderは、Imagenet-1KのRow-Major注文よりもトップ1の精度を最大3.01%、世界の機能マップを13.35%改善します。

要約(オリジナル)

Sequence models such as transformers require inputs to be represented as one-dimensional sequences. In vision, this typically involves flattening images using a fixed row-major (raster-scan) order. While full self-attention is permutation-equivariant, modern long-sequence transformers increasingly rely on architectural approximations that break this invariance and introduce sensitivity to patch ordering. We show that patch order significantly affects model performance in such settings, with simple alternatives like column-major or Hilbert curves yielding notable accuracy shifts. Motivated by this, we propose REOrder, a two-stage framework for discovering task-optimal patch orderings. First, we derive an information-theoretic prior by evaluating the compressibility of various patch sequences. Then, we learn a policy over permutations by optimizing a Plackett-Luce policy using REINFORCE. This approach enables efficient learning in a combinatorial permutation space. REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to 3.01% and Functional Map of the World by 13.35%.

arxiv情報

著者 Declan Kutscher,David M. Chan,Yutong Bai,Trevor Darrell,Ritwik Gupta
発行日 2025-05-29 17:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | REOrdering Patches Improves Vision Models はコメントを受け付けていません

ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks

要約

大規模な言語モデル(LLMS)の最近の進歩により、段階的な推論を通じて複雑な現実世界のタスクを解決できるツール編成エージェントが可能になりました。
ただし、既存の評価は、多くの場合、汎用またはマルチモーダルシナリオに焦点を当てており、複雑なリモートセンシングユースケースのツール使用機能を評価するドメイン固有のベンチマークにギャップを残します。
構造化されたツールの使用とマルチステップ計画を介して、リモートセンシングタスクでLLM駆動型エージェントを評価するために設計されたエージェントベンチマークであるThinkGeoを提示します。
ツール相互作用のパラダイムに触発されたThinkGeoには、都市計画、災害評価と変更分析、環境監視、輸送分析、航空監視、レクリエーションインフラストラクチャ、および産業サイト分析など、幅広い現実世界のアプリケーションにまたがる人間がキュレーションしたクエリが含まれています。
各クエリは衛星または空中画像に基づいており、エージェントが多様なツールセットを介して推論する必要があります。
反応スタイルの相互作用ループを実装し、436の構造化エージェントタスクでオープンおよびクローズドソースLLMS(例:GPT-4O、QWEN2.5)の両方を評価します。
ベンチマークは、段階的な実行メトリックと最終的な回答の正確性の両方をレポートします。
私たちの分析は、モデル間のツールの精度と計画の一貫性における顕著な格差を明らかにしています。
ThinkGeoは、ツール対応LLMがリモートセンシングでの空間推論をどのように処理するかを評価するための最初の広範なテストベッドを提供します。
コードとデータセットは公開されています

要約(オリジナル)

Recent progress in large language models (LLMs) has enabled tool-augmented agents capable of solving complex real-world tasks through step-by-step reasoning. However, existing evaluations often focus on general-purpose or multimodal scenarios, leaving a gap in domain-specific benchmarks that assess tool-use capabilities in complex remote sensing use cases. We present ThinkGeo, an agentic benchmark designed to evaluate LLM-driven agents on remote sensing tasks via structured tool use and multi-step planning. Inspired by tool-interaction paradigms, ThinkGeo includes human-curated queries spanning a wide range of real-world applications such as urban planning, disaster assessment and change analysis, environmental monitoring, transportation analysis, aviation monitoring, recreational infrastructure, and industrial site analysis. Each query is grounded in satellite or aerial imagery and requires agents to reason through a diverse toolset. We implement a ReAct-style interaction loop and evaluate both open and closed-source LLMs (e.g., GPT-4o, Qwen2.5) on 436 structured agentic tasks. The benchmark reports both step-wise execution metrics and final answer correctness. Our analysis reveals notable disparities in tool accuracy and planning consistency across models. ThinkGeo provides the first extensive testbed for evaluating how tool-enabled LLMs handle spatial reasoning in remote sensing. Our code and dataset are publicly available

arxiv情報

著者 Akashah Shabbir,Muhammad Akhtar Munir,Akshay Dudhane,Muhammad Umer Sheikh,Muhammad Haris Khan,Paolo Fraccaro,Juan Bernabe Moreno,Fahad Shahbaz Khan,Salman Khan
発行日 2025-05-29 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks はコメントを受け付けていません