GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution

要約

超高解像度(UHR)リモートセンシング(RS)画像は、地球観測に貴重なデータを提供しますが、2つの重要なボトルネックのために既存のマルチモーダルファンデーションモデルに課題をもたらします。
データ不足に対処するために、SuperRS-VQA(平均8,376 $ \ Times $ 8,376)およびHighRS-VQA(Avg。2,000$ \ Times $ 1,912)を導入します。
トークンの爆発を緩和するために、パイロット研究ではRS画像の著しい冗長性が明らかになります。重要な情報はオブジェクト中心のトークンの小さなサブセットに集中していますが、バックグラウンドトークン(海または森林など)を剪定することでパフォーマンスを改善することさえできます。
これらの調査結果に動機付けられて、2つの戦略を提案します。バックグラウンドトークンプルーニングと固定トークン選択を提案し、重要なセマンティクスを維持しながらメモリフットプリントを削減します。これらの手法を統合すると、8K $ 8K解像度で$ 8K解像度に入力を処理できる最初のRSに焦点を当てたマルチモーダル大規模言語モデルを紹介します。
SuperRS-VQAとHighRS-VQAで訓練されたGeollava-8Kは、XLRSベンチに新しい最先端を設定します。

要約(オリジナル)

Ultra-high-resolution (UHR) remote sensing (RS) imagery offers valuable data for Earth observation but pose challenges for existing multimodal foundation models due to two key bottlenecks: (1) limited availability of UHR training data, and (2) token explosion caused by the large image size. To address data scarcity, we introduce SuperRS-VQA (avg. 8,376$\times$8,376) and HighRS-VQA (avg. 2,000$\times$1,912), the highest-resolution vision-language datasets in RS to date, covering 22 real-world dialogue tasks. To mitigate token explosion, our pilot studies reveal significant redundancy in RS images: crucial information is concentrated in a small subset of object-centric tokens, while pruning background tokens (e.g., ocean or forest) can even improve performance. Motivated by these findings, we propose two strategies: Background Token Pruning and Anchored Token Selection, to reduce the memory footprint while preserving key semantics.Integrating these techniques, we introduce GeoLLaVA-8K, the first RS-focused multimodal large language model capable of handling inputs up to 8K$\times$8K resolution, built on the LLaVA framework. Trained on SuperRS-VQA and HighRS-VQA, GeoLLaVA-8K sets a new state-of-the-art on the XLRS-Bench.

arxiv情報

著者 Fengxiang Wang,Mingshuo Chen,Yueying Li,Di Wang,Haotian Wang,Zonghao Guo,Zefan Wang,Boqi Shan,Long Lan,Yulin Wang,Hongzhen Wang,Wenjing Yang,Bo Du,Jing Zhang
発行日 2025-05-27 16:05:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution はコメントを受け付けていません

Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility

要約

この作品は、新しいテキストからベクトルへのグラフィック生成アプローチであるDream3DVGを提示し、任意の視点の表示、進歩的な詳細の最適化、視聴依存の咬合認識を可能にします。
私たちのアプローチは、補助的な3Dガウススプラッティング最適化ブランチと3Dベクターグラフィックスプリタイズブランチで構成されるデュアルブランチ最適化フレームワークです。
導入された3DGSブランチは、より一貫したガイダンスを備えたテキストプロンプトとベクトルグラフィックスの間のドメインギャップを橋渡しすることができます。
さらに、3DGSは、分類器のないガイダンスをスケジュールし、初期段階で粗い形状を備えたガイドベクトルグラフィックと後の段階で詳細を促進することにより、プログレッシブディテール制御を可能にします。
また、視界認識レンダリングモジュールを考案することにより、ビュー依存の閉塞を改善します。
3Dスケッチと3Dの図像に関する広範な結果は、さまざまな抽象化レベルの詳細、クロスビューの一貫性、およびオクルージョン対応ストロークカリングに関する方法の優位性を示しています。

要約(オリジナル)

This work presents a novel text-to-vector graphics generation approach, Dream3DVG, allowing for arbitrary viewpoint viewing, progressive detail optimization, and view-dependent occlusion awareness. Our approach is a dual-branch optimization framework, consisting of an auxiliary 3D Gaussian Splatting optimization branch and a 3D vector graphics optimization branch. The introduced 3DGS branch can bridge the domain gaps between text prompts and vector graphics with more consistent guidance. Moreover, 3DGS allows for progressive detail control by scheduling classifier-free guidance, facilitating guiding vector graphics with coarse shapes at the initial stages and finer details at later stages. We also improve the view-dependent occlusions by devising a visibility-awareness rendering module. Extensive results on 3D sketches and 3D iconographies, demonstrate the superiority of the method on different abstraction levels of details, cross-view consistency, and occlusion-aware stroke culling.

arxiv情報

著者 Yidi Li,Jun Xiao,Zhengda Lu,Yiqun Wang,Haiyong Jiang
発行日 2025-05-27 16:06:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Empowering Vector Graphics with Consistently Arbitrary Viewing and View-dependent Visibility はコメントを受け付けていません

ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding

要約

Pointmambaなどの状態空間モデル(SSM)は、線形の複雑さを伴うポイントクラウドの自己監視学習、計算効率のアウトパフォーマンスの変圧器の効率的な機能抽出を有効にします。
ただし、既存のポイントマンバベースの方法は、空間的連続性とローカルセマンティック相関を破壊する複雑なトークンの順序とランダムマスキングに依存しています。
これらの課題に取り組むためにZigzagpointmambaを提案します。
私たちのアプローチのコアは、グローバルにシーケンスクラウドトークンをポイントし、空間的に隣接するポイントトークンの近接性を維持することにより空間的連続性を高める単純なジグザグスキャンパスです。
それにもかかわらず、ランダムなマスキングは、自己教師の学習におけるローカルセマンティックモデリングを損ないます。
これに対処するために、セマンティックシャムマスキング戦略(SMS)を導入します。これは、オリジナルおよび類似のトークンのローカル機能を統合することにより、回復を促進するために意味的に似たトークンを覆います。
これは、孤立したローカル機能への依存を克服し、堅牢なグローバルセマンティックモデリングを可能にします。
事前に訓練されたジグザグポイントマンバの重量は、下流タスクを大幅に改善し、パーツセグメンテーションのためにシェーペネットパートで1.59%の利益を達成し、分類の場合はModelNet40で0.4%高い精度、0.19%、1.22%、およびPP-BTのSub-bgの分類に対してそれぞれ0.72%高い精度を達成します。
scanobjectnn。
コードはhttps://anonymous.4open.science/r/zigzagpointmamba-1800/で入手できます。

要約(オリジナル)

State Space models (SSMs) such as PointMamba enable efficient feature extraction for point cloud self-supervised learning with linear complexity, outperforming Transformers in computational efficiency. However, existing PointMamba-based methods depend on complex token ordering and random masking, which disrupt spatial continuity and local semantic correlations. We propose ZigzagPointMamba to tackle these challenges. The core of our approach is a simple zigzag scan path that globally sequences point cloud tokens, enhancing spatial continuity by preserving the proximity of spatially adjacent point tokens. Nevertheless, random masking undermines local semantic modeling in self-supervised learning. To address this, we introduce a Semantic-Siamese Masking Strategy (SMS), which masks semantically similar tokens to facilitate reconstruction by integrating local features of original and similar tokens. This overcomes the dependence on isolated local features and enables robust global semantic modeling. Our pre-trained ZigzagPointMamba weights significantly improve downstream tasks, achieving a 1.59% mIoU gain on ShapeNetPart for part segmentation, a 0.4% higher accuracy on ModelNet40 for classification, and 0.19%, 1.22%, and 0.72% higher accuracies respectively for the classification tasks on the OBJ-BG, OBJ-ONLY, and PB-T50-RS subsets of ScanObjectNN. The code is available at: https://anonymous.4open.science/r/ZigzagPointMamba-1800/

arxiv情報

著者 Linshuang Diao,Dayong Ren,Sensen Song,Yurong Qian
発行日 2025-05-27 16:09:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | ZigzagPointMamba: Spatial-Semantic Mamba for Point Cloud Understanding はコメントを受け付けていません

Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios

要約

強力な表現学習機能を活用して、深いマルチビュークラスタリング方法は、近年、多様な見解からマルチソース情報を効果的に統合することにより、信頼できるパフォーマンスを実証しています。
ほとんどの既存の方法は、きれいなビューの仮定に依存しています。
ただし、実際のシナリオではノイズが広まっているため、パフォーマンスの大幅な劣化が生じます。
この問題に取り組むために、AirMVCと呼ばれる騒々しいデータの自動識別と修正のための新しいマルチビュークラスタリングフレームワークを提案します。
具体的には、GMMを使用して、騒々しい識別を異常識別の問題として再定式化します。
次に、識別結果に基づいてノイズの多いデータの悪影響を緩和するために、ハイブリッド修正戦略を設計します。
さらに、信頼できる表現を生成するために、ノイズ – ロバスト対照メカニズムを導入します。
さらに、これらの表現が騒々しい情報を破棄し、それによりダウンストリームタスクのパフォーマンスを改善できることを示す理論的証拠を提供します。
6つのベンチマークデータセットでの広範な実験は、AirMVCが騒々しいシナリオの堅牢性の観点から最先端のアルゴリズムを上回ることを示しています。
AirMVCのコードは、githubのhttps://github.com/xihongyang1999/airmvcで入手できます。

要約(オリジナル)

Leveraging the powerful representation learning capabilities, deep multi-view clustering methods have demonstrated reliable performance by effectively integrating multi-source information from diverse views in recent years. Most existing methods rely on the assumption of clean views. However, noise is pervasive in real-world scenarios, leading to a significant degradation in performance. To tackle this problem, we propose a novel multi-view clustering framework for the automatic identification and rectification of noisy data, termed AIRMVC. Specifically, we reformulate noisy identification as an anomaly identification problem using GMM. We then design a hybrid rectification strategy to mitigate the adverse effects of noisy data based on the identification results. Furthermore, we introduce a noise-robust contrastive mechanism to generate reliable representations. Additionally, we provide a theoretical proof demonstrating that these representations can discard noisy information, thereby improving the performance of downstream tasks. Extensive experiments on six benchmark datasets demonstrate that AIRMVC outperforms state-of-the-art algorithms in terms of robustness in noisy scenarios. The code of AIRMVC are available at https://github.com/xihongyang1999/AIRMVC on Github.

arxiv情報

著者 Xihong Yang,Siwei Wang,Fangdi Wang,Jiaqi Jin,Suyuan Liu,Yue Liu,En Zhu,Xinwang Liu,Yueming Jin
発行日 2025-05-27 16:16:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Automatically Identify and Rectify: Robust Deep Contrastive Multi-view Clustering in Noisy Scenarios はコメントを受け付けていません

Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024

要約

ますます現実的に生成されるAIの時代には、詐欺と偽情報を緩和するためには、堅牢なディープファーク検出が不可欠です。
多くのディープフェイク検出器は、アカデミックデータセットの高精度を報告していますが、これらのアカデミックベンチマークは時代遅れであり、実際のディープフェイクを代表するものではないことを示しています。
2024年にソーシャルメディアとディープファーク検出プラットフォームユーザーから収集されたワイルドなディープフェイクで構成される新しいディープフェイク検出ベンチマークであるDeepfake-Eval-2024を紹介します。ディープファーク-Eval-2024は、45時間のビデオ、56.5時間の音声、1,975の画像で構成されています。
ベンチマークには、52の異なる言語の88の異なるWebサイトからの多様なメディアコンテンツが含まれています。
Deepfake-Eval-2024で評価されると、オープンソースの最先端のディープファーセクションモデルのパフォーマンスは、ビデオで50%、オーディオで48%、前のベンチマークと比較して画像モデルで45%減少すると、急激に低下します。
また、Deepfake-Eval-2024で微調整された商用ディープファーク検出モデルとモデルを評価し、既製のオープンソースモデルよりも優れたパフォーマンスを持っていることがわかりますが、まだDeepfake Forensicアナリストの精度に達していません。
データセットはhttps://github.com/nuriachandra/deepfake-eval-2024で入手できます。

要約(オリジナル)

In the age of increasingly realistic generative AI, robust deepfake detection is essential for mitigating fraud and disinformation. While many deepfake detectors report high accuracy on academic datasets, we show that these academic benchmarks are out of date and not representative of real-world deepfakes. We introduce Deepfake-Eval-2024, a new deepfake detection benchmark consisting of in-the-wild deepfakes collected from social media and deepfake detection platform users in 2024. Deepfake-Eval-2024 consists of 45 hours of videos, 56.5 hours of audio, and 1,975 images, encompassing the latest manipulation technologies. The benchmark contains diverse media content from 88 different websites in 52 different languages. We find that the performance of open-source state-of-the-art deepfake detection models drops precipitously when evaluated on Deepfake-Eval-2024, with AUC decreasing by 50% for video, 48% for audio, and 45% for image models compared to previous benchmarks. We also evaluate commercial deepfake detection models and models finetuned on Deepfake-Eval-2024, and find that they have superior performance to off-the-shelf open-source models, but do not yet reach the accuracy of deepfake forensic analysts. The dataset is available at https://github.com/nuriachandra/Deepfake-Eval-2024.

arxiv情報

著者 Nuria Alina Chandra,Ryan Murtfeldt,Lin Qiu,Arnab Karmakar,Hannah Lee,Emmanuel Tanumihardja,Kevin Farhat,Ben Caffee,Sejin Paik,Changyeon Lee,Jongwook Choi,Aerin Kim,Oren Etzioni
発行日 2025-05-27 16:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.CY | Deepfake-Eval-2024: A Multi-Modal In-the-Wild Benchmark of Deepfakes Circulated in 2024 はコメントを受け付けていません

DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing

要約

多様なセンサーモダリティ(つまり、RGB、深さ、赤外線)の可用性とマルチモーダル学習の成功により、マルチモーダルフェイスアンチスポーフィング(FAS)が顕著な研究の焦点として浮上しています。
その背後にある直感は、複数のモダリティを活用すると、より本質的なスプーフィングトレースを明らかにする可能性があるということです。
ただし、このアプローチは、より多くの不整合のリスクをもたらします。
(1)\ textBf {ドメイン内モダリティの不整合}の2つの主要なタイプを特定します。ここで、各モダリティの重要性は異なる攻撃によって異なります。
たとえば、特定のモダリティ(深さなど)は、特定の攻撃(3Dマスクなど)に対して防御的ではない場合があります。これは、各モダリティが特定の攻撃に対抗する際に独自の長所と短所を持っていることを示しています。
その結果、単純な融合戦略は不十分な場合があります。
(2)\ textBf {ドメイン間モダリティの不整合}。追加のモダリティの導入がドメインのシフトを悪化させ、補完的な融合の利点を覆い隠す可能性があります。
(1)に取り組むために、相互情報に基づいたモダリティ間のアライメントモジュールを提案します。これは、好ましくないモダリティを適応的に強化しながら、好ましくないモダリティを抑制します。
(2)に対処するには、サブドメインのハイパープレーンとモダリティ角の両方の縁を整列させるデュアルアライメント最適化方法を使用して、ドメインギャップを緩和します。
私たちの方法は、\ textbf {d} ual \ textbf {a} \ textbf {d} omainおよび\ textbf {m} odality(dadm)と呼ばれるもので、マルチモダルの領域一般化シナリオでの堅牢性を示す4つの挑戦的なプロトコルにわたって、4つの挑戦的なプロトコルにわたって最新の実験で最先端のパフォーマンスを達成します。
コードはまもなくリリースされます。

要約(オリジナル)

With the availability of diverse sensor modalities (i.e., RGB, Depth, Infrared) and the success of multi-modal learning, multi-modal face anti-spoofing (FAS) has emerged as a prominent research focus. The intuition behind it is that leveraging multiple modalities can uncover more intrinsic spoofing traces. However, this approach presents more risk of misalignment. We identify two main types of misalignment: (1) \textbf{Intra-domain modality misalignment}, where the importance of each modality varies across different attacks. For instance, certain modalities (e.g., Depth) may be non-defensive against specific attacks (e.g., 3D mask), indicating that each modality has unique strengths and weaknesses in countering particular attacks. Consequently, simple fusion strategies may fall short. (2) \textbf{Inter-domain modality misalignment}, where the introduction of additional modalities exacerbates domain shifts, potentially overshadowing the benefits of complementary fusion. To tackle (1), we propose a alignment module between modalities based on mutual information, which adaptively enhances favorable modalities while suppressing unfavorable ones. To address (2), we employ a dual alignment optimization method that aligns both sub-domain hyperplanes and modality angle margins, thereby mitigating domain gaps. Our method, dubbed \textbf{D}ual \textbf{A}lignment of \textbf{D}omain and \textbf{M}odality (DADM), achieves state-of-the-art performance in extensive experiments across four challenging protocols demonstrating its robustness in multi-modal domain generalization scenarios. The codes will be released soon.

arxiv情報

著者 Jingyi Yang,Xun Lin,Zitong Yu,Liepiao Zhang,Xin Liu,Hui Li,Xiaochen Yuan,Xiaochun Cao
発行日 2025-05-27 16:28:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DADM: Dual Alignment of Domain and Modality for Face Anti-spoofing はコメントを受け付けていません

Mentor3AD: Feature Reconstruction-based 3D Anomaly Detection via Multi-modality Mentor Learning

要約

マルチモーダル特徴の再構築は、3D異常検出の有望なアプローチであり、二重モダリティからの補完的な情報を活用します。
さらに、中間特徴を融合させて特徴の違いをさらに区別するマルチモーダルメンター学習を利用することにより、このパラダイムをさらに進めます。
これらの課題に対処するために、マルチモーダルメンター学習を利用するMentor3ADと呼ばれる新しい方法を提案します。
さまざまなモダリティの共有機能を活用することにより、Mentor3ADはより効果的な機能を抽出し、機能の再構築をガイドし、最終的に検出性能を向上させることができます。
具体的には、Mentor3ADには、RGBから抽出された機能と3Dモダリティから抽出された機能をマージするFusionモジュール(MFM)のメンターが含まれています。
さらに、メンター機能によってサポートされているクロスモーダル再構成を促進するために、ガイダンスモジュール(MGM)のメンターを設計しました。
最後に、最終的な異常スコアをより正確に生成するために、投票モジュール(VM)を導入します。
MVTEC 3D-ADおよび眼鏡に関する広範な比較およびアブレーション研究により、提案された方法の有効性が検証されています。

要約(オリジナル)

Multimodal feature reconstruction is a promising approach for 3D anomaly detection, leveraging the complementary information from dual modalities. We further advance this paradigm by utilizing multi-modal mentor learning, which fuses intermediate features to further distinguish normal from feature differences. To address these challenges, we propose a novel method called Mentor3AD, which utilizes multi-modal mentor learning. By leveraging the shared features of different modalities, Mentor3AD can extract more effective features and guide feature reconstruction, ultimately improving detection performance. Specifically, Mentor3AD includes a Mentor of Fusion Module (MFM) that merges features extracted from RGB and 3D modalities to create a mentor feature. Additionally, we have designed a Mentor of Guidance Module (MGM) to facilitate cross-modal reconstruction, supported by the mentor feature. Lastly, we introduce a Voting Module (VM) to more accurately generate the final anomaly score. Extensive comparative and ablation studies on MVTec 3D-AD and Eyecandies have verified the effectiveness of the proposed method.

arxiv情報

著者 Jinbao Wang,Hanzhe Liang,Can Gao,Chenxi Hu,Jie Zhou,Yunkang Cao,Linlin Shen,Weiming Shen
発行日 2025-05-27 16:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Mentor3AD: Feature Reconstruction-based 3D Anomaly Detection via Multi-modality Mentor Learning はコメントを受け付けていません

HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard

要約

Vision and-Language Navigation(VLN)システムは、多くの場合、個別(パノラマ)または連続(フリーモーション)パラダイムのいずれかに焦点を当て、人間が人口の多い動的環境の複雑さを見落とします。
明示的な社会的認識の制約の下でこれらのパラダイムを統合する統一された人間に認識されたVLN(HA-VLN)ベンチマークを導入します。
私たちの貢献には、次のものが含まれます。1。個別の連続したナビゲーションと個人空間要件のバランスをとる標準化されたタスク定義。
2.現実的な多人間の相互作用、屋外コンテキスト、および洗練されたモーション言語アライメントをキャプチャする強化された人間の動きデータセット(HAPS 2.0)およびアップグレードされたシミュレーター。
3. 16,844人の人間中心の命令に関する広範なベンチマーク。マルチヒューマンのダイナミクスと部分的な観測可能性が、主要なVLNエージェントにとって大きな課題をどのように引き起こすかを明らかにします。
4.混雑した屋内スペースでのSIMからリアルへの転送を検証する現実世界のロボットテスト。
5。離散タスクと連続タスク全体で透明な比較をサポートするパブリックリーダーボード。
経験的な結果は、ナビゲーションの成功の改善と、社会的文脈が統合されたときの衝突の減少を示しており、人間中心の設計の必要性を強調しています。
すべてのデータセット、シミュレータ、エージェントコード、および評価ツールをリリースすることにより、より安全で、より能力があり、社会的に責任のあるVLN研究を促進することを目指しています。

要約(オリジナル)

Vision-and-Language Navigation (VLN) systems often focus on either discrete (panoramic) or continuous (free-motion) paradigms alone, overlooking the complexities of human-populated, dynamic environments. We introduce a unified Human-Aware VLN (HA-VLN) benchmark that merges these paradigms under explicit social-awareness constraints. Our contributions include: 1. A standardized task definition that balances discrete-continuous navigation with personal-space requirements; 2. An enhanced human motion dataset (HAPS 2.0) and upgraded simulators capturing realistic multi-human interactions, outdoor contexts, and refined motion-language alignment; 3. Extensive benchmarking on 16,844 human-centric instructions, revealing how multi-human dynamics and partial observability pose substantial challenges for leading VLN agents; 4. Real-world robot tests validating sim-to-real transfer in crowded indoor spaces; and 5. A public leaderboard supporting transparent comparisons across discrete and continuous tasks. Empirical results show improved navigation success and fewer collisions when social context is integrated, underscoring the need for human-centric design. By releasing all datasets, simulators, agent code, and evaluation tools, we aim to advance safer, more capable, and socially responsible VLN research.

arxiv情報

著者 Yifei Dong,Fengyi Wu,Qi He,Heng Li,Minghan Li,Zebang Cheng,Yuxuan Zhou,Jingdong Sun,Qi Dai,Zhi-Qi Cheng,Alexander G Hauptmann
発行日 2025-05-27 16:53:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | HA-VLN: A Benchmark for Human-Aware Navigation in Discrete-Continuous Environments with Dynamic Multi-Human Interactions, Real-World Validation, and an Open Leaderboard はコメントを受け付けていません

Can Large Language Models Understand Symbolic Graphics Programs?

要約

大規模な言語モデル(LLM)に対する熱意を背景に、能力と欠点を科学的に評価する必要性が高まっています。
これは、トレーニング中にモデルが遭遇していないタスクを見つけることが困難であるため、一部は重要ではありません。
シンボリックグラフィックスプログラムを利用して、LLMの複数の空間的な推論スキルをテストするのに適したドメインを提案します。
コンピューターグラフィックスで人気があるこれらのプログラムは、視覚データを手続き的に生成します。
LLMは一般的なプログラムの統合と分析で印象的なスキルを示しますが、シンボリックグラフィックスプログラムは評価の新しい層を提供します。ビジョンエンコーダーなしで画像または3Dジオメトリに関するセマンティックな質問に答えるLLMの能力をテストすることができます。
象徴的なプログラムを意味的に理解するには、LLMSは「想像」する能力を所有し、対応するグラフィックコンテンツがローカルの曲率とストロークの象徴的な説明のみでどのように見えるかを理由にする必要があります。
このタスクを使用して、人間の努力を最小限に抑えて手続き的に構築された、シンボリックグラフィックスプログラムのセマンティックな視覚的理解のための大きなベンチマークを作成することにより、LLMSを評価します。
基礎となるプログラムに大きな変更を導入しながら、画像レベルのセマンティクスを不変のままにする画像の変換に特に重点が置かれています。
ベンチマークで商業およびオープンソースのLLMを評価して、プログラムの視覚的な出力について推論する能力を評価し、LLMが一般的にパフォーマンスを向上させることを発見しました。
最後に、この能力を改善するための新しい方法を紹介します – シンボリック指導チューニング(SIT)では、LLMには、シンボリックグラフィックスプログラムに関する事前に収集された命令データで微調整されています。
興味深いことに、SITは象徴的なプログラムに関するLLMの理解を改善するだけでなく、他のさまざまなベンチマークでの一般的な推論能力も向上させることがわかります。

要約(オリジナル)

Against the backdrop of enthusiasm for large language models (LLMs), there is a growing need to scientifically assess their capabilities and shortcomings. This is nontrivial in part because it is difficult to find tasks which the models have not encountered during training. Utilizing symbolic graphics programs, we propose a domain well-suited to test multiple spatial-semantic reasoning skills of LLMs. Popular in computer graphics, these programs procedurally generate visual data. While LLMs exhibit impressive skills in general program synthesis and analysis, symbolic graphics programs offer a new layer of evaluation: they allow us to test an LLM’s ability to answer semantic questions about the images or 3D geometries without a vision encoder. To semantically understand the symbolic programs, LLMs would need to possess the ability to ‘imagine’ and reason how the corresponding graphics content would look with only the symbolic description of the local curvatures and strokes. We use this task to evaluate LLMs by creating a large benchmark for the semantic visual understanding of symbolic graphics programs, built procedurally with minimal human effort. Particular emphasis is placed on transformations of images that leave the image level semantics invariant while introducing significant changes to the underlying program. We evaluate commercial and open-source LLMs on our benchmark to assess their ability to reason about visual output of programs, finding that LLMs considered stronger at reasoning generally perform better. Lastly, we introduce a novel method to improve this ability — Symbolic Instruction Tuning (SIT), in which the LLM is finetuned with pre-collected instruction data on symbolic graphics programs. Interestingly, we find that SIT not only improves LLM’s understanding on symbolic programs, but it also improves general reasoning ability on various other benchmarks.

arxiv情報

著者 Zeju Qiu,Weiyang Liu,Haiwen Feng,Zhen Liu,Tim Z. Xiao,Katherine M. Collins,Joshua B. Tenenbaum,Adrian Weller,Michael J. Black,Bernhard Schölkopf
発行日 2025-05-27 16:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Can Large Language Models Understand Symbolic Graphics Programs? はコメントを受け付けていません

CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects

要約

ボディモーション、手の動き、オブジェクトの動きを含む明確なオブジェクトの全身操作を統合することは、仮想人間とロボット工学の幅広いアプリケーションで重要でありながら挑戦的な作業です。
コアの課題は2つあります。
第一に、現実的な全身運動を達成するには、手と体の残りの部分との間の緊密な調整が必要です。操作中に動きが相互依存しているためです。
第二に、明確なオブジェクト操作には通常、高度の自由度が含まれ、より高い精度を要求し、多くの場合、可動部品を作動させるために特定の領域に指を配置する必要があります。
これらの課題に対処するために、新しい調整された拡散ノイズ最適化フレームワークを提案します。
具体的には、ボディ、左手、および右手の3つの特殊な拡散モデルでノイズ空間最適化を実行し、それぞれが独自のモーションデータセットでトレーニングして一般化を改善します。
調整は、人間の運動鎖に沿った勾配の流れによって自然に現れ、世界の身体姿勢が高い忠実度を持つ手の動きの目的に応じて適応することができます。
ハンドオブジェクト相互作用の精度をさらに強化するために、ベースポイントセット(BPS)に基づいて統一表現を採用します。この場合、エンドエフェクター位置は、オブジェクトジオメトリに使用される同じBPの距離としてエンコードされます。
この統一された表現は、手と明確なオブジェクト部分の間に細粒の空間的関係をキャプチャし、結果の軌跡は拡散ノイズの最適化を導くターゲットとして機能し、非常に正確な相互作用運動を生成します。
私たちは、私たちの方法が動きの質と物理的妥当性の既存のアプローチを上回ることを実証し、オブジェクトのポーズ制御、同時歩行と操作、手のみのデータからの全身生成などのさまざまな機能を可能にすることを実証します。

要約(オリジナル)

Synthesizing whole-body manipulation of articulated objects, including body motion, hand motion, and object motion, is a critical yet challenging task with broad applications in virtual humans and robotics. The core challenges are twofold. First, achieving realistic whole-body motion requires tight coordination between the hands and the rest of the body, as their movements are interdependent during manipulation. Second, articulated object manipulation typically involves high degrees of freedom and demands higher precision, often requiring the fingers to be placed at specific regions to actuate movable parts. To address these challenges, we propose a novel coordinated diffusion noise optimization framework. Specifically, we perform noise-space optimization over three specialized diffusion models for the body, left hand, and right hand, each trained on its own motion dataset to improve generalization. Coordination naturally emerges through gradient flow along the human kinematic chain, allowing the global body posture to adapt in response to hand motion objectives with high fidelity. To further enhance precision in hand-object interaction, we adopt a unified representation based on basis point sets (BPS), where end-effector positions are encoded as distances to the same BPS used for object geometry. This unified representation captures fine-grained spatial relationships between the hand and articulated object parts, and the resulting trajectories serve as targets to guide the optimization of diffusion noise, producing highly accurate interaction motion. We conduct extensive experiments demonstrating that our method outperforms existing approaches in motion quality and physical plausibility, and enables various capabilities such as object pose control, simultaneous walking and manipulation, and whole-body generation from hand-only data.

arxiv情報

著者 Huaijin Pi,Zhi Cen,Zhiyang Dou,Taku Komura
発行日 2025-05-27 17:11:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.RO | CoDA: Coordinated Diffusion Noise Optimization for Whole-Body Manipulation of Articulated Objects はコメントを受け付けていません