Graph-Guided Scene Reconstruction from Images with 3D Gaussian Splatting

要約

このペーパーでは、画像から高品質で大きな3Dオープンシーンを再構築するというオープンな研究課題を調査します。
既存の方法には、入力に正確なカメラのポーズや監督の密な視点を必要とするなど、さまざまな制限があります。
効果的で効率的な3Dシーンの再構成を実行するために、新しいグラフガイド付き3Dシーン再構成フレームワークであるGraphGSを提案します。
具体的には、シーンでRGBカメラによってキャプチャされた画像のセットを考慮して、最初に空間的な事前ベースのシーン構造推定方法を設計します。
これは、カメラトポロジに関する情報を含むカメラグラフを作成するために使用されます。
さらに、グラフガイド付きマルチビューの一貫性の制約と適応サンプリング戦略を、3Dガウススプラッティング最適化プロセスに適用することを提案します。
これは、特定のまばらな視点に過剰留まるガウスポイントの問題を大いに軽減し、3D再構成プロセスを促進します。
GraphGSは、複数のデータセットにわたって定量的および定性的評価を通じて最先端のパフォーマンスを提供する画像からの高忠実度の3D再構成を達成することを示しています。
プロジェクトページ:https://3dagentworld.github.io/graphgs。

要約(オリジナル)

This paper investigates an open research challenge of reconstructing high-quality, large 3D open scenes from images. It is observed existing methods have various limitations, such as requiring precise camera poses for input and dense viewpoints for supervision. To perform effective and efficient 3D scene reconstruction, we propose a novel graph-guided 3D scene reconstruction framework, GraphGS. Specifically, given a set of images captured by RGB cameras on a scene, we first design a spatial prior-based scene structure estimation method. This is then used to create a camera graph that includes information about the camera topology. Further, we propose to apply the graph-guided multi-view consistency constraint and adaptive sampling strategy to the 3D Gaussian Splatting optimization process. This greatly alleviates the issue of Gaussian points overfitting to specific sparse viewpoints and expedites the 3D reconstruction process. We demonstrate GraphGS achieves high-fidelity 3D reconstruction from images, which presents state-of-the-art performance through quantitative and qualitative evaluation across multiple datasets. Project Page: https://3dagentworld.github.io/graphgs.

arxiv情報

著者 Chong Cheng,Gaochao Song,Yiyang Yao,Qinzheng Zhou,Gangjian Zhang,Hao Wang
発行日 2025-02-24 17:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Graph-Guided Scene Reconstruction from Images with 3D Gaussian Splatting はコメントを受け付けていません

Unraveling the geometry of visual relational reasoning

要約

人間や他の動物は、神経ネットワークが苦労しているのに対し、形や色が一定になることを認識するなど、抽象的な関係を容易に一般化します。
ニューラルネットワークが抽象的な関係を一般化する方法を調査するために、系統的評価のための新しいベンチマークであるSimpliedRPMを導入します。
並行して、人間の実験を実施してリレーショナルの難易度をベンチマークし、直接的なモデルと人間の比較を可能にします。
Resnet-50、ビジョン変圧器、野生関係ネットワーク、および散乱組成学習者(SCL)の4つのアーキテクチャのテスト – SCLは、人間の行動と最適に整合し、最適化することがわかります。
神経表現の幾何学的理論に基づいて、一般化を予測する表現形状を示します。
レイヤーごとの分析は、モデル間の明確なリレーショナル推論戦略を明らかにし、目に見えないルール表現がトレーニング型のサブスペースに圧縮されるトレードオフを示唆しています。
幾何学的な視点に導かれ、新しい客観的なバランス表現ジオメトリであるSnrossを提案し、評価します。
私たちの調査結果は、ニューラルネットワークがどのように抽象的な関係を一般化するかについての幾何学的な洞察を提供し、AIでより人間のような視覚的推論への道を開いています。

要約(オリジナル)

Humans and other animals readily generalize abstract relations, such as recognizing constant in shape or color, whereas neural networks struggle. To investigate how neural networks generalize abstract relations, we introduce SimplifiedRPM, a novel benchmark for systematic evaluation. In parallel, we conduct human experiments to benchmark relational difficulty, enabling direct model-human comparisons. Testing four architectures–ResNet-50, Vision Transformer, Wild Relation Network, and Scattering Compositional Learner (SCL)–we find that SCL best aligns with human behavior and generalizes best. Building on a geometric theory of neural representations, we show representational geometries that predict generalization. Layer-wise analysis reveals distinct relational reasoning strategies across models and suggests a trade-off where unseen rule representations compress into training-shaped subspaces. Guided by our geometric perspective, we propose and evaluate SNRloss, a novel objective balancing representation geometry. Our findings offer geometric insights into how neural networks generalize abstract relations, paving the way for more human-like visual reasoning in AI.

arxiv情報

著者 Jiaqi Shang,Gabriel Kreiman,Haim Sompolinsky
発行日 2025-02-24 18:07:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.NC | Unraveling the geometry of visual relational reasoning はコメントを受け付けていません

Robust Confinement State Classification with Uncertainty Quantification through Ensembled Data-Driven Methods

要約

Tokamaksの融合性能を最大化することは、高エネルギー閉じ込めに依存しており、しばしば異なる運用体制を通じて達成されます。
これらの閉じ込め状態の自動ラベル付けは、大規模な分析を有効にするため、またはリアルタイム制御アプリケーションのために重要です。
このタスクは、州に近い移行や限界シナリオで自動化することが困難になりますが、データ駆動型モデルでは多くの成功が達成されています。
ただし、これらの方法は一般に、ポイントの推定値として予測を提供し、失われた入力信号の欠落や壊れた信号を適切に扱うことはできません。
幅広い適用性を可能にするために、不確実性の定量化とモデルの堅牢性を備えた状態分類を閉じ込める方法を開発します。
TCV放電のオフライン分析、Lモード、Hモードの区別、およびその間のディザリングフェーズ(D)の際に焦点を当てています。
モデルの定式化と特徴セットの2つの軸でデータ駆動型のメソッドをアンサンブルすることを提案します。
前者は、再発性のフーリエ神経オペレーターアーキテクチャに基づいた動的定式化と、勾配ブーストされた決定ツリーに基づく静的定式化を考慮します。
これらのモデルは、診断システムまたは物理的量によって分類された複数の機能グループを使用してトレーニングされています。
302 TCV排出のデータセットは完全にラベル付けされており、公開されます。
CohenのKappa係数を使用して、予測パフォーマンスと不確実性キャリブレーションに予想されるキャリブレーションエラーを使用して定量的に評価します。
さらに、さまざまな一般的および代替シナリオ、個々のコンポーネントのパフォーマンス、分散型パフォーマンスのパフォーマンス、壊れたシグナルまたは欠落のケースを使用して、パフォーマンスについて説明し、異なる状態移行に関する条件付き平均の動作を評価します。
全体として、提案された方法は、L、D、およびHモードを高性能で区別し、欠落または壊れた信号に対処し、意味のある不確実性の推定値を提供することができます。

要約(オリジナル)

Maximizing fusion performance in tokamaks relies on high energy confinement, often achieved through distinct operating regimes. The automated labeling of these confinement states is crucial to enable large-scale analyses or for real-time control applications. While this task becomes difficult to automate near state transitions or in marginal scenarios, much success has been achieved with data-driven models. However, these methods generally provide predictions as point estimates, and cannot adequately deal with missing and/or broken input signals. To enable wide-range applicability, we develop methods for confinement state classification with uncertainty quantification and model robustness. We focus on off-line analysis for TCV discharges, distinguishing L-mode, H-mode, and an in-between dithering phase (D). We propose ensembling data-driven methods on two axes: model formulations and feature sets. The former considers a dynamic formulation based on a recurrent Fourier Neural Operator-architecture and a static formulation based on gradient-boosted decision trees. These models are trained using multiple feature groupings categorized by diagnostic system or physical quantity. A dataset of 302 TCV discharges is fully labeled, and will be publicly released. We evaluate our method quantitatively using Cohen’s kappa coefficient for predictive performance and the Expected Calibration Error for the uncertainty calibration. Furthermore, we discuss performance using a variety of common and alternative scenarios, the performance of individual components, out-of-distribution performance, cases of broken or missing signals, and evaluate conditionally-averaged behavior around different state transitions. Overall, the proposed method can distinguish L, D and H-mode with high performance, can cope with missing or broken signals, and provides meaningful uncertainty estimates.

arxiv情報

著者 Yoeri Poels,Cristina Venturini,Alessandro Pau,Olivier Sauter,Vlado Menkovski,the TCV team,the WPTE team
発行日 2025-02-24 18:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, physics.plasm-ph | Robust Confinement State Classification with Uncertainty Quantification through Ensembled Data-Driven Methods はコメントを受け付けていません

Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras

要約

HyperComplex画像処理は、代数および幾何学的原理を含む統一されたパラダイムで従来の技術を拡張します。
この作業は、次の計算ワークフローと転帰を介して自然/生物医学画像分析のために、四項と2次元直交平面分割フレームワーク(四項 – 正結腸2D平面のペアへの分割 – ピクセルを表す – ピクセルを表す)を活用しています:自然/生物医学的イメージの再採用
着色、自然画像脱色、自然/生物医学的イメージのコントラストの強化、計算再染色
組織画像の染色分離、および組織学的画像のための機械/深い学習パイプラインのパフォーマンスの向上。
ワークフローは、提案されたアプローチの有効性を紹介するために、自然および生物医学の画像について個別に分析されます。
提案されたワークフローは、色の外観を調節することができます(たとえば、代替レンディションやグレースケール変換など)と画像のコントラストは、自動化された画像処理パイプライン(例:ステイン成分の分離、学習モデルの増加)の一部であり、デジタル病理アプリケーション(例えば、バイオマーカーの視認性を高めるのを支援します。
カラーブランドに優しいレンディションを有効にします)。
基本的な算術操作とマトリックス操作のみを採用して、この作業は、画像処理タスク全体で汎用性と一貫性を示し、コンピュータービジョンと生物医学的アプリケーションの範囲を紹介する計算的にアクセス可能な方法論を提供します。
提案されている非DATA駆動型の方法は、文献で報告されているものと同等の結果またはより良い結果(特によく知られている方法を含む場合)を実用的な有効性を備えた堅牢な理論的枠組みの可能性を示しています。
結果、方法、制限は、有望な拡張の議論とともに詳細に詳述されており、自然および生物医学画像のための機能が豊富な数学的/計算フレームワークの可能性を強調しています。

要約(オリジナル)

Hypercomplex image processing extends conventional techniques in a unified paradigm encompassing algebraic and geometric principles. This work leverages quaternions and the two-dimensional orthogonal planes split framework (splitting of a quaternion – representing a pixel – into pairs of orthogonal 2D planes) for natural/biomedical image analysis through the following computational workflows and outcomes: natural/biomedical image re-colorization, natural image de-colorization, natural/biomedical image contrast enhancement, computational re-staining and stain separation in histological images, and performance gains in machine/deep learning pipelines for histological images. The workflows are analyzed separately for natural and biomedical images to showcase the effectiveness of the proposed approaches. The proposed workflows can regulate color appearance (e.g. with alternative renditions and grayscale conversion) and image contrast, be part of automated image processing pipelines (e.g. isolating stain components, boosting learning models), and assist in digital pathology applications (e.g. enhancing biomarker visibility, enabling colorblind-friendly renditions). Employing only basic arithmetic and matrix operations, this work offers a computationally accessible methodology – in the hypercomplex domain – that showcases versatility and consistency across image processing tasks and a range of computer vision and biomedical applications. The proposed non-data-driven methods achieve comparable or better results (particularly in cases involving well-known methods) to those reported in the literature, showcasing the potential of robust theoretical frameworks with practical effectiveness. Results, methods, and limitations are detailed alongside discussion of promising extensions, emphasizing the potential of feature-rich mathematical/computational frameworks for natural and biomedical images.

arxiv情報

著者 Nektarios A. Valous,Eckhard Hitzer,Dragoş Duşe,Rodrigo Rojas Moraleda,Ferdinand Popp,Meggy Suarez-Carmona,Anna Berthel,Ismini Papageorgiou,Carlo Fremd,Alexander Rölle,Christina C. Westhoff,Bénédicte Lenoir,Niels Halama,Inka Zörnig,Dirk Jäger
発行日 2025-02-24 18:29:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Novel computational workflows for natural and biomedical image processing based on hypercomplex algebras はコメントを受け付けていません

X-Dancer: Expressive Music to Human Dance Video Generation

要約

X-Dancerは、単一の静的画像から多様で長距離のリアルなヒューマンダンスビデオを作成する、新しいゼロショット音楽駆動型の音楽駆動型の画像アニメーションパイプラインを紹介します。
そのコアとして、2Dボディ、ヘッド、ハンドポーズの拡張および音楽同期トークンシーケンスを合成する自己回帰トランスモデルを特徴とする統合変圧器拡散フレームワークを紹介します。

3Dで主に人間の動きを生成する従来の方法とは異なり、X-Dancerはデータの制限に対処し、2Dダンスの動きの幅広いスペクトルをモデル化することでスケーラビリティを向上させ、容易に利用可能なモノクラービデオを通して音楽ビートとの微妙なアライメントをキャプチャします。
これを達成するために、最初に、キーポイントの自信に関連する2Dヒトポーズラベルから空間的に組成されたトークン表現を構築し、両方の大きな明確な体の動き(上部と下半身など)と細粒の動き(例:頭と手など)をコードします。
次に、音楽調整されたダンスポーズトークンシーケンスを自動化する音楽変圧器モデルを設計し、音楽スタイルと以前のモーションコンテキストの両方にグローバルな注意を組み込みます。
最後に、拡散バックボーンを活用して、これらの合成されたポーズトークンを使用して参照画像をアニメーション化し、完全に微分可能なエンドツーエンドフレームワークを形成します。
実験結果は、X-Dancerが多様で特徴付けられたダンスビデオの両方を作成できることを示しています。
コードとモデルは、研究目的で利用できます。

要約(オリジナル)

We present X-Dancer, a novel zero-shot music-driven image animation pipeline that creates diverse and long-range lifelike human dance videos from a single static image. As its core, we introduce a unified transformer-diffusion framework, featuring an autoregressive transformer model that synthesize extended and music-synchronized token sequences for 2D body, head and hands poses, which then guide a diffusion model to produce coherent and realistic dance video frames. Unlike traditional methods that primarily generate human motion in 3D, X-Dancer addresses data limitations and enhances scalability by modeling a wide spectrum of 2D dance motions, capturing their nuanced alignment with musical beats through readily available monocular videos. To achieve this, we first build a spatially compositional token representation from 2D human pose labels associated with keypoint confidences, encoding both large articulated body movements (e.g., upper and lower body) and fine-grained motions (e.g., head and hands). We then design a music-to-motion transformer model that autoregressively generates music-aligned dance pose token sequences, incorporating global attention to both musical style and prior motion context. Finally we leverage a diffusion backbone to animate the reference image with these synthesized pose tokens through AdaIN, forming a fully differentiable end-to-end framework. Experimental results demonstrate that X-Dancer is able to produce both diverse and characterized dance videos, substantially outperforming state-of-the-art methods in term of diversity, expressiveness and realism. Code and model will be available for research purposes.

arxiv情報

著者 Zeyuan Chen,Hongyi Xu,Guoxian Song,You Xie,Chenxu Zhang,Xin Chen,Chao Wang,Di Chang,Linjie Luo
発行日 2025-02-24 18:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | X-Dancer: Expressive Music to Human Dance Video Generation はコメントを受け付けていません

YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions

要約

この研究では、Yolov3から最新の追加まで、さまざまなヨロ(1回しか見ていない)アルゴリズムの包括的なベンチマーク分析を提示します。
これは、Yoloファミリーへの最新の追加であるYolo11のパフォーマンスを包括的に評価する最初の研究を表しています。
3つの多様なデータセットでのパフォーマンスを評価します。トラフィックサイン(オブジェクトサイズの変化)、アフリカの野生生物(多様なアスペクト比、および画像ごとのオブジェクトの少なくとも1つのインスタンス)、および船と船舶(単一の小型オブジェクトを使用します)
クラス)、明確な課題を伴うデータセット全体の包括的な評価を確保します。
堅牢な評価を確保するために、精度、リコール、平均平均精度(MAP)、処理時間、GFLOPSカウント、モデルサイズなど、包括的なメトリックセットを使用します。
分析では、各ヨロバージョンの特徴的な強みと制限を強調しています。
たとえば、Yolov9は実質的な精度を示しますが、小さなオブジェクトと効率の検出に苦労していますが、Yolov10は、オブジェクトの検出のパフォーマンスに影響を与えるが速度と効率に優れているアーキテクチャの選択により、比較的低い精度を示します。
さらに、Yolo11ファミリーは、精度、速度、計算効率、モデルサイズの点で一貫して優れた性能を示しています。
Yolo11Mは、精度と効率性の驚くべきバランスを達成し、それぞれ交通標識、アフリカの野生生物、および船舶データセットで0.795、0.81、および0.325のMAP50-95スコアを採点し、平均推論時間2.4ms、モデルサイズを維持し、モデルサイズを維持しました。
38.8MB、および平均して約67.6 GFLOPS。
これらの結果は、産業と学界の両方に重要な洞察を提供し、多様なアプリケーションに最も適したヨロアルゴリズムの選択を促進し、将来の強化を導きます。

要約(オリジナル)

This study presents a comprehensive benchmark analysis of various YOLO (You Only Look Once) algorithms, from YOLOv3 to the newest addition. It represents the first research to comprehensively evaluate the performance of YOLO11, the latest addition to the YOLO family. It evaluates their performance on three diverse datasets: Traffic Signs (with varying object sizes), African Wildlife (with diverse aspect ratios and at least one instance of the object per image), and Ships and Vessels (with small-sized objects of a single class), ensuring a comprehensive assessment across datasets with distinct challenges. To ensure a robust evaluation, we employ a comprehensive set of metrics, including Precision, Recall, Mean Average Precision (mAP), Processing Time, GFLOPs count, and Model Size. Our analysis highlights the distinctive strengths and limitations of each YOLO version. For example: YOLOv9 demonstrates substantial accuracy but struggles with detecting small objects and efficiency whereas YOLOv10 exhibits relatively lower accuracy due to architectural choices that affect its performance in overlapping object detection but excels in speed and efficiency. Additionally, the YOLO11 family consistently shows superior performance in terms of accuracy, speed, computational efficiency, and model size. YOLO11m achieved a remarkable balance of accuracy and efficiency, scoring mAP50-95 scores of 0.795, 0.81, and 0.325 on the Traffic Signs, African Wildlife, and Ships datasets, respectively, while maintaining an average inference time of 2.4ms, a model size of 38.8Mb, and around 67.6 GFLOPs on average. These results provide critical insights for both industry and academia, facilitating the selection of the most suitable YOLO algorithm for diverse applications and guiding future enhancements.

arxiv情報

著者 Nidhal Jegham,Chan Young Koh,Marwan Abdelatti,Abdeltawab Hendawi
発行日 2025-02-24 18:54:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | YOLO Evolution: A Comprehensive Benchmark and Architectural Review of YOLOv12, YOLO11, and Their Previous Versions はコメントを受け付けていません

MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs

要約

マルチモーダル大手言語モデル(MLLM)は、近年、視覚認識タスクの急速な進歩を経験しています。
多くの重要なアプリケーションへの潜在的な統合を考えると、視覚的認識の限界を理解することが重要です。
この作業では、MLLMSが画像に関する質問に答えるときに、小さな視覚的詳細を大きなものと同じくらい効果的に知覚できるかどうかを調べます。
彼らのパフォーマンスは、質問の視覚的な主題のサイズに非常に敏感であることを観察し、さらにこの効果が介入研究を実施することによって実際に因果的であることを示しています。
次に、視覚的な質問に答えるときにMLLMの注意パターンを研究し、間違った答えを提供したとしても、どこを見るべきかを一貫して知っていることがあります。
これらの調査結果に基づいて、注意とグラデーションマップの形でMLLM自体の内部知識を活用して、小さな視覚的詳細の認識を高めるトレーニングフリーの視覚介入方法を提案します。
2つの広く使用されているMLLMと7つの視覚的質問にベンチマークに応答する7つの視覚的質問で提案された方法を評価し、トレーニングを必要とせずにMLLMの精度を大幅に改善できることを示します。
我々の結果は、MLLMSを小さな詳細に関する視覚認識タスクに適用するリスクを解明し、モデルの内部状態を使用した視覚的介入がこのリスクを軽減する有望な方向であることを示しています。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have experienced rapid progress in visual recognition tasks in recent years. Given their potential integration into many critical applications, it is important to understand the limitations of their visual perception. In this work, we study whether MLLMs can perceive small visual details as effectively as large ones when answering questions about images. We observe that their performance is very sensitive to the size of the visual subject of the question, and further show that this effect is in fact causal by conducting an intervention study. Next, we study the attention patterns of MLLMs when answering visual questions, and intriguingly find that they consistently know where to look, even when they provide the wrong answer. Based on these findings, we then propose training-free visual intervention methods that leverage the internal knowledge of any MLLM itself, in the form of attention and gradient maps, to enhance its perception of small visual details. We evaluate our proposed methods on two widely-used MLLMs and seven visual question answering benchmarks and show that they can significantly improve MLLMs’ accuracy without requiring any training. Our results elucidate the risk of applying MLLMs to visual recognition tasks concerning small details and indicate that visual intervention using the model’s internal state is a promising direction to mitigate this risk.

arxiv情報

著者 Jiarui Zhang,Mahyar Khayatkhoei,Prateek Chhikara,Filip Ilievski
発行日 2025-02-24 18:54:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | MLLMs Know Where to Look: Training-free Perception of Small Visual Details with Multimodal LLMs はコメントを受け付けていません

Introducing Visual Perception Token into Multimodal Large Language Model

要約

視覚情報を利用するために、マルチモーダル大手言語モデル(MLLM)は、ビジョンエンコーダーの知覚プロセスに依存しています。
視覚的知覚の完全性と正確性は、空間的推論、きめ細かな理解、およびその他のタスクの精度に大きく影響します。
ただし、MLLMには、たとえば、画像の特定の領域を選択的に確認したり、特定のオブジェクトカテゴリに関連する情報に焦点を当てたりするなど、独自の視覚的知覚プロセスを制御する自律能力がまだ欠けています。
この作業では、視覚的知覚プロセスを制御するメカニズムをMLLMに強化することを目指して、視覚的知覚トークンの概念を提案します。
2種類の視覚認識トークンを設計し、リージョン選択トークンとビジョンの再エンコードトークンと呼ばれます。
MLLMは、テキストを生成し、それらを使用して追加の視覚的知覚アクションをトリガーするように、これらのトークンを自律的に生成します。
領域の選択トークンは、さらなる知覚を必要とする画像内の特定の領域を明示的に識別しますが、ビジョンの再エンコードトークンは、その隠された状態を制御信号として使用して、追加の視覚的知覚プロセスを導きます。
広範な実験は、空間的推論の処理、微調整された理解の改善、およびその他のタスクにおけるこれらのトークンの利点を示しています。
平均して、視覚的知覚トークンの導入により、2Bモデルのパフォーマンスが23.6 \%増加し、スコアが0.572から0.708に増加し、7Bパラメーターモデルを13.4 \%(0.624から)よりも上回ります。
レポhttps://github.com/yu-rp/visualceptiontokenをご覧ください

要約(オリジナル)

To utilize visual information, Multimodal Large Language Model (MLLM) relies on the perception process of its vision encoder. The completeness and accuracy of visual perception significantly influence the precision of spatial reasoning, fine-grained understanding, and other tasks. However, MLLM still lacks the autonomous capability to control its own visual perception processes, for example, selectively reviewing specific regions of an image or focusing on information related to specific object categories. In this work, we propose the concept of Visual Perception Token, aiming to empower MLLM with a mechanism to control its visual perception processes. We design two types of Visual Perception Tokens, termed the Region Selection Token and the Vision Re-Encoding Token. MLLMs autonomously generate these tokens, just as they generate text, and use them to trigger additional visual perception actions. The Region Selection Token explicitly identifies specific regions in an image that require further perception, while the Vision Re-Encoding Token uses its hidden states as control signals to guide additional visual perception processes. Extensive experiments demonstrate the advantages of these tokens in handling spatial reasoning, improving fine-grained understanding, and other tasks. On average, the introduction of Visual Perception Tokens improves the performance of a 2B model by 23.6\%, increasing its score from 0.572 to 0.708, and even outperforms a 7B parameter model by 13.4\% (from 0.624). Please check out our repo https://github.com/yu-rp/VisualPerceptionToken

arxiv情報

著者 Runpeng Yu,Xinyin Ma,Xinchao Wang
発行日 2025-02-24 18:56:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG | Introducing Visual Perception Token into Multimodal Large Language Model はコメントを受け付けていません

CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation

要約

3Dインスタンスセグメンテーションは大きな進歩を遂げましたが、現在の方法は、自然なクラスの不均衡で新しいカテゴリが時間とともに現れる現実的なシナリオに対処するのに苦労しています。
この制限は、通常、バランスの取れたクラスがほとんどない既存のデータセットに由来しています。
不均衡なクラスの注釈を含むデータセットはほとんどありませんが、インクリメンタル設定の下での方法を評価するために必要な多様な増分シナリオがありません。
これらの課題に対処するには、漸進的な学習とクラスの不均衡の両方を処理するフレームワークが必要です。
ただし、3D増分セグメンテーションの既存の方法は、階級の不均衡を無視しながら、増分学習のみに焦点を当てて、大きな模範的なリプレイに大きく依存しています。
さらに、バランスの取れた学習のための周波数ベースのチューニングは、以前のクラス統計がないため、これらのセットアップでは非現実的です。
これらの制限を克服するために、\ textbf {c} ontinual \ textbf {l} for for \ textbf {3d}インスタンスセグメンテーション(\ textbf {crimb-3d})の両方の\ tinual \ textbf {l} for class \ textbf {imb}の両方に取り組むフレームワークを提案します。
提案されたアプローチは、模範的なリプレイ(ER)、知識蒸留(KD)、および新しい不均衡補正(IC)モジュールを組み合わせています。
以前の方法とは異なり、私たちのフレームワークはERの使用を最小限に抑え、KDは過去のクラス統計をコンパイルする際にICモジュールの忘却を防ぎ、サポートして、インクリメンタル更新中に希少クラスの学習のバランスをとることができます。
フレームワークを評価するために、3D環境で実際のダイナミクスを反映することを目的としたクラスの頻度、セマンティックな類似性、およびランダムなグループ化に基づいて3つの増分シナリオを設計します。
実験結果は、提案されたフレームワークがベースラインと比較して最大16.76 \%のマップで最大16.76 \%の増加をもたらし、最先端のパフォーマンスを達成することを示しています。
コードは\ href {https://github.com/vgthengane/climb3d} {https://github.com/vgthengane/climb3d}で利用可能になります。

要約(オリジナル)

While 3D instance segmentation has made significant progress, current methods struggle to address realistic scenarios where new categories emerge over time with natural class imbalance. This limitation stems from existing datasets, which typically feature few well-balanced classes. Although few datasets include unbalanced class annotations, they lack the diverse incremental scenarios necessary for evaluating methods under incremental settings. Addressing these challenges requires frameworks that handle both incremental learning and class imbalance. However, existing methods for 3D incremental segmentation rely heavily on large exemplar replay, focusing only on incremental learning while neglecting class imbalance. Moreover, frequency-based tuning for balanced learning is impractical in these setups due to the lack of prior class statistics. To overcome these limitations, we propose a framework to tackle both \textbf{C}ontinual \textbf{L}earning and class \textbf{Imb}alance for \textbf{3D} instance segmentation (\textbf{CLIMB-3D}). Our proposed approach combines Exemplar Replay (ER), Knowledge Distillation (KD), and a novel Imbalance Correction (IC) module. Unlike prior methods, our framework minimizes ER usage, with KD preventing forgetting and supporting the IC module in compiling past class statistics to balance learning of rare classes during incremental updates. To evaluate our framework, we design three incremental scenarios based on class frequency, semantic similarity, and random grouping that aim to mirror real-world dynamics in 3D environments. Experimental results show that our proposed framework achieves state-of-the-art performance, with an increase of up to 16.76\% in mAP compared to the baseline. Code will be available at: \href{https://github.com/vgthengane/CLIMB3D}{https://github.com/vgthengane/CLIMB3D}

arxiv情報

著者 Vishal Thengane,Jean Lahoud,Hisham Cholakkal,Rao Muhammad Anwer,Lu Yin,Xiatian Zhu,Salman Khan
発行日 2025-02-24 18:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CLIMB-3D: Continual Learning for Imbalanced 3D Instance Segmentation はコメントを受け付けていません

FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning

要約

ボックスピックアップやローリング生地など、人間が実行する多くのコンタクトリッチタスクは、信頼できる実行のために力のフィードバックに依存しています。
ただし、ほとんどのロボットアームで容易に入手できるこの力情報は、テレオ操作と政策学習では一般的には使用されていません。
その結果、ロボットの動作は、複雑なフォースフィードバックを必要としない準静的運動学的タスクに限定されることがよくあります。
このホワイトペーパーでは、最初に、フォロワーアームの外力を教師アームに戻す低コストで直感的な二国間術セットアップを提示し、複雑で接触豊富なタスクのデータ収集を促進します。
次に、Training全体で強度が低下して視覚入力を破壊するカリキュラムを使用する政策学習方法であるFactrを紹介します。
カリキュラムは、変圧器ベースのポリシーが視覚入力に過度に適合するのを防ぎ、フォースモダリティに適切に注意するためのポリシーを導きます。
フォース情報を完全に活用することにより、この方法は、カリキュラムなしのベースラインアプローチと比較して、目に見えないオブジェクトへの一般化を43%増加させることを実証します。
https://jasonjzliu.com/factr/でのビデオの結果と手順

要約(オリジナル)

Many contact-rich tasks humans perform, such as box pickup or rolling dough, rely on force feedback for reliable execution. However, this force information, which is readily available in most robot arms, is not commonly used in teleoperation and policy learning. Consequently, robot behavior is often limited to quasi-static kinematic tasks that do not require intricate force-feedback. In this paper, we first present a low-cost, intuitive, bilateral teleoperation setup that relays external forces of the follower arm back to the teacher arm, facilitating data collection for complex, contact-rich tasks. We then introduce FACTR, a policy learning method that employs a curriculum which corrupts the visual input with decreasing intensity throughout training. The curriculum prevents our transformer-based policy from over-fitting to the visual input and guides the policy to properly attend to the force modality. We demonstrate that by fully utilizing the force information, our method significantly improves generalization to unseen objects by 43\% compared to baseline approaches without a curriculum. Video results and instructions at https://jasonjzliu.com/factr/

arxiv情報

著者 Jason Jingzhou Liu,Yulong Li,Kenneth Shaw,Tony Tao,Ruslan Salakhutdinov,Deepak Pathak
発行日 2025-02-24 18:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | FACTR: Force-Attending Curriculum Training for Contact-Rich Policy Learning はコメントを受け付けていません