投稿者「jarxiv」のアーカイブ

MVTamperBench: Evaluating Robustness of Vision-Language Models

要約 マルチモーダル大手言語モデル(MLLMS)は、ビデオ理解の大きな進歩を促進 … 続きを読む

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, H.5.1 | MVTamperBench: Evaluating Robustness of Vision-Language Models はコメントを受け付けていません

Only-Style: Stylistic Consistency in Image Generation without Content Leakage

要約 一貫した参照視覚スタイルで画像を生成することは、挑戦的なコンピュータービジ … 続きを読む

カテゴリー: cs.CV | Only-Style: Stylistic Consistency in Image Generation without Content Leakage はコメントを受け付けていません

MetricHMR: Metric Human Mesh Recovery from Monocular Images

要約 単眼画像からの正確なグローバル翻訳を使用したメトリックヒトメッシュ回復のア … 続きを読む

カテゴリー: cs.CV | MetricHMR: Metric Human Mesh Recovery from Monocular Images はコメントを受け付けていません

Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering

要約 Hyperspectral Image(HSI)クラスタリングは、注釈なし … 続きを読む

カテゴリー: cs.CV | Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering はコメントを受け付けていません

RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation

要約 リモートセンシング画像のセマンティックセグメンテーションはさまざまなアプリ … 続きを読む

カテゴリー: cs.CV | RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation はコメントを受け付けていません

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

要約 Vision-Language-action(VLA)モデルがロボット工学 … 続きを読む

カテゴリー: cs.CV, cs.RO | From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models はコメントを受け付けていません

HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations

要約 拡散モデルは画像生成の最先端を表していますが、それらの高いメモリと計算の要 … 続きを読む

カテゴリー: cs.AI, cs.CV | HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations はコメントを受け付けていません

Fluoroscopic Shape and Pose Tracking of Catheters with Custom Radiopaque Markers

要約 脳血管系における操縦可能なカテーテルとロボットのカテーテルの安全な航行には … 続きを読む

カテゴリー: cs.CV, cs.RO | Fluoroscopic Shape and Pose Tracking of Catheters with Custom Radiopaque Markers はコメントを受け付けていません

LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation

要約 3Dシーンを理解し、自然言語の指示に従って幅広いタスクを実行できる3D-V … 続きを読む

カテゴリー: cs.CV | LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation はコメントを受け付けていません

CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

要約 物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビ … 続きを読む

カテゴリー: cs.AI, cs.CV, I.2.10 | CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models はコメントを受け付けていません