投稿者「jarxiv」のアーカイブ

MVTamperBench: Evaluating Robustness of Vision-Language Models

投稿日: 2025年6月12日作成者: jarxiv

要約マルチモーダル大手言語モデル（MLLMS）は、ビデオ理解の大きな進歩を促進 … 続きを読む →

カテゴリー: 68Q32, 68Q85, 68T05, 68T37, 68T40, 68T45, 94A08, cs.CV, H.5.1 | コメントを受け付けていません

Only-Style: Stylistic Consistency in Image Generation without Content Leakage

投稿日: 2025年6月12日作成者: jarxiv

要約一貫した参照視覚スタイルで画像を生成することは、挑戦的なコンピュータービジ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MetricHMR: Metric Human Mesh Recovery from Monocular Images

投稿日: 2025年6月12日作成者: jarxiv

要約単眼画像からの正確なグローバル翻訳を使用したメトリックヒトメッシュ回復のア … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering

投稿日: 2025年6月12日作成者: jarxiv

要約 Hyperspectral Image（HSI）クラスタリングは、注釈なし … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation

投稿日: 2025年6月12日作成者: jarxiv

要約リモートセンシング画像のセマンティックセグメンテーションはさまざまなアプリ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

投稿日: 2025年6月12日作成者: jarxiv

要約 Vision-Language-action（VLA）モデルがロボット工学 … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations

投稿日: 2025年6月12日作成者: jarxiv

要約拡散モデルは画像生成の最先端を表していますが、それらの高いメモリと計算の要 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Fluoroscopic Shape and Pose Tracking of Catheters with Custom Radiopaque Markers

投稿日: 2025年6月12日作成者: jarxiv

要約脳血管系における操縦可能なカテーテルとロボットのカテーテルの安全な航行には … 続きを読む →

カテゴリー: cs.CV, cs.RO | コメントを受け付けていません

LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation

投稿日: 2025年6月12日作成者: jarxiv

要約 3Dシーンを理解し、自然言語の指示に従って幅広いタスクを実行できる3D-V … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

投稿日: 2025年6月12日作成者: jarxiv

要約物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビ … 続きを読む →

カテゴリー: cs.AI, cs.CV, I.2.10 | コメントを受け付けていません

投稿者「jarxiv」のアーカイブ

MVTamperBench: Evaluating Robustness of Vision-Language Models

Only-Style: Stylistic Consistency in Image Generation without Content Leakage

MetricHMR: Metric Human Mesh Recovery from Monocular Images

Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering

RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation

From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models

HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations

Fluoroscopic Shape and Pose Tracking of Catheters with Custom Radiopaque Markers

LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation

CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

最近の投稿

最近のコメント

アーカイブ

カテゴリー