-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
MVTamperBench: Evaluating Robustness of Vision-Language Models
要約 マルチモーダル大手言語モデル(MLLMS)は、ビデオ理解の大きな進歩を促進 … 続きを読む
Only-Style: Stylistic Consistency in Image Generation without Content Leakage
要約 一貫した参照視覚スタイルで画像を生成することは、挑戦的なコンピュータービジ … 続きを読む
カテゴリー: cs.CV
Only-Style: Stylistic Consistency in Image Generation without Content Leakage はコメントを受け付けていません
MetricHMR: Metric Human Mesh Recovery from Monocular Images
要約 単眼画像からの正確なグローバル翻訳を使用したメトリックヒトメッシュ回復のア … 続きを読む
カテゴリー: cs.CV
MetricHMR: Metric Human Mesh Recovery from Monocular Images はコメントを受け付けていません
Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering
要約 Hyperspectral Image(HSI)クラスタリングは、注釈なし … 続きを読む
カテゴリー: cs.CV
Structural-Spectral Graph Convolution with Evidential Edge Learning for Hyperspectral Image Clustering はコメントを受け付けていません
RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation
要約 リモートセンシング画像のセマンティックセグメンテーションはさまざまなアプリ … 続きを読む
カテゴリー: cs.CV
RS-MTDF: Multi-Teacher Distillation and Fusion for Remote Sensing Semi-Supervised Semantic Segmentation はコメントを受け付けていません
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models
要約 Vision-Language-action(VLA)モデルがロボット工学 … 続きを読む
HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations
要約 拡散モデルは画像生成の最先端を表していますが、それらの高いメモリと計算の要 … 続きを読む
Fluoroscopic Shape and Pose Tracking of Catheters with Custom Radiopaque Markers
要約 脳血管系における操縦可能なカテーテルとロボットのカテーテルの安全な航行には … 続きを読む
LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation
要約 3Dシーンを理解し、自然言語の指示に従って幅広いタスクを実行できる3D-V … 続きを読む
カテゴリー: cs.CV
LEO-VL: Towards 3D Vision-Language Generalists via Data Scaling with Efficient Representation はコメントを受け付けていません
CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models
要約 物理世界での因果関係のモデルの理解をプローブする質問回答ペアで構成されるビ … 続きを読む