-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos
要約 画像やビデオの包括的な地域レベルの視覚的理解のための概念的に簡単かつ効率的 … 続きを読む
カテゴリー: cs.CV
Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos はコメントを受け付けていません
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL
要約 考え方の推論と強化学習(RL)がNLPのブレークスルーを駆動していますが、 … 続きを読む
Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels
要約 画像とオブジェクトインスタンス間で意味的に類似したポイント間の対応を見つけ … 続きを読む
カテゴリー: cs.CV
Do It Yourself: Learning Semantic Correspondence from Pseudo-Labels はコメントを受け付けていません
MARBLE: Material Recomposition and Blending in CLIP-Space
要約 模範的な画像に基づいた画像内のオブジェクトの資料の編集は、コンピュータービ … 続きを読む
カテゴリー: cs.CV
MARBLE: Material Recomposition and Blending in CLIP-Space はコメントを受け付けていません
ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation
要約 ニューラルレンダリングは、3D再構成と新規ビューの合成に大きな進歩を遂げま … 続きを読む
カテゴリー: cs.CV
ProJo4D: Progressive Joint Optimization for Sparse-View Inverse Physics Estimation はコメントを受け付けていません
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
要約 2Dビジョン言語モデル(VLMS)の顕著な進歩は、3D質問応答、密度の高い … 続きを読む
カテゴリー: cs.CV
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs はコメントを受け付けていません
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting
要約 深さマップは、フィードフォワード3Dガウススプラッティング(3DG)パイプ … 続きを読む
カテゴリー: cs.CV
Revisiting Depth Representations for Feed-Forward 3D Gaussian Splatting はコメントを受け付けていません
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs
要約 ビデオの理解の進歩にもかかわらず、現在のMLLMはタスクのカウントに苦労し … 続きを読む
カテゴリー: cs.CV
AV-Reasoner: Improving and Benchmarking Clue-Grounded Audio-Visual Counting for MLLMs はコメントを受け付けていません
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning
要約 Chain-of-Thought(COT)は、大規模な言語モデル(LLM) … 続きを読む
カテゴリー: cs.CV
MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning はコメントを受け付けていません
Unleashing Hour-Scale Video Training for Long Video-Language Understanding
要約 最近の長い形式のビデオ言語理解ベンチマークは、ビデオの大規模なマルチモーダ … 続きを読む