-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
投稿者「jarxiv」のアーカイブ
Synergistic Bleeding Region and Point Detection in Laparoscopic Surgical Videos
要約 腹腔鏡手術における術中出血は、手術分野の急速な不明瞭さを引き起こし、外科的 … 続きを読む
カテゴリー: cs.CV
Synergistic Bleeding Region and Point Detection in Laparoscopic Surgical Videos はコメントを受け付けていません
One RL to See Them All: Visual Triple Unified Reinforcement Learning
要約 強化学習(RL)は、ビジョン言語モデル(VLM)の推論能力を大幅に進めてい … 続きを読む
BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models
要約 大型ビジョンモデル(LVM)ベースの歩行認識は、印象的なパフォーマンスを達 … 続きを読む
カテゴリー: cs.CV
BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models はコメントを受け付けていません
VideoGameBench: Can Vision-Language Models complete popular video games?
要約 ビジョン言語モデル(VLMS)は、人間にとって挑戦的なコーディングと数学の … 続きを読む
Boosting Open Set Recognition Performance through Modulated Representation Learning
要約 オープンセット認識(OSR)問題は、トレーニングクラスの一部ではない新しい … 続きを読む
TokBench: Evaluating Your Visual Tokenizer before Visual Generation
要約 この作業では、細粒の特徴を保存する際の視覚トークナザーとVAEの限界を明ら … 続きを読む
WonderPlay: Dynamic 3D Scene Generation from a Single Image and Actions
要約 WonderPlayは、単一の画像からアクションコンディショニングされた動 … 続きを読む
REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders
要約 ポイントプロンプトを使用して地域ベースの画像表現を生成するための高速かつ効 … 続きを読む
カテゴリー: cs.CV
REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders はコメントを受け付けていません
Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models
要約 強化学習(RL)は、ビジョン言語モデル(VLM)の推論を強化するための効果 … 続きを読む
TULiP: Test-time Uncertainty Estimation via Linearization and Weight Perturbation
要約 信頼できる不確実性推定方法は、オープンワールドの深い学習モデルの安全な展開 … 続きを読む