-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年4月
An LMM for Efficient Video Understanding via Reinforced Compression of Video Cubes
要約 大規模なマルチモーダルモデル(LMM)は、ビデオフレームを均一に知覚し、本 … 続きを読む
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
要約 長いコンテキストマルチモーダル学習のために、フロンティアビジョンモデル(V … 続きを読む
カテゴリー: cs.CV
Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models はコメントを受け付けていません
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models
要約 視覚概念を定義する際の固有のあいまいさは、単一の画像から概念を正確に学習す … 続きを読む
カテゴリー: cs.CV
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models はコメントを受け付けていません
DRAWER: Digital Reconstruction and Articulation With Environment Realism
要約 現実世界のデータから仮想デジタルレプリカを作成すると、ゲームやロボット工学 … 続きを読む
Seeing from Another Perspective: Evaluating Multi-View Understanding in MLLMs
要約 マルチビューの理解、効果的なナビゲーション、操作、3Dシーンの理解のために … 続きを読む
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models
要約 視覚的推論は、人間の知能のコアコンポーネントであり、高度なマルチモーダルモ … 続きを読む
カテゴリー: cs.CV
VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models はコメントを受け付けていません
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians
要約 3Dガウスのスプラッティング(3DG)は、フォトリアリスティックシーンの再 … 続きを読む
カテゴリー: cs.CV
StyleMe3D: Stylization with Disentangled Priors by Multiple Encoders on 3D Gaussians はコメントを受け付けていません
Analysing the Robustness of Vision-Language-Models to Common Corruptions
要約 Vision-Language Models(VLMS)は、視覚的およびテ … 続きを読む
カテゴリー: cs.CV
Analysing the Robustness of Vision-Language-Models to Common Corruptions はコメントを受け付けていません
Generative AI Act II: Test Time Scaling Drives Cognition Engineering
要約 生成AI(2020-2023)の「Act I」と呼ばれる可能性のある大規模 … 続きを読む
Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling
要約 タスク指向のダイアログ(TOD)システムの重要なコンポーネントである意図検 … 続きを読む
カテゴリー: cs.CL
Improving Generalization in Intent Detection: GRPO with Reward-Based Curriculum Sampling はコメントを受け付けていません