-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Movie Facts and Fibs (MF$^2$): A Benchmark for Long Movie Understanding
要約 ビジョン言語モデル(VLMS)の最近の進歩にもかかわらず、現在のベンチマー … 続きを読む
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis
要約 高解像度の画像合成で強力なパフォーマンスを達成する正規化フローに基づいたス … 続きを読む
カテゴリー: cs.CV
STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis はコメントを受け付けていません
ExAct: A Video-Language Benchmark for Expert Action Analysis
要約 熟練した身体的人間の活動を専門レベルの理解のための新しいビデオ言語ベンチマ … 続きを読む
カテゴリー: cs.CV
ExAct: A Video-Language Benchmark for Expert Action Analysis はコメントを受け付けていません
CoMemo: LVLMs Need Image Context with Image Memory
要約 大規模な言語モデルに基づいて構築された大規模な視覚言語モデルの最近の進歩に … 続きを読む
カテゴリー: cs.CV
CoMemo: LVLMs Need Image Context with Image Memory はコメントを受け付けていません
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation
要約 現代の地球観測(EO)は、センサーと地域全体で衛星画像のスケールと多様性を … 続きを読む
カテゴリー: cs.CV
TerraFM: A Scalable Foundation Model for Unified Multisensor Earth Observation はコメントを受け付けていません
Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh
要約 テクスチャメッシュと対応するマルチビューパノラマ画像として表される屋内スペ … 続きを読む
カテゴリー: cs.CV
Defurnishing with X-Ray Vision: Joint Removal of Furniture from Panoramas and Mesh はコメントを受け付けていません
Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting
要約 NERFやGaussian Splatting(GS)を含むニューラルレン … 続きを読む
カテゴリー: cs.CV
Unifying Appearance Codes and Bilateral Grids for Driving Scene Gaussian Splatting はコメントを受け付けていません
FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction
要約 このペーパーでは、複雑な動きで動的な3Dシーンを再構築するという課題に取り … 続きを読む
カテゴリー: cs.CV
FreeTimeGS: Free Gaussian Primitives at Anytime and Anywhere for Dynamic Scene Reconstruction はコメントを受け付けていません
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs
要約 2Dビジョン言語モデル(VLMS)の顕著な進歩は、3D質問応答、密度の高い … 続きを読む
カテゴリー: cs.CV
Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs はコメントを受け付けていません
MineInsight: A Multi-sensor Dataset for Humanitarian Demining Robotics in Off-Road Environments
要約 人道的脱出におけるロボット工学の使用には、地雷検出能力を改善するためのコン … 続きを読む