cs.CV」カテゴリーアーカイブ

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

要約 このペーパーでは、視覚、オーディオ、テキスト入力を同時に網羅するマルチモー … 続きを読む

カテゴリー: cs.AI, cs.CV | WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs はコメントを受け付けていません

Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment

要約 特にGPT-4Oに続く大規模な言語モデルの最近の進歩により、より多くのモダ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM, cs.SD, eess.AS, eess.IV | Ola: Pushing the Frontiers of Omni-Modal Language Model with Progressive Modality Alignment はコメントを受け付けていません

SMART: Advancing Scalable Map Priors for Driving Topology Reasoning

要約 トポロジーの推論は、車線と交通要素の間の接続性と関係を包括的に理解すること … 続きを読む

カテゴリー: cs.CV, cs.RO | SMART: Advancing Scalable Map Priors for Driving Topology Reasoning はコメントを受け付けていません

Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges

要約 ロボット工学、スマートシティ、および自律車の自律的なエッジコンピューティン … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Intelligent Sensing-to-Action for Robust Autonomy at the Edge: Opportunities and Challenges はコメントを受け付けていません

SD++: Enhancing Standard Definition Maps by Incorporating Road Knowledge using LLMs

要約 高解像度マップ(HDマップ)は、レーンセンターラインと道路要素をキャプチャ … 続きを読む

カテゴリー: cs.CV, cs.RO | SD++: Enhancing Standard Definition Maps by Incorporating Road Knowledge using LLMs はコメントを受け付けていません

RoboGrasp: A Universal Grasping Policy for Robust Robotic Control

要約 模倣学習と世界モデルは、一般化可能なロボット学習を進めることに大きな約束を … 続きを読む

カテゴリー: cs.CV, cs.RO | RoboGrasp: A Universal Grasping Policy for Robust Robotic Control はコメントを受け付けていません

Edge Attention Module for Object Classification

要約 この研究では、オブジェクト分類タスクに関する新しい「エッジ注意ベースの畳み … 続きを読む

カテゴリー: cs.CV, cs.LG | Edge Attention Module for Object Classification はコメントを受け付けていません

Tell2Reg: Establishing spatial correspondence between images by the same language prompts

要約 空間的対応は、セグメント化された領域のペアで表すことができ、画像登録ネット … 続きを読む

カテゴリー: 00B25, cs.AI, cs.CV, eess.IV, I.2.7 | Tell2Reg: Establishing spatial correspondence between images by the same language prompts はコメントを受け付けていません

3D Face Reconstruction From Radar Images

要約 顔の3D再構成は、コンピュータービジョンで広く注目され、たとえばアニメーシ … 続きを読む

カテゴリー: cs.CV, cs.LG | 3D Face Reconstruction From Radar Images はコメントを受け付けていません

Assessing Open-world Forgetting in Generative Image Model Customization

要約 拡散モデルの最近の進歩により、画像生成機能が大幅に向上しています。 ただし … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | Assessing Open-world Forgetting in Generative Image Model Customization はコメントを受け付けていません