cs.CV」カテゴリーアーカイブ

Aligning Multimodal LLM with Human Preference: A Survey

要約 大規模な言語モデル(LLMS)は、タスク固有のトレーニングを必要とせずに、 … 続きを読む

カテゴリー: cs.CV | Aligning Multimodal LLM with Human Preference: A Survey はコメントを受け付けていません

MusicInfuser: Making Video Diffusion Listen and Dance

要約 MusicInfuserを紹介します。これは、指定された音楽トラックに同期 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | MusicInfuser: Making Video Diffusion Listen and Dance はコメントを受け付けていません

MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning

要約 構成ゼロショット学習(CZSL)は、見た構成からセマンティックプリミティブ … 続きを読む

カテゴリー: cs.CV | MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning はコメントを受け付けていません

MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling

要約 線形の複雑さを伴うRNNモデルの進歩により、変圧器の二次複雑さの課題は克服 … 続きを読む

カテゴリー: cs.CV | MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling はコメントを受け付けていません

Valley: Video Assistant with Large Language model Enhanced abilitY

要約 大規模な言語モデル(LLMS)は、驚くべき会話能力を備えた、視覚的およびテ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Valley: Video Assistant with Large Language model Enhanced abilitY はコメントを受け付けていません

A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges

要約 マルチモーダルビジョン言語モデル(VLM)は、コンピュータービジョンと自然 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges はコメントを受け付けていません

Dynamic-Dark SLAM: RGB-Thermal Cooperative Robot Vision Strategy for Multi-Person Tracking in Both Well-Lit and Low-Light Scenes

要約 ロボットビジョンでは、サーマルカメラは、完全な暗闇の中でも人間を認識する重 … 続きを読む

カテゴリー: cs.CV, cs.RO | Dynamic-Dark SLAM: RGB-Thermal Cooperative Robot Vision Strategy for Multi-Person Tracking in Both Well-Lit and Low-Light Scenes はコメントを受け付けていません

NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models

要約 マルチモーダルの大手言語モデル(MLLM)の最近の進歩は、さまざまなドメイ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models はコメントを受け付けていません

OW-Rep: Open World Object Detection with Instance Representation Learning

要約 Open World Object Detection(OWOD)は、目に … 続きを読む

カテゴリー: cs.CV, cs.RO | OW-Rep: Open World Object Detection with Instance Representation Learning はコメントを受け付けていません

Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach

要約 具体化されたAIの進歩により、エンドツーエンドの訓練を受けたエージェントが … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Reasoning in visual navigation of end-to-end trained agents: a dynamical systems approach はコメントを受け付けていません