cs.CV」カテゴリーアーカイブ

GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

要約 ロボット操作のワンショット視覚教育を容易にするために、汎用ビジョン言語モデ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.RO | GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration はコメントを受け付けていません

SceneMotion: From Agent-Centric Embeddings to Scene-Wide Forecasts

要約 自動運転車は、環境と効果的に対話し、安全な操縦を計画するために、マルチモー … 続きを読む

カテゴリー: cs.CV, cs.RO | SceneMotion: From Agent-Centric Embeddings to Scene-Wide Forecasts はコメントを受け付けていません

R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation

要約 大規模言語モデル (LLM) の大きな成功に触発されて、既存の X 線医療 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation はコメントを受け付けていません

Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

要約 従来のアニメーション生成方法は、人間がラベル付けしたデータを使用した生成モ … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.MM | Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation はコメントを受け付けていません

Docling Technical Report

要約 この技術レポートでは、PDF ドキュメント変換用の使いやすい自己完結型の … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.SE | Docling Technical Report はコメントを受け付けていません

Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit

要約 モデル編集は、コストのかかる再トレーニングを行わずに、大規模なモデル内の古 … 続きを読む

カテゴリー: cs.CL, cs.CV | Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit はコメントを受け付けていません

RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports

要約 Vision-Language Foundation モデルは、コンピュー … 続きを読む

カテゴリー: cs.CV | RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports はコメントを受け付けていません

Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision

要約 人間の注意を理解することは、視覚科学と AI にとって非常に重要です。 自 … 続きを読む

カテゴリー: cs.AI, cs.CV | Caption-Driven Explorations: Aligning Image and Text Embeddings through Human-Inspired Foveated Vision はコメントを受け付けていません

C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval

要約 手話表現学習 (SLRL) は、手話翻訳 (SLT) や手話検索 (SLR … 続きを読む

カテゴリー: cs.CL, cs.CV | C${^2}$RL: Content and Context Representation Learning for Gloss-free Sign Language Translation and Retrieval はコメントを受け付けていません

Text-Conditioned Resampler For Long Form Video Understanding

要約 この論文では、事前にトレーニングされフリーズされたビジュアル エンコーダー … 続きを読む

カテゴリー: cs.CV | Text-Conditioned Resampler For Long Form Video Understanding はコメントを受け付けていません