cs.AI」カテゴリーアーカイブ

Can We Edit Multimodal Large Language Models?

要約 このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | Can We Edit Multimodal Large Language Models? はコメントを受け付けていません

Generalizable Face Landmarking Guided by Conditional Face Warping

要約 人間の顔のモデリング、編集、生成の重要なステップとして、顔ランドマークは画 … 続きを読む

カテゴリー: cs.AI, cs.CV | Generalizable Face Landmarking Guided by Conditional Face Warping はコメントを受け付けていません

Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery

要約 Generalized Class Discovery (GCD) は、ラ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery はコメントを受け付けていません

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

要約 ビデオの要約は、長いビデオの短く、正確で、まとまりのある要約を作成すること … 続きを読む

カテゴリー: cs.AI, cs.CV | V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning はコメントを受け付けていません

6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction

要約 現在の 3D 再構成技術では、少数の画像から境界のないシーンを忠実に推測す … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | 6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction はコメントを受け付けていません

Lazy Diffusion Transformer for Interactive Image Editing

要約 部分的な画像更新を効率的に生成する新しい拡散変換器 LazyDiffusi … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR | Lazy Diffusion Transformer for Interactive Image Editing はコメントを受け付けていません

BLINK: Multimodal Large Language Models Can See but Not Perceive

要約 他の評価では見られない中核的な視覚認識能力に焦点を当てた、マルチモーダル言 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | BLINK: Multimodal Large Language Models Can See but Not Perceive はコメントを受け付けていません

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

要約 ニューラル フィールドは、セマンティクス、幾何学、ダイナミクスの推論など、 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields はコメントを受け付けていません

Can LLMs perform structured graph reasoning?

要約 事前トレーニングされた大規模言語モデル (LLM) は、特に非構造化タスク … 続きを読む

カテゴリー: cs.AI, cs.CL | Can LLMs perform structured graph reasoning? はコメントを受け付けていません

End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving

要約 現在の自律スタックは十分にモジュール化されており、手作りのフレームワークで … 続きを読む

カテゴリー: cs.AI, cs.RO | End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving はコメントを受け付けていません