「cs.AI」カテゴリーアーカイブ

Can We Edit Multimodal Large Language Models?

投稿日: 2024年4月19日作成者: jarxiv

要約このペーパーでは、マルチモーダル大規模言語モデル (MLLM) の編集に焦 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM | コメントを受け付けていません

Generalizable Face Landmarking Guided by Conditional Face Warping

投稿日: 2024年4月19日作成者: jarxiv

要約人間の顔のモデリング、編集、生成の重要なステップとして、顔ランドマークは画 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery

投稿日: 2024年4月19日作成者: jarxiv

要約 Generalized Class Discovery (GCD) は、ラ … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

投稿日: 2024年4月19日作成者: jarxiv

要約ビデオの要約は、長いビデオの短く、正確で、まとまりのある要約を作成すること … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction

投稿日: 2024年4月19日作成者: jarxiv

要約現在の 3D 再構成技術では、少数の画像から境界のないシーンを忠実に推測す … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Lazy Diffusion Transformer for Interactive Image Editing

投稿日: 2024年4月19日作成者: jarxiv

要約部分的な画像更新を効率的に生成する新しい拡散変換器 LazyDiffusi … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.GR | コメントを受け付けていません

BLINK: Multimodal Large Language Models Can See but Not Perceive

投稿日: 2024年4月19日作成者: jarxiv

要約他の評価では見られない中核的な視覚認識能力に焦点を当てた、マルチモーダル言 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

投稿日: 2024年4月19日作成者: jarxiv

要約ニューラルフィールドは、セマンティクス、幾何学、ダイナミクスの推論など、 … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Can LLMs perform structured graph reasoning?

投稿日: 2024年4月19日作成者: jarxiv

要約事前トレーニングされた大規模言語モデル (LLM) は、特に非構造化タスク … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving

投稿日: 2024年4月19日作成者: jarxiv

要約現在の自律スタックは十分にモジュール化されており、手作りのフレームワークで … 続きを読む →

カテゴリー: cs.AI, cs.RO | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Can We Edit Multimodal Large Language Models?

Generalizable Face Landmarking Guided by Conditional Face Warping

Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery

V2Xum-LLM: Cross-Modal Video Summarization with Temporal Prompt Instruction Tuning

6Img-to-3D: Few-Image Large-Scale Outdoor Driving Scene Reconstruction

Lazy Diffusion Transformer for Interactive Image Editing

BLINK: Multimodal Large Language Models Can See but Not Perceive

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

Can LLMs perform structured graph reasoning?

End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving

最近の投稿

最近のコメント

アーカイブ

カテゴリー