「cs.AI」カテゴリーアーカイブ

Will GPT-4 Run DOOM?

投稿日: 2024年3月11日作成者: jarxiv

要約 GPT-4 の推論と計画能力が 1993 年の一人称シューティングゲーム … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Poly-View Contrastive Learning

投稿日: 2024年3月11日作成者: jarxiv

要約対照学習では通常、多数の無関係な否定的なビューの中から関連するビューのペア … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.IT, cs.LG, math.IT, stat.ML | コメントを受け付けていません

Tell, Don’t Show!: Language Guidance Eases Transfer Across Domains in Images and Videos

投稿日: 2024年3月11日作成者: jarxiv

要約 LaGTran は、すぐに利用できる、または簡単に取得できるテキスト記述を … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

Can LLMs Follow Simple Rules?

投稿日: 2024年3月11日作成者: jarxiv

要約大規模言語モデル (LLM) は現実世界での責任が増大するにつれて展開され … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

Pix2Gif: Motion-Guided Diffusion for GIF Generation

投稿日: 2024年3月11日作成者: jarxiv

要約私たちは、画像から GIF (ビデオ) への生成のためのモーションガイド付 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

DNAct: Diffusion Guided Multi-Task 3D Policy Learning

投稿日: 2024年3月11日作成者: jarxiv

要約この論文では、ニューラルレンダリングの事前トレーニングと拡散トレーニング … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.RO | コメントを受け付けていません

Context-Based Multimodal Fusion

投稿日: 2024年3月11日作成者: jarxiv

要約さまざまなソースからの情報を効果的に組み合わせる融合モデルは、マルチモーダ … 続きを読む →

カテゴリー: cs.AI, cs.LG | コメントを受け付けていません

Do Large Language Model Understand Multi-Intent Spoken Language ?

投稿日: 2024年3月11日作成者: jarxiv

要約この研究は、多目的音声言語理解 (SLU) に大規模言語モデル (LLM) … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

Explaining Bayesian Optimization by Shapley Values Facilitates Human-AI Collaboration

投稿日: 2024年3月11日作成者: jarxiv

要約ガウスプロセス (GP) を使用したベイジアン最適化 (BO) は、ブラッ … 続きを読む →

カテゴリー: cs.AI, cs.HC, cs.LG, cs.RO, F.2.2, stat.ML | コメントを受け付けていません

How Far Are We from Intelligent Visual Deductive Reasoning?

投稿日: 2024年3月11日作成者: jarxiv

要約 GPT-4V などの視覚言語モデル (VLM) は、最近、多様な視覚言語タ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

「cs.AI」カテゴリーアーカイブ

Will GPT-4 Run DOOM?

Poly-View Contrastive Learning

Tell, Don’t Show!: Language Guidance Eases Transfer Across Domains in Images and Videos

Can LLMs Follow Simple Rules?

Pix2Gif: Motion-Guided Diffusion for GIF Generation

DNAct: Diffusion Guided Multi-Task 3D Policy Learning

Context-Based Multimodal Fusion

Do Large Language Model Understand Multi-Intent Spoken Language ?

Explaining Bayesian Optimization by Shapley Values Facilitates Human-AI Collaboration

How Far Are We from Intelligent Visual Deductive Reasoning?

最近の投稿

最近のコメント

アーカイブ

カテゴリー