月別アーカイブ: 2024年5月

What matters when building vision-language models?

投稿日: 2024年5月6日作成者: jarxiv

要約視覚言語モデル（VLM）への関心の高まりは、大規模言語モデルや視覚変換器の … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning?

投稿日: 2024年5月6日作成者: jarxiv

要約 CLIPに代表される大規模な視覚言語モデルの開発は、特にソフトプロンプトチ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

投稿日: 2024年5月6日作成者: jarxiv

要約既存のVLMは、野生の2D映像オブジェクトを追跡することができる一方、現在 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

投稿日: 2024年5月6日作成者: jarxiv

要約 Vibe-Evalは、マルチモーダルチャットモデルを評価するための新しいオ … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity

投稿日: 2024年5月6日作成者: jarxiv

要約高次視覚野の機能的構成を理解することは、神経科学の中心的課題である。これま … 続きを読む →

カテゴリー: cs.LG, q-bio.NC | コメントを受け付けていません

Accelerating Convergence in Bayesian Few-Shot Classification

投稿日: 2024年5月6日作成者: jarxiv

要約ベイズ型少数ショット分類は、少数ショット学習の分野で焦点となっている。本稿 … 続きを読む →

カテゴリー: cs.LG, stat.ML | コメントを受け付けていません

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

投稿日: 2024年5月6日作成者: jarxiv

要約大規模言語モデル(LLM)は、数学的推論に関する多くのベンチマークで目覚ま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG | コメントを受け付けていません

SATO: Stable Text-to-Motion Framework

投稿日: 2024年5月6日作成者: jarxiv

要約 Text to Motionモデルはロバストか？最近のText to Mo … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

A separability-based approach to quantifying generalization: which layer is best?

投稿日: 2024年5月6日作成者: jarxiv

要約ディープラーニングの分類モデルや基礎モデルにおいて、未知のデータへの汎化に … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG, I.2.6 | コメントを受け付けていません

UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation

投稿日: 2024年5月6日作成者: jarxiv

要約事前学習された言語モデルは、プロンプトベースの少数ショット学習により優れた … 続きを読む →

カテゴリー: cs.AI, cs.CL | コメントを受け付けていません

月別アーカイブ: 2024年5月

What matters when building vision-language models?

On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning?

DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos

Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models

BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity

Accelerating Convergence in Bayesian Few-Shot Classification

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

SATO: Stable Text-to-Motion Framework

A separability-based approach to quantifying generalization: which layer is best?

UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー