cs.AI」カテゴリーアーカイブ

CausalQuest: Collecting Natural Causal Questions for AI Agents

要約 人間には因果関係を探ろうとする生来の本能があります。 好奇心や特定の目標に … 続きを読む

カテゴリー: cs.AI, cs.CC, cs.CL, cs.LG | CausalQuest: Collecting Natural Causal Questions for AI Agents はコメントを受け付けていません

CoSy: Evaluating Textual Explanations of Neurons

要約 ディープ ニューラル ネットワーク (DNN) の複雑な性質を理解する上で … 続きを読む

カテゴリー: cs.AI, cs.LG | CoSy: Evaluating Textual Explanations of Neurons はコメントを受け付けていません

On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization

要約 フューショット学習は、少数の例を与えられた新しいタスクに取り組むことができ … 続きを読む

カテゴリー: cs.AI, cs.CV | On the Limits of Multi-modal Meta-Learning with Auxiliary Task Modulation Using Conditional Batch Normalization はコメントを受け付けていません

Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study

要約 テキストと画像のモダリティを統合するマルチモーダル大規模言語モデル (ML … 続きを読む

カテゴリー: cs.AI, cs.CV | Enhancing Multimodal Large Language Models with Vision Detection Models: An Empirical Study はコメントを受け付けていません

Transformers and Slot Encoding for Sample Efficient Physical World Modelling

要約 世界モデリング、つまり世界の進化を予測するために世界を支配する規則の表現を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Transformers and Slot Encoding for Sample Efficient Physical World Modelling はコメントを受け付けていません

Jina CLIP: Your CLIP Model Is Also Your Text Retriever

要約 Contrastive Language-Image Pretrainin … 続きを読む

カテゴリー: 68T50, cs.AI, cs.CL, cs.CV, cs.IR, I.2.7 | Jina CLIP: Your CLIP Model Is Also Your Text Retriever はコメントを受け付けていません

Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback

要約 Text-to-Image (T2I) 手法による高品質の人物画像の生成は … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback はコメントを受け付けていません

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model

要約 我々は、高度な制御可能な画像アニメーション手法である MOFA-Video … 続きを読む

カテゴリー: cs.AI, cs.CV | MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model はコメントを受け付けていません

KerasCV and KerasNLP: Vision and Language Power-Ups

要約 コンピューター ビジョンおよび自然言語処理ワークフロー用の Keras A … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.SE, I.2.10 | KerasCV and KerasNLP: Vision and Language Power-Ups はコメントを受け付けていません

CV-VAE: A Compatible Video VAE for Latent Generative Video Models

要約 変分オートエンコーダー (VAE) などのネットワークを利用したビデオの時 … 続きを読む

カテゴリー: cs.AI, cs.CV, eess.IV | CV-VAE: A Compatible Video VAE for Latent Generative Video Models はコメントを受け付けていません