月別アーカイブ: 2024年7月

PIXELMOD: Improving Soft Moderation of Visual Misleading Information on Twitter

投稿日: 2024年7月31日作成者: jarxiv

要約画像は、誤解を招くメッセージやまったくの虚偽のメッセージを伝えるための強力 … 続きを読む →

カテゴリー: cs.CV, cs.CY | コメントを受け付けていません

From Feature Importance to Natural Language Explanations Using LLMs with RAG

投稿日: 2024年7月31日作成者: jarxiv

要約機械学習が人間との対話を伴う自律的な意思決定プロセスにますます不可欠になる … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.HC, cs.LG | コメントを受け付けていません

GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models

投稿日: 2024年7月31日作成者: jarxiv

要約視覚言語モデル (VLM) は、画像に映る個人の評価を必要とするタスクなど … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

XHand: Real-time Expressive Hand Avatar

投稿日: 2024年7月31日作成者: jarxiv

要約ハンドアバターは、さまざまなデジタルインターフェイスで極めて重要な役割 … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection

投稿日: 2024年7月31日作成者: jarxiv

要約最近の進歩により、2 つのストリームのアプローチが憎悪ミームの検出において … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning

投稿日: 2024年7月31日作成者: jarxiv

要約 Contrastive Language-Image Pre-traini … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Add-SD: Rational Generation without Manual Reference

投稿日: 2024年7月31日作成者: jarxiv

要約拡散モデルは、視覚的な一般化において顕著な優れた能力を発揮してきました。 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Matting by Generation

投稿日: 2024年7月31日作成者: jarxiv

要約この論文では、従来の回帰ベースのタスクを生成モデリングの課題として再定義す … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Mixture of Nested Experts: Adaptive Processing of Visual Tokens

投稿日: 2024年7月31日作成者: jarxiv

要約視覚媒体 (画像やビデオ) には当然ながら大量の情報の冗長性が含まれている … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

SpaER: Learning Spatio-temporal Equivariant Representations for Fetal Brain Motion Tracking

投稿日: 2024年7月31日作成者: jarxiv

要約この論文では、等変フィルターと自己注意メカニズムを活用して時空間表現を効果 … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2024年7月

PIXELMOD: Improving Soft Moderation of Visual Misleading Information on Twitter

From Feature Importance to Natural Language Explanations Using LLMs with RAG

GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models

XHand: Real-time Expressive Hand Avatar

Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection

CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning

Add-SD: Rational Generation without Manual Reference

Matting by Generation

Mixture of Nested Experts: Adaptive Processing of Visual Tokens

SpaER: Learning Spatio-temporal Equivariant Representations for Fetal Brain Motion Tracking

最近の投稿

最近のコメント

アーカイブ

カテゴリー