「cs.CV」カテゴリーアーカイブ

SePPO: Semi-Policy Preference Optimization for Diffusion Alignment

投稿日: 2024年10月8日作成者: jarxiv

要約ヒューマンフィードバックからの強化学習 (RLHF) 手法は、ビジュアル … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

GS-VTON: Controllable 3D Virtual Try-on with Gaussian Splatting

投稿日: 2024年10月8日作成者: jarxiv

要約普及に基づいた 2D 仮想試着 (VTON) 技術は最近好調なパフォーマン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control

投稿日: 2024年10月8日作成者: jarxiv

要約自然言語によるユーザーの対話を可能にする、テキスト条件付きの人間のモーショ … 続きを読む →

カテゴリー: cs.CV, cs.GR | コメントを受け付けていません

TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens

投稿日: 2024年10月8日作成者: jarxiv

要約密なテキストを読んだり、画像内のオブジェクトを見つけたりすることは、高度な … 続きを読む →

カテゴリー: cs.AI, cs.CV | コメントを受け付けていません

Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers

投稿日: 2024年10月8日作成者: jarxiv

要約大規模な人工ニューラルネットワークの進歩により、脳の機能トポロジーに対す … 続きを読む →

カテゴリー: cs.CV, q-bio.NC | コメントを受け付けていません

Fine-Tuning CLIP’s Last Visual Projector: A Few-Shot Cornucopia

投稿日: 2024年10月8日作成者: jarxiv

要約 CLIP (Radford et al., 2021) のような対照的に事 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

投稿日: 2024年10月8日作成者: jarxiv

要約埋め込みモデルは、意味的類似性、情報検索、クラスタリングなどのさまざまな下 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

MetaMetrics: Calibrating Metrics For Generation Tasks Using Human Preferences

投稿日: 2024年10月8日作成者: jarxiv

要約パフォーマンス評価指標の品質を理解することは、モデルの出力が人間の好みに確 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | コメントを受け付けていません

Studying and Mitigating Biases in Sign Language Understanding Models

投稿日: 2024年10月8日作成者: jarxiv

要約手話技術の利点がコミュニティのすべてのメンバーに公平に分配されるようにする … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

投稿日: 2024年10月8日作成者: jarxiv

要約この論文では、ゼロショットのマルチモーダルタスクのパフォーマンスを犠牲に … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

「cs.CV」カテゴリーアーカイブ

SePPO: Semi-Policy Preference Optimization for Diffusion Alignment

GS-VTON: Controllable 3D Virtual Try-on with Gaussian Splatting

DART: A Diffusion-Based Autoregressive Motion Model for Real-Time Text-Driven Motion Control

TextHawk2: A Large Vision-Language Model Excels in Bilingual OCR and Grounding with 16x Fewer Tokens

Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers

Fine-Tuning CLIP’s Last Visual Projector: A Few-Shot Cornucopia

VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

MetaMetrics: Calibrating Metrics For Generation Tasks Using Human Preferences

Studying and Mitigating Biases in Sign Language Understanding Models

Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

最近の投稿

最近のコメント

アーカイブ

カテゴリー