月別アーカイブ: 2023年3月

Scaling Vision-Language Models with Sparse Mixture of Experts

要約 自然言語処理 (NLP) の分野は、近年、特に大規模な視覚言語モデル (V … 続きを読む

カテゴリー: cs.CL, cs.CV | Scaling Vision-Language Models with Sparse Mixture of Experts はコメントを受け付けていません

Decompose, Adjust, Compose: Effective Normalization by Playing with Frequency for Domain Generalization

要約 ドメイン一般化 (DG) は、コンピューター ビジョン モデルの堅牢性を評 … 続きを読む

カテゴリー: cs.CV | Decompose, Adjust, Compose: Effective Normalization by Playing with Frequency for Domain Generalization はコメントを受け付けていません

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents

要約 大規模なデータセットでトレーニングされた Foundation モデルは、 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG, cs.MM | PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents はコメントを受け付けていません

Validation of a photogrammetric approach for the objective study of ancient bowed instruments

要約 初期のヴァイオリンの中には、課せられた形態学的基準に適合するように歴史の中 … 続きを読む

カテゴリー: cs.CV | Validation of a photogrammetric approach for the objective study of ancient bowed instruments はコメントを受け付けていません

A Surface-normal Based Neural Framework for Colonoscopy Reconstruction

要約 大腸内視鏡検査ビデオから 3D サーフェスを再構築することは、ビデオ フレ … 続きを読む

カテゴリー: cs.CV, cs.LG | A Surface-normal Based Neural Framework for Colonoscopy Reconstruction はコメントを受け付けていません

InPL: Pseudo-labeling the Inliers First for Imbalanced Semi-supervised Learning

要約 不均衡な半教師あり学習 (SSL) における最近の最先端の方法は、一貫性の … 続きを読む

カテゴリー: cs.CV | InPL: Pseudo-labeling the Inliers First for Imbalanced Semi-supervised Learning はコメントを受け付けていません

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images

要約 奇妙で奇妙で不気味なイメージは、常識に挑戦するため、観察者の好奇心を刺激し … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images はコメントを受け付けていません

LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders

要約 オーディオビジュアルスピーチエンハンスメントは、オーディオ自体だけでなく、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.SD, eess.AS | LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders はコメントを受け付けていません

Vision-Language Models as Success Detectors

要約 成功した行動を検出することは、インテリジェント エージェントのトレーニング … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Vision-Language Models as Success Detectors はコメントを受け付けていません

Align and Attend: Multimodal Summarization with Dual Contrastive Losses

要約 マルチモーダル要約の目的は、さまざまなモダリティから最も重要な情報を抽出し … 続きを読む

カテゴリー: cs.CV | Align and Attend: Multimodal Summarization with Dual Contrastive Losses はコメントを受け付けていません