月別アーカイブ: 2024年3月

Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages

投稿日: 2024年3月18日作成者: jarxiv

要約深層学習の進歩により、さまざまなタスクに使用できる人体や顔の信頼できるラン … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Open Stamped Parts Dataset

投稿日: 2024年3月18日作成者: jarxiv

要約自動車製造用のプレス金属板の合成画像と実際の画像を特徴とする Open S … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Voting-based Multimodal Automatic Deception Detection

投稿日: 2024年3月18日作成者: jarxiv

要約自動欺瞞検出は長い間注目されている研究トピックであり、機械学習と深層学習を … 続きを読む →

カテゴリー: cs.CL, cs.CV, cs.HC, cs.LG | コメントを受け付けていません

Overcoming Distribution Shifts in Plug-and-Play Methods with Test-Time Training

投稿日: 2024年3月18日作成者: jarxiv

要約プラグアンドプレイプライア (PnP) は、コンピュータイメージン … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

PASTA: Towards Flexible and Efficient HDR Imaging Via Progressively Aggregated Spatio-Temporal Aligment

投稿日: 2024年3月18日作成者: jarxiv

要約 Transformer の注目を活用することで、HDR ゴースト除去が大幅 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence

投稿日: 2024年3月18日作成者: jarxiv

要約 RGB 画像における CAD ベースの新しいオブジェクトの姿勢推定のための … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

投稿日: 2024年3月18日作成者: jarxiv

要約視覚言語モデルを評価するための、新たな挑戦的な多分野、多モード、多言語試験 … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Evaluating Perceptual Distances by Fitting Binomial Distributions to Two-Alternative Forced Choice Data

投稿日: 2024年3月18日作成者: jarxiv

要約二者択一強制選択 (2AFC) 実験設定は視覚認識の文献で人気があり、実践 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

CDMAD: Class-Distribution-Mismatch-Aware Debiasing for Class-Imbalanced Semi-Supervised Learning

投稿日: 2024年3月18日作成者: jarxiv

要約クラスの不均衡なセットでトレーニングされた擬似ラベルベースの半教師あり学習 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

投稿日: 2024年3月18日作成者: jarxiv

要約事前トレーニングされた 2D 拡散モデルの利用可能性が高まったことに後押し … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

月別アーカイブ: 2024年3月

Testing MediaPipe Holistic for Linguistic Analysis of Nonmanual Markers in Sign Languages

Open Stamped Parts Dataset

Voting-based Multimodal Automatic Deception Detection

Overcoming Distribution Shifts in Plug-and-Play Methods with Test-Time Training

PASTA: Towards Flexible and Efficient HDR Imaging Via Progressively Aggregated Spatio-Temporal Aligment

GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence

EXAMS-V: A Multi-Discipline Multilingual Multimodal Exam Benchmark for Evaluating Vision Language Models

Evaluating Perceptual Distances by Fitting Binomial Distributions to Two-Alternative Forced Choice Data

CDMAD: Class-Distribution-Mismatch-Aware Debiasing for Class-Imbalanced Semi-Supervised Learning

Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding

最近の投稿

最近のコメント

アーカイブ

カテゴリー