月別アーカイブ: 2024年5月

A Rate-Distortion-Classification Approach for Lossy Image Compression

要約 非可逆画像圧縮では、指定されたビットレートに画像を圧縮しながら、最小限の信 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.IT, cs.MM, math.IT | A Rate-Distortion-Classification Approach for Lossy Image Compression はコメントを受け付けていません

Boosting Single Positive Multi-label Classification with Generalized Robust Loss

要約 マルチラベル学習(MLL)は、包括的な多義的注釈を必要とするが、この注釈を … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Boosting Single Positive Multi-label Classification with Generalized Robust Loss はコメントを受け付けていません

DreamTime: An Improved Optimization Strategy for Diffusion-Guided 3D Generation

要約 数十億の画像とテキストのペアで事前に訓練されたテキスト-画像拡散モデルは、 … 続きを読む

カテゴリー: cs.CV, cs.GR, cs.LG | DreamTime: An Improved Optimization Strategy for Diffusion-Guided 3D Generation はコメントを受け付けていません

PopulAtion Parameter Averaging (PAPA)

要約 アンサンブル法は複数のモデルの予測を組み合わせて性能を向上させるが、推論時 … 続きを読む

カテゴリー: cs.CV, cs.LG | PopulAtion Parameter Averaging (PAPA) はコメントを受け付けていません

Low-light Object Detection

要約 このコンペティションでは、実画像に近い物体検出結果を得るために、モデル融合 … 続きを読む

カテゴリー: cs.CV | Low-light Object Detection はコメントを受け付けていません

Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond

要約 一般世界モデルは、人工知能(AGI)の実現に向けた重要な道筋を示すものであ … 続きを読む

カテゴリー: cs.CV | Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond はコメントを受け付けていません

EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning

要約 ニュース画像のキャプション付けには、ニュース画像と関連するニュース記事を含 … 続きを読む

カテゴリー: cs.CL, cs.CV | EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning はコメントを受け付けていません

Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly

要約 ビデオ異常理解(VAU)は、ビデオ内の異常発生を自動的に理解することを目的 … 続きを読む

カテゴリー: cs.AI, cs.CV | Uncovering What, Why and How: A Comprehensive Benchmark for Causation Understanding of Video Anomaly はコメントを受け付けていません

RepVGG-GELAN: Enhanced GELAN with VGG-STYLE ConvNets for Brain Tumour Detection

要約 物体検出アルゴリズム、特にYOLOに基づくアルゴリズムは、速度と精度のバラ … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | RepVGG-GELAN: Enhanced GELAN with VGG-STYLE ConvNets for Brain Tumour Detection はコメントを受け付けていません

Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors

要約 本論文では、MediaPipe Holisticの手の関心領域(ROI)予 … 続きを読む

カテゴリー: cs.CV | Optimizing Hand Region Detection in MediaPipe Holistic Full-Body Pose Estimation to Improve Accuracy and Avoid Downstream Errors はコメントを受け付けていません