cs.LG」カテゴリーアーカイブ

Hierarchical Object-Oriented POMDP Planning for Object Rearrangement

要約 部分的に観測可能な複数の部屋の環境における複数オブジェクトの再配置問題を解 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO, I.2.9 | Hierarchical Object-Oriented POMDP Planning for Object Rearrangement はコメントを受け付けていません

URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics

要約 思考連鎖 (CoT) 推論は、大規模言語モデル (LLM) の数学的推論に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | URSA: Understanding and Verifying Chain-of-thought Reasoning in Multimodal Mathematics はコメントを受け付けていません

Efficient Video-Based ALPR System Using YOLO and Visual Rhythm

要約 自動ナンバー プレート認識 (ALPR) には、画像またはビデオ キャプチ … 続きを読む

カテゴリー: cs.CV, cs.LG, eess.IV | Efficient Video-Based ALPR System Using YOLO and Visual Rhythm はコメントを受け付けていません

Energy-based Hopfield Boosting for Out-of-Distribution Detection

要約 機械学習モデルを現実世界に展開する場合、配布外 (OOD) の検出が重要で … 続きを読む

カテゴリー: cs.CV, cs.LG | Energy-based Hopfield Boosting for Out-of-Distribution Detection はコメントを受け付けていません

Tutorial on Diffusion Models for Imaging and Vision

要約 近年の生成ツールの驚くべき成長により、テキストから画像の生成やテキストから … 続きを読む

カテゴリー: cs.CV, cs.LG | Tutorial on Diffusion Models for Imaging and Vision はコメントを受け付けていません

Towards Fair Class-wise Robustness: Class Optimal Distribution Adversarial Training

要約 敵対的トレーニングは、敵対的攻撃に対するディープ ニューラル ネットワーク … 続きを読む

カテゴリー: cs.CV, cs.LG | Towards Fair Class-wise Robustness: Class Optimal Distribution Adversarial Training はコメントを受け付けていません

Combining YOLO and Visual Rhythm for Vehicle Counting

要約 ビデオベースの車両検出と計数は、交通インフラの管理において重要な役割を果た … 続きを読む

カテゴリー: cs.CV, cs.LG | Combining YOLO and Visual Rhythm for Vehicle Counting はコメントを受け付けていません

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

要約 ビデオ大規模言語モデル (ビデオ LLM) は、最近、一般的なビデオの理解 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM はコメントを受け付けていません

Rad4XCNN: a new agnostic method for post-hoc global explanation of CNN-derived features by means of radiomics

要約 近年、機械学習ベースの臨床意思決定支援システム (CDSS) が、いくつか … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | Rad4XCNN: a new agnostic method for post-hoc global explanation of CNN-derived features by means of radiomics はコメントを受け付けていません

Supervision-free Vision-Language Alignment

要約 視覚言語モデル (VLM) は、視覚情報と言語情報の統合において顕著な可能 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Supervision-free Vision-Language Alignment はコメントを受け付けていません