月別アーカイブ: 2024年9月

Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning

要約 最近、AI コミュニティは、大規模なマルチモーダル データセットを活用した … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning はコメントを受け付けていません

The Principle of Uncertain Maximum Entropy

要約 最大エントロピーの原理は、バイアスを最小限に抑えながら、入手可能な情報と一 … 続きを読む

カテゴリー: cs.CV, cs.IT, cs.LG, math.IT | The Principle of Uncertain Maximum Entropy はコメントを受け付けていません

LayeredFlow: A Real-World Benchmark for Non-Lambertian Multi-Layer Optical Flow

要約 非ランバートオブジェクトの 3D 理解を達成することは、多くの有用なアプリ … 続きを読む

カテゴリー: cs.CV | LayeredFlow: A Real-World Benchmark for Non-Lambertian Multi-Layer Optical Flow はコメントを受け付けていません

Segmentation by Factorization: Unsupervised Semantic Segmentation for Pathology by Factorizing Foundation Model Features

要約 因数分解によるセグメンテーション (F-SEG) を紹介します。これは、事 … 続きを読む

カテゴリー: cs.CV, cs.LG | Segmentation by Factorization: Unsupervised Semantic Segmentation for Pathology by Factorizing Foundation Model Features はコメントを受け付けていません

Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling

要約 手書き認識システムの主な課題は、長距離のコンテキスト依存関係を管理すること … 続きを読む

カテゴリー: cs.CV | Boosting CNN-based Handwriting Recognition Systems with Learnable Relaxation Labeling はコメントを受け付けていません

Referring Expression Generation in Visually Grounded Dialogue with Discourse-aware Comprehension Guiding

要約 我々は、差別的かつ談話に適した指示表現(RE)を生成することを目的とした、 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | Referring Expression Generation in Visually Grounded Dialogue with Discourse-aware Comprehension Guiding はコメントを受け付けていません

The Influence of Faulty Labels in Data Sets on Human Pose Estimation

要約 この研究では、トレーニング データの品質が人間姿勢推定 (HPE) におけ … 続きを読む

カテゴリー: cs.CV, cs.LG | The Influence of Faulty Labels in Data Sets on Human Pose Estimation はコメントを受け付けていません

Robust Loss Functions for Object Grasping under Limited Ground Truth

要約 物体把握は、ロボットが環境を認識し、環境と十分に対話できるようにする重要な … 続きを読む

カテゴリー: cs.CV, cs.RO | Robust Loss Functions for Object Grasping under Limited Ground Truth はコメントを受け付けていません

X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning

要約 最近の研究では、画像から言語への投影を学習し、大規模言語モデル (LLM) … 続きを読む

カテゴリー: cs.CL, cs.CV | X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning はコメントを受け付けていません

ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL

要約 堅牢で一般化可能なスケルトン アクション認識特徴を抽出するには、通常、十分 … 続きを読む

カテゴリー: cs.AI, cs.CV | ReL-SAR: Representation Learning for Skeleton Action Recognition with Convolutional Transformers and BYOL はコメントを受け付けていません