Towards Few-Annotation Learning in Computer Vision: Application to Image Classification and Object Detection tasks

要約

この論文では、限定されたラベルを使用した機械学習、より具体的にはコンピューター ビジョンにおける画像分類とオブジェクト検出のタスクに対する理論的、アルゴリズム的、および実験的貢献を開発します。
最初の寄稿では、フューショット分類で使用される一般的なメタ学習アルゴリズムの理論と実践の間のギャップを埋めることに興味があります。
より効率的なメタ学習のための最適な条件を検証するために、強固な理論的基盤の恩恵を受けるマルチタスク表現学習に接続します。
次に、Transformer アーキテクチャに基づいてオブジェクト検出器をトレーニングするときにラベルなしデータを活用するために、他の 2 つの別々の貢献で教師なし事前トレーニングと半教師あり学習方法の両方を提案します。
事前トレーニングでは、位置特定情報を導入することで物体検出器の対照学習を改善します。
最後に、私たちの半教師あり手法は、変圧器ベースの検出器向けに初めて調整されたものです。

要約(オリジナル)

In this thesis, we develop theoretical, algorithmic and experimental contributions for Machine Learning with limited labels, and more specifically for the tasks of Image Classification and Object Detection in Computer Vision. In a first contribution, we are interested in bridging the gap between theory and practice for popular Meta-Learning algorithms used in Few-Shot Classification. We make connections to Multi-Task Representation Learning, which benefits from solid theoretical foundations, to verify the best conditions for a more efficient meta-learning. Then, to leverage unlabeled data when training object detectors based on the Transformer architecture, we propose both an unsupervised pretraining and a semi-supervised learning method in two other separate contributions. For pretraining, we improve Contrastive Learning for object detectors by introducing the localization information. Finally, our semi-supervised method is the first tailored to transformer-based detectors.

arxiv情報

著者 Quentin Bouniot
発行日 2023-11-08 18:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, stat.ML パーマリンク