要約
我々は、マルチタスクの学習可能な圧縮における問題を特定しました。この問題では、1 つのタスクに対して学習された表現が、その中で利用可能な情報の推定量を考慮すると、別のタスクのレート歪みパフォーマンスに予想されるほど積極的に寄与しません。
私たちは、予測 $\mathcal{V}$-information フレームワークを使用してこの問題を解釈します。
学習可能なスケーラブルなコーディングでは、以前の研究では、この共有表現を学習する際に入力再構築に報酬を与えることにより、入力再構築のためのサイド情報の利用が増加しました。
私たちは、入力再構築のコンテキストでこのアイデアの影響をより厳密に評価し、それを他のコンピューター ビジョン タスクに拡張しました。
COCO 2017 でのオブジェクト検出と Cityscapes データセットでの奥行き推定のためにトレーニングされた表現を使用して実験を実行し、それらを画像再構成とセマンティック セグメンテーション タスクを支援するために使用します。
結果は、支援タスクのレート歪みパフォーマンスが大幅に改善されたことを示しています。
さらに、提案された表現を使用すると、基本タスクのパフォーマンスも向上します。
結果は、提案された方法が下流のプロセスとより互換性のあるより単純な表現を誘導することを示唆しています。
要約(オリジナル)
We identify an issue in multi-task learnable compression, in which a representation learned for one task does not positively contribute to the rate-distortion performance of a different task as much as expected, given the estimated amount of information available in it. We interpret this issue using the predictive $\mathcal{V}$-information framework. In learnable scalable coding, previous work increased the utilization of side-information for input reconstruction by also rewarding input reconstruction when learning this shared representation. We evaluate the impact of this idea in the context of input reconstruction more rigorously and extended it to other computer vision tasks. We perform experiments using representations trained for object detection on COCO 2017 and depth estimation on the Cityscapes dataset, and use them to assist in image reconstruction and semantic segmentation tasks. The results show considerable improvements in the rate-distortion performance of the assisted tasks. Moreover, using the proposed representations, the performance of the base tasks are also improved. Results suggest that the proposed method induces simpler representations that are more compatible with downstream processes.
arxiv情報
著者 | Anderson de Andrade,Ivan Bajić |
発行日 | 2024-07-15 14:58:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google