要約
この研究では、テスト時間トレーニング (TTT) のための計算効率の高いアーキテクチャである非同期知覚マシン (APM) を提案します。
APM は、画像のパッチを一度に 1 つずつ任意の順序で非対称に処理し、ネット内でセマンティック認識をエンコードできます。
データセット固有の事前トレーニング、拡張、または任意の口実タスクを必要とせずに、配布外の画像を認識する APM の機能を実証します。
APM は、既存の TTT アプローチに比べて競争力のあるパフォーマンスを提供します。
TTT を実行するために、APM はテスト サンプルの表現を 1 回抽出するだけです。
APM には、この 1 つの表現だけを使用して学習し、意味を認識した特徴の予測を開始するというユニークな特性があります。
APM は、テスト時間のトレーニングを超えた潜在的なアプリケーションを示します。APM は 2D 画像のデータセットにスケールアップし、単一のフォワード パスでセマンティック クラスタリングを生成できます。
APM は、GLOM の洞察を検証するための最初の経験的証拠も提供します。つまり、入力知覚はフィールドです。
したがって、APM は、共有接続主義ハードウェア上で補間と認識の両方を実行できる実装に向けて収束するのに役立ちます。
私たちのコードは、リンク https://rajatmodi62.github.io/apm_project_page/ で公開されています。
要約(オリジナル)
In this work, we propose Asynchronous Perception Machine (APM), a computationally-efficient architecture for test-time-training (TTT). APM can process patches of an image one at a time in any order asymmetrically and still encode semantic-awareness in the net. We demonstrate APM’s ability to recognize out-of-distribution images without dataset-specific pre-training, augmentation or any-pretext task. APM offers competitive performance over existing TTT approaches. To perform TTT, APM just distills test sample’s representation once. APM possesses a unique property: it can learn using just this single representation and starts predicting semantically-aware features. APM demostrates potential applications beyond test-time-training: APM can scale up to a dataset of 2D images and yield semantic-clusterings in a single forward pass. APM also provides first empirical evidence towards validating GLOM’s insight, i.e. input percept is a field. Therefore, APM helps us converge towards an implementation which can do both interpolation and perception on a shared-connectionist hardware. Our code is publicly available at this link: https://rajatmodi62.github.io/apm_project_page/.
arxiv情報
著者 | Rajat Modi,Yogesh Singh Rawat |
発行日 | 2024-11-05 13:18:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google