Jack of All Trades, Master of Some, a Multi-Purpose Transformer Agent

要約

複数のドメインにわたってシームレスに動作できる一般的なモデルの探索は、依然として機械学習研究における重要な目標です。
強化学習 (RL) の一般的な方法論は、通常、単峰性フレームワーク内の単一タスクにモデルを制限します。これは、汎用性の高いマルチドメイン モデルのより広い視野とは対照的な制限です。
このペーパーでは、逐次意思決定タスクとマルチモーダル データ型を処理するために最適化された独自の設計を備えたトランスフォーマー ベースのモデルである何でも屋 (JAT) を紹介します。
JAT モデルは、すべて単一の重みセットを使用して、コンピューター ビジョン (CV) および自然言語処理 (NLP) タスクで有望な結果とともに、非常に異なる RL ベンチマークで強力なパフォーマンスを達成することで、その堅牢な機能と多用途性を実証します。
JAT モデルは、より一般的なクロスドメイン AI モデル設計に向けた重要な一歩を示しており、注目すべき点は、この種のモデルとしては初めて https://huggingface.co/jat-project/jat で完全にオープンソース化されたことです。
先駆的な汎用データセットが含まれます。

要約(オリジナル)

The search for a general model that can operate seamlessly across multiple domains remains a key goal in machine learning research. The prevailing methodology in Reinforcement Learning (RL) typically limits models to a single task within a unimodal framework, a limitation that contrasts with the broader vision of a versatile, multi-domain model. In this paper, we present Jack of All Trades (JAT), a transformer-based model with a unique design optimized for handling sequential decision-making tasks and multi-modal data types. The JAT model demonstrates its robust capabilities and versatility by achieving strong performance on very different RL benchmarks, along with promising results on Computer Vision (CV) and Natural Language Processing (NLP) tasks, all using a single set of weights. The JAT model marks a significant step towards more general, cross-domain AI model design, and notably, it is the first model of its kind to be fully open-sourced at https://huggingface.co/jat-project/jat, including a pioneering general-purpose dataset.

arxiv情報

著者 Quentin Gallouédec,Edward Beeching,Clément Romac,Emmanuel Dellandréa
発行日 2024-07-10 15:56:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク