要約
AI コミュニティの現在のトレンドをサポートするために、Fusion Brain と呼ばれる AI Journey 2021 チャレンジを提示します。これは、さまざまなモダリティ (この場合は画像、テキスト、コード) を処理し、
視覚と言語のための複数のタスク。
Fusion Brain Challenge は、次の特定のタスクを組み合わせたものです: Code2code 翻訳、手書きテキスト認識、ゼロショット オブジェクト検出、視覚的質問応答。
参加者の提出物をテストするために、各タスクのデータセットを作成しました。
さらに、94,128 組の画像とテキストからなる、英語とロシア語の両方の新しい手書きデータセットを収集して公開しました。
また、マルチモーダルおよびマルチタスク アーキテクチャも提案します。ベースライン ソリューションの中心には、凍結された基盤モデルがあり、シングルタスク モードとともにフュージョン モードでトレーニングされています。
提案された Fusion アプローチは、タスク固有のアプローチと比較して、競争力があり、エネルギー効率が高いことが証明されています。
要約(オリジナル)
Supporting the current trend in the AI community, we present the AI Journey 2021 Challenge called Fusion Brain, the first competition which is targeted to make the universal architecture which could process different modalities (in this case, images, texts, and code) and solve multiple tasks for vision and language. The Fusion Brain Challenge combines the following specific tasks: Code2code Translation, Handwritten Text recognition, Zero-shot Object Detection, and Visual Question Answering. We have created datasets for each task to test the participants’ submissions on it. Moreover, we have collected and made publicly available a new handwritten dataset in both English and Russian, which consists of 94,128 pairs of images and texts. We also propose a multimodal and multitask architecture – a baseline solution, in the center of which is a frozen foundation model and which has been trained in Fusion mode along with Single-task mode. The proposed Fusion approach proves to be competitive and more energy-efficient compared to the task-specific one.
arxiv情報
著者 | Daria Bakshandaeva,Denis Dimitrov,Alex Shonenkov,Mark Potanin,Vladimir Arkhipkin,Denis Karachev,Vera Davydova,Anton Voronov,Mikhail Martynov,Natalia Semenova,Mikhail Stepnov,Elena Tutubalina,Andrey Chertok,Aleksandr Petiushko |
発行日 | 2022-08-31 17:13:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google