要約
マルチモーダルのコンテキスト学習(MICL)を活用するマルチモーダルモデルであるRosettaを紹介し、最小限の例を活用してドキュメントの新しいスクリプトパターンのシーケンスを分類し、明示的な再訓練の必要性を排除します。
コンテキスト学習を強化するために、さまざまな程度のコンテキストの情報性を保証するデータセット生成プロセスを設計し、さまざまなシナリオでコンテキストを活用する際のモデルの適応性を改善しました。
私たちの方法の重要な強さは、オープンポンシャル分類を可能にするコンテキスト認識トークネイザー(CAT)の使用です。
これにより、モデルは無制限の範囲のクラスにわたってテキストとシンボルパターンを分類し、その分類機能をパターンのトレーニングアルファベットの範囲を超えて拡張できます。
その結果、新しいアルファベットや言語の認識などのアプリケーションのロックを解除します。
合成データセットの実験は、ロゼッタが分散型の視覚パターンと多様なアルファベットとスクリプトの分類を成功裏に分類する可能性を示しています。
要約(オリジナル)
We introduce Rosetta, a multimodal model that leverages Multimodal In-Context Learning (MICL) to classify sequences of novel script patterns in documents by leveraging minimal examples, thus eliminating the need for explicit retraining. To enhance contextual learning, we designed a dataset generation process that ensures varying degrees of contextual informativeness, improving the model’s adaptability in leveraging context across different scenarios. A key strength of our method is the use of a Context-Aware Tokenizer (CAT), which enables open-vocabulary classification. This allows the model to classify text and symbol patterns across an unlimited range of classes, extending its classification capabilities beyond the scope of its training alphabet of patterns. As a result, it unlocks applications such as the recognition of new alphabets and languages. Experiments on synthetic datasets demonstrate the potential of Rosetta to successfully classify Out-Of-Distribution visual patterns and diverse sets of alphabets and scripts, including but not limited to Chinese, Greek, Russian, French, Spanish, and Japanese.
arxiv情報
著者 | Tom Simon,William Mocaer,Pierrick Tranouez,Clement Chatelain,Thierry Paquet |
発行日 | 2025-04-09 12:58:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google