要約
複数の画像を含むテキストの多いビジュアル コンテンツを操作して理解することは、従来のビジョン モデルにとって大きな課題です。
この論文は、教科書や研究論文などの膨大な量のテキスト情報を含む画像を理解し、学習する視覚モデルの能力を強化することに関するものです。これらの画像には、グラフなどの複数の画像や、さまざまな種類の軸と表が含まれています。
秤。
このアプローチには、データセットの前処理、指導指向のデータと評価を使用した微調整が含まれます。
また、画像エンコード用の CLIP と、テキスト入力とビジュアル入力の両方を考慮して開発された Massive Text Embedding Benchmark のモデルを統合したビジュアル チャット アプリケーションも構築しました。
96.71%の精度が得られました。
このプロジェクトの目的は、複雑な視覚的テキストデータと相互接続されたデータを理解する高度なビジョンモデルの能力を高め、強化し、マルチモーダル AI に貢献することです。
要約(オリジナル)
Interacting and understanding with text heavy visual content with multiple images is a major challenge for traditional vision models. This paper is on enhancing vision models’ capability to comprehend or understand and learn from images containing a huge amount of textual information from the likes of textbooks and research papers which contain multiple images like graphs, etc and tables in them with different types of axes and scales. The approach involves dataset preprocessing, fine tuning which is by using instructional oriented data and evaluation. We also built a visual chat application integrating CLIP for image encoding and a model from the Massive Text Embedding Benchmark which is developed to consider both textual and visual inputs. An accuracy of 96.71% was obtained. The aim of the project is to increase and also enhance the advance vision models’ capabilities in understanding complex visual textual data interconnected data, contributing to multimodal AI.
arxiv情報
著者 | Adithya TG,Adithya SK,Abhinav R Bharadwaj,Abhiram HA,Dr. Surabhi Narayan |
発行日 | 2024-05-31 15:17:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google