要約
散乱画像における自動マーク位置特定は、知識の発見や膨大な文書画像の理解、視覚的質問応答 AI システムでの推論に非常に役立ちますが、重複するマークが遍在しているため、非常に困難な問題です。
重なり合うマークを見つけるには、テクスチャがない、コンテキスト情報が少ない、中空の形状、サイズが小さいなど、多くの困難に直面します。
ここでは、目的関数が最小値に達したときの多変数の状態を見つけることによって散乱マークを特定するために、非トレーニング生成の観点からクラスタリングベースの再可視化に関する組み合わせ最適化問題として定式化します。
目的関数は、二値化された散乱画像と、それらのクラスタリングに基づいて生成された対応する再可視化との間の差に基づいて構築されます。
基本的に、再視覚化では、ラスタライズされた散布画像のみを入力として使用して新しい散布図を生成しようとし、そのような再視覚化のための情報を提供するためにクラスタリングが使用されます。
この方法は、トレーニング データセットや参照に依存することなく、散乱画像内で重なり合う可変サイズおよび可変形状のマークを安定して配置できます。
一方、我々は、さまざまな接続領域に作用できるシミュレーテッドアニーリングの適応型バリアントを提案します。
さらに、さまざまなマーカーとさまざまなレベルの重複重大度を持つ数百の散乱画像を含む SML2023 という名前のデータセットを特に構築し、提案された方法をテストして既存の方法と比較しました。
その結果、重なり合う重大度やマーカーの種類が異なる散乱画像内のほとんどのマークを正確に特定でき、最先端の手法と比較して、割り当てコストに基づくメトリックの絶対値が約 0.3 増加することがわかりました。
この研究は、大規模な Web ページや文献のデータ マイニングに価値があり、バブル カウンティングなどの画像測定に新たな光を当てることができます。
要約(オリジナル)
Automated mark localization in scatter images, greatly helpful for discovering knowledge and understanding enormous document images and reasoning in visual question answering AI systems, is a highly challenging problem because of the ubiquity of overlapping marks. Locating overlapping marks faces many difficulties such as no texture, less contextual information, hallow shape and tiny size. Here, we formulate it as a combinatorial optimization problem on clustering-based re-visualization from a non-training generative perspective, to locate scatter marks by finding the status of multi-variables when an objective function reaches a minimum. The objective function is constructed on difference between binarized scatter images and corresponding generated re-visualization based on their clustering. Fundamentally, re-visualization tries to generate a new scatter graph only taking a rasterized scatter image as an input, and clustering is employed to provide the information for such re-visualization. This method could stably locate severely-overlapping, variable-size and variable-shape marks in scatter images without dependence of any training dataset or reference. Meanwhile, we propose an adaptive variant of simulated annealing which can works on various connected regions. In addition, we especially built a dataset named SML2023 containing hundreds of scatter images with different markers and various levels of overlapping severity, and tested the proposed method and compared it to existing methods. The results show that it can accurately locate most marks in scatter images with different overlapping severity and marker types, with about 0.3 absolute increase on an assignment-cost-based metric in comparison with state-of-the-art methods. This work is of value to data mining on massive web pages and literatures, and shedding new light on image measurement such as bubble counting.
arxiv情報
著者 | Yuming Qiu,Aleksandra Pizurica,Qi Ming,Nicolas Nadisic |
発行日 | 2023-12-22 15:44:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google