要約
視覚的推論は、マルチモーダルの大手言語モデル(MLLM)にとって複雑なチャートクエリに対処するために重要ですが、高品質の根拠データは依然として不足しています。
既存の方法は、データ生成のためにレバレッジ(M)LLMSですが、直接プロンプトはしばしば限られた精度と多様性をもたらします。
このホワイトペーパーでは、\ textIT {Chain of Functions(cof)}を提案します。これは、データの正確さと多様性を確保するために監督として自由に実証された推論パスを利用する新しいプログラムの推論データ生成パイプラインです。
具体的には、原子機能(例:最大データと算術操作など)の間の人間のない探索から始まり、多様な関数チェーンを生成し、その後、中程度のオープンソース付きLLMのみの言語的理論的根拠と質問に翻訳されます。
\ textIT {cof}は複数の利点を提供します。1)精度:fenuct-governed生成は、フリーフォーム生成と比較して幻覚を減らします。
2)多様性:列挙機能チェーンは、さまざまな質問分類法を可能にします。
3)説明可能性:関数チェーンは組み込みの理論的根拠として機能し、全体的な精度を超えてきめ細かい評価を可能にします。
4)実用性:非常に大きなモデルへの依存を排除します。
\ textit {cof}を使用して、\ textit {chartcof}データセットを構築します。1.4kの複雑な推論q \&&aは、微調整された分析のために、50k q \&aを推論強化にします。
\ textIT {chartcof}の微細に粒度の評価は、各MLLMの質問分類法にわたってさまざまなパフォーマンスを明らかにし、実験は、\ textit {chartcof}を使用した微調整が、広く使用されているベンチマークで同じスケールのMLLM間で最先端のパフォーマンスを達成することも示しています。
さらに、\ textit {cof}での機能統計根拠の生成の新しいパラダイムは、チャートを超えてより広範なアプリケーションを刺激する可能性があります。
要約(オリジナル)
Visual reasoning is crucial for multimodal large language models (MLLMs) to address complex chart queries, yet high-quality rationale data remains scarce. Existing methods leveraged (M)LLMs for data generation, but direct prompting often yields limited precision and diversity. In this paper, we propose \textit{Chain of Functions (CoF)}, a novel programmatic reasoning data generation pipeline that utilizes freely-explored reasoning paths as supervision to ensure data precision and diversity. Specifically, it starts with human-free exploration among the atomic functions (e.g., maximum data and arithmetic operations) to generate diverse function chains, which are then translated into linguistic rationales and questions with only a moderate open-sourced LLM. \textit{CoF} provides multiple benefits: 1) Precision: function-governed generation reduces hallucinations compared to freeform generation; 2) Diversity: enumerating function chains enables varied question taxonomies; 3) Explainability: function chains serve as built-in rationales, allowing fine-grained evaluation beyond overall accuracy; 4) Practicality: eliminating reliance on extremely large models. Employing \textit{CoF}, we construct the \textit{ChartCoF} dataset, with 1.4k complex reasoning Q\&A for fine-grained analysis and 50k Q\&A for reasoning enhancement. The fine-grained evaluation on \textit{ChartCoF} reveals varying performance across question taxonomies for each MLLM, and the experiments also show that finetuning with \textit{ChartCoF} achieves state-of-the-art performance among same-scale MLLMs on widely used benchmarks. Furthermore, the novel paradigm of function-governed rationale generation in \textit{CoF} could inspire broader applications beyond charts.
arxiv情報
著者 | Zijian Li,Jingjing Fu,Lei Song,Jiang Bian,Jun Zhang,Rui Wang |
発行日 | 2025-03-20 15:56:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google