VisualProg Distiller: Learning to Fine-tune Non-differentiable Visual Programming Frameworks

要約

大規模言語モデルに基づく解釈可能で普遍的な神経記号パラダイムとして、ビジュアル プログラミング (VisualProg) はトレーニングなしで構成的な視覚タスクを実行できますが、そのパフォーマンスはタスク固有の教師あり学習モデルと比較して著しく劣ります。
実用性を高めるには、特定のタスクにおける VisualProg のパフォーマンスを向上させる必要があります。
ただし、VisualProg の微分不可能性により、特定のタスクに対して微調整戦略を使用してさらなる改善を達成する可能性が制限されます。
私たちの分析では、VisualProg の実行における重大なパフォーマンスの問題は、対応するビジュアル サブタスク ステップでサブモジュールによって発生したエラーに起因することがわかりました。
これに対処するために、プロセス知識を補足および抽出して、分離されたビジュアルサブタスクに対する各 VisualProg サブモジュールのパフォーマンスを最適化し、全体的なタスクのパフォーマンスを向上させる方法である「VisualProg Distiller」を提案します。
具体的には、与えられたタスクで適切に実行されるエンドツーエンドのモデルを教師として選択し、教師の知識を、タスクの実行フローに基づいて、呼び出されるビジュアルサブモジュールに段階的に抽出します。
VisualProg によって生成されたプログラム。
このようにして、私たちの方法は、微分不可能な VisualProg フレームワークの微調整を効果的に容易にすることができます。
広範かつ包括的な実験評価により、私たちの方法が VisualProg のパフォーマンスの大幅な向上を達成でき、比較されたすべての最先端の方法を大幅に上回っていることが実証されました。
さらに、GQA タスクに価値のあるプロセス監視を提供するために、メソッドの蒸留プロセスを利用して大規模なデータセットを構築します。

要約(オリジナル)

As an interpretable and universal neuro-symbolic paradigm based on Large Language Models, visual programming (VisualProg) can execute compositional visual tasks without training, but its performance is markedly inferior compared to task-specific supervised learning models. To increase its practicality, the performance of VisualProg on specific tasks needs to be improved. However, the non-differentiability of VisualProg limits the possibility of employing the fine-tuning strategy on specific tasks to achieve further improvements. In our analysis, we discovered that significant performance issues in VisualProg’s execution originated from errors made by the sub-modules at corresponding visual sub-task steps. To address this, we propose “VisualProg Distiller’, a method of supplementing and distilling process knowledge to optimize the performance of each VisualProg sub-module on decoupled visual sub-tasks, thus enhancing the overall task performance. Specifically, we choose an end-to-end model that is well-performed on the given task as the teacher and further distill the knowledge of the teacher into the invoked visual sub-modules step-by-step based on the execution flow of the VisualProg-generated programs. In this way, our method is capable of facilitating the fine-tuning of the non-differentiable VisualProg frameworks effectively. Extensive and comprehensive experimental evaluations demonstrate that our method can achieve a substantial performance improvement of VisualProg, and outperforms all the compared state-of-the-art methods by large margins. Furthermore, to provide valuable process supervision for the GQA task, we construct a large-scale dataset by utilizing the distillation process of our method.

arxiv情報

著者 Wentao Wan,Zeqing Wang,Nan Kang,Keze Wang,Zhiyu Shen,Liang Lin
発行日 2023-09-18 14:28:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク