MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answering

要約

LLM の最近の進歩により、テキストの要約や生成などのタスクにおける LLM の大きな可能性が明らかになりました。
しかし、算術計算と概念の十分な理解が必要な複雑な物理問題を解決する際には、困難に遭遇することがよくあります。
さらに、多くの物理問題には、問題のコンテキストを理解するために必要な重要な詳細を含む画像が含まれています。
マルチモーダル物理学 MCQ に答えるための LMM ベースのチャットボットを提案します。
ドメイン適応には、インドの高校レベルのマルチモーダル物理問題で構成される MM-PhyQA データセットを利用します。
LMM のパフォーマンスを向上させるために、RLHF (ヒューマン フィードバックからの強化学習) と画像キャプションという 2 つの技術を実験します。
画像キャプションでは、各画像に図の詳細な説明を追加し、幻覚や画像処理エラーを最小限に抑えます。
さらに、モデルの人間のような問題解決能力を強化するために、RLHF のランキング アプローチに触発されたヒューマン フィードバックからの強化学習 (RLHF) 方法論の統合を検討します。
RLHF アプローチでは、LLM の学習プロセスに人間のフィードバックが組み込まれており、バニラで監視された微調整モデルを使用する代わりに、モデルの問題解決スキル、真実性、推論能力が向上し、回答の幻覚が最小限に抑えられ、品質が向上します。
LLaVA オープンソース モデルを使用してマルチモーダル物理 MCQ に回答し、RLHF を使用した場合と使用しない場合のパフォーマンスを比較します。

要約(オリジナル)

Recent advancements in LLMs have shown their significant potential in tasks like text summarization and generation. Yet, they often encounter difficulty while solving complex physics problems that require arithmetic calculation and a good understanding of concepts. Moreover, many physics problems include images that contain important details required to understand the problem’s context. We propose an LMM-based chatbot to answer multimodal physics MCQs. For domain adaptation, we utilize the MM-PhyQA dataset comprising Indian high school-level multimodal physics problems. To improve the LMM’s performance, we experiment with two techniques, RLHF (Reinforcement Learning from Human Feedback) and Image Captioning. In image captioning, we add a detailed explanation of the diagram in each image, minimizing hallucinations and image processing errors. We further explore the integration of Reinforcement Learning from Human Feedback (RLHF) methodology inspired by the ranking approach in RLHF to enhance the human-like problem-solving abilities of the models. The RLHF approach incorporates human feedback into the learning process of LLMs, improving the model’s problem-solving skills, truthfulness, and reasoning capabilities, minimizing the hallucinations in the answers, and improving the quality instead of using vanilla-supervised fine-tuned models. We employ the LLaVA open-source model to answer multimodal physics MCQs and compare the performance with and without using RLHF.

arxiv情報

著者 Avinash Anand,Janak Kapuriya,Chhavi Kirtani,Apoorv Singh,Jay Saraf,Naman Lal,Jatin Kumar,Adarsh Raj Shivam,Astha Verma,Rajiv Ratn Shah,Roger Zimmermann
発行日 2024-04-19 14:52:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク