StorySparkQA: Expert-Annotated QA Pairs with Real-World Knowledge for Children’s Story-Based Learning

要約

インタラクティブな絵本の読み聞かせは、一般的な親子活動であり、親は、絵本の内容を超えて、言語技能と実社会の知識の両方を教えることを期待している。この活動のために開発されたストーリーテリングや読み聞かせシステムは増えているが、実社会の知識を会話に取り入れることができないことが多い。この限界は、システムが構築されている既存の児童教育用質問応答(QA)データセットが、対話型読み聞かせ活動を行う際に教育専門家がどのように考えるかというニュアンスを捉え損ねていることに起因している。このギャップを埋めるために、我々は、専門家の注釈と思考プロセスを捕捉するために、既存の知識グラフによって強化された注釈フレームワークを設計し、このフレームワークを活用して、実世界の知識を持つ5,868の専門家が注釈を付けたQAペアからなるStorySparkQAデータセットを構築する。様々なQAペア生成設定において、自動評価と人間による専門家評価を実施し、我々のStorySparkQAが、ストーリーの内容を超えた実世界の知識を対象としたQAペアを生成するモデルを効果的にサポートできることを実証する。StorySparkQAはhttps://huggingface.co/datasets/NEU-HAI/StorySparkQA。

要約(オリジナル)

Interactive story reading is a common parent-child activity, where parents expect to teach both language skills and real-world knowledge beyond the story. While increasing storytelling and reading systems have been developed for this activity, they often fail to infuse real-world knowledge into the conversation. This limitation can be attributed to the existing question-answering (QA) datasets used for children’s education, upon which the systems are built, failing to capture the nuances of how education experts think when conducting interactive story reading activities. To bridge this gap, we design an annotation framework, empowered by existing knowledge graph to capture experts’ annotations and thinking process, and leverage this framework to construct StorySparkQA dataset, which comprises 5,868 expert-annotated QA pairs with real-world knowledge. We conduct automated and human expert evaluations across various QA pair generation settings to demonstrate that our StorySparkQA can effectively support models in generating QA pairs that target real-world knowledge beyond story content. StorySparkQA is available at https://huggingface.co/datasets/NEU-HAI/StorySparkQA.

arxiv情報

著者 Jiaju Chen,Yuxuan Lu,Shao Zhang,Bingsheng Yao,Yuanzhe Dong,Ying Xu,Yunyao Li,Qianwen Wang,Dakuo Wang,Yuling Sun
発行日 2024-10-03 17:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Jailbreaking LLMs with Arabic Transliteration and Arabizi

要約

本研究では、「脱獄」攻撃に対する大規模言語モデル(LLM)の潜在的な脆弱性を、特にアラビア語とその様々な形式に焦点を当てて明らかにする。ほとんどの研究は英語ベースのプロンプト操作に集中しているが、我々の調査はアラビア語の調査へと範囲を広げている。当初、標準アラビア語でAdvBenchベンチマークをテストしたところ、接頭辞注入のようなプロンプト操作テクニックを用いても、LLMを刺激して安全でないコンテンツを生成させるには不十分であることがわかった。しかし、アラビア語の音訳とチャットスピーク(またはアラビズ)を使用すると、OpenAI GPT-4やAnthropic Claude 3 Sonnetのようなプラットフォームで安全でないコンテンツを生成できることがわかりました。私たちの発見は、アラビア語とその様々な形式を使用することで、隠されたままになっている可能性のある情報を暴露し、脱獄攻撃のリスクを高める可能性があることを示唆しています。この暴露は、モデルが学習した特定の単語との関連によるものである可能性があり、すべての言語形式にわたってより包括的な安全トレーニングの必要性を強調するものであるという仮説を立てた。

要約(オリジナル)

This study identifies the potential vulnerabilities of Large Language Models (LLMs) to ‘jailbreak’ attacks, specifically focusing on the Arabic language and its various forms. While most research has concentrated on English-based prompt manipulation, our investigation broadens the scope to investigate the Arabic language. We initially tested the AdvBench benchmark in Standardized Arabic, finding that even with prompt manipulation techniques like prefix injection, it was insufficient to provoke LLMs into generating unsafe content. However, when using Arabic transliteration and chatspeak (or arabizi), we found that unsafe content could be produced on platforms like OpenAI GPT-4 and Anthropic Claude 3 Sonnet. Our findings suggest that using Arabic and its various forms could expose information that might remain hidden, potentially increasing the risk of jailbreak attacks. We hypothesize that this exposure could be due to the model’s learned connection to specific words, highlighting the need for more comprehensive safety training across all language forms.

arxiv情報

著者 Mansour Al Ghanim,Saleh Almohaimeed,Mengxin Zheng,Yan Solihin,Qian Lou
発行日 2024-10-03 17:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router

要約

大規模言語モデル(LLM)がますます強力になるにつれて、その安全性と人間の価値観との整合性を確保することが重要な課題となっている。理想的には、LLMは有害な情報や機微な情報の開示を避けながら、有益な応答を提供すべきである。しかし、有害なプロンプトを完全に拒否するようにモデルを訓練したり、粗いフィルタを適用したりするなど、拒否戦略に大きく依存する現在のアライメントアプローチは、その二項対立的な性質によって制限されている。これらの方法は、情報へのアクセスを完全に拒否するか、十分なニュアンスなしに許可するかのどちらかであり、過度に慎重な応答や微妙な有害コンテンツの検出の失敗につながる。例えば、LLMは誤用の懸念から、薬に関する基本的な公開情報の提供を拒否することがある。さらに、これらの拒否ベースの方法は、混合コンテンツのシナリオを処理するのに苦労し、文脈に依存する感受性に適応する能力を欠いているため、良性のコンテンツを過剰に検閲してしまう可能性がある。これらの課題を克服するために、LLMにおけるきめ細かく安全な生成のための新しいフレームワークであるHiddenGuardを紹介する。HiddenGuardはPrism (rePresentation Router for In-Stream Moderation)を組み込んでおり、LLMと並行して動作し、中間的な隠された状態を活用することで、リアルタイムのトークン・レベルでの有害コンテンツの検出と再編集を可能にする。このきめ細かなアプローチにより、よりニュアンスに富んだ、文脈を考慮したモデレーションが可能になり、モデルが、明白な拒否ではなく、センシティブな情報を選択的に再編集または置換しながら、有益な応答を生成することができる。また、多様なコンテキストにおける潜在的に有害な情報のトークン・レベルのきめ細かいアノテーションを含む包括的なデータセットも提供する。我々の実験により、HiddenGuardは、モデルの応答の全体的な有用性と情報性を維持しながら、有害なコンテンツの検出と再編集において90%以上のF1スコアを達成することが実証された。

要約(オリジナル)

As Large Language Models (LLMs) grow increasingly powerful, ensuring their safety and alignment with human values remains a critical challenge. Ideally, LLMs should provide informative responses while avoiding the disclosure of harmful or sensitive information. However, current alignment approaches, which rely heavily on refusal strategies, such as training models to completely reject harmful prompts or applying coarse filters are limited by their binary nature. These methods either fully deny access to information or grant it without sufficient nuance, leading to overly cautious responses or failures to detect subtle harmful content. For example, LLMs may refuse to provide basic, public information about medication due to misuse concerns. Moreover, these refusal-based methods struggle to handle mixed-content scenarios and lack the ability to adapt to context-dependent sensitivities, which can result in over-censorship of benign content. To overcome these challenges, we introduce HiddenGuard, a novel framework for fine-grained, safe generation in LLMs. HiddenGuard incorporates Prism (rePresentation Router for In-Stream Moderation), which operates alongside the LLM to enable real-time, token-level detection and redaction of harmful content by leveraging intermediate hidden states. This fine-grained approach allows for more nuanced, context-aware moderation, enabling the model to generate informative responses while selectively redacting or replacing sensitive information, rather than outright refusal. We also contribute a comprehensive dataset with token-level fine-grained annotations of potentially harmful information across diverse contexts. Our experiments demonstrate that HiddenGuard achieves over 90% in F1 score for detecting and redacting harmful content while preserving the overall utility and informativeness of the model’s responses.

arxiv情報

著者 Lingrui Mei,Shenghua Liu,Yiwei Wang,Baolong Bi,Ruibin Yuan,Xueqi Cheng
発行日 2024-10-03 17:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

On the Limited Generalization Capability of the Implicit Reward Model Induced by Direct Preference Optimization

要約

人間のフィードバックからの強化学習(RLHF)は、言語モデルを人間の嗜好に合わせるための効果的なアプローチである。RLHFの中心は、人間の嗜好をスコアリングするための報酬関数を学習することである。報酬モデルを学習する2つの主なアプローチは、1)RLHFのようにEXplicit Reward Model(EXRM)を学習する方法と、2)Direct Preference Optimization(DPO)のような方法で嗜好データから学習した暗黙の報酬を使用する方法である。先行研究により、DPOの暗黙的報酬モデル(DPORMと呼ぶ)は極限においてEXRMを近似できることが示されている。DPORMの有効性は学習されたポリシーの最適性を直接意味し、また反復DPOを含むLLMアライメント手法に実用的な示唆を与える。しかし、DPORMがEXRMの性能と経験的にどの程度一致するかは不明である。本研究では、DPORMとEXRMの両方について、好ましい解答と拒否された解答を区別する精度を研究する。我々の発見は、DPORMが訓練データセットに同等に適合しているにもかかわらず、特に検証データセットに分布シフトが含まれる場合、EXRMよりも効果的に汎化されないことを示している。5つの分布ずれの設定において、DPORMは平均3%、最大7%の精度低下を示した。これらの知見は、DPORMの汎化能力が限定的であることを強調し、反復DPOアプローチに明示的報酬モデルを統合することを立証するものである。

要約(オリジナル)

Reinforcement Learning from Human Feedback (RLHF) is an effective approach for aligning language models to human preferences. Central to RLHF is learning a reward function for scoring human preferences. Two main approaches for learning a reward model are 1) training an EXplicit Reward Model (EXRM) as in RLHF, and 2) using an implicit reward learned from preference data through methods such as Direct Preference Optimization (DPO). Prior work has shown that the implicit reward model of DPO (denoted as DPORM) can approximate an EXRM in the limit. DPORM’s effectiveness directly implies the optimality of the learned policy, and also has practical implication for LLM alignment methods including iterative DPO. However, it is unclear how well DPORM empirically matches the performance of EXRM. This work studies the accuracy at distinguishing preferred and rejected answers for both DPORM and EXRM. Our findings indicate that even though DPORM fits the training dataset comparably, it generalizes less effectively than EXRM, especially when the validation datasets contain distribution shifts. Across five out-of-distribution settings, DPORM has a mean drop in accuracy of 3% and a maximum drop of 7%. These findings highlight that DPORM has limited generalization ability and substantiates the integration of an explicit reward model in iterative DPO approaches.

arxiv情報

著者 Yong Lin,Skyler Seto,Maartje ter Hoeve,Katherine Metcalf,Barry-John Theobald,Xuan Wang,Yizhe Zhang,Chen Huang,Tong Zhang
発行日 2024-10-03 17:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

Enhanced Automated Code Vulnerability Repair using Large Language Models

要約

この研究は、テクノロジー主導の世界においてデジタル・セキュリティを強化するために不可欠な、コードの脆弱性を自動修復するという複雑な課題に取り組んでいる。この研究では、Code LlamaやMistralのような先進的な大規模言語モデル(LLM)を用いて、コード修正を表現するための斬新で効率的なフォーマットを導入する。Cコードの脆弱性を含むデータセットで微調整されたこれらのモデルは、自動コード修復技術の精度と適応性を大幅に向上させる。重要な発見は、VulRepairのような以前の手法と比較した場合の、これらのモデルの修復精度の向上であり、これは実用的な有用性と効率性を強調している。この研究はまた、完全予測などの現在の評価指標と、実世界のシナリオにおける自動修復モデルの真の能力を反映する上でのその限界について、批判的な評価も行っている。続いて、学習サンプルのないテストデータセットを使用することの重要性を強調し、コード修復タスクにおけるLLMの有効性を高めるためのデータセットの完全性の必要性を強調している。この研究の意義は、デジタル・セキュリティへの貢献であり、自動化されたコード脆弱性修復の新たな基準を設定し、サイバーセキュリティと人工知能の分野における将来の進歩への道を開くことである。この研究は、コード・セキュリティの強化におけるLLMの可能性を強調するだけでなく、これらの重要な分野におけるさらなる探求と研究を促進するものである。

要約(オリジナル)

This research addresses the complex challenge of automated repair of code vulnerabilities, vital for enhancing digital security in an increasingly technology-driven world. The study introduces a novel and efficient format for the representation of code modification, using advanced Large Language Models (LLMs) such as Code Llama and Mistral. These models, fine-tuned on datasets featuring C code vulnerabilities, significantly improve the accuracy and adaptability of automated code repair techniques. A key finding is the enhanced repair accuracy of these models when compared to previous methods such as VulRepair, which underscores their practical utility and efficiency. The research also offers a critical assessment of current evaluation metrics, such as perfect predictions, and their limitations in reflecting the true capabilities of automated repair models in real-world scenarios. Following this, it underscores the importance of using test datasets devoid of train samples, emphasizing the need for dataset integrity to enhance the effectiveness of LLMs in code repair tasks. The significance of this work is its contribution to digital security, setting new standards for automated code vulnerability repair and paving the way for future advancements in the fields of cybersecurity and artificial intelligence. The study does not only highlight the potential of LLMs in enhancing code security but also fosters further exploration and research in these crucial areas.

arxiv情報

著者 David de-Fitero-Dominguez,Eva Garcia-Lopez,Antonio Garcia-Cabot,Jose-Javier Martinez-Herraiz
発行日 2024-10-03 17:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.SE | コメントする

On the Proper Treatment of Tokenization in Psycholinguistics

要約

言語モデルは、計算心理言語学において、ある言語モデルにおける注目領域(文字の部分列)の負の対数確率(驚き)と、その領域に対する注視時間などで運用される、読者が経験する認知的コストとを関連付ける理論を検証するために広く使用されている。しかし、現代の言語モデルを心理言語学的研究に応用することは、モデルを学習する中間段階としてトークン化を使用する慣行によって複雑になっている。そうすることで、文字列の言語モデルではなく、トークン文字列の言語モデルになってしまう。興味深いことに、関心領域とトークン文字列は一般的にずれている。本論文では、心理言語学的研究において、トークン・レベルの言語モデルを、関心領域の驚きを計算するために使用する前に、文字レベルの言語モデルに(近似的に)マージナル化すべきであると主張する。トークン・レベルのモデルを文字レベルのモデルにマージナル化するという我々の提案は、トークン化スキームとは無関係にこのズレの問題を解決する。経験的に、我々は様々なフォーカルエリアを発見し、その驚きが、注目領域自体の驚きに比べて、より優れた心理測定予測因子であることを発見した。

要約(オリジナル)

Language models are widely used in computational psycholinguistics to test theories that relate the negative log probability (the surprisal) of a region of interest (a substring of characters) under a language model to its cognitive cost experienced by readers, as operationalized, for example, by gaze duration on the region. However, the application of modern language models to psycholinguistic studies is complicated by the practice of using tokenization as an intermediate step in training a model. Doing so results in a language model over token strings rather than one over character strings. Vexingly, regions of interest are generally misaligned with these token strings. The paper argues that token-level language models should be (approximately) marginalized into character-level language models before they are used in psycholinguistic studies to compute the surprisal of a region of interest; then, the marginalized character-level language model can be used to compute the surprisal of an arbitrary character substring, which we term a focal area, that the experimenter may wish to use as a predictor. Our proposal of marginalizing a token-level model into a character-level one solves this misalignment issue independently of the tokenization scheme. Empirically, we discover various focal areas whose surprisal is a better psychometric predictor than the surprisal of the region of interest itself.

arxiv情報

著者 Mario Giulianelli,Luca Malagutti,Juan Luis Gastaldi,Brian DuSell,Tim Vieira,Ryan Cotterell
発行日 2024-10-03 17:18:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

The Mystery of In-Context Learning: A Comprehensive Survey on Interpretation and Analysis

要約

大規模言語モデル(LLM)が実証例を通して習熟することを可能にする文脈内学習(ICL)能力を理解することは、最も重要である。この重要性は、様々なタスクにおいてこの能力をより良く活用するためだけでなく、この能力に付随して生じる可能性のある、真実性、偏り、毒性に関する懸念を含む潜在的なリスクを事前に特定し、軽減するためでもある。本稿では、文脈内学習の解釈と分析に関する徹底的なサーベイを行う。まず、文脈内学習の背景と定義について簡潔に紹介する。次に、2つの観点から進歩の概要を説明する:1)理論的な観点から、メカニズム的な解釈可能性に関する研究を強調し、ICLの背後にある数学的基礎を掘り下げる。最後に、遭遇した課題を強調し、今後の研究の可能性を示唆する。我々の研究は、インコンテクスト学習の解釈をさらに探求するための基礎を確立するものであると確信している。さらに、我々の調査で参照されたリソースを含むリポジトリを作成した。

要約(オリジナル)

Understanding in-context learning (ICL) capability that enables large language models (LLMs) to excel in proficiency through demonstration examples is of utmost importance. This importance stems not only from the better utilization of this capability across various tasks, but also from the proactive identification and mitigation of potential risks, including concerns regarding truthfulness, bias, and toxicity, that may arise alongside the capability. In this paper, we present a thorough survey on the interpretation and analysis of in-context learning. First, we provide a concise introduction to the background and definition of in-context learning. Then, we give an overview of advancements from two perspectives: 1) a theoretical perspective, emphasizing studies on mechanistic interpretability and delving into the mathematical foundations behind ICL; and 2) an empirical perspective, concerning studies that empirically analyze factors associated with ICL. We conclude by highlighting the challenges encountered and suggesting potential avenues for future research. We believe that our work establishes the basis for further exploration into the interpretation of in-context learning. Additionally, we have created a repository containing the resources referenced in our survey.

arxiv情報

著者 Yuxiang Zhou,Jiazheng Li,Yanzheng Xiang,Hanqi Yan,Lin Gui,Yulan He
発行日 2024-10-03 17:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Turning English-centric LLMs Into Polyglots: How Much Multilinguality Is Needed?

要約

今日の大規模言語モデル(LLM)の大部分は英語中心であり、主に英語のテキストで事前学習されている。しかし、ユーザーの期待に応えるためには、下流のアプリケーションに導入された時点で、モデルが多言語で適切に応答できる必要がある。これには、強力なクロスリンガル転送能力が必要である。本研究では、英語中心のLLMにおいて、言語横断的な汎化を引き出すために、ファインチューニング中に必要な最小限の多言語性を調査する。4つのLLMを用いた実験では、効果的な言語間汎化を引き出すためには、2~3言語程度の多言語指導チューニングが必要かつ十分であることがわかった。さらに、5つの異なるタスクでの評価により、多言語命令チューニングは、チャット設定のような入出力言語の一致を前提とする生成タスクで最も有益である一方、高度に構造化された分類スタイルのタスクではあまり重要ではないことが明らかになった。我々のコードとデータはhttps://github.com/ZurichNLP/multilingual-instruction-tuning。

要約(オリジナル)

The vast majority of today’s large language models (LLMs) are English-centric, having been pretrained predominantly on English text. Yet, in order to meet user expectations, models need to be able to respond appropriately in multiple languages once deployed in downstream applications. This requires strong cross-lingual transfer abilities. In this work, we investigate the minimal amount of multilinguality required during finetuning to elicit cross-lingual generalisation in English-centric LLMs. In experiments across four LLMs, we find that multilingual instruction tuning with as few as two to three languages is both necessary and sufficient to elicit effective cross-lingual generalisation, with the limiting factor being the degree to which a target language is seen during pretraining. Evaluations on five different tasks further reveal that multilingual instruction tuning is most beneficial for generative tasks that assume input/output language agreement, such as in chat settings, while being of less importance for highly structured classification-style tasks. Our code and data is available at https://github.com/ZurichNLP/multilingual-instruction-tuning.

arxiv情報

著者 Tannon Kew,Florian Schottmann,Rico Sennrich
発行日 2024-10-03 17:27:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation

要約

我々は、テキストチャンク間の類似性を推定するために、信号対雑音比(SNR)に基づくスパンの不確実性を利用する、ロングコンテキストのRAG(Retrieval-Augmented Generation)のための新しいアプローチであるUncertaintyRAGを発表する。このスパンの不確実性はモデルの較正を強化し、頑健性を向上させ、ランダムチャンキングによってもたらされる意味的矛盾を緩和する。この洞察を活用し、効果的なデータサンプリングとスケーリング戦略とともに、検索モデルを学習するための効率的な教師なし学習技術を提案する。UncertaintyRAGは、LLaMA-2-7Bにおいてベースラインを2.03%上回り、分布シフト設定下で他の先進的なオープンソース検索モデルと比較して、わずか4%の学習データを使用しながら最先端の結果を達成した。本手法は、スパンの不確かさを通して強力な適合性を示し、ロングコンテキストのRAGタスクにおける汎化と頑健性の向上につながる。さらに、UncertaintyRAGは、微調整の必要なく、様々なコンテキストウィンドウ長を持つ大規模言語モデルに統合可能な軽量検索モデルを提供し、我々のアプローチの柔軟性を示す。

要約(オリジナル)

We present UncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG) that utilizes Signal-to-Noise Ratio (SNR)-based span uncertainty to estimate similarity between text chunks. This span uncertainty enhances model calibration, improving robustness and mitigating semantic inconsistencies introduced by random chunking. Leveraging this insight, we propose an efficient unsupervised learning technique to train the retrieval model, alongside an effective data sampling and scaling strategy. UncertaintyRAG outperforms baselines by 2.03% on LLaMA-2-7B, achieving state-of-the-art results while using only 4% of the training data compared to other advanced open-source retrieval models under distribution shift settings. Our method demonstrates strong calibration through span uncertainty, leading to improved generalization and robustness in long-context RAG tasks. Additionally, UncertaintyRAG provides a lightweight retrieval model that can be integrated into any large language model with varying context window lengths, without the need for fine-tuning, showcasing the flexibility of our approach.

arxiv情報

著者 Zixuan Li,Jing Xiong,Fanghua Ye,Chuanyang Zheng,Xun Wu,Jianqiao Lu,Zhongwei Wan,Xiaodan Liang,Chengming Li,Zhenan Sun,Lingpeng Kong,Ngai Wong
発行日 2024-10-03 17:39:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Grounding Large Language Models In Embodied Environment With Imperfect World Models

要約

様々なアプリケーションで広く成功を収めているにもかかわらず、大規模言語モデル(LLM)は、現実世界の物理的なニュアンスに対する直接的な経験が不足しているため、基本的な物理推論やロボティクスタスクの実行に取り組む際につまずくことが多い。このような問題に対処するため、我々は、シミュレータのような代理世界モデルを利用し、トライングデータを収集・合成するGLIMO(Grounding Large language model with Imperfect world MOdel)を提案する。GLIMOはLLMエージェントベースのデータジェネレータを組み込み、高品質で多様な命令データセットを自動的に作成する。この生成器には、時間的に一貫性のある経験サンプリングのための反復的な自己精錬モジュール、多様な質問応答インストラクションのシードセット、および過去の経験を反映するための検索補強型生成モジュールが含まれる。包括的な実験により、我々のアプローチが、LLaMA-3のような強力なオープンソースLLMの性能を向上させ、3つの異なるベンチマークでそれぞれ2.04 $times$、1.54 $times$、1.82 $times$の性能向上を示した。この性能は、GPT-4のような大規模なLLMに匹敵するか、凌駕する。

要約(オリジナル)

Despite a widespread success in various applications, large language models (LLMs) often stumble when tackling basic physical reasoning or executing robotics tasks, due to a lack of direct experience with the physical nuances of the real world. To address these issues, we propose a Grounding Large language model with Imperfect world MOdel (GLIMO), which utilizes proxy world models such as simulators to collect and synthesize trining data. GLIMO incorporates an LLM agent-based data generator to automatically create high-quality and diverse instruction datasets. The generator includes an iterative self-refining module for temporally consistent experience sampling, a diverse set of question-answering instruction seeds, and a retrieval-augmented generation module for reflecting on prior experiences. Comprehensive experiments show that our approach improve the performance of strong open-source LLMs like LLaMA-3 with a performance boost of 2.04 $\times$, 1.54 $\times$, and 1.82 $\times$ across three different benchmarks, respectively. The performance is able to compete with or surpass their larger counterparts such as GPT-4.

arxiv情報

著者 Haolan Liu,Jishen Zhao
発行日 2024-10-03 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG, cs.RO | コメントする