ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI

要約

知的な具現化エージェントは、長い経験の履歴を意思決定に統合することで、新しいシナリオに素早く適応する必要がある。例えば、不慣れな家にいるロボットは、最初はタスクに必要なオブジェクトの位置がわからず、非効率的な作業を行うかもしれない。しかし、経験を重ねるにつれて、環境のレイアウトを学習し、物体の位置を記憶するようになり、新しいタスクをより効率的にこなせるようになるはずだ。このような新しいタスクへの迅速な適応を可能にするために、我々は、具現化エージェントのためのコンテキスト内強化学習(RL)の新しいアプローチであるReLICを紹介する。ReLICを用いることで、エージェントは、RLによって自己生成された経験によって訓練されながら、64,000ステップのコンテキスト内経験を用いて、完全な注意を払って新しい環境に適応することができる。我々は、「部分更新」と呼ばれるオンポリシーRLのための新しいポリシー更新スキームと、具現化エージェントのための長い観測履歴の効果的な利用を可能にするSink-KVメカニズムを提案することによって、これを達成する。我々の手法は、具現化された多オブジェクトナビゲーションタスクにおいて、未見の家屋への適応において様々なメタRLベースラインを凌駕する。さらに、ReLICは、専門家の実演による訓練を受けていないにもかかわらず、数ショット模倣学習が可能であることを見出した。また、ReLICの包括的な分析を行い、大規模なRL訓練、提案する部分更新スキーム、Sink-KVの組み合わせが効果的な文脈内学習に不可欠であることを強調する。ReLICと我々の全ての実験のコードは https://github.com/aielawady/relic にある。

要約(オリジナル)

Intelligent embodied agents need to quickly adapt to new scenarios by integrating long histories of experience into decision-making. For instance, a robot in an unfamiliar house initially wouldn’t know the locations of objects needed for tasks and might perform inefficiently. However, as it gathers more experience, it should learn the layout of its environment and remember where objects are, allowing it to complete new tasks more efficiently. To enable such rapid adaptation to new tasks, we present ReLIC, a new approach for in-context reinforcement learning (RL) for embodied agents. With ReLIC, agents are capable of adapting to new environments using 64,000 steps of in-context experience with full attention while being trained through self-generated experience via RL. We achieve this by proposing a novel policy update scheme for on-policy RL called ‘partial updates” as well as a Sink-KV mechanism that enables effective utilization of a long observation history for embodied agents. Our method outperforms a variety of meta-RL baselines in adapting to unseen houses in an embodied multi-object navigation task. In addition, we find that ReLIC is capable of few-shot imitation learning despite never being trained with expert demonstrations. We also provide a comprehensive analysis of ReLIC, highlighting that the combination of large-scale RL training, the proposed partial updates scheme, and the Sink-KV are essential for effective in-context learning. The code for ReLIC and all our experiments is at https://github.com/aielawady/relic

arxiv情報

著者 Ahmad Elawady,Gunjan Chhablani,Ram Ramrakhya,Karmesh Yadav,Dhruv Batra,Zsolt Kira,Andrew Szot
発行日 2024-10-03 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

Forecasting Smog Clouds With Deep Learning

要約

この概念実証研究では、2地点間の二酸化窒素(NO2)、オゾン(O3)、(微小)粒子状物質(PM10&PM2.5)の濃度と気象学的共変量の多変量時系列予測を、長短記憶(LSTM)とゲート型リカレントユニット(GRU)アーキテクチャを中心とした様々なディープラーニングモデルを用いて行う。特に、大気汚染ダイナミクスと大気科学にインスパイアされた、統合された階層的モデルアーキテクチャを提案し、マルチタスク学習を採用し、一方向モデルと完全連結モデルによってベンチマークを行う。その結果、階層型GRUが、スモッグに関連する汚染物質の濃度を予測するための、競争力のある効率的な手法であることが実証された。

要約(オリジナル)

In this proof-of-concept study, we conduct multivariate timeseries forecasting for the concentrations of nitrogen dioxide (NO2), ozone (O3), and (fine) particulate matter (PM10 & PM2.5) with meteorological covariates between two locations using various deep learning models, with a focus on long short-term memory (LSTM) and gated recurrent unit (GRU) architectures. In particular, we propose an integrated, hierarchical model architecture inspired by air pollution dynamics and atmospheric science that employs multi-task learning and is benchmarked by unidirectional and fully-connected models. Results demonstrate that, above all, the hierarchical GRU proves itself as a competitive and efficient method for forecasting the concentration of smog-related pollutants.

arxiv情報

著者 Valentijn Oldenburg,Juan Cardenas-Cartagena,Matias Valdenegro-Toro
発行日 2024-10-03 17:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG | コメントする

Immunization against harmful fine-tuning attacks

要約

大規模言語モデル(LLM)は多くの場合、有害なテキスト生成を防ぐことを目的とした安全ガードで訓練される。しかし、有害なデータセット上でLLMをファインチューニングすることで、このような安全なトレーニングが解除される可能性がある。この新たな脅威(有害なファインチューニング攻撃)は、これまでの研究で特徴づけられてきたが、特に防御者がファインチューニングプロセスを制御できない場合に、このような攻撃に対する防御の構築と検証をどのように進めるべきかについては、ほとんど理解されていない。我々は、攻撃者のトレーニングバジェットに基づく正式なフレームワークを導入し、これを「免疫化」条件と呼ぶ。有害なファインチューニング問題の形式的な特徴を用いて、成功する防御がどのようなもので構成されなければならないかについての徹底的な説明を提供し、私たちに確信を与える厳密な防御研究をどのように進めるべきかについての一連のガイドラインを確立する。

要約(オリジナル)

Large Language Models (LLMs) are often trained with safety guards intended to prevent harmful text generation. However, such safety training can be removed by fine-tuning the LLM on harmful datasets. While this emerging threat (harmful fine-tuning attacks) has been characterized by previous work, there is little understanding of how we should proceed in constructing and validating defenses against these attacks especially in the case where defenders would not have control of the fine-tuning process. We introduce a formal framework based on the training budget of an attacker which we call ‘Immunization’ conditions. Using a formal characterisation of the harmful fine-tuning problem, we provide a thorough description of what a successful defense must comprise of and establish a set of guidelines on how rigorous defense research that gives us confidence should proceed.

arxiv情報

著者 Domenic Rosati,Jan Wehner,Kai Williams,Łukasz Bartoszcze,Jan Batzner,Hassan Sajjad,Frank Rudzicz
発行日 2024-10-03 16:39:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Hate Personified: Investigating the role of LLMs in content moderation

要約

ヘイト検出のような主観的なタスクでは、人によってヘイトの捉え方が異なるため、Large Language Model (LLM)の多様なグループを表現する能力は不明確である。我々は、プロンプトに追加的な文脈を含めることで、地理的プライミング、ペルソナ属性、数値情報に対するLLMの感度を包括的に分析し、様々なグループのニーズがどの程度反映されているかを評価した。2つのLLM、5つの言語、6つのデータセットで得られた知見から、ペルソナベースの属性を模倣するとアノテーションにばらつきが生じることが明らかになった。一方、地理的なシグナルを取り入れると、地域的なアライメントが向上する。また、LLMは数値アンカーに敏感であり、コミュニティベースのフラグ立ての努力と敵対者への暴露を活用できることを示している。我々の研究は、予備的なガイドラインを提供し、文化的に敏感なケースでLLMを適用する際のニュアンスを強調している。

要約(オリジナル)

For subjective tasks such as hate detection, where people perceive hate differently, the Large Language Model’s (LLM) ability to represent diverse groups is unclear. By including additional context in prompts, we comprehensively analyze LLM’s sensitivity to geographical priming, persona attributes, and numerical information to assess how well the needs of various groups are reflected. Our findings on two LLMs, five languages, and six datasets reveal that mimicking persona-based attributes leads to annotation variability. Meanwhile, incorporating geographical signals leads to better regional alignment. We also find that the LLMs are sensitive to numerical anchors, indicating the ability to leverage community-based flagging efforts and exposure to adversaries. Our work provides preliminary guidelines and highlights the nuances of applying LLMs in culturally sensitive cases.

arxiv情報

著者 Sarah Masud,Sahajpreet Singh,Viktor Hangya,Alexander Fraser,Tanmoy Chakraborty
発行日 2024-10-03 16:43:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.CY | コメントする

How to Train Long-Context Language Models (Effectively)

要約

我々は、ロングコンテクスト情報を効果的に利用するための言語モデル(LM)の継続的な学習と教師付き微調整(SFT)について研究する。パープレキシティや単純なNIAH(Needle-in-a-Haystack)テストの代わりに、幅広いロングコンテクスト課題を使用し、ロングコンテクスト能力をより良く明らかにするため、SFT後のモデルを命令データで評価する。また、SFT後のモデルを命令データで評価することで、ロングコンテキストの能力をより明確にすることができる。その結果、(1)コードリポジトリや書籍は、ロングデータの優れたソースであるが、高品質のショートデータと組み合わせることが重要であること、(2)評価長を超えるシーケンス長でのトレーニングは、ロングコンテキストの性能を向上させること、(3)SFTの場合、ショートインストラクションデータセットのみを使用することで、ロングコンテキストのタスクで強力な性能が得られることがわかった。Llama-3から初期化され、40Bのトークンで学習された我々の最終モデルProLong-8Bは、128Kの長さで同サイズのモデルの中で最先端のロングコンテクスト性能を示す。ProLongは、ロングコンテキストの学習中に見たトークンの数がLlama-3.18B-Instructの5%しかないにもかかわらず、ロングコンテキストのタスクの大部分でLlama-3.18B-Instructを上回る。さらに、ProLongは512Kまでのトークンを効果的に処理することができ、これは公開されているLMの中で最も長いコンテキストウィンドウの一つである。

要約(オリジナル)

We study continued training and supervised fine-tuning (SFT) of a language model (LM) to make effective use of long-context information. We first establish a reliable evaluation protocol to guide model development — Instead of perplexity or simple needle-in-a-haystack (NIAH) tests, we use a broad set of long-context tasks, and we evaluate models after SFT with instruction data as this better reveals long-context abilities. Supported by our robust evaluations, we run thorough experiments to decide the data mix for continued pre-training, the instruction tuning dataset, and many other design choices. We find that (1) code repositories and books are excellent sources of long data, but it is crucial to combine them with high-quality short data; (2) training with a sequence length beyond the evaluation length boosts long-context performance; (3) for SFT, using only short instruction datasets yields strong performance on long-context tasks. Our final model, ProLong-8B, which is initialized from Llama-3 and trained on 40B tokens, demonstrates state-of-the-art long-context performance among similarly sized models at a length of 128K. ProLong outperforms Llama-3.18B-Instruct on the majority of long-context tasks despite having seen only 5% as many tokens during long-context training. Additionally, ProLong can effectively process up to 512K tokens, one of the longest context windows of publicly available LMs.

arxiv情報

著者 Tianyu Gao,Alexander Wettig,Howard Yen,Danqi Chen
発行日 2024-10-03 16:46:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

On Leakage of Code Generation Evaluation Datasets

要約

本論文では、コード生成テストセットによる汚染、特に最新の大規模言語モデルでの使用について考察する。(i)直接的なデータ漏洩、(ii)合成データの使用による間接的なデータ漏洩、(iii)モデル選択時の評価セットへのオーバーフィット。これに対処するために、私たちはLess Basic Python Problems (LBPP)をリリースします。LBPPは、161のプロンプトとそれに関連するPythonの解答からなる、汚染されていない新しいベンチマークです。LBPPはhttps://huggingface.co/datasets/CohereForAI/lbpp。

要約(オリジナル)

In this paper, we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. To address this, we release Less Basic Python Problems (LBPP): an uncontaminated new benchmark of 161 prompts with their associated Python solutions. LBPP is released at https://huggingface.co/datasets/CohereForAI/lbpp .

arxiv情報

著者 Alexandre Matton,Tom Sherborne,Dennis Aumiller,Elena Tommasone,Milad Alizadeh,Jingyi He,Raymond Ma,Maxime Voisin,Ellen Gilsenan-McMahon,Matthias Gallé
発行日 2024-10-03 16:48:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus

要約

19世紀アメリカ文学の正書法変化トークンのデータセットと、人間による注釈が加えられた方言グループタグの新しいレイヤーを紹介する。このデータセットに対して、トークン(BERT)と文字(CANINE)の両方のレベルの文脈言語モデルを用いて、初期の幅広い実験を行った。その結果、意図的な正書法の変化によって生じる「方言効果」は複数の言語チャンネルを用いること、そして、これらのチャンネルは、特定の言語モデリングの仮定があれば、様々な程度まで浮上させることができることがわかった。具体的には、トークン化スキームの選択が、モデルが表面化できる正書法情報の種類に有意義な影響を与えることを示す証拠を発見した。

要約(オリジナル)

We present a dataset of 19th century American literary orthovariant tokens with a novel layer of human-annotated dialect group tags designed to serve as the basis for computational experiments exploring literarily meaningful orthographic variation. We perform an initial broad set of experiments over this dataset using both token (BERT) and character (CANINE)-level contextual language models. We find indications that the ‘dialect effect’ produced by intentional orthographic variation employs multiple linguistic channels, and that these channels are able to be surfaced to varied degrees given particular language modelling assumptions. Specifically, we find evidence showing that choice of tokenization scheme meaningfully impact the type of orthographic information a model is able to surface.

arxiv情報

著者 Craig Messner,Tom Lippincott
発行日 2024-10-03 16:58:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

StorySparkQA: Expert-Annotated QA Pairs with Real-World Knowledge for Children’s Story-Based Learning

要約

インタラクティブな絵本の読み聞かせは、一般的な親子活動であり、親は、絵本の内容を超えて、言語技能と実社会の知識の両方を教えることを期待している。この活動のために開発されたストーリーテリングや読み聞かせシステムは増えているが、実社会の知識を会話に取り入れることができないことが多い。この限界は、システムが構築されている既存の児童教育用質問応答(QA)データセットが、対話型読み聞かせ活動を行う際に教育専門家がどのように考えるかというニュアンスを捉え損ねていることに起因している。このギャップを埋めるために、我々は、専門家の注釈と思考プロセスを捕捉するために、既存の知識グラフによって強化された注釈フレームワークを設計し、このフレームワークを活用して、実世界の知識を持つ5,868の専門家が注釈を付けたQAペアからなるStorySparkQAデータセットを構築する。様々なQAペア生成設定において、自動評価と人間による専門家評価を実施し、我々のStorySparkQAが、ストーリーの内容を超えた実世界の知識を対象としたQAペアを生成するモデルを効果的にサポートできることを実証する。StorySparkQAはhttps://huggingface.co/datasets/NEU-HAI/StorySparkQA。

要約(オリジナル)

Interactive story reading is a common parent-child activity, where parents expect to teach both language skills and real-world knowledge beyond the story. While increasing storytelling and reading systems have been developed for this activity, they often fail to infuse real-world knowledge into the conversation. This limitation can be attributed to the existing question-answering (QA) datasets used for children’s education, upon which the systems are built, failing to capture the nuances of how education experts think when conducting interactive story reading activities. To bridge this gap, we design an annotation framework, empowered by existing knowledge graph to capture experts’ annotations and thinking process, and leverage this framework to construct StorySparkQA dataset, which comprises 5,868 expert-annotated QA pairs with real-world knowledge. We conduct automated and human expert evaluations across various QA pair generation settings to demonstrate that our StorySparkQA can effectively support models in generating QA pairs that target real-world knowledge beyond story content. StorySparkQA is available at https://huggingface.co/datasets/NEU-HAI/StorySparkQA.

arxiv情報

著者 Jiaju Chen,Yuxuan Lu,Shao Zhang,Bingsheng Yao,Yuanzhe Dong,Ying Xu,Yunyao Li,Qianwen Wang,Dakuo Wang,Yuling Sun
発行日 2024-10-03 17:04:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする

Jailbreaking LLMs with Arabic Transliteration and Arabizi

要約

本研究では、「脱獄」攻撃に対する大規模言語モデル(LLM)の潜在的な脆弱性を、特にアラビア語とその様々な形式に焦点を当てて明らかにする。ほとんどの研究は英語ベースのプロンプト操作に集中しているが、我々の調査はアラビア語の調査へと範囲を広げている。当初、標準アラビア語でAdvBenchベンチマークをテストしたところ、接頭辞注入のようなプロンプト操作テクニックを用いても、LLMを刺激して安全でないコンテンツを生成させるには不十分であることがわかった。しかし、アラビア語の音訳とチャットスピーク(またはアラビズ)を使用すると、OpenAI GPT-4やAnthropic Claude 3 Sonnetのようなプラットフォームで安全でないコンテンツを生成できることがわかりました。私たちの発見は、アラビア語とその様々な形式を使用することで、隠されたままになっている可能性のある情報を暴露し、脱獄攻撃のリスクを高める可能性があることを示唆しています。この暴露は、モデルが学習した特定の単語との関連によるものである可能性があり、すべての言語形式にわたってより包括的な安全トレーニングの必要性を強調するものであるという仮説を立てた。

要約(オリジナル)

This study identifies the potential vulnerabilities of Large Language Models (LLMs) to ‘jailbreak’ attacks, specifically focusing on the Arabic language and its various forms. While most research has concentrated on English-based prompt manipulation, our investigation broadens the scope to investigate the Arabic language. We initially tested the AdvBench benchmark in Standardized Arabic, finding that even with prompt manipulation techniques like prefix injection, it was insufficient to provoke LLMs into generating unsafe content. However, when using Arabic transliteration and chatspeak (or arabizi), we found that unsafe content could be produced on platforms like OpenAI GPT-4 and Anthropic Claude 3 Sonnet. Our findings suggest that using Arabic and its various forms could expose information that might remain hidden, potentially increasing the risk of jailbreak attacks. We hypothesize that this exposure could be due to the model’s learned connection to specific words, highlighting the need for more comprehensive safety training across all language forms.

arxiv情報

著者 Mansour Al Ghanim,Saleh Almohaimeed,Mengxin Zheng,Yan Solihin,Qian Lou
発行日 2024-10-03 17:10:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG | コメントする

HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router

要約

大規模言語モデル(LLM)がますます強力になるにつれて、その安全性と人間の価値観との整合性を確保することが重要な課題となっている。理想的には、LLMは有害な情報や機微な情報の開示を避けながら、有益な応答を提供すべきである。しかし、有害なプロンプトを完全に拒否するようにモデルを訓練したり、粗いフィルタを適用したりするなど、拒否戦略に大きく依存する現在のアライメントアプローチは、その二項対立的な性質によって制限されている。これらの方法は、情報へのアクセスを完全に拒否するか、十分なニュアンスなしに許可するかのどちらかであり、過度に慎重な応答や微妙な有害コンテンツの検出の失敗につながる。例えば、LLMは誤用の懸念から、薬に関する基本的な公開情報の提供を拒否することがある。さらに、これらの拒否ベースの方法は、混合コンテンツのシナリオを処理するのに苦労し、文脈に依存する感受性に適応する能力を欠いているため、良性のコンテンツを過剰に検閲してしまう可能性がある。これらの課題を克服するために、LLMにおけるきめ細かく安全な生成のための新しいフレームワークであるHiddenGuardを紹介する。HiddenGuardはPrism (rePresentation Router for In-Stream Moderation)を組み込んでおり、LLMと並行して動作し、中間的な隠された状態を活用することで、リアルタイムのトークン・レベルでの有害コンテンツの検出と再編集を可能にする。このきめ細かなアプローチにより、よりニュアンスに富んだ、文脈を考慮したモデレーションが可能になり、モデルが、明白な拒否ではなく、センシティブな情報を選択的に再編集または置換しながら、有益な応答を生成することができる。また、多様なコンテキストにおける潜在的に有害な情報のトークン・レベルのきめ細かいアノテーションを含む包括的なデータセットも提供する。我々の実験により、HiddenGuardは、モデルの応答の全体的な有用性と情報性を維持しながら、有害なコンテンツの検出と再編集において90%以上のF1スコアを達成することが実証された。

要約(オリジナル)

As Large Language Models (LLMs) grow increasingly powerful, ensuring their safety and alignment with human values remains a critical challenge. Ideally, LLMs should provide informative responses while avoiding the disclosure of harmful or sensitive information. However, current alignment approaches, which rely heavily on refusal strategies, such as training models to completely reject harmful prompts or applying coarse filters are limited by their binary nature. These methods either fully deny access to information or grant it without sufficient nuance, leading to overly cautious responses or failures to detect subtle harmful content. For example, LLMs may refuse to provide basic, public information about medication due to misuse concerns. Moreover, these refusal-based methods struggle to handle mixed-content scenarios and lack the ability to adapt to context-dependent sensitivities, which can result in over-censorship of benign content. To overcome these challenges, we introduce HiddenGuard, a novel framework for fine-grained, safe generation in LLMs. HiddenGuard incorporates Prism (rePresentation Router for In-Stream Moderation), which operates alongside the LLM to enable real-time, token-level detection and redaction of harmful content by leveraging intermediate hidden states. This fine-grained approach allows for more nuanced, context-aware moderation, enabling the model to generate informative responses while selectively redacting or replacing sensitive information, rather than outright refusal. We also contribute a comprehensive dataset with token-level fine-grained annotations of potentially harmful information across diverse contexts. Our experiments demonstrate that HiddenGuard achieves over 90% in F1 score for detecting and redacting harmful content while preserving the overall utility and informativeness of the model’s responses.

arxiv情報

著者 Lingrui Mei,Shenghua Liu,Yiwei Wang,Baolong Bi,Ruibin Yuan,Xueqi Cheng
発行日 2024-10-03 17:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL | コメントする