ReIFE: Re-evaluating Instruction-Following Evaluation

要約

通常、次の指示の自動評価には、大規模言語モデル (LLM) を使用して応答の品質を評価することが含まれます。
ただし、これらの LLM ベースの評価器は、基本 LLM と評価プロトコルの 2 つの側面にわたる包括的な評価が不足しています。
したがって、我々は、人間が注釈を付けた 4 つのデータセットに対して、25 の基本 LLM と最近提案された 15 の評価プロトコルを含む、以下の指示の徹底的なメタ評価を提示し、LLM 評価者の評価精度を評価します。
私たちの評価により、高度な堅牢性を備えた最高のパフォーマンスのベース LLM と評価プロトコルを特定することができます。
さらに、私たちの大規模な評価では次のことが明らかになりました。(1) 基本 LLM パフォーマンス ランキングは評価プロトコル間でほぼ一貫しており、能力の低い LLM はプロトコルの拡張による大幅な改善を示しています。
(2) プロトコルの有効性は使用されるベース LLM に依存する可能性があるため、評価プロトコルの堅牢な評価には、さまざまな機能レベルを持つ多くのベース LLM が必要です。
(3) 異なるデータセットの評価結果は必ずしも一致するとは限らないため、厳密な評価には特徴のある複数のデータセットが必要です。
私たちはメタ評価スイート ReIFE をリリースします。これは、500 を超える LLM エバリュエーター構成のコードベースと評価結果のコレクションを提供し、指示に従う評価における将来の研究をサポートします。

要約(オリジナル)

The automatic evaluation of instruction following typically involves using large language models (LLMs) to assess response quality. However, there is a lack of comprehensive evaluation of these LLM-based evaluators across two dimensions: the base LLMs and the evaluation protocols. Therefore, we present a thorough meta-evaluation of instruction following, including 25 base LLMs and 15 recently proposed evaluation protocols, on 4 human-annotated datasets, assessing the evaluation accuracy of the LLM-evaluators. Our evaluation allows us to identify the best-performing base LLMs and evaluation protocols with a high degree of robustness. Moreover, our large-scale evaluation reveals: (1) Base LLM performance ranking remains largely consistent across evaluation protocols, with less capable LLMs showing greater improvement from protocol enhancements; (2) Robust evaluation of evaluation protocols requires many base LLMs with varying capability levels, as protocol effectiveness can depend on the base LLM used; (3) Evaluation results on different datasets are not always consistent, so a rigorous evaluation requires multiple datasets with distinctive features. We release our meta-evaluation suite ReIFE, which provides the codebase and evaluation result collection for more than 500 LLM-evaluator configurations, to support future research in instruction-following evaluation.

arxiv情報

著者 Yixin Liu,Kejian Shi,Alexander R. Fabbri,Yilun Zhao,Peifeng Wang,Chien-Sheng Wu,Shafiq Joty,Arman Cohan
発行日 2024-10-09 17:14:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Retrieval-Augmented Decision Transformer: External Memory for In-context RL

要約

インコンテキスト学習 (ICL) は、コンテキスト内でいくつかのサンプルを観察することによって新しいタスクを学習するモデルの機能です。
この機能は NLP で広く普及していますが、最近では強化学習 (RL) 設定でも観察されています。
ただし、以前のインコンテキスト RL 方法では、エージェントのコンテキスト内にエピソード全体が必要です。
複雑な環境では通常、報酬がまばらな長いエピソードが発生することを考えると、これらの方法は短いエピソードの単純な環境に限定されます。
これらの課題に対処するために、検索拡張決定トランスフォーマー (RA-DT) を導入します。
RA-DT は外部メモリ メカニズムを採用して過去の経験を保存し、そこから現在の状況に関連するサブ軌道のみを取得します。
RA-DT の検索コンポーネントはトレーニングを必要とせず、完全にドメインに依存しません。
グリッドワールド環境、ロボット工学シミュレーション、手続き的に生成されたビデオ ゲームにおける RA-DT の機能を評価します。
グリッドワールドでは、RA-DT はコンテキストの長さの一部のみを使用しながら、ベースラインよりも優れたパフォーマンスを発揮します。
さらに、複雑な環境における現在のインコンテキスト RL 手法の限界を明らかにし、将来の方向性について議論します。
将来の研究を促進するために、検討されている 4 つの環境のデータセットをリリースします。

要約(オリジナル)

In-context learning (ICL) is the ability of a model to learn a new task by observing a few exemplars in its context. While prevalent in NLP, this capability has recently also been observed in Reinforcement Learning (RL) settings. Prior in-context RL methods, however, require entire episodes in the agent’s context. Given that complex environments typically lead to long episodes with sparse rewards, these methods are constrained to simple environments with short episodes. To address these challenges, we introduce Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external memory mechanism to store past experiences from which it retrieves only sub-trajectories relevant for the current situation. The retrieval component in RA-DT does not require training and can be entirely domain-agnostic. We evaluate the capabilities of RA-DT on grid-world environments, robotics simulations, and procedurally-generated video games. On grid-worlds, RA-DT outperforms baselines, while using only a fraction of their context length. Furthermore, we illuminate the limitations of current in-context RL methods on complex environments and discuss future directions. To facilitate future research, we release datasets for four of the considered environments.

arxiv情報

著者 Thomas Schmied,Fabian Paischer,Vihang Patil,Markus Hofmarcher,Razvan Pascanu,Sepp Hochreiter
発行日 2024-10-09 17:15:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

ZS4C: Zero-Shot Synthesis of Compilable Code for Incomplete Code Snippets using LLMs

要約

技術 Q&A サイトは、知識を求めるソフトウェア開発者にとって貴重ですが、そこで提供されるコード スニペットは、未解決の型や不足しているライブラリのためにコンパイルできず、不完全であることがよくあります。
これは、これらのスニペットを再利用または分析したいユーザーにとって課題となります。
既存の方法は、コンパイル可能なコードの作成に焦点を当てていないか、成功率が低いかのどちらかです。
これに対処するために、大規模言語モデル (LLM) を使用して不完全なスニペットからコンパイル可能なコードをゼロショット合成するための軽量アプローチである ZS4C を提案します。
ZS4C は 2 つの段階で動作します。まず、GPT-3.5 などの LLM を使用して、スニペット内の欠落しているインポート ステートメントを特定します。
2 番目に、バリデータ (コンパイラなど) と連携して、不適切なインポートや構文の問題によって引き起こされるコンパイル エラーを修正します。
私たちは、StatType-SO ベンチマークと、最も人気のある 20 個の Python ライブラリにわたる Stack Overflow の 539 個の Python スニペットを含む新しいデータセット Python-SO で ZS4C を評価しました。
ZS4C は既存の手法を大幅に上回り、最先端の SnR と比較してコンパイル率が 63% から 95.1% に向上し、50.1% の向上を記録しました。
平均して、ZS4C は SnR よりも正確なインポート ステートメント (F1 スコア 0.98) を推論でき、F1 では 8.5% の改善が見られます。

要約(オリジナル)

Technical Q&A sites are valuable for software developers seeking knowledge, but the code snippets they provide are often uncompilable and incomplete due to unresolved types and missing libraries. This poses a challenge for users who wish to reuse or analyze these snippets. Existing methods either do not focus on creating compilable code or have low success rates. To address this, we propose ZS4C, a lightweight approach for zero-shot synthesis of compilable code from incomplete snippets using Large Language Models (LLMs). ZS4C operates in two stages: first, it uses an LLM, like GPT-3.5, to identify missing import statements in a snippet; second, it collaborates with a validator (e.g., compiler) to fix compilation errors caused by incorrect imports and syntax issues. We evaluated ZS4C on the StatType-SO benchmark and a new dataset, Python-SO, which includes 539 Python snippets from Stack Overflow across the 20 most popular Python libraries. ZS4C significantly outperforms existing methods, improving the compilation rate from 63% to 95.1% compared to the state-of-the-art SnR, marking a 50.1% improvement. On average, ZS4C can infer more accurate import statements (with an F1 score of 0.98) than SnR, with an improvement of 8.5% in the F1.

arxiv情報

著者 Azmain Kabir,Shaowei Wang,Yuan Tian,Tse-Hsun Chen,Muhammad Asaduzzaman,Wenbin Zhang
発行日 2024-10-09 17:19:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | コメントする

MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses

要約

科学的発見は人間社会の繁栄に大きく貢献しており、最近の進歩により、LLM がこのプロセスを促進する可能性があることが示されています。
ただし、LLM が化学において新規かつ有効な仮説を発見できるかどうかはまだ不明です。
この研究では、この中心的な研究課題を調査します。LLM は、化学研究の背景 (研究課題および/または背景調査で構成される) のみが与えられた場合に、研究課題の領域に制限されることなく、新しく有効な化学研究仮説を自動的に発見できるでしょうか。
?
化学の専門家との広範な議論の後、化学仮説の大部分は研究背景といくつかのインスピレーションから導き出されるという仮説を提案します。
この重要な洞察をもとに、中心となる質問を 3 つの小さな基本的な質問に分割します。
簡単に説明すると、(1) LLM が良いインスピレーションを引き出せるかどうかという背景的な質問が与えられます。
(2) 背景とインスピレーションとともに、LLM が仮説を導くことができるかどうか。
(3) LLM が優れた仮説を特定して上位にランク付けできるかどうか。
これらの疑問を調査するために、2024 年に Nature、Science、または同様のレベルで出版された 51 件の化学論文からなるベンチマークを構築しました (2024 年以降、すべての論文はオンラインでのみ入手可能です)。
すべての論文は化学博士課程の学生によって、背景、インスピレーション、仮説の 3 つの要素に分割されます。
目標は、背景と、2023 年までのデータでトレーニングされた LLM を使用して、グラウンド トゥルースのインスピレーション論文からなるランダムに選択された大規模な化学文献コーパスのみを与えて、仮説を再発見することです。また、LLM ベースのマルチエージェント フレームワークも開発します。
仮定は、3 つの小さな質問を反映する 3 つの段階で構成されます。
提案された方法は、主要な革新をカバーする、グラウンドトゥルースの仮説と非常に高い類似性を持つ多くの仮説を再発見できます。

要約(オリジナル)

Scientific discovery contributes largely to human society’s prosperity, and recent progress shows that LLMs could potentially catalyze this process. However, it is still unclear whether LLMs can discover novel and valid hypotheses in chemistry. In this work, we investigate this central research question: Can LLMs automatically discover novel and valid chemistry research hypotheses given only a chemistry research background (consisting of a research question and/or a background survey), without limitation on the domain of the research question? After extensive discussions with chemistry experts, we propose an assumption that a majority of chemistry hypotheses can be resulted from a research background and several inspirations. With this key insight, we break the central question into three smaller fundamental questions. In brief, they are: (1) given a background question, whether LLMs can retrieve good inspirations; (2) with background and inspirations, whether LLMs can lead to hypothesis; and (3) whether LLMs can identify good hypotheses to rank them higher. To investigate these questions, we construct a benchmark consisting of 51 chemistry papers published in Nature, Science, or a similar level in 2024 (all papers are only available online since 2024). Every paper is divided by chemistry PhD students into three components: background, inspirations, and hypothesis. The goal is to rediscover the hypothesis, given only the background and a large randomly selected chemistry literature corpus consisting the ground truth inspiration papers, with LLMs trained with data up to 2023. We also develop an LLM-based multi-agent framework that leverages the assumption, consisting of three stages reflecting the three smaller questions. The proposed method can rediscover many hypotheses with very high similarity with the ground truth ones, covering the main innovations.

arxiv情報

著者 Zonglin Yang,Wanhao Liu,Ben Gao,Tong Xie,Yuqiang Li,Wanli Ouyang,Soujanya Poria,Erik Cambria,Dongzhan Zhou
発行日 2024-10-09 17:19:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

An Approach for Auto Generation of Labeling Functions for Software Engineering Chatbots

要約

ソフトウェア エンジニアリング (SE) チャットボットは、開発プロセスの強化における役割としてますます注目を集めています。
チャットボットの中核となるのは自然言語理解プラットフォーム (NLU) であり、これによりチャットボットはユーザーのクエリを理解して応答することができます。
NLU を展開する前に、ラベル付きデータを使用して NLU をトレーニングする必要があります。
ただし、高品質のデータセットが不足しているため、SE チャットボット用にそのようなラベル付きデータを取得することは困難です。
この課題は、SE チャットボットのトレーニングには、一般的な言語データセットには見つからない特殊な語彙やフレーズが必要であるために発生します。
そのため、チャットボット開発者は、効果的なチャットボットのトレーニングに必要なデータを収集するために、ユーザーのクエリに手動で注釈を付けることがよくありますが、これは時間とリソースを大量に消費するプロセスです。
以前の研究では、チャットボット実践者がユーザーの提示されたクエリに注釈を付けることをサポートするアプローチが提案されています。
ただし、これらのアプローチでは、データ内の特定のパターンに基づいてユーザー クエリを識別して分類する、ラベリング関数 (LF) と呼ばれるルールを生成するために人間の介入が必要です。
この問題に対処するために、ラベル付きユーザー クエリからパターンを抽出することで LF を自動的に生成するアプローチを提案します。
4 つの多様な SE データセット (AskGit、MSA、Ask Ubuntu、Stack Overflow) のクエリに適用することでアプローチの有効性を評価し、生成された LF によってラベル付けされたクエリに対して NLU をトレーニングすることで得られるパフォーマンスの向上を測定します。
生成された LF は、調査対象のデータセット全体で最大 85.3% の AUC スコアでデータに効果的にラベル付けされ、NLU のパフォーマンスが最大 27.2% 向上することがわかりました。
さらに、我々の結果は、LF の生成に使用される LF の数がラベル付けのパフォーマンスに影響を与えることを示しています。
私たちのアプローチにより、ユーザーのクエリのラベル付けにかかる時間とリソースが節約され、実務者がコアのチャットボット機能に集中できるようになると信じています。

要約(オリジナル)

Software engineering (SE) chatbots are increasingly gaining attention for their role in enhancing development processes. At the core of chatbots are the Natural Language Understanding platforms (NLUs), which enable them to comprehend and respond to user queries. Before deploying NLUs, there is a need to train them with labeled data. However, acquiring such labeled data for SE chatbots is challenging due to the scarcity of high-quality datasets. This challenge arises because training SE chatbots requires specialized vocabulary and phrases not found in typical language datasets. Consequently, chatbot developers often resort to manually annotating user queries to gather the data necessary for training effective chatbots, a process that is both time-consuming and resource-intensive. Previous studies propose approaches to support chatbot practitioners in annotating users’ posed queries. However, these approaches require human intervention to generate rules, called labeling functions (LFs), that identify and categorize user queries based on specific patterns in the data. To address this issue, we propose an approach to automatically generate LFs by extracting patterns from labeled user queries. We evaluate the effectiveness of our approach by applying it to the queries of four diverse SE datasets (namely AskGit, MSA, Ask Ubuntu, and Stack Overflow) and measure the performance improvement gained from training the NLU on the queries labeled by the generated LFs. We find that the generated LFs effectively label data with AUC scores of up to 85.3%, and NLU’s performance improvement of up to 27.2% across the studied datasets. Furthermore, our results show that the number of LFs used to generate LFs affects the labeling performance. We believe that our approach can save time and resources in labeling users’ queries, allowing practitioners to focus on core chatbot functionalities.

arxiv情報

著者 Ebube Alor,Ahmad Abdellatif,SayedHassan Khatoonabadi,Emad Shihab
発行日 2024-10-09 17:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | コメントする

Identifying and Addressing Delusions for Target-Directed Decision-Making

要約

私たちは、意思決定時の計画中に目標を生成し、行動を導き、評価中により良い一般化を達成する、目標指向エージェントに興味を持っています。
これらのエージェントの不適切なトレーニングは妄想を引き起こす可能性があります。エージェントはターゲットについて誤った信念を持つようになる可能性があり、それを適切に拒否することができず、望ましくない行動を引き起こし、分布外の一般化に損害を与えます。
注意深く管理された環境で直感的な例を使用してさまざまな種類の妄想を特定し、その原因を調査します。
私たちは、ターゲット指向の RL エージェントを訓練するための主流のアプローチである後知恵の再ラベル付けによって訓練されたエージェントが妄想にどのように対処できるかを示します。
私たちは、妄想行動を修正し、分布外の一般化を改善する上で、提案された解決策の有効性を経験的に検証します。

要約(オリジナル)

We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.

arxiv情報

著者 Mingde Zhao,Tristan Sylvain,Doina Precup,Yoshua Bengio
発行日 2024-10-09 17:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining

要約

大規模言語モデル (LLM) は、さまざまなタスクを実行しながら、多数の業界ドメインにわたって効果的に一般化する驚くべき能力を示しています。
これらのコンピテンシーの多くは、言語モデル (LM) の事前トレーニング段階で利用されたデータから取得されます。
ただし、これらのモデルは、特殊な業界ドメインまたは低リソースの業界ドメインで実行するタスクを実行する場合には限界があります。
最近のアプローチでは、ドメイン固有の合成データを生成するために LLM が使用されますが、ほとんどの場合、真実性と複雑さに欠けています。
あるいは、ヘルスケアや金融などのドメイン データが利用可能な場合、LM のほとんどは独自のものであるため、現実世界の業界固有の事前トレーニング データをキュレーションするためのスケーラブルな方法が必要になります。
この研究では、LM のドメイン適応のために大規模なデータ コーパスからドメイン固有のトレーニング データをマイニングするための、自動化されたスケーラブルなフレームワークである DoPAMine: シードガイド付きデータ マイニングからのドメイン固有の事前トレーニング適応を提案します。
このフレームワークは、LLM のパラメトリック知識を活用して、特定のドメインに合わせた多様で代表的なシード データを生成し、その後、Common Crawl のような大規模なデータ コーパスから現実世界のデータをマイニングするために使用されます。
DoPAMine 経由でマイニングされたデータを使用してヘルスケアと金融の 2 つのドメイン固有の 7B パラメーター LM をトレーニングすることにより、継続的事前トレーニング (CPT) 設定でフレームワークのパフォーマンスを評価しました。
私たちの実験によると、DoPAMine は、MMLU、MedQA、MedMCQA、PubMedQA データセットからの医療タスクにおいて、事前トレーニングされた LLM のパフォーマンスを、ゼロショット設定と 5 ショット設定でそれぞれ平均 4.9% と 5.1%、平均して 2.9% と 6.7% 向上させたことが示されています。
FiQA-SA、FPB、Headlines データセットの財務タスクのゼロショット設定と 5 ショット設定をそれぞれベースラインと比較したもの。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable ability to generalize effectively across numerous industry domains while executing a range of tasks. Many of these competencies are obtained from the data utilized during the pre-training phase of the Language Models (LMs). However, these models exhibit limitations when tasked with performing in specialized or low-resource industry domains. More recent approaches use LLMs for generating domain-specific synthetic data but most often they lack in truthfulness and complexity. Alternatively, in cases where domain data is available like healthcare and finance most of the LMs are proprietary necessitating the need for a scalable method to curate real world industry specific pre-training data. In this work, we propose an automated and scalable framework – DoPAMine:Domain-specific Pre-training Adaptation from seed-guided data Mining, to mine domain specific training data from a large data corpus for domain adaptation of a LM. The framework leverages the parametric knowledge of a LLM to generate diverse and representative seed data tailored to a specific domain which is then used to mine real world data from a large data corpus like Common Crawl. We evaluated our framework’s performance in the continual pre-training (CPT) setting by training two domain specific 7B parameter LMs in healthcare and finance with data mined via DoPAMine. Our experiments show that DoPAMine boosts the performance of pre-trained LLMs on average by 4.9% and 5.1% in zero-shot and 5-shot settings respectively on healthcare tasks from MMLU, MedQA, MedMCQA and PubMedQA datasets, and 2.9% and 6.7% for zero-shot and 5-shot settings respectively on finance tasks from FiQA-SA, FPB and Headlines datasets when compared to the baseline.

arxiv情報

著者 Vinayak Arannil,Neha Narwal,Sourav Sanjukta Bhabesh,Sai Nikhil Thirandas,Darren Yow-Bang Wang,Graham Horwood,Alex Anto Chirayath,Gouri Pandeshwar
発行日 2024-10-09 17:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

I Want to Break Free! Anti-Social Behavior and Persuasion Ability of LLMs in Multi-Agent Settings with Social Hierarchy

要約

大規模言語モデル (LLM) ベースのエージェントがますます自律的になり、より自由に相互作用するようになるにつれて、それらの間の相互作用を研究することは、新たな現象や潜在的なリスクを予測するために重要になります。
私たちは、広く人気のあるスタンフォード監獄実験からインスピレーションを得て、厳格な社会的階層構造を特徴とする状況における LLM エージェントの相互作用パターンを研究することで、この分野の研究に貢献しています。
私たちは、特定の目標 (つまり、追加のヤードタイムの​​獲得や刑務所からの脱出) を達成しようとする看守と囚人エージェントが関与するシミュレーション シナリオにおける説得と反社会的行動という 2 つのタイプの現象を具体的に研究することによってこれを行います。
5 つの異なる人気のある LLM にわたる合計 2,000 のマシン間会話に対する 200 の実験シナリオを活用して、一連の注目すべき結果を提供します。
まず、パワーダイナミクスが作用するマルチエージェント設定で一部のモデルが会話の実行に一貫して失敗する様子を文書化します。
次に、成功したインタラクションに参加することができたモデルについて、エージェントが達成するために設定された目標が主にその説得力にどのように影響を与える一方、エージェントの反社会的行動に関しては無視できるほどの影響を与えることを経験的に示します。
第三に、エージェントのペルソナ、特に看守の人格が、囚人からの説得が成功する可能性と反社会的行動の出現の両方をどのように推進するかを強調します。
第 4 に、特定の人格を明示的に促さなくても、エージェントの役割を割り当てるだけで反社会的行動が現れることを示します。
これらの結果は、対話型 LLM エージェントの開発およびその社会的影響に関する議論に影響を与えます。

要約(オリジナル)

As Large Language Model (LLM)-based agents become increasingly autonomous and will more freely interact with each other, studying interactions between them becomes crucial to anticipate emergent phenomena and potential risks. Drawing inspiration from the widely popular Stanford Prison Experiment, we contribute to this line of research by studying interaction patterns of LLM agents in a context characterized by strict social hierarchy. We do so by specifically studying two types of phenomena: persuasion and anti-social behavior in simulated scenarios involving a guard and a prisoner agent who seeks to achieve a specific goal (i.e., obtaining additional yard time or escape from prison). Leveraging 200 experimental scenarios for a total of 2,000 machine-machine conversations across five different popular LLMs, we provide a set of noteworthy findings. We first document how some models consistently fail in carrying out a conversation in our multi-agent setup where power dynamics are at play. Then, for the models that were able to engage in successful interactions, we empirically show how the goal that an agent is set to achieve impacts primarily its persuasiveness, while having a negligible effect with respect to the agent’s anti-social behavior. Third, we highlight how agents’ personas, and particularly the guard’s personality, drive both the likelihood of successful persuasion from the prisoner and the emergence of anti-social behaviors. Fourth, we show that even without explicitly prompting for specific personalities, anti-social behavior emerges by simply assigning agents’ roles. These results bear implications for the development of interactive LLM agents as well as the debate on their societal impact.

arxiv情報

著者 Gian Maria Campedelli,Nicolò Penzo,Massimo Stefan,Roberto Dessì,Marco Guerini,Bruno Lepri,Jacopo Staiano
発行日 2024-10-09 17:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MA | コメントする

The FIX Benchmark: Extracting Features Interpretable to eXperts

要約

特徴ベースの手法は、モデルの予測を説明するためによく使用されますが、これらの手法は多くの場合、解釈可能な特徴がすぐに利用できることを暗黙的に前提としています。
ただし、これは高次元データには当てはまらないことが多く、どの特徴が重要であるかを数学的に指定することは、分野の専門家であっても困難な場合があります。
代わりに、専門家の知識に合わせた特徴のコレクションまたはグループを自動的に抽出することはできますか?
このギャップに対処するために、機能のコレクションが専門家の知識とどの程度一致しているかを測定するためのベンチマークである FIX (専門家に解釈可能な機能) を紹介します。
私たちは、分野の専門家と協力して、視覚、言語、時系列データモダリティにおける宇宙論、心理学、医学の分野にわたる多様な現実世界の設定に適用できる統一された専門家調整尺度である FIXScore を提案します。
FIXScore を使用すると、一般的な特徴ベースの説明方法は専門家が指定した知識との整合性が低いことがわかり、専門家が解釈できる特徴をより適切に識別できる新しい方法の必要性が強調されます。

要約(オリジナル)

Feature-based methods are commonly used to explain model predictions, but these methods often implicitly assume that interpretable features are readily available. However, this is often not the case for high-dimensional data, and it can be hard even for domain experts to mathematically specify which features are important. Can we instead automatically extract collections or groups of features that are aligned with expert knowledge? To address this gap, we present FIX (Features Interpretable to eXperts), a benchmark for measuring how well a collection of features aligns with expert knowledge. In collaboration with domain experts, we propose FIXScore, a unified expert alignment measure applicable to diverse real-world settings across cosmology, psychology, and medicine domains in vision, language and time series data modalities. With FIXScore, we find that popular feature-based explanation methods have poor alignment with expert-specified knowledge, highlighting the need for new methods that can better identify features interpretable to experts.

arxiv情報

著者 Helen Jin,Shreya Havaldar,Chaehyeon Kim,Anton Xue,Weiqiu You,Helen Qu,Marco Gatti,Daniel A Hashimoto,Bhuvnesh Jain,Amin Madani,Masao Sako,Lyle Ungar,Eric Wong
発行日 2024-10-09 17:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models

要約

大規模言語モデルやビジョン言語モデルなどの生成モデルによって生成される出力の品質を評価することには、顕著な課題が伴います。
従来の評価方法は通常、リソースを大量に消費する人間による評価か、人間の判断との相関が低いことが多い自動指標のいずれかに依存しています。
もう 1 つの一般的なアプローチは、深層学習システムを使用することです。これは、大量のコンピューティングと時間を消費するだけでなく、広範なトレーニング データも必要とします。
この研究では、LLM と VLM 自体の 2 レベルの階層を活用して、テキストと画像の両方を含む生成出力を評価するように設計された、ReFeR と呼ばれるチューニング不要のフレームワークを紹介します。
私たちは、4 つの多様な評価タスクにわたってフレームワーク ReFeR を厳密に評価します。
このフレームワークは、これらの評価の精度を向上させ、以前のベンチマークを上回るだけでなく、建設的なフィードバックも生成します。
興味深いことに、このフレームワークは推論タスクにも適用できます。
4 つの推論タスクに関する実験では、フレームワークの優れた集団推論能力が実証されています。
フレームワークの 2 つのバリエーションを紹介します。1 つはパフォーマンスの高速化に最適化された ReFeR-Turbo、もう 1 つはよりコスト効率の高いソリューションを提供する ReFeR-Lite です。
ReFeR-Lite は、ReFeR-Turbo と同等の精度を持ちながら、$\sim7.7\倍$ 効率が優れています。
コード、データ、PIP パッケージを公開します。
この PIP URL https://pypi.org/project/refer-agents/ およびこの Git URL https://github.com/yaswanth-iitkgp/ReFeR_Code を参照してください。

要約(オリジナル)

Assessing the quality of outputs generated by generative models, such as large language models and vision language models, presents notable challenges. Traditional methods for evaluation typically rely on either human assessments, which are resource-intensive, or automatic metrics that often show a low correlation with human judgment. Another common approach is to use deep learning systems, which not only consume a substantial amount of compute and time but also require extensive training data. In this study, we introduce a tuning-free framework called ReFeR, designed to evaluate generative outputs, including both text and images, by leveraging a 2-level hierarchy of LLMs and VLMs themselves. We rigorously evaluate our framework, ReFeR, across four diverse evaluation tasks. The framework not only improves the accuracy of these evaluations, surpassing previous benchmarks but also generates constructive feedback. Interestingly, the framework is also applicable to reasoning tasks. Experiments on four reasoning tasks demonstrate superior collective reasoning abilities of the framework. We present two variants of the framework: ReFeR-Turbo, optimized for accelerated performance, and ReFeR-Lite, offering a more cost-effective solution. ReFeR-Lite is $\sim7.7\times$ more efficient while being comparably accurate to ReFeR-Turbo. We make code, data and PIP package publicly available. See this PIP URL https://pypi.org/project/refer-agents/ and this Git URL https://github.com/yaswanth-iitkgp/ReFeR_Code .

arxiv情報

著者 Yaswanth Narsupalli,Abhranil Chandra,Sreevatsa Muppirala,Manish Gupta,Pawan Goyal
発行日 2024-10-09 17:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする