Systematic Review: Text Processing Algorithms in Machine Learning and Deep Learning for Mental Health Detection on Social Media

要約

うつ病が世界的に増加しているため、早期介入のための革新的な検出方法が必要です。
ソーシャル メディアは、ユーザーの投稿を通じてうつ病を特定するユニークな機会を提供します。
この系統的レビューでは、ソーシャル メディアでのうつ病検出のための機械学習 (ML) モデルを評価し、ML ライフサイクル全体にわたるバイアスと方法論上の課題に焦点を当てています。
PubMed、IEEE Xplore、Google Scholar の検索により、2010 年以降に発表された 47 件の関連研究が特定されました。方法論の品質とバイアスのリスクを評価するために、予測モデル リスク オブ バイアス評価ツール (PROBAST) が利用されました。
モデルの信頼性と一般化可能性に影響を与える重大なバイアスが見つかりました。
Twitter (63.8%) と英語コンテンツ (90% 以上) への依存度が圧倒的に高く、ほとんどの調査は米国とヨーロッパのユーザーに焦点を当てています。
非確率サンプリング法 (約 80%) では、代表性が制限されます。
正確な感情分析に重要な、否定などの言語的ニュアンスを明確に扱った研究はわずか 23% でした。
一貫性のないハイパーパラメータ調整が観察され、モデルを適切に調整したのは 27.7% のみでした。
約 17% はデータをトレーニング、検証、テスト セットに適切に分割しておらず、過剰適合の危険がありました。
74.5% が不均衡なデータに対して適切な評価指標を使用しましたが、その他の企業はクラスの不均衡に対処せずに精度に依存しており、結果が歪む可能性がありました。
報告の透明性にはばらつきがあり、重要な方法論の詳細が欠けていることがよくありました。
これらの調査結果は、データ ソースの多様化、前処理プロトコルの標準化、一貫したモデル開発実践の確保、クラスの不均衡への対処、レポートの透明性の強化の必要性を浮き彫りにしています。
これらの課題を克服することで、今後の研究では、ソーシャル メディアでうつ病を検出するためのより堅牢で一般化可能な ML モデルを開発し、世界的にメンタルヘルスの成果の向上に貢献できるようになります。

要約(オリジナル)

The global rise in depression necessitates innovative detection methods for early intervention. Social media provides a unique opportunity to identify depression through user-generated posts. This systematic review evaluates machine learning (ML) models for depression detection on social media, focusing on biases and methodological challenges throughout the ML lifecycle. A search of PubMed, IEEE Xplore, and Google Scholar identified 47 relevant studies published after 2010. The Prediction model Risk Of Bias ASsessment Tool (PROBAST) was utilized to assess methodological quality and risk of bias. Significant biases impacting model reliability and generalizability were found. There is a predominant reliance on Twitter (63.8%) and English-language content (over 90%), with most studies focusing on users from the United States and Europe. Non-probability sampling methods (approximately 80%) limit representativeness. Only 23% of studies explicitly addressed linguistic nuances like negations, crucial for accurate sentiment analysis. Inconsistent hyperparameter tuning was observed, with only 27.7% properly tuning models. About 17% did not adequately partition data into training, validation, and test sets, risking overfitting. While 74.5% used appropriate evaluation metrics for imbalanced data, others relied on accuracy without addressing class imbalance, potentially skewing results. Reporting transparency varied, often lacking critical methodological details. These findings highlight the need to diversify data sources, standardize preprocessing protocols, ensure consistent model development practices, address class imbalance, and enhance reporting transparency. By overcoming these challenges, future research can develop more robust and generalizable ML models for depression detection on social media, contributing to improved mental health outcomes globally.

arxiv情報

著者 Yuchen Cao,Jianglai Dai,Zhongyan Wang,Yeyubei Zhang,Xiaorui Shen,Yunchong Liu,Yexin Tian
発行日 2024-10-21 17:05:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Systematic Review: Text Processing Algorithms in Machine Learning and Deep Learning for Mental Health Detection on Social Media はコメントを受け付けていません

CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning

要約

自律型エージェントは、タスクを計画するために不確実な自然言語の指示を解釈するという課題に直面することがよくあります。
これらの指示を線形時相論理 (LTL) として表すことで、プランナーは実行可能な計画を合成できます。
自然言語仕様を LTL 表現に変換するための、データ効率の高いコンテキスト内学習フレームワークである CoT-TL を紹介します。
CoT-TL は、形式的なロジック作成の要件に合わせて思考連鎖推論とセマンティックな役割を拡張することで、通常は広範な微調整データに依存する大規模な言語モデルの制限に対処します。
このアプローチにより、LTL 生成の背後にある透明性と理論的根拠が強化され、ユーザーの信頼が促進されます。
CoT-TL は、低データのシナリオで 3 つの多様なデータセットにわたって最先端の精度を実現し、微調整や中間変換を行わずに既存の手法を上回るパフォーマンスを発揮します。
信頼性を向上させ、幻覚を最小限に抑えるために、生成された LTL 出力の構文を検証するモデル チェックを組み込みます。
私たちはさらに、アブレーション研究と、新しいデータセット内の目に見えないLTL構造と式の評価を通じて、CoT-TLの有効性を実証します。
最後に、自然言語命令に基づいた複数ステップのドローン計画のために CoT-TL を QuadCopter に統合することで、CoT-TL の実用性を検証します。

要約(オリジナル)

Autonomous agents often face the challenge of interpreting uncertain natural language instructions for planning tasks. Representing these instructions as Linear Temporal Logic (LTL) enables planners to synthesize actionable plans. We introduce CoT-TL, a data-efficient in-context learning framework for translating natural language specifications into LTL representations. CoT-TL addresses the limitations of large language models, which typically rely on extensive fine-tuning data, by extending chain-of-thought reasoning and semantic roles to align with the requirements of formal logic creation. This approach enhances the transparency and rationale behind LTL generation, fostering user trust. CoT-TL achieves state-of-the-art accuracy across three diverse datasets in low-data scenarios, outperforming existing methods without fine-tuning or intermediate translations. To improve reliability and minimize hallucinations, we incorporate model checking to validate the syntax of the generated LTL output. We further demonstrate CoT-TL’s effectiveness through ablation studies and evaluations on unseen LTL structures and formulas in a new dataset. Finally, we validate CoT-TL’s practicality by integrating it into a QuadCopter for multi-step drone planning based on natural language instructions.

arxiv情報

著者 Kumar Manas,Stefan Zwicklbauer,Adrian Paschke
発行日 2024-10-21 17:10:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG, cs.RO | CoT-TL: Low-Resource Temporal Knowledge Representation of Planning Instructions Using Chain-of-Thought Reasoning はコメントを受け付けていません

On Creating an English-Thai Code-switched Machine Translation in Medical Domain

要約

医療分野における機械翻訳 (MT) は、医療の質を向上させ、医療知識を広める上で極めて重要な役割を果たしています。
英語とタイ語の MT テクノロジーの進歩にも関わらず、一般的な MT アプローチは、医療用語を正確に翻訳できないため、医療分野ではパフォーマンスが低下することがよくあります。
私たちの研究では、翻訳の精度を向上させるだけでなく、コードスイッチ (CS) 翻訳を通じて翻訳テキスト内の医学用語を英語で維持することも優先しています。
私たちは、CS 医療翻訳データを生成する方法を開発し、このデータを使用して CS 翻訳モデルを微調整し、Google ニューラル機械翻訳 (NMT) や GPT-3.5/GPT-4 などの強力なベースラインに対してそのパフォーマンスを評価しました。
私たちのモデルは自動メトリクスで競争力のあるパフォーマンスを実証し、人間の好みの評価でも非常に好評でした。
私たちの評価結果では、たとえ流暢さが多少損なわれても、重要な英語用語を正確に維持する CS 翻訳が医療専門家に非常に好まれていることも示されています。
私たちのコードとテストセットは https://github.com/pceptai-org/NLLB_CS_EM_NLP2024 で公開されています。

要約(オリジナル)

Machine translation (MT) in the medical domain plays a pivotal role in enhancing healthcare quality and disseminating medical knowledge. Despite advancements in English-Thai MT technology, common MT approaches often underperform in the medical field due to their inability to precisely translate medical terminologies. Our research prioritizes not merely improving translation accuracy but also maintaining medical terminology in English within the translated text through code-switched (CS) translation. We developed a method to produce CS medical translation data, fine-tuned a CS translation model with this data, and evaluated its performance against strong baselines, such as Google Neural Machine Translation (NMT) and GPT-3.5/GPT-4. Our model demonstrated competitive performance in automatic metrics and was highly favored in human preference evaluations. Our evaluation result also shows that medical professionals significantly prefer CS translations that maintain critical English terms accurately, even if it slightly compromises fluency. Our code and test set are publicly available https://github.com/preceptorai-org/NLLB_CS_EM_NLP2024.

arxiv情報

著者 Parinthapat Pengpun,Krittamate Tiankanon,Amrest Chinkamol,Jiramet Kinchagawat,Pitchaya Chairuengjitjaras,Pasit Supholkhan,Pubordee Aussavavirojekul,Chiraphat Boonnag,Kanyakorn Veerakanjana,Hirunkul Phimsiri,Boonthicha Sae-jia,Nattawach Sataudom,Piyalitt Ittichaiwong,Peerat Limkonchotiwat
発行日 2024-10-21 17:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | On Creating an English-Thai Code-switched Machine Translation in Medical Domain はコメントを受け付けていません

Building A Coding Assistant via the Retrieval-Augmented Language Model

要約

事前トレーニングされた言語モデルは、コードの取得、コード生成、コードの要約、コード補完タスクなどのコード関連タスクで高い効果を示しています。
この論文では、検索拡張言語モデル (CONAN) によるコード アシスタントを提案します。これは、コーディング中の人間の知識探索行動を模倣することによってコード アシスタントを構築することを目的としています。
具体的には、コード構造認識型検索器 (CONAN-R) とデュアルビュー コード表現ベースの検索拡張生成モデル (CONAN-G) で構成されます。
CONAN-R は、コードとドキュメントの調整タスクとマスクされたエンティティ予測タスクを使用して CodeT5 を事前トレーニングし、言語モデルにコード構造を認識させ、コード スニペットとドキュメントの効果的な表現を学習します。
次に、CONAN-G は、検索拡張コード生成モデルを実装するためのデュアルビュー コード表現メカニズムを設計します。
CONAN-G は、コード ドキュメントの説明をプロンプトとみなします。これは、言語モデルがコードのセマンティクスをよりよく理解するのに役立ちます。
私たちの実験では、CONAN がさまざまなコード生成タスクで納得のいくパフォーマンスを達成し、以前の検索拡張コード生成モデルを大幅に上回るパフォーマンスを示しています。
さらなる分析の結果、CONAN は、コードとドキュメントのデータ ペアを調整し、コード データ内のエンティティをマスキングして予測することで構造的な意味論をキャプチャすることで、コード スニペットとドキュメントの両方に合わせた表現を学習していることが示されています。
さらに、取得されたコード スニペットとドキュメントは、コード生成プロセスを支援するためにプログラム言語と自然言語の両方から必要な情報を提供します。
CONAN は、大規模言語モデル (LLM) のアシスタントとしても使用でき、LLM に短いコード ドキュメント長で外部の知識を提供し、さまざまなコード タスクの効率を向上させることができます。
これは、必要な情報を抽出し、取得したコード ドキュメントからノイズを除去するのに役立つ CONAN の機能を示しています。

要約(オリジナル)

Pretrained language models have shown strong effectiveness in code-related tasks, such as code retrieval, code generation, code summarization, and code completion tasks. In this paper, we propose COde assistaNt viA retrieval-augmeNted language model (CONAN), which aims to build a code assistant by mimicking the knowledge-seeking behaviors of humans during coding. Specifically, it consists of a code structure aware retriever (CONAN-R) and a dual-view code representation-based retrieval-augmented generation model (CONAN-G). CONAN-R pretrains CodeT5 using Code-Documentation Alignment and Masked Entity Prediction tasks to make language models code structure-aware and learn effective representations for code snippets and documentation. Then CONAN-G designs a dual-view code representation mechanism for implementing a retrieval-augmented code generation model. CONAN-G regards the code documentation descriptions as prompts, which help language models better understand the code semantics. Our experiments show that CONAN achieves convincing performance on different code generation tasks and significantly outperforms previous retrieval augmented code generation models. Our further analyses show that CONAN learns tailored representations for both code snippets and documentation by aligning code-documentation data pairs and capturing structural semantics by masking and predicting entities in the code data. Additionally, the retrieved code snippets and documentation provide necessary information from both program language and natural language to assist the code generation process. CONAN can also be used as an assistant for Large Language Models (LLMs), providing LLMs with external knowledge in shorter code document lengths to improve their effectiveness on various code tasks. It shows the ability of CONAN to extract necessary information and help filter out the noise from retrieved code documents.

arxiv情報

著者 Xinze Li,Hanbin Wang,Zhenghao Liu,Shi Yu,Shuo Wang,Shuo Wang,Yukun Yan,Yukai Fu,Yu Gu,Ge Yu
発行日 2024-10-21 17:34:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Building A Coding Assistant via the Retrieval-Augmented Language Model はコメントを受け付けていません

Language Model Alignment in Multilingual Trolley Problems

要約

私たちは、多言語トロリー問題における大規模言語モデル (LLM) と人間の好みとの道徳的整合性を評価します。
200 か国以上で 4,000 万を超える人間の判断を収集するモラル マシン実験を基に、私たちは MultiTP と呼ばれる 100 以上の言語で道徳的ジレンマのビネットをまとめたクロスリンガル コーパスを開発しました。
このデータセットにより、多様な言語コンテキストにおける LLM の意思決定プロセスの評価が可能になります。
私たちの分析では、19 の異なる LLM と人間の判断との整合性を調査し、種、性別、フィットネス、ステータス、年齢、関与する命の数という 6 つの道徳的側面にわたる好みを捉えています。
これらの好みを言語話者の人口統計的分布と関連付け、さまざまなプロンプト言い換えに対する LLM の反応の一貫性を調べることにより、私たちの調査結果は、LLM の言語を超えた倫理的バイアスとそれらの交差点についての洞察を提供します。
私たちは、言語間での整合性に大きな差異があることを発見し、AI システムにおける統一的な道徳的推論の仮定に疑問を投げかけ、AI 倫理に多様な視点を組み込むことの重要性を強調しました。
この結果は、世界中で公正かつ公平な AI 相互作用を確保するために、責任ある AI 研究における多言語の側面の統合に関するさらなる研究の必要性を強調しています。
私たちのコードとデータは https://github.com/causalNLP/moralmachine にあります。

要約(オリジナル)

We evaluate the moral alignment of large language models (LLMs) with human preferences in multilingual trolley problems. Building on the Moral Machine experiment, which captures over 40 million human judgments across 200+ countries, we develop a cross-lingual corpus of moral dilemma vignettes in over 100 languages called MultiTP. This dataset enables the assessment of LLMs’ decision-making processes in diverse linguistic contexts. Our analysis explores the alignment of 19 different LLMs with human judgments, capturing preferences across six moral dimensions: species, gender, fitness, status, age, and the number of lives involved. By correlating these preferences with the demographic distribution of language speakers and examining the consistency of LLM responses to various prompt paraphrasings, our findings provide insights into cross-lingual and ethical biases of LLMs and their intersection. We discover significant variance in alignment across languages, challenging the assumption of uniform moral reasoning in AI systems and highlighting the importance of incorporating diverse perspectives in AI ethics. The results underscore the need for further research on the integration of multilingual dimensions in responsible AI research to ensure fair and equitable AI interactions worldwide. Our code and data are at https://github.com/causalNLP/moralmachine

arxiv情報

著者 Zhijing Jin,Max Kleiman-Weiner,Giorgio Piatti,Sydney Levine,Jiarui Liu,Fernando Gonzalez,Francesco Ortu,András Strausz,Mrinmaya Sachan,Rada Mihalcea,Yejin Choi,Bernhard Schölkopf
発行日 2024-10-21 17:37:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Language Model Alignment in Multilingual Trolley Problems はコメントを受け付けていません

ToW: Thoughts of Words Improve Reasoning in Large Language Models

要約

次の単語を予測するための新しいトレーニング時間データ拡張方法である Thoughts of Words (ToW) を紹介します。
ToW は、次の単語の予測を中核的な推論タスクとみなして、次の単語がどうあるべきか、およびそれが事前トレーニング テキスト内の前のコンテキストとどのように関連しているかを説明する詳細な考えを注入します。
私たちの定式化は、既存の次単語予測学習スキームの 2 つの基本的な欠点に対処します。それは、事実の幻覚を誘発し、モデルが生のテキストで暗黙の推論プロセスを学習するのが非効率的であるということです。
このような単語の思考を取得する方法はたくさんありますが、ここでは、より大きなモデルから抽出することによって ToW アノテーションを取得する最初のステップを検討します。
わずか 70,000 個の ToW アノテーションを使用した継続的な事前トレーニングの後、モデルの推論パフォーマンスが平均 7% ~ 9% 効果的に向上し、モデルの幻覚が最大 10% 減少しました。
同時に、ToW はタスクやアプリケーションに完全に依存せず、ラベルやセマンティクスに追加のバイアスを導入しません。

要約(オリジナル)

We introduce thoughts of words (ToW), a novel training-time data-augmentation method for next-word prediction. ToW views next-word prediction as a core reasoning task and injects fine-grained thoughts explaining what the next word should be and how it is related to the previous contexts in pre-training texts. Our formulation addresses two fundamental drawbacks of existing next-word prediction learning schemes: they induce factual hallucination and are inefficient for models to learn the implicit reasoning processes in raw texts. While there are many ways to acquire such thoughts of words, we explore the first step of acquiring ToW annotations through distilling from larger models. After continual pre-training with only 70K ToW annotations, we effectively improve models’ reasoning performances by 7% to 9% on average and reduce model hallucination by up to 10%. At the same time, ToW is entirely agnostic to tasks and applications, introducing no additional biases on labels or semantics.

arxiv情報

著者 Zhikun Xu,Ming Shen,Jacob Dineen,Zhaonan Li,Xiao Ye,Shijie Lu,Aswin RRV,Chitta Baral,Ben Zhou
発行日 2024-10-21 17:41:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ToW: Thoughts of Words Improve Reasoning in Large Language Models はコメントを受け付けていません

Analyzing Context Contributions in LLM-based Machine Translation

要約

大規模言語モデル (LLM) は、機械翻訳 (MT) で最先端のパフォーマンスを達成し、数ショットの例を通じてコン​​テキスト内の学習を活用する能力を実証しました。
ただし、LLM が入力コンテキストのさまざまな部分を使用するメカニズムは、ほとんど解明されていないままです。
この研究では、MT におけるコンテキスト利用の包括的な分析を提供し、LLM が翻訳を生成する際に、少数ショットの例やソース テキストなどのさまざまなコンテキスト部分をどのように使用するかを研究します。
いくつかの重要な発見を強調します。(1) 翻訳の方向に関係なく、数ショットの例のソース部分は、対応するターゲットよりも多く寄与しているようです。
(2) 並列データを使用して LLM を微調整すると、さまざまなコンテキスト部分の寄与パターンが変更されます。
(3) 位置的な偏りがあり、初期の数ショットの例の方が翻訳されたシーケンスへの寄与が高くなります。
最後に、異常なコンテキストの寄与を検査すると、幻覚などの病理学的翻訳を発見できる可能性があることを示します。
私たちの調査結果は、標準的なエンコーダ/デコーダ MT モデルで知られているものを超える、LLM ベースの MT の内部動作に光を当てました。

要約(オリジナル)

Large language models (LLMs) have achieved state-of-the-art performance in machine translation (MT) and demonstrated the ability to leverage in-context learning through few-shot examples. However, the mechanisms by which LLMs use different parts of the input context remain largely unexplored. In this work, we provide a comprehensive analysis of context utilization in MT, studying how LLMs use various context parts, such as few-shot examples and the source text, when generating translations. We highlight several key findings: (1) the source part of few-shot examples appears to contribute more than its corresponding targets, irrespective of translation direction; (2) finetuning LLMs with parallel data alters the contribution patterns of different context parts; and (3) there is a positional bias where earlier few-shot examples have higher contributions to the translated sequence. Finally, we demonstrate that inspecting anomalous context contributions can potentially uncover pathological translations, such as hallucinations. Our findings shed light on the internal workings of LLM-based MT which go beyond those known for standard encoder-decoder MT models.

arxiv情報

著者 Emmanouil Zaranis,Nuno M. Guerreiro,André F. T. Martins
発行日 2024-10-21 17:51:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Analyzing Context Contributions in LLM-based Machine Translation はコメントを受け付けていません

Can Knowledge Editing Really Correct Hallucinations?

要約

大規模言語モデル (LLM) は、タスク全体にわたって優れた能力があるにもかかわらず、生成されたコンテンツ内の非事実情報を参照する幻覚に悩まされます。
一方、知識編集は、LLM にエンコードされた誤った事実知識を修正するための新たな人気パラダイムとして開発され、ゼロからの再トレーニングを回避できるという利点があります。
ただし、ナレッジ編集用の既存の評価データセットに共通する問題の 1 つは、編集前に LLM が評価の質問に対して幻覚的な回答を実際に生成することが保証されていないことです。
さまざまな技術によって編集された後、そのようなデータセットで LLM が評価される場合、幻覚の矯正におけるさまざまな知識編集方法の有効性を評価するためにパフォーマンスを直接採用することは困難です。
したがって、知識編集は本当に LLM の幻覚を矯正できるのかという基本的な疑問は十分に検証されていないままです。
私たちは、現実世界の幻覚を修正する際の知識編集方法を総合的にベンチマークするために HalluEditBench を提案しました。
まず、9 つのドメイン、26 のトピック、および 6,000 を超える幻覚を含む大規模な幻覚データセットを厳密に構築します。
次に、有効性、一般化、移植性、局所性、堅牢性を含む 5 つの側面で、知識編集手法のパフォーマンスを総合的に評価します。
HalluEditBench を通じて、私たちは幻覚矯正におけるさまざまな知識編集方法の可能性と限界について新たな洞察を提供してきました。これにより、将来の改善が促され、知識編集分野の進歩が促進される可能性があります。

要約(オリジナル)

Large Language Models (LLMs) suffer from hallucinations, referring to the non-factual information in generated content, despite their superior capacities across tasks. Meanwhile, knowledge editing has been developed as a new popular paradigm to correct the erroneous factual knowledge encoded in LLMs with the advantage of avoiding retraining from scratch. However, one common issue of existing evaluation datasets for knowledge editing is that they do not ensure LLMs actually generate hallucinated answers to the evaluation questions before editing. When LLMs are evaluated on such datasets after being edited by different techniques, it is hard to directly adopt the performance to assess the effectiveness of different knowledge editing methods in correcting hallucinations. Thus, the fundamental question remains insufficiently validated: Can knowledge editing really correct hallucinations in LLMs? We proposed HalluEditBench to holistically benchmark knowledge editing methods in correcting real-world hallucinations. First, we rigorously construct a massive hallucination dataset with 9 domains, 26 topics and more than 6,000 hallucinations. Then, we assess the performance of knowledge editing methods in a holistic way on five dimensions including Efficacy, Generalization, Portability, Locality, and Robustness. Through HalluEditBench, we have provided new insights into the potentials and limitations of different knowledge editing methods in correcting hallucinations, which could inspire future improvements and facilitate the progress in the field of knowledge editing.

arxiv情報

著者 Baixiang Huang,Canyu Chen,Xiongxiao Xu,Ali Payani,Kai Shu
発行日 2024-10-21 17:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Can Knowledge Editing Really Correct Hallucinations? はコメントを受け付けていません

Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents

要約

AI システムの安全性と調整に関する懸念の高まりは、人工エージェントに道徳的能力を組み込むことの重要性を浮き彫りにしています。有望な解決策は、経験からの学習、つまり強化学習の使用です。
マルチエージェント(社会)環境では、個々の学習エージェント間の相互作用から複雑な集団レベルの現象が現れる可能性があります。
既存の研究の多くは、シミュレートされた社会的ジレンマ環境に依存して、独立した学習エージェントの相互作用を研究しています。
しかし、彼らは、実際のエージェントの社会に存在する可能性が高い道徳的異質性を無視する傾向があります。
たとえば、さまざまな時点で、単一の学習エージェントは、結果主義者(つまり、時間の経過とともに結果を最大化することに焦点を当てる)、規範ベース(つまり、特定の規範に従う)、または美徳ベース(つまり、特定の規範を考慮する)の敵に直面する可能性があります。
さまざまな美徳の組み合わせ)。
エージェントの共同開発が集団内のそのような道徳的不均一性によってどの程度影響を受けるかについては、十分に理解されていません。
この論文では、社会的ジレンマ環境で相互作用する道徳的に異質な集団の学習ダイナミクスの研究を紹介します。
パートナー選択メカニズムを備えた反復囚人のジレンマ環境を使用して、集団内の多様な道徳エージェントの蔓延が個々のエージェントの学習行動と新たな集団レベルの結果にどの程度影響を与えるかを調査します。
私たちは、向社会的エージェントと反社会的エージェントの間のいくつかの種類の重要な相互作用を観察し、特定の種類の道徳的エージェントが利己的なエージェントをより協力的な行動に導くことができることを発見しました。

要約(オリジナル)

Growing concerns about safety and alignment of AI systems highlight the importance of embedding moral capabilities in artificial agents: a promising solution is the use of learning from experience, i.e., Reinforcement Learning. In multi-agent (social) environments, complex population-level phenomena may emerge from interactions between individual learning agents. Many of the existing studies rely on simulated social dilemma environments to study the interactions of independent learning agents; however, they tend to ignore the moral heterogeneity that is likely to be present in societies of agents in practice. For example, at different points in time a single learning agent may face opponents who are consequentialist (i.e., focused on maximizing outcomes over time), norm-based (i.e., conforming to specific norms), or virtue-based (i.e., considering a combination of different virtues). The extent to which agents’ co-development may be impacted by such moral heterogeneity in populations is not well understood. In this paper, we present a study of the learning dynamics of morally heterogeneous populations interacting in a social dilemma setting. Using an Iterated Prisoner’s Dilemma environment with a partner selection mechanism, we investigate the extent to which the prevalence of diverse moral agents in populations affects individual agents’ learning behaviors and emergent population-level outcomes. We observe several types of non-trivial interactions between pro-social and anti-social agents, and find that certain types of moral agents are able to steer selfish agents towards more cooperative behavior.

arxiv情報

著者 Elizaveta Tennant,Stephen Hailes,Mirco Musolesi
発行日 2024-10-21 13:47:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.LG, cs.MA | Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents はコメントを受け付けていません

A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models

要約

StarCraft マルチエージェント チャレンジ (SMAC) は、マルチエージェント強化学習 (MARL) で最も一般的に使用される実験環境の 1 つであり、特定のタスクは、設定された数の味方ユニットを制御して敵軍を倒すことです。
従来の MARL アルゴリズムでは、モデルをトレーニングするために最大 100 万ステップの環境との対話が必要になることが多く、結果として得られるポリシーは一般に解釈不可能で、転送可能性が弱くなります。
この論文では、LLM-SMAC と呼ばれる SMAC タスクを解決するための新しいアプローチを提案します。
私たちのフレームワークでは、エージェントは大規模言語モデル (LLM) を利用して、タスクの説明を提供することでデシジョン ツリー コードを生成します。
モデルは、環境によって提供される報酬からのフィードバックを使用してさらに内省されます。
私たちは SMAC で実験を行い、私たちの方法が最小限の環境探索で高品質で解釈可能な決定木を生成できることを実証しました。
さらに、これらのモデルは強力な移植性を示し、変更することなく同様の SMAC 環境に適用することができます。
私たちは、このアプローチが将来の意思決定タスクを解決するための新しい方向性を提供すると信じています。

要約(オリジナル)

StarCraft Multi-Agent Challenge (SMAC) is one of the most commonly used experimental environments in multi-agent reinforcement learning (MARL), where the specific task is to control a set number of allied units to defeat enemy forces. Traditional MARL algorithms often require interacting with the environment for up to 1 million steps to train a model, and the resulting policies are typically non-interpretable with weak transferability. In this paper, we propose a novel approach to solving SMAC tasks called LLM-SMAC. In our framework, agents leverage large language models (LLMs) to generate decision tree code by providing task descriptions. The model is further self-reflection using feedback from the rewards provided by the environment. We conduct experiments in the SMAC and demonstrate that our method can produce high-quality, interpretable decision trees with minimal environmental exploration. Moreover, these models exhibit strong transferability, successfully applying to similar SMAC environments without modification. We believe this approach offers a new direction for solving decision-making tasks in the future.

arxiv情報

著者 Yue Deng,Weiyu Ma,Yuxin Fan,Yin Zhang,Haifeng Zhang,Jian Zhao
発行日 2024-10-21 13:58:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | A New Approach to Solving SMAC Task: Generating Decision Tree Code from Large Language Models はコメントを受け付けていません