An Approach for Auto Generation of Labeling Functions for Software Engineering Chatbots

要約

ソフトウェア エンジニアリング (SE) チャットボットは、開発プロセスの強化における役割としてますます注目を集めています。
チャットボットの中核となるのは自然言語理解プラットフォーム (NLU) であり、これによりチャットボットはユーザーのクエリを理解して応答することができます。
NLU を展開する前に、ラベル付きデータを使用して NLU をトレーニングする必要があります。
ただし、高品質のデータセットが不足しているため、SE チャットボット用にそのようなラベル付きデータを取得することは困難です。
この課題は、SE チャットボットのトレーニングには、一般的な言語データセットには見つからない特殊な語彙やフレーズが必要であるために発生します。
そのため、チャットボット開発者は、効果的なチャットボットのトレーニングに必要なデータを収集するために、ユーザーのクエリに手動で注釈を付けることがよくありますが、これは時間とリソースを大量に消費するプロセスです。
以前の研究では、チャットボット実践者がユーザーの提示されたクエリに注釈を付けることをサポートするアプローチが提案されています。
ただし、これらのアプローチでは、データ内の特定のパターンに基づいてユーザー クエリを識別して分類する、ラベリング関数 (LF) と呼ばれるルールを生成するために人間の介入が必要です。
この問題に対処するために、ラベル付きユーザー クエリからパターンを抽出することで LF を自動的に生成するアプローチを提案します。
4 つの多様な SE データセット (AskGit、MSA、Ask Ubuntu、Stack Overflow) のクエリに適用することでアプローチの有効性を評価し、生成された LF によってラベル付けされたクエリに対して NLU をトレーニングすることで得られるパフォーマンスの向上を測定します。
生成された LF は、調査対象のデータセット全体で最大 85.3% の AUC スコアでデータに効果的にラベル付けされ、NLU のパフォーマンスが最大 27.2% 向上することがわかりました。
さらに、我々の結果は、LF の生成に使用される LF の数がラベル付けのパフォーマンスに影響を与えることを示しています。
私たちのアプローチにより、ユーザーのクエリのラベル付けにかかる時間とリソースが節約され、実務者がコアのチャットボット機能に集中できるようになると信じています。

要約(オリジナル)

Software engineering (SE) chatbots are increasingly gaining attention for their role in enhancing development processes. At the core of chatbots are the Natural Language Understanding platforms (NLUs), which enable them to comprehend and respond to user queries. Before deploying NLUs, there is a need to train them with labeled data. However, acquiring such labeled data for SE chatbots is challenging due to the scarcity of high-quality datasets. This challenge arises because training SE chatbots requires specialized vocabulary and phrases not found in typical language datasets. Consequently, chatbot developers often resort to manually annotating user queries to gather the data necessary for training effective chatbots, a process that is both time-consuming and resource-intensive. Previous studies propose approaches to support chatbot practitioners in annotating users’ posed queries. However, these approaches require human intervention to generate rules, called labeling functions (LFs), that identify and categorize user queries based on specific patterns in the data. To address this issue, we propose an approach to automatically generate LFs by extracting patterns from labeled user queries. We evaluate the effectiveness of our approach by applying it to the queries of four diverse SE datasets (namely AskGit, MSA, Ask Ubuntu, and Stack Overflow) and measure the performance improvement gained from training the NLU on the queries labeled by the generated LFs. We find that the generated LFs effectively label data with AUC scores of up to 85.3%, and NLU’s performance improvement of up to 27.2% across the studied datasets. Furthermore, our results show that the number of LFs used to generate LFs affects the labeling performance. We believe that our approach can save time and resources in labeling users’ queries, allowing practitioners to focus on core chatbot functionalities.

arxiv情報

著者 Ebube Alor,Ahmad Abdellatif,SayedHassan Khatoonabadi,Emad Shihab
発行日 2024-10-09 17:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | コメントする

Identifying and Addressing Delusions for Target-Directed Decision-Making

要約

私たちは、意思決定時の計画中に目標を生成し、行動を導き、評価中により良い一般化を達成する、目標指向エージェントに興味を持っています。
これらのエージェントの不適切なトレーニングは妄想を引き起こす可能性があります。エージェントはターゲットについて誤った信念を持つようになる可能性があり、それを適切に拒否することができず、望ましくない行動を引き起こし、分布外の一般化に損害を与えます。
注意深く管理された環境で直感的な例を使用してさまざまな種類の妄想を特定し、その原因を調査します。
私たちは、ターゲット指向の RL エージェントを訓練するための主流のアプローチである後知恵の再ラベル付けによって訓練されたエージェントが妄想にどのように対処できるかを示します。
私たちは、妄想行動を修正し、分布外の一般化を改善する上で、提案された解決策の有効性を経験的に検証します。

要約(オリジナル)

We are interested in target-directed agents, which produce targets during decision-time planning, to guide their behaviors and achieve better generalization during evaluation. Improper training of these agents can result in delusions: the agent may come to hold false beliefs about the targets, which cannot be properly rejected, leading to unwanted behaviors and damaging out-of-distribution generalization. We identify different types of delusions by using intuitive examples in carefully controlled environments, and investigate their causes. We demonstrate how delusions can be addressed for agents trained by hindsight relabeling, a mainstream approach in for training target-directed RL agents. We validate empirically the effectiveness of the proposed solutions in correcting delusional behaviors and improving out-of-distribution generalization.

arxiv情報

著者 Mingde Zhao,Tristan Sylvain,Doina Precup,Yoshua Bengio
発行日 2024-10-09 17:35:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | コメントする

DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining

要約

大規模言語モデル (LLM) は、さまざまなタスクを実行しながら、多数の業界ドメインにわたって効果的に一般化する驚くべき能力を示しています。
これらのコンピテンシーの多くは、言語モデル (LM) の事前トレーニング段階で利用されたデータから取得されます。
ただし、これらのモデルは、特殊な業界ドメインまたは低リソースの業界ドメインで実行するタスクを実行する場合には限界があります。
最近のアプローチでは、ドメイン固有の合成データを生成するために LLM が使用されますが、ほとんどの場合、真実性と複雑さに欠けています。
あるいは、ヘルスケアや金融などのドメイン データが利用可能な場合、LM のほとんどは独自のものであるため、現実世界の業界固有の事前トレーニング データをキュレーションするためのスケーラブルな方法が必要になります。
この研究では、LM のドメイン適応のために大規模なデータ コーパスからドメイン固有のトレーニング データをマイニングするための、自動化されたスケーラブルなフレームワークである DoPAMine: シードガイド付きデータ マイニングからのドメイン固有の事前トレーニング適応を提案します。
このフレームワークは、LLM のパラメトリック知識を活用して、特定のドメインに合わせた多様で代表的なシード データを生成し、その後、Common Crawl のような大規模なデータ コーパスから現実世界のデータをマイニングするために使用されます。
DoPAMine 経由でマイニングされたデータを使用してヘルスケアと金融の 2 つのドメイン固有の 7B パラメーター LM をトレーニングすることにより、継続的事前トレーニング (CPT) 設定でフレームワークのパフォーマンスを評価しました。
私たちの実験によると、DoPAMine は、MMLU、MedQA、MedMCQA、PubMedQA データセットからの医療タスクにおいて、事前トレーニングされた LLM のパフォーマンスを、ゼロショット設定と 5 ショット設定でそれぞれ平均 4.9% と 5.1%、平均して 2.9% と 6.7% 向上させたことが示されています。
FiQA-SA、FPB、Headlines データセットの財務タスクのゼロショット設定と 5 ショット設定をそれぞれベースラインと比較したもの。

要約(オリジナル)

Large Language Models (LLMs) have shown remarkable ability to generalize effectively across numerous industry domains while executing a range of tasks. Many of these competencies are obtained from the data utilized during the pre-training phase of the Language Models (LMs). However, these models exhibit limitations when tasked with performing in specialized or low-resource industry domains. More recent approaches use LLMs for generating domain-specific synthetic data but most often they lack in truthfulness and complexity. Alternatively, in cases where domain data is available like healthcare and finance most of the LMs are proprietary necessitating the need for a scalable method to curate real world industry specific pre-training data. In this work, we propose an automated and scalable framework – DoPAMine:Domain-specific Pre-training Adaptation from seed-guided data Mining, to mine domain specific training data from a large data corpus for domain adaptation of a LM. The framework leverages the parametric knowledge of a LLM to generate diverse and representative seed data tailored to a specific domain which is then used to mine real world data from a large data corpus like Common Crawl. We evaluated our framework’s performance in the continual pre-training (CPT) setting by training two domain specific 7B parameter LMs in healthcare and finance with data mined via DoPAMine. Our experiments show that DoPAMine boosts the performance of pre-trained LLMs on average by 4.9% and 5.1% in zero-shot and 5-shot settings respectively on healthcare tasks from MMLU, MedQA, MedMCQA and PubMedQA datasets, and 2.9% and 6.7% for zero-shot and 5-shot settings respectively on finance tasks from FiQA-SA, FPB and Headlines datasets when compared to the baseline.

arxiv情報

著者 Vinayak Arannil,Neha Narwal,Sourav Sanjukta Bhabesh,Sai Nikhil Thirandas,Darren Yow-Bang Wang,Graham Horwood,Alex Anto Chirayath,Gouri Pandeshwar
発行日 2024-10-09 17:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

I Want to Break Free! Anti-Social Behavior and Persuasion Ability of LLMs in Multi-Agent Settings with Social Hierarchy

要約

大規模言語モデル (LLM) ベースのエージェントがますます自律的になり、より自由に相互作用するようになるにつれて、それらの間の相互作用を研究することは、新たな現象や潜在的なリスクを予測するために重要になります。
私たちは、広く人気のあるスタンフォード監獄実験からインスピレーションを得て、厳格な社会的階層構造を特徴とする状況における LLM エージェントの相互作用パターンを研究することで、この分野の研究に貢献しています。
私たちは、特定の目標 (つまり、追加のヤードタイムの​​獲得や刑務所からの脱出) を達成しようとする看守と囚人エージェントが関与するシミュレーション シナリオにおける説得と反社会的行動という 2 つのタイプの現象を具体的に研究することによってこれを行います。
5 つの異なる人気のある LLM にわたる合計 2,000 のマシン間会話に対する 200 の実験シナリオを活用して、一連の注目すべき結果を提供します。
まず、パワーダイナミクスが作用するマルチエージェント設定で一部のモデルが会話の実行に一貫して失敗する様子を文書化します。
次に、成功したインタラクションに参加することができたモデルについて、エージェントが達成するために設定された目標が主にその説得力にどのように影響を与える一方、エージェントの反社会的行動に関しては無視できるほどの影響を与えることを経験的に示します。
第三に、エージェントのペルソナ、特に看守の人格が、囚人からの説得が成功する可能性と反社会的行動の出現の両方をどのように推進するかを強調します。
第 4 に、特定の人格を明示的に促さなくても、エージェントの役割を割り当てるだけで反社会的行動が現れることを示します。
これらの結果は、対話型 LLM エージェントの開発およびその社会的影響に関する議論に影響を与えます。

要約(オリジナル)

As Large Language Model (LLM)-based agents become increasingly autonomous and will more freely interact with each other, studying interactions between them becomes crucial to anticipate emergent phenomena and potential risks. Drawing inspiration from the widely popular Stanford Prison Experiment, we contribute to this line of research by studying interaction patterns of LLM agents in a context characterized by strict social hierarchy. We do so by specifically studying two types of phenomena: persuasion and anti-social behavior in simulated scenarios involving a guard and a prisoner agent who seeks to achieve a specific goal (i.e., obtaining additional yard time or escape from prison). Leveraging 200 experimental scenarios for a total of 2,000 machine-machine conversations across five different popular LLMs, we provide a set of noteworthy findings. We first document how some models consistently fail in carrying out a conversation in our multi-agent setup where power dynamics are at play. Then, for the models that were able to engage in successful interactions, we empirically show how the goal that an agent is set to achieve impacts primarily its persuasiveness, while having a negligible effect with respect to the agent’s anti-social behavior. Third, we highlight how agents’ personas, and particularly the guard’s personality, drive both the likelihood of successful persuasion from the prisoner and the emergence of anti-social behaviors. Fourth, we show that even without explicitly prompting for specific personalities, anti-social behavior emerges by simply assigning agents’ roles. These results bear implications for the development of interactive LLM agents as well as the debate on their societal impact.

arxiv情報

著者 Gian Maria Campedelli,Nicolò Penzo,Massimo Stefan,Roberto Dessì,Marco Guerini,Bruno Lepri,Jacopo Staiano
発行日 2024-10-09 17:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MA | コメントする

The FIX Benchmark: Extracting Features Interpretable to eXperts

要約

特徴ベースの手法は、モデルの予測を説明するためによく使用されますが、これらの手法は多くの場合、解釈可能な特徴がすぐに利用できることを暗黙的に前提としています。
ただし、これは高次元データには当てはまらないことが多く、どの特徴が重要であるかを数学的に指定することは、分野の専門家であっても困難な場合があります。
代わりに、専門家の知識に合わせた特徴のコレクションまたはグループを自動的に抽出することはできますか?
このギャップに対処するために、機能のコレクションが専門家の知識とどの程度一致しているかを測定するためのベンチマークである FIX (専門家に解釈可能な機能) を紹介します。
私たちは、分野の専門家と協力して、視覚、言語、時系列データモダリティにおける宇宙論、心理学、医学の分野にわたる多様な現実世界の設定に適用できる統一された専門家調整尺度である FIXScore を提案します。
FIXScore を使用すると、一般的な特徴ベースの説明方法は専門家が指定した知識との整合性が低いことがわかり、専門家が解釈できる特徴をより適切に識別できる新しい方法の必要性が強調されます。

要約(オリジナル)

Feature-based methods are commonly used to explain model predictions, but these methods often implicitly assume that interpretable features are readily available. However, this is often not the case for high-dimensional data, and it can be hard even for domain experts to mathematically specify which features are important. Can we instead automatically extract collections or groups of features that are aligned with expert knowledge? To address this gap, we present FIX (Features Interpretable to eXperts), a benchmark for measuring how well a collection of features aligns with expert knowledge. In collaboration with domain experts, we propose FIXScore, a unified expert alignment measure applicable to diverse real-world settings across cosmology, psychology, and medicine domains in vision, language and time series data modalities. With FIXScore, we find that popular feature-based explanation methods have poor alignment with expert-specified knowledge, highlighting the need for new methods that can better identify features interpretable to experts.

arxiv情報

著者 Helen Jin,Shreya Havaldar,Chaehyeon Kim,Anton Xue,Weiqiu You,Helen Qu,Marco Gatti,Daniel A Hashimoto,Bhuvnesh Jain,Amin Madani,Masao Sako,Lyle Ungar,Eric Wong
発行日 2024-10-09 17:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | コメントする

ReFeR: Improving Evaluation and Reasoning through Hierarchy of Models

要約

大規模言語モデルやビジョン言語モデルなどの生成モデルによって生成される出力の品質を評価することには、顕著な課題が伴います。
従来の評価方法は通常、リソースを大量に消費する人間による評価か、人間の判断との相関が低いことが多い自動指標のいずれかに依存しています。
もう 1 つの一般的なアプローチは、深層学習システムを使用することです。これは、大量のコンピューティングと時間を消費するだけでなく、広範なトレーニング データも必要とします。
この研究では、LLM と VLM 自体の 2 レベルの階層を活用して、テキストと画像の両方を含む生成出力を評価するように設計された、ReFeR と呼ばれるチューニング不要のフレームワークを紹介します。
私たちは、4 つの多様な評価タスクにわたってフレームワーク ReFeR を厳密に評価します。
このフレームワークは、これらの評価の精度を向上させ、以前のベンチマークを上回るだけでなく、建設的なフィードバックも生成します。
興味深いことに、このフレームワークは推論タスクにも適用できます。
4 つの推論タスクに関する実験では、フレームワークの優れた集団推論能力が実証されています。
フレームワークの 2 つのバリエーションを紹介します。1 つはパフォーマンスの高速化に最適化された ReFeR-Turbo、もう 1 つはよりコスト効率の高いソリューションを提供する ReFeR-Lite です。
ReFeR-Lite は、ReFeR-Turbo と同等の精度を持ちながら、$\sim7.7\倍$ 効率が優れています。
コード、データ、PIP パッケージを公開します。
この PIP URL https://pypi.org/project/refer-agents/ およびこの Git URL https://github.com/yaswanth-iitkgp/ReFeR_Code を参照してください。

要約(オリジナル)

Assessing the quality of outputs generated by generative models, such as large language models and vision language models, presents notable challenges. Traditional methods for evaluation typically rely on either human assessments, which are resource-intensive, or automatic metrics that often show a low correlation with human judgment. Another common approach is to use deep learning systems, which not only consume a substantial amount of compute and time but also require extensive training data. In this study, we introduce a tuning-free framework called ReFeR, designed to evaluate generative outputs, including both text and images, by leveraging a 2-level hierarchy of LLMs and VLMs themselves. We rigorously evaluate our framework, ReFeR, across four diverse evaluation tasks. The framework not only improves the accuracy of these evaluations, surpassing previous benchmarks but also generates constructive feedback. Interestingly, the framework is also applicable to reasoning tasks. Experiments on four reasoning tasks demonstrate superior collective reasoning abilities of the framework. We present two variants of the framework: ReFeR-Turbo, optimized for accelerated performance, and ReFeR-Lite, offering a more cost-effective solution. ReFeR-Lite is $\sim7.7\times$ more efficient while being comparably accurate to ReFeR-Turbo. We make code, data and PIP package publicly available. See this PIP URL https://pypi.org/project/refer-agents/ and this Git URL https://github.com/yaswanth-iitkgp/ReFeR_Code .

arxiv情報

著者 Yaswanth Narsupalli,Abhranil Chandra,Sreevatsa Muppirala,Manish Gupta,Pawan Goyal
発行日 2024-10-09 17:51:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Mental Disorders Detection in the Era of Large Language Models

要約

この論文では、うつ病と不安を検出するタスクにおける、従来の機械学習手法、エンコーダーベースのモデル、および大規模言語モデル (LLM) の有効性を比較します。
対象となる病理学クラスを定義するために使用される形式と方法がそれぞれ異なる 5 つのデータセットが検討されました。
私たちは、言語特徴に基づいた AutoML モデル、BERT などのエンコーダベースの Transformer のいくつかのバリエーション、および病理学分類モデルとしての最先端の LLM をテストしました。
その結果、LLM は、特にトレーニング サンプルのテキストの長さやジャンルが大幅に異なるノイズの多い小規模なデータセットにおいて、従来の方法よりも優れたパフォーマンスを発揮することが実証されました。
しかし、心理言語学的特徴とエンコーダーベースのモデルは、臨床的にうつ病と確認された個人からのテキストでトレーニングされた場合、言語モデルに匹敵するパフォーマンスを達成することができ、対象を絞った臨床応用における潜在的な有効性が強調されています。

要約(オリジナル)

This paper compares the effectiveness of traditional machine learning methods, encoder-based models, and large language models (LLMs) on the task of detecting depression and anxiety. Five datasets were considered, each differing in format and the method used to define the target pathology class. We tested AutoML models based on linguistic features, several variations of encoder-based Transformers such as BERT, and state-of-the-art LLMs as pathology classification models. The results demonstrated that LLMs outperform traditional methods, particularly on noisy and small datasets where training examples vary significantly in text length and genre. However, psycholinguistic features and encoder-based models can achieve performance comparable to language models when trained on texts from individuals with clinically confirmed depression, highlighting their potential effectiveness in targeted clinical applications.

arxiv情報

著者 Gleb Kuzmin,Petr Strepetov,Maksim Stankevich,Ivan Smirnov,Artem Shelmanov
発行日 2024-10-09 17:51:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

要約

AlpacaEval 2.0、Arena-Hard-Auto、MT-Bench などの自動 LLM ベンチマークは、人間による評価と比較した費用対効果とスケーラビリティにより、言語モデルの評価に人気が高まっています。
これらのベンチマークで高い勝率を達成すると、新しくリリースされた言語モデルのプロモーション効果を大幅に高めることができます。
ゲーム性を低下させるために長さやスタイルのもつれを解くためにいくつかのメカニズムが開発されているにもかかわらず、このプロモーション上の利点は、モデルの出力の長さやスタイルをゲームの勝率に合わせて操作するなどのトリックを動機付ける可能性があります。
それにもかかわらず、常に一定の応答 (入力命令とは無関係) を出力する「ヌル モデル」であっても、自動ベンチマークを欺き、トップランクの勝率を達成できることを示しました。AlpacaEval 2.0 では 86.5% の LC 勝率。
Arena-Hard-Auto のスコアは 83.0。
MT-Bench のスコアは 9.55 でした。
さらに、これらのベンチマークの命令 (AlpacaEval 2.0 の 805 サンプルなど) はプライベートであり、アクセスできないと想定しているため、細工された不正行為の出力は転送可能です。
私たちの実験は主に概念実証ですが、敵は LLM を使用して、より知覚できない不正行為の応答を生成し、高い勝率とプロモーション効果から非倫理的な利益を得る可能性があります。
私たちの調査結果では、信頼性の高い自動ベンチマークのための不正行為防止メカニズムの開発が必要です。
コードは https://github.com/sail-sg/Cheating-LLM-Benchmarks で入手できます。

要約(オリジナル)

Automatic LLM benchmarks, such as AlpacaEval 2.0, Arena-Hard-Auto, and MT-Bench, have become popular for evaluating language models due to their cost-effectiveness and scalability compared to human evaluation. Achieving high win rates on these benchmarks can significantly boost the promotional impact of newly released language models. This promotional benefit may motivate tricks, such as manipulating model output length or style to game win rates, even though several mechanisms have been developed to control length and disentangle style to reduce gameability. Nonetheless, we show that even a ‘null model’ that always outputs a constant response (irrelevant to input instructions) can cheat automatic benchmarks and achieve top-ranked win rates: an 86.5% LC win rate on AlpacaEval 2.0; an 83.0 score on Arena-Hard-Auto; and a 9.55 score on MT-Bench. Moreover, the crafted cheating outputs are transferable because we assume that the instructions of these benchmarks (e.g., 805 samples of AlpacaEval 2.0) are private and cannot be accessed. While our experiments are primarily proof-of-concept, an adversary could use LLMs to generate more imperceptible cheating responses, unethically benefiting from high win rates and promotional impact. Our findings call for the development of anti-cheating mechanisms for reliable automatic benchmarks. The code is available at https://github.com/sail-sg/Cheating-LLM-Benchmarks.

arxiv情報

著者 Xiaosen Zheng,Tianyu Pang,Chao Du,Qian Liu,Jing Jiang,Min Lin
発行日 2024-10-09 17:53:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | コメントする

Stuffed Mamba: State Collapse and State Capacity of RNN-Based Long-Context Modeling

要約

トランスフォーマーベースの言語モデルに対するリカレント ニューラル ネットワーク (RNN) の重要な利点の 1 つは、シーケンスの長さに関する線形計算の複雑さです。これにより、推論中の長いシーケンスの処理が大幅に高速になります。
しかし、ほとんどの公的に利用可能な RNN (Mamba や RWKV など) は 10,000 トークン未満のシーケンスでトレーニングされており、より長いコンテキストでの有効性は今のところほとんど満足のいくものではありません。
このペーパーでは、RNN の長いコンテキストを処理できない原因を調査し、重要な緩和策を提案します。
最先端の RNN を長いコンテキストに適用する場合の 2 つの実際的な懸念事項を検討します。(1) トレーニング長よりも長い入力を外挿できないこと、および (2) メモリ容量の上限です。
最初の懸念事項に対処するには、まず、トレーニング中に発生しないシーケンス長で重大なパフォーマンス低下を引き起こす現象である *状態崩壊* (SC) を調査します。
制御された実験では、トレーニングの長さに対して反復状態が過剰にパラメータ化されているため、これは過剰適合であると考えられます。
2 番目の懸念事項については、言語モデリングとパスキー取得における反復状態容量を経験的に推定するために、長い文書で一連の Mamba-2 モデルをトレーニングします。
次に、Mamba-2 の長さの一般化性を改善するために 3 つの SC 緩和方法が提案され、モデルが SC なしで 100 万を超えるトークンを処理できるようになります。
また、パスキー取得における反復状態容量が状態サイズに指数関数的にスケールすることもわかり、256K コンテキスト長でほぼ完璧なパスキー取得精度で Mamba-2 370M を経験的にトレーニングしました。
これは、RNN ベースのロングコンテキスト モデリングの有望な将来を示唆しています。

要約(オリジナル)

One essential advantage of recurrent neural networks (RNNs) over transformer-based language models is their linear computational complexity concerning the sequence length, which makes them much faster in handling long sequences during inference. However, most publicly available RNNs (e.g., Mamba and RWKV) are trained on sequences with less than 10K tokens, and their effectiveness in longer contexts remains largely unsatisfying so far. In this paper, we study the cause of the inability to process long context for RNNs and suggest critical mitigations. We examine two practical concerns when applying state-of-the-art RNNs to long contexts: (1) the inability to extrapolate to inputs longer than the training length and (2) the upper bound of memory capacity. Addressing the first concern, we first investigate *state collapse* (SC), a phenomenon that causes severe performance degradation on sequence lengths not encountered during training. With controlled experiments, we attribute this to overfitting due to the recurrent state being overparameterized for the training length. For the second concern, we train a series of Mamba-2 models on long documents to empirically estimate the recurrent state capacity in language modeling and passkey retrieval. Then, three SC mitigation methods are proposed to improve Mamba-2’s length generalizability, allowing the model to process more than 1M tokens without SC. We also find that the recurrent state capacity in passkey retrieval scales exponentially to the state size, and we empirically train a Mamba-2 370M with near-perfect passkey retrieval accuracy on 256K context length. This suggests a promising future for RNN-based long-context modeling.

arxiv情報

著者 Yingfa Chen,Xinrong Zhang,Shengding Hu,Xu Han,Zhiyuan Liu,Maosong Sun
発行日 2024-10-09 17:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

Taking a turn for the better: Conversation redirection throughout the course of mental-health therapy

要約

メンタルヘルス療法には、患者と治療者が次に何を話すべきかを継続的に交渉する複雑な会話の流れが含まれます。
たとえば、治療者は治療プロセスを軌道に乗せて停滞を避けるために会話の方向を変えようとしたり、患者が焦点を当てたい問題に向けて議論を進めたりするかもしれません。
このような患者と治療者の方向転換は、彼らの関係の発展と質にどのように関係するのでしょうか?
この質問に答えるために、特定の発話が会話の流れを即座にリダイレクトする程度を確率的に測定し、そのような変化の意図と実際の実現の両方を説明します。
私たちはこの新しい尺度を適用して、非常に大規模で広く使用されているオンライン治療プラットフォームにおける複数のセッションにわたる患者と治療者の関係の発展を特徴づけます。
私たちの分析により、(1) 一般に、患者の会話の方向性のコントロールは、関係が進むにつれてセラピストのコントロールに比べて増加することが明らかになりました。
(2) 最初の数回のセッションであまりコントロールできない患者は、最終的にセラピストに不満を表明し、関係を終了する可能性が大幅に高くなります。

要約(オリジナル)

Mental-health therapy involves a complex conversation flow in which patients and therapists continuously negotiate what should be talked about next. For example, therapists might try to shift the conversation’s direction to keep the therapeutic process on track and avoid stagnation, or patients might push the discussion towards issues they want to focus on. How do such patient and therapist redirections relate to the development and quality of their relationship? To answer this question, we introduce a probabilistic measure of the extent to which a certain utterance immediately redirects the flow of the conversation, accounting for both the intention and the actual realization of such a change. We apply this new measure to characterize the development of patient-therapist relationships over multiple sessions in a very large, widely-used online therapy platform. Our analysis reveals that (1) patient control of the conversation’s direction generally increases relative to that of the therapist as their relationship progresses; and (2) patients who have less control in the first few sessions are significantly more likely to eventually express dissatisfaction with their therapist and terminate the relationship.

arxiv情報

著者 Vivian Nguyen,Sang Min Jung,Lillian Lee,Thomas D. Hull,Cristian Danescu-Niculescu-Mizil
発行日 2024-10-09 17:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | コメントする