Parameter-Efficient Fine-Tuning of State Space Models

要約

Mamba (Gu & Dao、2024) などのディープ ステート スペース モデル (SSM) は、言語モデリングの強力なツールとして登場し、効率的な推論とシーケンス長の線形スケーリングによる高いパフォーマンスを提供します。
ただし、パラメータ効率の良い微調整 (PEFT) 手法を SSM ベースのモデルに適用することは、ほとんど研究されていないままです。
このペーパーは、次の 2 つの重要な質問を系統的に研究することを目的としています: (i) 既存の PEFT 手法は SSM ベースのモデルでどのように機能しますか?
(ii) 微調整に最も効果的なモジュールはどれですか?
SSM ベースのモデルで 4 つの基本的な PEFT 手法の経験的ベンチマークを実行します。
私たちの調査結果は、プロンプトベースの方法(プレフィックスチューニングなど)がもはや効果的ではないことを明らかにしており、この経験的結果は理論的分析によってさらに裏付けられています。
対照的に、LoRA は SSM ベースのモデルに対して引き続き有効です。
これらのモデル内での LoRA の最適な適用をさらに調査し、LoRA は SSM モジュールの調整には効果的ではないため、SSM モジュールを変更せずに線形射影行列に LoRA を適用すると最良の結果が得られることを理論的および実験的に実証しました。
パフォーマンスをさらに向上させるために、LoRA を線形射影行列に適用しながら、SSM モジュールの特定のチャネルと状態を選択的に更新する、Selective Dimension Tuning (SDLoRA) を備えた LoRA を導入します。
広範な実験結果は、このアプローチが標準の LoRA よりも優れていることを示しています。

要約(オリジナル)

Deep State Space Models (SSMs), such as Mamba (Gu & Dao, 2024), have emerged as powerful tools for language modeling, offering high performance with efficient inference and linear scaling in sequence length. However, the application of parameter-efficient fine-tuning (PEFT) methods to SSM-based models remains largely unexplored. This paper aims to systematically study two key questions: (i) How do existing PEFT methods perform on SSM-based models? (ii) Which modules are most effective for fine-tuning? We conduct an empirical benchmark of four basic PEFT methods on SSM-based models. Our findings reveal that prompt-based methods (e.g., prefix-tuning) are no longer effective, an empirical result further supported by theoretical analysis. In contrast, LoRA remains effective for SSM-based models. We further investigate the optimal application of LoRA within these models, demonstrating both theoretically and experimentally that applying LoRA to linear projection matrices without modifying SSM modules yields the best results, as LoRA is not effective at tuning SSM modules. To further improve performance, we introduce LoRA with Selective Dimension tuning (SDLoRA), which selectively updates certain channels and states on SSM modules while applying LoRA to linear projection matrices. Extensive experimental results show that this approach outperforms standard LoRA.

arxiv情報

著者 Kevin Galim,Wonjun Kang,Yuchen Zeng,Hyung Il Koo,Kangwook Lee
発行日 2024-10-11 17:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Parameter-Efficient Fine-Tuning of State Space Models はコメントを受け付けていません

MedMobile: A mobile-sized language model with expert-level clinical capabilities

要約

言語モデル (LM) は、医学において専門家レベルの推論能力と想起能力を実証しています。
しかし、計算コストとプライバシーへの懸念が、大規模な実装への障壁となっています。
医療アプリケーション向けに、モバイル デバイス上で実行可能な 38 億パラメータの LM である phi-3-mini の倹約的な適応である MedMobile を紹介します。
MedMobile が MedQA (USMLE) で 75.7% のスコアを獲得し、医師の合格点 (約 60%) を上回り、サイズの 100 倍のモデルのスコアに近づいていることを実証します。
その後、一連の慎重なアブレーションを実行し、一連の思考、アンサンブル、微調整が最大のパフォーマンス向上につながる一方、予期せぬ検索拡張生成では大幅な改善が見られないことを実証しました。

要約(オリジナル)

Language models (LMs) have demonstrated expert-level reasoning and recall abilities in medicine. However, computational costs and privacy concerns are mounting barriers to wide-scale implementation. We introduce a parsimonious adaptation of phi-3-mini, MedMobile, a 3.8 billion parameter LM capable of running on a mobile device, for medical applications. We demonstrate that MedMobile scores 75.7% on the MedQA (USMLE), surpassing the passing mark for physicians (~60%), and approaching the scores of models 100 times its size. We subsequently perform a careful set of ablations, and demonstrate that chain of thought, ensembling, and fine-tuning lead to the greatest performance gains, while unexpectedly retrieval augmented generation fails to demonstrate significant improvements

arxiv情報

著者 Krithik Vishwanath,Jaden Stryker,Anton Alaykin,Daniel Alexander Alber,Eric Karl Oermann
発行日 2024-10-11 17:32:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MedMobile: A mobile-sized language model with expert-level clinical capabilities はコメントを受け付けていません

Evaluating Copyright Takedown Methods for Language Models

要約

言語モデル (LM) は、著作権で保護されている可能性のある素材を含む、多様なデータに関する広範なトレーニングからその機能を導き出します。
これらのモデルはトレーニング データと同様のコンテンツを記憶して生成する可能性があるため、潜在的な懸念が生じます。
したがって、モデル作成者は、保護されたコンテンツの生成を防ぐ緩和方法を開発するよう動機付けられています。
私たちは、この手順を DMCA の削除と概念的に類似している (ただし、法的には区別されている) ことに注目して、LM の著作権削除と呼んでいます。 この文書では、LM の著作権削除の実現可能性と副作用の最初の評価を紹介します。
私たちは、著作権削除手法の有効性、暗唱が禁止されているトレーニング データから著作権のない事実の知識を保持するモデルの能力への影響、およびモデルがその一般的な有用性と効率性をどの程度維持しているかを評価するための評価フレームワークである CoTaEval を提案します。
システムプロンプトの追加、デコード時のフィルタリング介入、アンラーニングアプローチなど、いくつかの戦略を検討します。
私たちの調査結果は、すべての指標にわたって優れたテスト済みの手法はないことを示しており、このユニークな問題設定では研究の余地が大きいことを示し、実際の政策提案に対する潜在的な未解決の課題を示しています。

要約(オリジナル)

Language models (LMs) derive their capabilities from extensive training on diverse data, including potentially copyrighted material. These models can memorize and generate content similar to their training data, posing potential concerns. Therefore, model creators are motivated to develop mitigation methods that prevent generating protected content. We term this procedure as copyright takedowns for LMs, noting the conceptual similarity to (but legal distinction from) the DMCA takedown This paper introduces the first evaluation of the feasibility and side effects of copyright takedowns for LMs. We propose CoTaEval, an evaluation framework to assess the effectiveness of copyright takedown methods, the impact on the model’s ability to retain uncopyrightable factual knowledge from the training data whose recitation is embargoed, and how well the model maintains its general utility and efficiency. We examine several strategies, including adding system prompts, decoding-time filtering interventions, and unlearning approaches. Our findings indicate that no tested method excels across all metrics, showing significant room for research in this unique problem setting and indicating potential unresolved challenges for live policy proposals.

arxiv情報

著者 Boyi Wei,Weijia Shi,Yangsibo Huang,Noah A. Smith,Chiyuan Zhang,Luke Zettlemoyer,Kai Li,Peter Henderson
発行日 2024-10-11 17:42:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Evaluating Copyright Takedown Methods for Language Models はコメントを受け付けていません

AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation

要約

この論文では、特に最適化ベースの貪欲座標勾配 (GCG) 戦略に焦点を当てて、脱獄攻撃に対するトランスフォーマーベースの大規模言語モデル (LLM) の脆弱性を研究します。
まず、攻撃の有効性とモデルの内部動作との間に正の相関関係があることが観察されました。
たとえば、LLM の安全性の調整を確保するために設計されたシステム プロンプトにモデルがより注意を払うと、攻撃の効果が低下する傾向があります。
この発見に基づいて、モデルの注意スコアを操作して LLM ジェイルブレイクを容易にする強化された方法を導入します。これを AttnGCG と呼びます。
経験的には、AttnGCG はさまざまな LLM にわたって攻撃効率の一貫した向上を示しており、Llama-2 シリーズでは平均約 7%、Gemma シリーズでは約 10% の増加を達成しています。
私たちの戦略は、目に見えない有害な目標と、GPT-3.5 や GPT-4 のようなブラックボックス LLM の両方に対する堅牢な攻撃伝達性も示しています。
さらに、注意スコアの視覚化はより解釈しやすく、ターゲットを絞った注意操作がより効果的な脱獄をどのように促進するかについてより良い洞察を得ることができることに注目します。
コードは https://github.com/UCSC-VLAA/AttnGCG-攻撃 でリリースされます。

要約(オリジナル)

This paper studies the vulnerabilities of transformer-based Large Language Models (LLMs) to jailbreaking attacks, focusing specifically on the optimization-based Greedy Coordinate Gradient (GCG) strategy. We first observe a positive correlation between the effectiveness of attacks and the internal behaviors of the models. For instance, attacks tend to be less effective when models pay more attention to system prompts designed to ensure LLM safety alignment. Building on this discovery, we introduce an enhanced method that manipulates models’ attention scores to facilitate LLM jailbreaking, which we term AttnGCG. Empirically, AttnGCG shows consistent improvements in attack efficacy across diverse LLMs, achieving an average increase of ~7% in the Llama-2 series and ~10% in the Gemma series. Our strategy also demonstrates robust attack transferability against both unseen harmful goals and black-box LLMs like GPT-3.5 and GPT-4. Moreover, we note our attention-score visualization is more interpretable, allowing us to gain better insights into how our targeted attention manipulation facilitates more effective jailbreaking. We release the code at https://github.com/UCSC-VLAA/AttnGCG-attack.

arxiv情報

著者 Zijun Wang,Haoqin Tu,Jieru Mei,Bingchen Zhao,Yisen Wang,Cihang Xie
発行日 2024-10-11 17:55:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | AttnGCG: Enhancing Jailbreaking Attacks on LLMs with Attention Manipulation はコメントを受け付けていません

Bank Loan Prediction Using Machine Learning Techniques

要約

銀行は、消費者ローンや企業ローンを通じて、あらゆる金融エコシステムの経済発展にとって重要です。
ただし、融資にはリスクが伴います。
したがって、銀行は債務不履行の可能性を減らすために、申請者の財務状況を判断する必要があります。
そのため現在、多くの銀行がデータ分析と最先端のテクノロジーを導入して、プロセスにおいてより適切な意思決定を行っています。
回収の確率は、機械学習アルゴリズムが適用される予測モデリング手法によって規定されます。
この研究プロジェクトでは、ローン承認プロセスの精度と効率をさらに向上させるために、いくつかの機械学習手法を適用します。
私たちの仕事は銀行融資の承認の予測に焦点を当てています。
私たちは機械学習手法を使用して、148,670 のインスタンスと 37 の属性のデータセットに取り組みました。
ターゲット プロパティは、ローン申請を「承認」グループと「拒否」グループに分離します。
さまざまな機械学習技術、つまり、デシジョン ツリー分類、AdaBoosting、ランダム フォレスト分類器、SVM、および GaussianNB が使用されています。
その後、モデルがトレーニングされ、評価されました。
これらの中で、最もパフォーマンスの高いアルゴリズムは AdaBoosting で、99.99% という驚異的な精度を達成しました。
したがって、この結果は、アンサンブル学習がローン承認決定の予測スキルを向上させるためにどのように効果的に機能するかを示しています。
発表された研究は、機械学習を金融領域に適用するための有用な洞察を提供する、非常に正確で効率的なローン予測モデルを実現できる可能性を示しています。

要約(オリジナル)

Banks are important for the development of economies in any financial ecosystem through consumer and business loans. Lending, however, presents risks; thus, banks have to determine the applicant’s financial position to reduce the probabilities of default. A number of banks have currently, therefore, adopted data analytics and state-of-the-art technology to arrive at better decisions in the process. The probability of payback is prescribed by a predictive modeling technique in which machine learning algorithms are applied. In this research project, we will apply several machine learning methods to further improve the accuracy and efficiency of loan approval processes. Our work focuses on the prediction of bank loan approval; we have worked on a dataset of 148,670 instances and 37 attributes using machine learning methods. The target property segregates the loan applications into ‘Approved’ and ‘Denied’ groups. various machine learning techniques have been used, namely, Decision Tree Categorization, AdaBoosting, Random Forest Classifier, SVM, and GaussianNB. Following that, the models were trained and evaluated. Among these, the best-performing algorithm was AdaBoosting, which achieved an incredible accuracy of 99.99%. The results therefore show how ensemble learning works effectively to improve the prediction skills of loan approval decisions. The presented work points to the possibility of achieving extremely accurate and efficient loan prediction models that provide useful insights for applying machine learning to financial domains.

arxiv情報

著者 F M Ahosanul Haque,Md. Mahedi Hassan
発行日 2024-10-11 15:01:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Bank Loan Prediction Using Machine Learning Techniques はコメントを受け付けていません

Federated Learning in Practice: Reflections and Projections

要約

Federated Learning (FL) は、複数のエンティティがローカル データを交換せずに共有モデルを共同で学習できるようにする機械学習手法です。
過去 10 年にわたり、FL システムは大幅な進歩を遂げ、さまざまな学習ドメインにわたって数百万台のデバイスに拡張しながら、意味のある差分プライバシー (DP) 保証を提供しました。
Google、Apple、Meta などの組織による運用システムは、FL の現実世界への適用可能性を実証しています。
ただし、サーバー側の DP 保証の検証や異種デバイス間でのトレーニングの調整など、重要な課題が残っており、広範な導入が制限されています。
さらに、大規模な (マルチモーダル) モデルやトレーニング、推論、パーソナライゼーションの間の曖昧な境界線などの新たなトレンドが、従来の FL フレームワークに課題をもたらしています。
これに応えて、私たちは厳格な定義ではなくプライバシー原則を優先する再定義された FL フレームワークを提案します。
また、信頼できる実行環境とオープンソース エコシステムを活用して、これらの課題に対処し、フロリダ州での将来の進歩を促進することで、今後の道筋を描きます。

要約(オリジナル)

Federated Learning (FL) is a machine learning technique that enables multiple entities to collaboratively learn a shared model without exchanging their local data. Over the past decade, FL systems have achieved substantial progress, scaling to millions of devices across various learning domains while offering meaningful differential privacy (DP) guarantees. Production systems from organizations like Google, Apple, and Meta demonstrate the real-world applicability of FL. However, key challenges remain, including verifying server-side DP guarantees and coordinating training across heterogeneous devices, limiting broader adoption. Additionally, emerging trends such as large (multi-modal) models and blurred lines between training, inference, and personalization challenge traditional FL frameworks. In response, we propose a redefined FL framework that prioritizes privacy principles rather than rigid definitions. We also chart a path forward by leveraging trusted execution environments and open-source ecosystems to address these challenges and facilitate future advancements in FL.

arxiv情報

著者 Katharine Daly,Hubert Eichner,Peter Kairouz,H. Brendan McMahan,Daniel Ramage,Zheng Xu
発行日 2024-10-11 15:10:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | Federated Learning in Practice: Reflections and Projections はコメントを受け付けていません

Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient

要約

モデルベースの強化学習 (RL) は、ほとんどのモデルフリー RL アルゴリズムを悩ませるデータの非効率性に対する解決策を提供します。
ただし、堅牢な世界モデルを学習するには、多くの場合、計算とトレーニングにコストがかかる、複雑で奥深いアーキテクチャが必要になります。
ワールド モデルの中で、ダイナミクス モデルは正確な予測に特に重要であり、それぞれに独自の課題を抱えたさまざまなダイナミクス モデル アーキテクチャが検討されてきました。
現在、リカレント ニューラル ネットワーク (RNN) ベースの世界モデルは、勾配の消失や長期的な依存関係を効果的に把握することが難しいなどの問題に直面しています。
対照的に、トランスフォーマーの使用には、メモリと計算の複雑さの両方が $O(n^2)$ ($n$ がシーケンス長を表す) としてスケールされるセルフ アテンション メカニズムのよく知られた問題があります。
これらの課題に対処するために、私たちは、長期的な依存関係を効果的にキャプチャし、より長いトレーニング シーケンスの効率的な使用を容易にしながら、$O(n)$ のメモリと計算の複雑さを達成する、特に Mamba に基づいた状態空間モデル (SSM) ベースのワールド モデルを提案します。

また、トレーニングの初期段階で不正確なワールド モデルによって引き起こされる準最適性を軽減する新しいサンプリング手法を導入し、前述の手法と組み合わせて、他の最先端のモデルベースの RL アルゴリズムに匹敵する正規化スコアを達成します。
700 万のトレーニング可能なパラメータの世界モデルのみを使用します。
このモデルはアクセス可能で、既製のラップトップでトレーニングできます。
私たちのコードは https://github.com/realwenlongwang/drama.git で入手できます。

要約(オリジナル)

Model-based reinforcement learning (RL) offers a solution to the data inefficiency that plagues most model-free RL algorithms. However, learning a robust world model often demands complex and deep architectures, which are expensive to compute and train. Within the world model, dynamics models are particularly crucial for accurate predictions, and various dynamics-model architectures have been explored, each with its own set of challenges. Currently, recurrent neural network (RNN) based world models face issues such as vanishing gradients and difficulty in capturing long-term dependencies effectively. In contrast, use of transformers suffers from the well-known issues of self-attention mechanisms, where both memory and computational complexity scale as $O(n^2)$, with $n$ representing the sequence length. To address these challenges we propose a state space model (SSM) based world model, specifically based on Mamba, that achieves $O(n)$ memory and computational complexity while effectively capturing long-term dependencies and facilitating the use of longer training sequences efficiently. We also introduce a novel sampling method to mitigate the suboptimality caused by an incorrect world model in the early stages of training, combining it with the aforementioned technique to achieve a normalised score comparable to other state-of-the-art model-based RL algorithms using only a 7 million trainable parameter world model. This model is accessible and can be trained on an off-the-shelf laptop. Our code is available at https://github.com/realwenlongwang/drama.git.

arxiv情報

著者 Wenlong Wang,Ivana Dusparic,Yucheng Shi,Ke Zhang,Vinny Cahill
発行日 2024-10-11 15:10:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient はコメントを受け付けていません

Conditional Generative Models for Contrast-Enhanced Synthesis of T1w and T1 Maps in Brain MRI

要約

ガドリニウムベースの造影剤 (GBCA) によるコントラスト増強は、神経放射線学における腫瘍診断に不可欠なツールです。
ガドリニウム投与前後の神経膠芽腫の脳 MRI スキャンに基づいて、2 つの新しい貢献を備えたニューラル ネットワークによる増強予測に取り組みます。
まず、仮想強化における不確実性の定量化のための生成モデル、より正確には条件付き拡散とフローマッチングの可能性を研究します。
次に、定量的 MRI による T1 スキャンと T1 強調スキャンのパフォーマンスを調べます。
T1 強調スキャンとは対照的に、これらのスキャンには物理的に意味があり、それにより同等のボクセル範囲という利点があります。
これら 2 つのモダリティのネットワーク予測パフォーマンスを互換性のないグレー値スケールで比較するために、Dice スコアと Jaccard スコアを使用してコントラスト強調された関心領域のセグメンテーションを評価することを提案します。
どのモデルでも、T1 強調スキャンよりも T1 スキャンの方が優れたセグメンテーションが観察されます。

要約(オリジナル)

Contrast enhancement by Gadolinium-based contrast agents (GBCAs) is a vital tool for tumor diagnosis in neuroradiology. Based on brain MRI scans of glioblastoma before and after Gadolinium administration, we address enhancement prediction by neural networks with two new contributions. Firstly, we study the potential of generative models, more precisely conditional diffusion and flow matching, for uncertainty quantification in virtual enhancement. Secondly, we examine the performance of T1 scans from quantitive MRI versus T1-weighted scans. In contrast to T1-weighted scans, these scans have the advantage of a physically meaningful and thereby comparable voxel range. To compare network prediction performance of these two modalities with incompatible gray-value scales, we propose to evaluate segmentations of contrast-enhanced regions of interest using Dice and Jaccard scores. Across models, we observe better segmentations with T1 scans than with T1-weighted scans.

arxiv情報

著者 Moritz Piening,Fabian Altekrüger,Gabriele Steidl,Elke Hattingen,Eike Steidl
発行日 2024-10-11 15:11:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, eess.IV, q-bio.NC | Conditional Generative Models for Contrast-Enhanced Synthesis of T1w and T1 Maps in Brain MRI はコメントを受け付けていません

Utilizing ChatGPT in a Data Structures and Algorithms Course: A Teaching Assistant’s Perspective

要約

ChatGPT のような大規模言語モデル (LLM) の統合は、コンピューター サイエンス教育の分野に革命をもたらしています。
これらのモデルは、生徒の学習を充実させ、ティーチング アシスタント (TA) が迅速なフィードバックや補足学習リソースを提供できるようにサポートするための新たな可能性を提供します。
この研究では、データ構造とアルゴリズム (DSA) コースにおける ChatGPT の使用法、特に TA の監視と組み合わせた場合について詳しく掘り下げています。
この調査結果は、構造化されたプロンプトとアクティブな TA ガイダンスを ChatGPT に組み込むことで、複雑なアルゴリズムの概念に対する生徒の理解を強化し、学習意欲を高め、学業成績を向上させることを示しています。
しかし、学術的誠実さと、複雑な問題に取り組む際のLLMの限界に対処するには課題が存在します。
この研究は、AI が生成したコンテンツへの学生の依存を減らし、全体的な教育効果を拡大する上で、TA の積極的な関与の重要性を強調しています。
この結果は、LLM は教育にとって有利である一方で、その統合を成功させるには継続的な監視と、AI と人間の指導の間の思慮深いバランスが必要であることを示唆しています。

要約(オリジナル)

Integrating large language models (LLMs) like ChatGPT is revolutionizing the field of computer science education. These models offer new possibilities for enriching student learning and supporting teaching assistants (TAs) in providing prompt feedback and supplementary learning resources. This research delves into the use of ChatGPT in a data structures and algorithms (DSA) course, particularly when combined with TA supervision. The findings demonstrate that incorporating ChatGPT with structured prompts and active TA guidance enhances students’ understanding of intricate algorithmic concepts, boosts engagement, and elevates academic performance. However, challenges exist in addressing academic integrity and the limitations of LLMs in tackling complex problems. The study underscores the importance of active TA involvement in reducing students’ reliance on AI-generated content and amplifying the overall educational impact. The results suggest that while LLMs can be advantageous for education, their successful integration demands continuous oversight and a thoughtful balance between AI and human guidance.

arxiv情報

著者 Pooriya Jamie,Reyhaneh Hajihashemi,Sharareh Alipour
発行日 2024-10-11 15:18:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.HC, I.2.6 | Utilizing ChatGPT in a Data Structures and Algorithms Course: A Teaching Assistant’s Perspective はコメントを受け付けていません

A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media

要約

議論的スタンスの分類は、特定のトピックに関する著者の視点を特定する上で重要な役割を果たします。
ただし、さまざまな領域にわたって多様な議論文のペアを生成するのは困難です。
既存のベンチマークは、多くの場合、単一のドメインからのものであるか、限られたトピックに焦点を当てています。
さらに、正確なラベルを付けるための手動の注釈は時間と労力がかかります。
これらの課題に対処するために、私たちは、プラットフォーム ルール、すぐに利用できる専門家が厳選したコンテンツ、大規模な言語モデルを活用して人間による注釈の必要性を回避することを提案します。
私たちのアプローチは、21 のドメインにわたる 3 つの情報源からの 4,498 件の話題の主張と 30,961 件の議論で構成されるマルチドメイン ベンチマークを生成します。
完全に監視された、ゼロショット、および少数ショットの設定でデータセットのベンチマークを行い、さまざまな方法論の長所と限界を明らかにします。
この研究のデータセットとコードは、匿名性を確保するために非表示で公開します。

要約(オリジナル)

Argumentative stance classification plays a key role in identifying authors’ viewpoints on specific topics. However, generating diverse pairs of argumentative sentences across various domains is challenging. Existing benchmarks often come from a single domain or focus on a limited set of topics. Additionally, manual annotation for accurate labeling is time-consuming and labor-intensive. To address these challenges, we propose leveraging platform rules, readily available expert-curated content, and large language models to bypass the need for human annotation. Our approach produces a multidomain benchmark comprising 4,498 topical claims and 30,961 arguments from three sources, spanning 21 domains. We benchmark the dataset in fully supervised, zero-shot, and few-shot settings, shedding light on the strengths and limitations of different methodologies. We release the dataset and code in this study at hidden for anonymity.

arxiv情報

著者 Jiaqing Yuan,Ruijie Xi,Munindar P. Singh
発行日 2024-10-11 15:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Benchmark for Cross-Domain Argumentative Stance Classification on Social Media はコメントを受け付けていません