QGEval: Benchmarking Multi-dimensional Evaluation for Question Generation

要約

自動生成された質問には、不明確な表現や事実の不正確さなどの問題が発生することが多く、信頼性の高い包括的な品質評価が必要です。
人間による評価は質問生成 (QG) の分野で広く使用されており、自動メトリクスのゴールドスタンダードとして機能します。
しかし、統一された人間による評価基準が欠如しているため、QG モデルと自動メトリクスの両方の一貫性と信頼性の高い評価が妨げられています。
これに対処するために、私たちは、質問生成の多次元評価ベンチマークである QGEval を提案します。これは、生成された質問と既存の自動メトリクスの両方を、流暢性、明確さ、簡潔さ、関連性、一貫性、回答可能性、回答の一貫性の 7 つの次元にわたって評価します。
これらの次元の相関関係と区別を調べることによって、これらの次元が適切であることを実証します。
QG モデルと QGEval による自動メトリクスの一貫した評価を通じて、1) ほとんどの QG モデルは、回答可能性と回答の一貫性の点で満足のいくパフォーマンスが得られない、2) 生成された質問を 7 つの次元にわたって評価する際に、既存のメトリクスが人間の判断とうまく一致していないことがわかりました。

私たちは、この取り組みが QG 技術とその評価の両方の開発を促進することを期待しています。

要約(オリジナル)

Automatically generated questions often suffer from problems such as unclear expression or factual inaccuracies, requiring a reliable and comprehensive evaluation of their quality. Human evaluation is widely used in the field of question generation (QG) and serves as the gold standard for automatic metrics. However, there is a lack of unified human evaluation criteria, which hampers consistent and reliable evaluations of both QG models and automatic metrics. To address this, we propose QGEval, a multi-dimensional Evaluation benchmark for Question Generation, which evaluates both generated questions and existing automatic metrics across 7 dimensions: fluency, clarity, conciseness, relevance, consistency, answerability, and answer consistency. We demonstrate the appropriateness of these dimensions by examining their correlations and distinctions. Through consistent evaluations of QG models and automatic metrics with QGEval, we find that 1) most QG models perform unsatisfactorily in terms of answerability and answer consistency, and 2) existing metrics fail to align well with human judgments when evaluating generated questions across the 7 dimensions. We expect this work to foster the development of both QG technologies and their evaluation.

arxiv情報

著者 Weiping Fu,Bifan Wei,Jianxiang Hu,Zhongmin Cai,Jun Liu
発行日 2024-10-10 15:12:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

Private Language Models via Truncated Laplacian Mechanism

要約

NLP タスクの深層学習モデルは、さまざまな種類のプライバシー攻撃を受けやすいです。
プライバシーの漏洩を防ぐために、研究者たちは、埋め込み空間における差分プライバシー (DP) の正式な保証に依存して、ワードレベルの摂動を調査してきました。
ただし、既存のアプローチの多くは、ラプラシアンまたはガウス メカニズムを使用する場合、高プライバシー領域で満足のいくパフォーマンスが得られないか、プライバシー強度の点で標準 DP よりも劣る DP の弱い緩和に頼っています。
このため、これらの制限を克服するために私語埋め込みの新しい方法を設計できるかどうかという疑問が生じます。
この論文では、高次元切断ラプラシアン機構と呼ばれる新しいプライベート埋め込み手法を提案します。
具体的には、以前は 1 次元空間の場合でのみ調査されていた短縮ラプラシアン メカニズムの重要な拡張を導入します。
理論的には、私たちの方法は以前のプライベートワード埋め込み方法と比較して分散が低いことを示します。
その有効性をさらに検証するために、3 つのデータセットを使用してプライベート埋め込みとダウンストリーム タスクに関する包括的な実験を実施します。
注目すべきことに、高度なプライバシー体制であっても、私たちのアプローチは非プライベートのシナリオと比較して実用性がわずかに低下するだけです。

要約(オリジナル)

Deep learning models for NLP tasks are prone to variants of privacy attacks. To prevent privacy leakage, researchers have investigated word-level perturbations, relying on the formal guarantees of differential privacy (DP) in the embedding space. However, many existing approaches either achieve unsatisfactory performance in the high privacy regime when using the Laplacian or Gaussian mechanism, or resort to weaker relaxations of DP that are inferior to the canonical DP in terms of privacy strength. This raises the question of whether a new method for private word embedding can be designed to overcome these limitations. In this paper, we propose a novel private embedding method called the high dimensional truncated Laplacian mechanism. Specifically, we introduce a non-trivial extension of the truncated Laplacian mechanism, which was previously only investigated in one-dimensional space cases. Theoretically, we show that our method has a lower variance compared to the previous private word embedding methods. To further validate its effectiveness, we conduct comprehensive experiments on private embedding and downstream tasks using three datasets. Remarkably, even in the high privacy regime, our approach only incurs a slight decrease in utility compared to the non-private scenario.

arxiv情報

著者 Tianhao Huang,Tao Yang,Ivan Habernal,Lijie Hu,Di Wang
発行日 2024-10-10 15:25:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | コメントする

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

要約

モデルがテレビ クリップなどの複雑でマルチモーダルなコンテンツを理解することは困難です。これは、ビデオ言語モデルが単一モーダリティ推論に依存することが多く、解釈可能性に欠けていることが 1 つ理由です。
これらの問題に対処するために、私たちは最初のマルチモーダル含意ツリー生成装置である TV-TREES を提案します。
TV-TREES は、単純なテキストとビデオの証拠と、質問と回答のペアを証明するより高いレベルの結論との間の含意関係のツリーを検索することにより、解釈可能な共同モダリティ推論を促進するビデオ理解へのアプローチとして機能します。
また、推論の品質を評価するためのマルチモーダル含意ツリー生成のタスクも紹介します。
困難な TVQA ベンチマークでの私たちの手法のパフォーマンスは、完全なクリップで解釈可能な最先端のゼロショット パフォーマンスを示しており、マルチモーダル含意ツリー生成がブラック ボックス システムの両方の長所を備えた代替手段となり得ることを示しています。

要約(オリジナル)

It is challenging for models to understand complex, multimodal content such as television clips, and this is in part because video-language models often rely on single-modality reasoning and lack interpretability. To combat these issues we propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by searching for trees of entailment relationships between simple text-video evidence and higher-level conclusions that prove question-answer pairs. We also introduce the task of multimodal entailment tree generation to evaluate reasoning quality. Our method’s performance on the challenging TVQA benchmark demonstrates interpretable, state-of-the-art zero-shot performance on full clips, illustrating that multimodal entailment tree generation can be a best-of-both-worlds alternative to black-box systems.

arxiv情報

著者 Kate Sanders,Nathaniel Weir,Benjamin Van Durme
発行日 2024-10-10 15:25:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 | コメントする

FiDeLiS: Faithful Reasoning in Large Language Model for Knowledge Graph Question Answering

要約

大規模な言語モデルは、特に複雑な推論タスクにおいて、誤った応答や「幻覚のような」応答を生成するという課題に直面することがよくあります。
これを軽減するために、構造化された検証可能な推論パスに応答を固定することでナレッジ グラフの質問応答を強化する検索拡張推論手法 FiDeLiS を提案します。
FiDeLiS は、KG のベクトルベースのインデックスから関連するエンティティと関係をフェッチするキーワード拡張検索メカニズムを使用して、高再現率の検索を保証します。
これらのエンティティと関係が取得されると、私たちの方法は候補推論パスを構築し、段階的なビーム検索を使用して洗練されます。
これにより、作成したすべてのパスが自信を持って KG にリンクされ、パスの正確さと信頼性が保証されます。
私たちのアプローチの際立った特徴は、推論パスの選択を最適化するために、自然言語計画とビーム検索を組み合わせていることです。
さらに、このプロセスを演繹的推論タスクに変換することで推論パスのスコア付け方法を再設計し、LLM が従来のロジットベースのスコアリングではなく演繹的推論を通じてパスの妥当性を評価できるようにします。
これにより、誤解を招く推論チェーンを回避し、不必要な計算要求を削減できます。
広範な実験により、私たちの方法は、計算コストが低く汎用性に優れたトレーニング不要の方法であっても、3 つのデータセットにわたって確立された強力なベースラインを上回るパフォーマンスを示します。

要約(オリジナル)

Large language models are often challenged by generating erroneous or `hallucinated’ responses, especially in complex reasoning tasks. To mitigate this, we propose a retrieval augmented reasoning method, FiDeLiS, which enhances knowledge graph question answering by anchoring responses to structured, verifiable reasoning paths. FiDeLiS uses a keyword-enhanced retrieval mechanism that fetches relevant entities and relations from a vector-based index of KGs to ensure high-recall retrieval. Once these entities and relations are retrieved, our method constructs candidate reasoning paths which are then refined using a stepwise beam search. This ensures that all the paths we create can be confidently linked back to KGs, ensuring they are accurate and reliable. A distinctive feature of our approach is its blend of natural language planning with beam search to optimize the selection of reasoning paths. Moreover, we redesign the way reasoning paths are scored by transforming this process into a deductive reasoning task, allowing the LLM to assess the validity of the paths through deductive reasoning rather than traditional logit-based scoring. This helps avoid misleading reasoning chains and reduces unnecessary computational demand. Extensive experiments demonstrate that our method, even as a training-free method which has lower computational costs and superior generality, outperforms established strong baselines across three datasets.

arxiv情報

著者 Yuan Sui,Yufei He,Nian Liu,Xiaoxin He,Kun Wang,Bryan Hooi
発行日 2024-10-10 15:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly

要約

ロングコンテキスト言語モデル (LCLM) を評価するためのベンチマークは数多くありますが、開発者は干し草の中の針 (NIAH) などの合成タスクやタスクの任意のサブセットに依存することがよくあります。
これらが LCLM の多様な下流用途に応用できるかどうかは依然として不明であり、その不一致によりモデルの比較がさらに複雑になります。
現在の慣行の背後にある根本的な理由を調査し、既存のベンチマークでは、アプリケーションのカバー範囲が狭い、長さが不十分、メトリックが信頼できない、基本モデルとの互換性がないために、ノイズの多い信号が発生することが多いことがわかりました。
この研究では、アプリケーション中心の 7 つの多様なカテゴリを網羅する包括的なベンチマークである HELMET (ロングコンテキスト モデルを効果的かつ徹底的に評価する方法) を紹介します。
また、最大 128,000 トークンまでの制御可能な長さ、信頼性の高いメトリクスのためのモデルベースの評価、ベース モデルを堅牢に評価するための少数ショット プロンプトを追加することで、以前のベンチマークの多くの問題にも対処しました。
その結果、HELMET がフロンティア LCLM のより信頼性が高く一貫したランキングを提供することを実証しました。
51 の LCLM の包括的な調査を通じて、(1) NIAH のような合成タスクは下流のパフォーマンスの適切な予測材料ではないことがわかりました。
(2) HELMET の多様なカテゴリは明確な傾向を示し、相互に低い相関関係を示します。
(3) ほとんどの LCLM は完璧な NIAH スコアを達成していますが、タスクがフルコンテキストの推論や複雑な命令に従う必要がある場合、オープンソース モデルはクローズド モデルに比べて大幅に遅れをとっており、長さが長くなるほどその差は拡大します。
最後に、RAG タスクは実行が簡単で、他のダウンストリーム パフォーマンスをより予測できるため、高速モデル開発には RAG タスクを使用することをお勧めします。
最終的には、さまざまなタスクにわたる総合的な評価を提唱します。

要約(オリジナル)

There have been many benchmarks for evaluating long-context language models (LCLMs), but developers often rely on synthetic tasks like needle-in-a-haystack (NIAH) or arbitrary subsets of tasks. It remains unclear whether they translate to the diverse downstream applications of LCLMs, and the inconsistency further complicates model comparison. We investigate the underlying reasons behind current practices and find that existing benchmarks often provide noisy signals due to low coverage of applications, insufficient lengths, unreliable metrics, and incompatibility with base models. In this work, we present HELMET (How to Evaluate Long-context Models Effectively and Thoroughly), a comprehensive benchmark encompassing seven diverse, application-centric categories. We also address many issues in previous benchmarks by adding controllable lengths up to 128k tokens, model-based evaluation for reliable metrics, and few-shot prompting for robustly evaluating base models. Consequently, we demonstrate that HELMET offers more reliable and consistent rankings of frontier LCLMs. Through a comprehensive study of 51 LCLMs, we find that (1) synthetic tasks like NIAH are not good predictors of downstream performance; (2) the diverse categories in HELMET exhibit distinct trends and low correlation with each other; and (3) while most LCLMs achieve perfect NIAH scores, open-source models significantly lag behind closed ones when the task requires full-context reasoning or following complex instructions — the gap widens with increased lengths. Finally, we recommend using our RAG tasks for fast model development, as they are easy to run and more predictive of other downstream performance; ultimately, we advocate for a holistic evaluation across diverse tasks.

arxiv情報

著者 Howard Yen,Tianyu Gao,Minmin Hou,Ke Ding,Daniel Fleischer,Peter Izsak,Moshe Wasserblat,Danqi Chen
発行日 2024-10-10 15:31:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | コメントする

The Rise of AI-Generated Content in Wikipedia

要約

一般的な情報ソースにおける AI 生成コンテンツの増加により、説明責任、正確性、バイアスの増幅について大きな懸念が生じています。
消費者に直接影響を与えるだけでなく、このコンテンツが広範に存在することにより、インターネットの大規模な検索での言語モデルのトレーニングの長期的な実行可能性に疑問が生じます。
私たちは、独自の AI 検出器である GPTZero と、オープンソースの代替手段である Binoculars を使用して、最近作成された Wikipedia ページ内に AI によって生成されたコンテンツが存在するかどうかの下限を設定します。
どちらの検出器も、GPT-3.5 のリリース前と比較して、最近のページで AI によって生成されたコンテンツが著しく増加していることを明らかにしています。
GPT-3.5 以前の記事で 1% の誤検知率を達成するようにしきい値が調整されているため、検出器は新しく作成された英語版の Wikipedia 記事の 5% 以上に AI 生成としてフラグを立てますが、ドイツ語、フランス語、イタリア語の記事の割合は低くなります。
フラグが立てられたウィキペディアの記事は通常、質が低く、自己宣伝的であったり、物議を醸しているトピックに関する特定の視点に偏ったものであることがよくあります。

要約(オリジナル)

The rise of AI-generated content in popular information sources raises significant concerns about accountability, accuracy, and bias amplification. Beyond directly impacting consumers, the widespread presence of this content poses questions for the long-term viability of training language models on vast internet sweeps. We use GPTZero, a proprietary AI detector, and Binoculars, an open-source alternative, to establish lower bounds on the presence of AI-generated content in recently created Wikipedia pages. Both detectors reveal a marked increase in AI-generated content in recent pages compared to those from before the release of GPT-3.5. With thresholds calibrated to achieve a 1% false positive rate on pre-GPT-3.5 articles, detectors flag over 5% of newly created English Wikipedia articles as AI-generated, with lower percentages for German, French, and Italian articles. Flagged Wikipedia articles are typically of lower quality and are often self-promotional or partial towards a specific viewpoint on controversial topics.

arxiv情報

著者 Creston Brooks,Samuel Eggert,Denis Peskoff
発行日 2024-10-10 15:36:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

Divide and Translate: Compositional First-Order Logic Translation and Verification for Complex Logical Reasoning

要約

複雑な論理的推論タスクには長い推論シーケンスが必要ですが、思考連鎖プロンプトを備えた大規模言語モデル (LLM) ではまだ不十分です。
この問題を軽減するために、ニューロシンボリックなアプローチにはシンボリック ソルバーが組み込まれています。
具体的には、LLM は自然言語の問題を一次論理式で構成される充足可能性 (SAT) 問題に変換するだけであり、健全なシンボリック ソルバーは数学的に正しい解を返します。
しかし、LLM では、翻訳中に自然言語に隠された複雑な論理意味論を捕捉するのが難しいことがわかりました。
この制限を解決するために、構成的一次論理変換を提案します。
LLM は、まず自然言語文を解析して、アトミックな部分文とその依存部分から構成される新しく定義された論理依存構造に変換し、次に解析された部分文を順番に翻訳します。
単一の文に対して複数の論理依存構造と逐次翻訳が可能であるため、より信頼性の高い結果を保証するために 2 つの検証アルゴリズムも導入しています。
SAT ソルバーを利用して、生成された 1 次論理式のセマンティクスを厳密に比較し、最も可能性の高いものを選択します。
CLOVERと呼ばれる提案された方法を7つの論理的推論ベンチマークで評価し、それが以前の神経象徴的アプローチを上回り、新しい最先端の結果を達成することを示します。

要約(オリジナル)

Complex logical reasoning tasks require a long sequence of reasoning, which a large language model (LLM) with chain-of-thought prompting still falls short. To alleviate this issue, neurosymbolic approaches incorporate a symbolic solver. Specifically, an LLM only translates a natural language problem into a satisfiability (SAT) problem that consists of first-order logic formulas, and a sound symbolic solver returns a mathematically correct solution. However, we discover that LLMs have difficulties to capture complex logical semantics hidden in the natural language during translation. To resolve this limitation, we propose a Compositional First-Order Logic Translation. An LLM first parses a natural language sentence into newly defined logical dependency structures that consist of an atomic subsentence and its dependents, then sequentially translate the parsed subsentences. Since multiple logical dependency structures and sequential translations are possible for a single sentence, we also introduce two Verification algorithms to ensure more reliable results. We utilize an SAT solver to rigorously compare semantics of generated first-order logic formulas and select the most probable one. We evaluate the proposed method, dubbed CLOVER, on seven logical reasoning benchmarks and show that it outperforms the previous neurosymbolic approaches and achieves new state-of-the-art results.

arxiv情報

著者 Hyun Ryu,Gyeongman Kim,Hyemin S. Lee,Eunho Yang
発行日 2024-10-10 15:42:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers

要約

特に検証モデルの使用によるテスト時間の計算における最近の進歩により、大規模言語モデル (LLM) の推論機能が大幅に強化されました。
この生成者と検証者のアプローチは、強化学習 (RL) におけるアクターと批評家のフレームワークによく似ています。
ただし、LLM の現在の検証モデルは、Q 学習などの時間差分学習を使用しない教師あり微調整に依存することがよくあります。
このペーパーでは、オフライン Q 学習を LLM 検証モデルに統合する新しいアプローチである VerifierQ を紹介します。
私たちは、Q 学習を LLM に適用する際の 3 つの主要な課題に取り組みます。(1) 発話レベルのマルコフ決定プロセス (MDP) の処理、(2) 大規模なアクション スペースの管理、(3) 過大評価バイアスの軽減です。
VerifierQ は、制限付き Q 値用に修正されたベルマン アップデートを導入し、効率的なアクション スペース管理のために暗黙的 Q 学習 (IQL) を組み込み、バランスのとれた Q 値推定のための新しい保守的 Q 学習 (CQL) 定式化を統合します。
私たちの手法により、Q 値の並列計算が可能になり、トレーニング効率が向上します。
最近の研究ではジェネレーター向けの MCTS などの RL 手法が検討されていますが、VerifierQ は Q 学習を通じて LLM の検証者 (批評家) の側面を調査した最初の企業の 1 つです。
この RL 原理の検証モデルへの統合は、ジェネレーター技術の既存の進歩を補完し、LLM でより堅牢で適応的な推論を可能にする可能性があります。
数学的推論タスクの実験結果は、効率、精度、堅牢性が向上し、従来の教師あり微調整アプローチと比較して VerifierQ の優れたパフォーマンスを示しています。
VerifierQ は、生成機能と評価機能の間の相乗効果を強化することで、さまざまなドメインにわたる複雑な認知タスクに対処する AI システムの継続的な進化に貢献します。

要約(オリジナル)

Recent advancements in test time compute, particularly through the use of verifier models, have significantly enhanced the reasoning capabilities of Large Language Models (LLMs). This generator-verifier approach closely resembles the actor-critic framework in reinforcement learning (RL). However, current verifier models in LLMs often rely on supervised fine-tuning without temporal difference learning such as Q-learning. This paper introduces VerifierQ, a novel approach that integrates Offline Q-learning into LLM verifier models. We address three key challenges in applying Q-learning to LLMs: (1) handling utterance-level Markov Decision Processes (MDPs), (2) managing large action spaces, and (3) mitigating overestimation bias. VerifierQ introduces a modified Bellman update for bounded Q-values, incorporates Implicit Q-learning (IQL) for efficient action space management, and integrates a novel Conservative Q-learning (CQL) formulation for balanced Q-value estimation. Our method enables parallel Q-value computation and improving training efficiency. While recent work has explored RL techniques like MCTS for generators, VerifierQ is among the first to investigate the verifier (critic) aspect in LLMs through Q-learning. This integration of RL principles into verifier models complements existing advancements in generator techniques, potentially enabling more robust and adaptive reasoning in LLMs. Experimental results on mathematical reasoning tasks demonstrate VerifierQ’s superior performance compared to traditional supervised fine-tuning approaches, with improvements in efficiency, accuracy and robustness. By enhancing the synergy between generation and evaluation capabilities, VerifierQ contributes to the ongoing evolution of AI systems in addressing complex cognitive tasks across various domains.

arxiv情報

著者 Jianing Qi,Hao Tang,Zhigang Zhu
発行日 2024-10-10 15:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする

A Target-Aware Analysis of Data Augmentation for Hate Speech Detection

要約

ヘイトスピーチは、制限する努力にもかかわらず、ソーシャルネットワークの普及によってもたらされる主な脅威の1つです。
この問題には注目が集まっていますが、障害者差別や年齢差別など、ほとんど代表されていない現象を中心としたデータセットや事例研究が不足しているため、ヘイトスピーチ検出システムが過小評価されているアイデンティティグループに対してうまく機能しない可能性があります。
高品質のデータを生成する LLM の前例のない機能を考慮して、生成言語モデルを使用して既存のデータを強化し、ターゲットの不均衡を軽減する可能性を調査します。
私たちは、ターゲットの身元情報で注釈が付けられた英語のデータセットである Measuring Hate Speech コーパスからの 1,000 件の投稿を拡張する実験を行い、単純なデータ拡張方法とさまざまな種類の生成モデルの両方を使用して約 30,000 の合成例を追加し、自己回帰アプローチとシーケンス間アプローチを比較しました。
多くの場合、従来の DA 手法が生成モデルよりも好ましいと考えられますが、2 つの手法を組み合わせると最良の結果が得られる傾向があります。
実際、出身、宗教、障害などの一部のヘイト カテゴリでは、トレーニングに拡張データを使用したヘイト スピーチ分類は、拡張なしのベースラインと比較して F1 が 10% 以上改善されています。
この取り組みは、パフォーマンスが向上するだけでなく、これまで無視されてきたターゲットに対してより公平で包括的なヘイトスピーチ検出システムの開発に貢献します。

要約(オリジナル)

Hate speech is one of the main threats posed by the widespread use of social networks, despite efforts to limit it. Although attention has been devoted to this issue, the lack of datasets and case studies centered around scarcely represented phenomena, such as ableism or ageism, can lead to hate speech detection systems that do not perform well on underrepresented identity groups. Given the unpreceded capabilities of LLMs in producing high-quality data, we investigate the possibility of augmenting existing data with generative language models, reducing target imbalance. We experiment with augmenting 1,000 posts from the Measuring Hate Speech corpus, an English dataset annotated with target identity information, adding around 30,000 synthetic examples using both simple data augmentation methods and different types of generative models, comparing autoregressive and sequence-to-sequence approaches. We find traditional DA methods to often be preferable to generative models, but the combination of the two tends to lead to the best results. Indeed, for some hate categories such as origin, religion, and disability, hate speech classification using augmented data for training improves by more than 10% F1 over the no augmentation baseline. This work contributes to the development of systems for hate speech detection that are not only better performing but also fairer and more inclusive towards targets that have been neglected so far.

arxiv情報

著者 Camilla Casula,Sara Tonelli
発行日 2024-10-10 15:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | コメントする

How Powerful are Decoder-Only Transformer Neural Models?

要約

この記事では、現代の大規模言語モデル (LLM) を支える一般的なトランスフォーマー ニューラル モデルが、合理的な仮定の下でチューリング完全であることを証明します。
過去の研究ではより表現力豊かなフルオートエンコーダトランスフォーマアーキテクチャに焦点を当ててきたため、これは GPT-x で採用されている基盤技術のチューリング完全性に直接取り組んだ最初の研究です。
この理論的分析から、単語埋め込みのスパース性/圧縮性がチューリング完全性を維持するための重要な考慮事項であることを示します。
また、トランスフォーマーは Hao Wang によって研究された B マシンの亜種であることも示します。

要約(オリジナル)

In this article we prove that the general transformer neural model undergirding modern large language models (LLMs) is Turing complete under reasonable assumptions. This is the first work to directly address the Turing completeness of the underlying technology employed in GPT-x as past work has focused on the more expressive, full auto-encoder transformer architecture. From this theoretical analysis, we show that the sparsity/compressibility of the word embedding is an important consideration for Turing completeness to hold. We also show that Transformers are are a variant of B machines studied by Hao Wang.

arxiv情報

著者 Jesse Roberts
発行日 2024-10-10 15:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | コメントする