Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation?

要約

LLMSで頻繁に観察される問題は、無意味、非論理的、または事実上不正確な出力を生成する傾向であり、しばしば幻覚と呼ばれることが多いことです。
幻覚検出と生成のために最近提案された幻覚課題に基づいて、翻訳と言い換えという2つの条件付き生成タスクで内因性の幻覚を検出する能力について、オープンアクセスLLMSのスイートを評価します。
モデルのパフォーマンスがタスクと言語によってどのように変化するかを研究し、モデルサイズ、命令調整、および迅速な選択の影響を調査します。
パフォーマンスはモデル間で異なるが、プロンプト間で一貫していることがわかっています。
最後に、NLIモデルは同等のパフォーマンスを発揮し、LLMベースの検出器がこの特定のタスクに対して唯一の実行可能なオプションではないことを示唆しています。

要約(オリジナル)

A frequently observed problem with LLMs is their tendency to generate output that is nonsensical, illogical, or factually incorrect, often referred to broadly as hallucination. Building on the recently proposed HalluciGen task for hallucination detection and generation, we evaluate a suite of open-access LLMs on their ability to detect intrinsic hallucinations in two conditional generation tasks: translation and paraphrasing. We study how model performance varies across tasks and language and we investigate the impact of model size, instruction tuning, and prompt choice. We find that performance varies across models but is consistent across prompts. Finally, we find that NLI models perform comparably well, suggesting that LLM-based detectors are not the only viable option for this specific task.

arxiv情報

著者 Evangelia Gogoulou,Shorouq Zahra,Liane Guillou,Luise Dürlich,Joakim Nivre
発行日 2025-04-29 12:30:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Can LLMs Detect Intrinsic Hallucinations in Paraphrasing and Machine Translation? はコメントを受け付けていません

BrightCookies at SemEval-2025 Task 9: Exploring Data Augmentation for Food Hazard Classification

要約

このホワイトペーパーでは、Semeval-2025タスク9:The Food Hazard Detection Challenge向けに開発されたシステムを紹介します。
共有タスクの目的は、Food Recallインシデントレポートから2つのレベルの粒度で危険と製品を分類するための説明可能な分類システムを評価することです。
この作業では、マイノリティクラスのパフォーマンスの低下を改善し、さまざまな変圧器および機械学習モデルに対する各カテゴリの効果を比較する方法として、テキスト増強技術を提案します。
3つの単語レベルのデータ増強技術、すなわち同義語の置換、ランダムワードスワッピング、およびコンテキストワード挿入を調べます。
結果は、トランスモデルが全体的なパフォーマンスを向上させる傾向があることを示しています。
3つの拡張技術のいずれも、危険と製品を分類するための全体的なパフォーマンスを一貫して改善するものではありませんでした。
BERTモデルを使用してベースラインを各拡張モデルと比較すると、細粒カテゴリで統計的に有意な改善(P <0.05)が観察されました。 ベースラインと比較して、文脈的な単語の挿入の増強により、少数派のハザードクラスの予測の精度が6%向上しました。 これは、少数派クラスのターゲット増強が変圧器モデルのパフォーマンスを改善できることを示唆しています。

要約(オリジナル)

This paper presents our system developed for the SemEval-2025 Task 9: The Food Hazard Detection Challenge. The shared task’s objective is to evaluate explainable classification systems for classifying hazards and products in two levels of granularity from food recall incident reports. In this work, we propose text augmentation techniques as a way to improve poor performance on minority classes and compare their effect for each category on various transformer and machine learning models. We explore three word-level data augmentation techniques, namely synonym replacement, random word swapping, and contextual word insertion. The results show that transformer models tend to have a better overall performance. None of the three augmentation techniques consistently improved overall performance for classifying hazards and products. We observed a statistically significant improvement (P < 0.05) in the fine-grained categories when using the BERT model to compare the baseline with each augmented model. Compared to the baseline, the contextual words insertion augmentation improved the accuracy of predictions for the minority hazard classes by 6%. This suggests that targeted augmentation of minority classes can improve the performance of transformer models.

arxiv情報

著者 Foteini Papadopoulou,Osman Mutlu,Neris Özen,Bas H. M. van der Velden,Iris Hendrickx,Ali Hürriyetoğlu
発行日 2025-04-29 12:34:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | BrightCookies at SemEval-2025 Task 9: Exploring Data Augmentation for Food Hazard Classification はコメントを受け付けていません

Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think

要約

大規模な言語モデル(LLMS)は、複雑な問題を解決するために段階的な推論を活用します。
標準的な評価の実践には、完全な推論の痕跡を生成し、その結論で提示された最終回答の正確性を評価することが含まれます。
この論文では、次の2つの質問を提起することにより、最終的な答えへの依存に挑戦します。最終的な答えは、モデルの最適な結論を確実に表していますか?
代替の推論パスは異なる結果をもたらすことができますか?
これらの質問に答えるために、サブ考えと呼ばれる中間推論の手順を分析し、調査結果に基づいて方法を提案します。
私たちのアプローチでは、言語の手がかりに基づいて、推論トレースを連続的なサブ考えに分割することが含まれます。
まず、モデルに各中間サブ考えのエンドポイントから継続を生成するように促すことから始めます。
さまざまなサブ考えから発生するすべての完成した継続から潜在的な答えを抽出します。
最も頻繁な回答(モード)を選択することにより、これらの回答を集約すると、元の完全なトレースから導き出された答えのみに依存することと比較して、多くの場合、大幅に高い精度が得られることがわかります。
さまざまなサブ考えから導き出された答えの一貫性を分析すると、モデルの自信と正確性と相関する特性が明らかになり、信頼性の低い答えを特定する可能性が示唆されます。
さまざまなLLMSの実験と挑戦的な数学的推論データセット(AIME2024およびAIME2025)は、一貫した精度の改善を示し、利益はそれぞれ最大13 \%と10 \%に達します。
実装は、https://github.com/hammoudhasan/subthouthreasonerで入手できます。

要約(オリジナル)

Large Language Models (LLMs) leverage step-by-step reasoning to solve complex problems. Standard evaluation practice involves generating a complete reasoning trace and assessing the correctness of the final answer presented at its conclusion. In this paper, we challenge the reliance on the final answer by posing the following two questions: Does the final answer reliably represent the model’s optimal conclusion? Can alternative reasoning paths yield different results? To answer these questions, we analyze intermediate reasoning steps, termed subthoughts, and propose a method based on our findings. Our approach involves segmenting a reasoning trace into sequential subthoughts based on linguistic cues. We start by prompting the model to generate continuations from the end-point of each intermediate subthought. We extract a potential answer from every completed continuation originating from different subthoughts. We find that aggregating these answers by selecting the most frequent one (the mode) often yields significantly higher accuracy compared to relying solely on the answer derived from the original complete trace. Analyzing the consistency among the answers derived from different subthoughts reveals characteristics that correlate with the model’s confidence and correctness, suggesting potential for identifying less reliable answers. Our experiments across various LLMs and challenging mathematical reasoning datasets (AIME2024 and AIME2025) show consistent accuracy improvements, with gains reaching up to 13\% and 10\% respectively. Implementation is available at: https://github.com/hammoudhasan/SubthoughtReasoner.

arxiv情報

著者 Hasan Abed Al Kader Hammoud,Hani Itani,Bernard Ghanem
発行日 2025-04-29 12:39:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think はコメントを受け付けていません

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers

要約

トランスフォーマーは多数のNLPタスクで大きな成功を収めていますが、特に実際の知識がまばらである場合、多段階の事実上の推論で顕著なギャップを示し続けています。
グローキングの最近の進歩は、神経ネットワークが基礎となる論理パターンを検出すると、記憶から完全な一般化に移行できることを実証していますが、これらの研究は主に小さな合成タスクを使用しています。
この論文では、初めて、グローキングを実際の事実データに拡張し、既存の知識グラフを慎重に設計した合成データで既存の知識グラフを増強することにより、グローキングに必要な原子事実と推定された事実の比率$ \ phi_r $を上昇させることにより、データセットスパースの課題に対処します。
驚くべきことに、事実に誤った合成データでさえ、モデルが暗記ではなくリレーショナル構造に依存するように強制するため、精度を低下させるのではなく、緊急の推論回路を強化できることがわかります。
マルチホップ推論ベンチマークで評価されると、私たちのアプローチは2Wikimultihopqaで最大95〜100%の精度を達成します。
さらに、$ \ phi_r $の増加が変圧器内の一般化回路の形成をどのように駆動するかについての詳細な分析を提供します。
私たちの調査結果は、グローキングベースのデータ増強が暗黙のマルチホップ推論機能のロックを解除し、大規模な言語モデルにおけるより堅牢で解釈可能な事実上の推論への扉を開くことができることを示唆しています。

要約(オリジナル)

Transformers have achieved great success in numerous NLP tasks but continue to exhibit notable gaps in multi-step factual reasoning, especially when real-world knowledge is sparse. Recent advances in grokking have demonstrated that neural networks can transition from memorizing to perfectly generalizing once they detect underlying logical patterns – yet these studies have primarily used small, synthetic tasks. In this paper, for the first time, we extend grokking to real-world factual data and address the challenge of dataset sparsity by augmenting existing knowledge graphs with carefully designed synthetic data to raise the ratio $\phi_r$ of inferred facts to atomic facts above the threshold required for grokking. Surprisingly, we find that even factually incorrect synthetic data can strengthen emergent reasoning circuits rather than degrade accuracy, as it forces the model to rely on relational structure rather than memorization. When evaluated on multi-hop reasoning benchmarks, our approach achieves up to 95-100% accuracy on 2WikiMultiHopQA – substantially improving over strong baselines and matching or exceeding current state-of-the-art results. We further provide an in-depth analysis of how increasing $\phi_r$ drives the formation of generalizing circuits inside Transformers. Our findings suggest that grokking-based data augmentation can unlock implicit multi-hop reasoning capabilities, opening the door to more robust and interpretable factual reasoning in large-scale language models.

arxiv情報

著者 Roman Abramov,Felix Steinbauer,Gjergji Kasneci
発行日 2025-04-29 13:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.3 | Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers はコメントを受け付けていません

Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption

要約

考え方の促しは、大規模な言語モデルの推論能力を促進することに大きな成功をもたらしました。
この作業では、これらの強化された推論能力を悪用して、必ずしも推論に焦点を合わせているとは限らないタスクの大規模な言語モデルの堅牢性を改善する方法を探ります。
特に、幅広い大規模な言語モデルが、障害のあるチェーンと呼ばれる単純な方法を使用して、参照腐敗に対する堅牢性を大幅に改善する方法を示します。
経験的には、特にこの方法の単純さと適用性を考えると、改善は驚くべきものになる可能性があります。
たとえば、自然な質問タスクでは、GPT-4Oの精度は60%から3%に低下し、提供された10の参照の1つが迅速な噴射攻撃で破損した場合、標準プロンプトが破損します。
対照的に、GPT-4Oは、チェーンオブ防衛型考えプロンプトを使用して、50%の精度を維持しています。

要約(オリジナル)

Chain-of-thought prompting has demonstrated great success in facilitating the reasoning abilities of large language models. In this work, we explore how these enhanced reasoning abilities can be exploited to improve the robustness of large language models in tasks that are not necessarily reasoning-focused. In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations. Empirically, the improvements can be astounding, especially given the simplicity and applicability of the method. For example, in the Natural Questions task, the accuracy of GPT-4o degrades from 60% to as low as 3% with standard prompting when 1 out of 10 references provided is corrupted with prompt injection attacks. In contrast, GPT-4o using chain-of-defensive-thought prompting maintains an accuracy of 50%.

arxiv情報

著者 Wenxiao Wang,Parsa Hosseini,Soheil Feizi
発行日 2025-04-29 13:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption はコメントを受け付けていません

Turing Machine Evaluation for Large Language Model

要約

大規模な言語モデル(LLM)の急速な発展と広範なアプリケーションにより、厳密な評価が特に重要になっています。
この研究は、LLMのコア計算推論能力の評価に焦点を当てた新しい視点を採用しており、ルールを正確に理解し、論理的に計算する操作を実行するモデルの能力として定義されています。
この機能は、LLMSの正確なエグゼクティブとしての信頼性を評価し、複雑なコード生成やマルチステップの問題解決などの高度なタスクにとって重要です。
ユニバーサルチューリングマシン(UTM)シミュレーションに基づいた評価フレームワークを提案します。
このフレームワークでは、LLMSは、マルチステップ計算中に、命令に厳密に従い、テープコンテンツや読み取り/書き込みヘッド位置などの動的状態を追跡する必要があります。
標準化された評価を可能にするために、LLMの計算推論機能を体系的に研究するためのベンチマークであるTmbenchを開発しました。
Tmbenchは、知識に依存しない評価、調整可能な難易度、チューリングマシンのエンコードによる基礎カバレッジ、たとえば生成の無制限の容量など、いくつかの重要な利点を提供し、モデルが進化し続ける拡張性を確保します。
Tmbenchのモデルパフォーマンスは、他の認識されている推論ベンチマーク(ピアソン相関係数は0.73)のパフォーマンスと強く相関しており、計算上の推論がLLMSの深い能力を測定するための重要な次元であることを明確に示しています。
コードとデータは、https://github.com/haitaowutju/turing-machine-benchで入手できます。

要約(オリジナル)

With the rapid development and widespread application of Large Language Models (LLMs), rigorous evaluation has become particularly crucial. This research adopts a novel perspective, focusing on evaluating the core computational reasoning ability of LLMs, defined as the capacity of model to accurately understand rules, and execute logically computing operations. This capability assesses the reliability of LLMs as precise executors, and is critical to advanced tasks such as complex code generation and multi-step problem-solving. We propose an evaluation framework based on Universal Turing Machine (UTM) simulation. This framework requires LLMs to strictly follow instructions and track dynamic states, such as tape content and read/write head position, during multi-step computations. To enable standardized evaluation, we developed TMBench, a benchmark for systematically studying the computational reasoning capabilities of LLMs. TMBench provides several key advantages, including knowledge-agnostic evaluation, adjustable difficulty, foundational coverage through Turing machine encoding, and unlimited capacity for instance generation, ensuring scalability as models continue to evolve. We find that model performance on TMBench correlates strongly with performance on other recognized reasoning benchmarks (Pearson correlation coefficient is 0.73), clearly demonstrating that computational reasoning is a significant dimension for measuring the deep capabilities of LLMs. Code and data are available at https://github.com/HaitaoWuTJU/Turing-Machine-Bench.

arxiv情報

著者 Haitao Wu,Zongbo Han,Huaxi Huang,Changqing Zhang
発行日 2025-04-29 13:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Turing Machine Evaluation for Large Language Model はコメントを受け付けていません

Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset

要約

大規模な言語モデル(LLMS)の害を軽減するために、人間のフィードバック(LHF)からの学習を使用して、LLMSを使用して、有害性が低く、より有用であることを意図した出力に向けます。
実際にLHFが広く採用されているにもかかわらず、このフィードバックの質と安全緩和手法としてのその有効性は不明のままです。
この研究では、人類による広く使用されている役に立つ無害(HH)データセットを監査することにより、これらの問題に対処します。
私たちの作業には、次のものが含まれます。(1)手動評価と自動化された評価の両方によるデータセットのコンテンツの徹底的な調査。
(2)モデルの安全性に対するデータセットの影響を示す実験。
(3)このデータセットを引用している100の最も影響力のある論文の分析。
監査を通じて、HHデータセットで特定された概念化の失敗と品質の問題が、人口統計グループ全体で異なる安全行動につながることにより、追加の害を生み出すことができる方法を紹介します。
私たちの調査結果は、LLMSにおける安全緩和に対するより微妙でコンテキストに敏感なアプローチの必要性を強調しています。

要約(オリジナル)

In an effort to mitigate the harms of large language models (LLMs), learning from human feedback (LHF) has been used to steer LLMs towards outputs that are intended to be both less harmful and more helpful. Despite the widespread adoption of LHF in practice, the quality of this feedback and its effectiveness as a safety mitigation technique remain unclear. This study addresses these issues by auditing the widely-used Helpful and Harmless (HH) dataset by Anthropic. Our work includes: (1) a thorough investigation of the dataset’s content through both manual and automated evaluation; (2) experiments demonstrating the dataset’s impact on models’ safety; and (3) an analysis of the 100 most influential papers citing this dataset. Through our audit, we showcase how conceptualization failures and quality issues identified in the HH dataset can create additional harms by leading to disparate safety behaviors across demographic groups. Our findings highlight the need for more nuanced, context-sensitive approaches to safety mitigation in LLMs.

arxiv情報

著者 Khaoula Chehbouni,Jonathan Colaço Carr,Yash More,Jackie CK Cheung,Golnoosh Farnadi
発行日 2025-04-29 13:58:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset はコメントを受け付けていません

Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning

要約

Seed1.5の考えを導入し、応答する前に思考を通じて推論できるようになり、幅広いベンチマークでパフォーマンスが向上します。
Seed1.5は、AIME 2024で86.7、Codeforcesで55.0、GPQAで77.3を達成し、STEMとコーディングの優れた推論能力を示しています。
推論のタスクを超えて、この方法は、多様なドメイン全体の顕著な一般化を示しています。
たとえば、非合理的なタスクでの勝率でDeepseek R1を8%上回り、その幅広い適用性を示しています。
他の最先端の推論モデルと比較して、Seed1.5思考は比較的小さいサイズの混合物(MOE)モデルで、20Bの活性化と200Bの合計パラメーターを備えています。
一般化された推論を評価するための取り組みの一環として、2つの内部ベンチマークを開発しました。
モデルトライアルリンク:https://www.volcengine.com/experience/ark。

要約(オリジナル)

We introduce Seed1.5-Thinking, capable of reasoning through thinking before responding, resulting in improved performance on a wide range of benchmarks. Seed1.5-Thinking achieves 86.7 on AIME 2024, 55.0 on Codeforces and 77.3 on GPQA, demonstrating excellent reasoning abilities in STEM and coding. Beyond reasoning tasks, the method demonstrates notable generalization across diverse domains. For instance, it surpasses DeepSeek R1 by 8% in win rate on non-reasoning tasks, indicating its broader applicability. Compared to other state-of-the-art reasoning models, Seed1.5-Thinking is a Mixture-of-Experts (MoE) model with a relatively small size, featuring 20B activated and 200B total parameters. As part of our effort to assess generalized reasoning, we develop two internal benchmarks, BeyondAIME and Codeforces, both of which will be publicly released to support future research. Model trial link: https://www.volcengine.com/experience/ark.

arxiv情報

著者 ByteDance Seed,:,Jiaze Chen,Tiantian Fan,Xin Liu,Lingjun Liu,Zhiqi Lin,Mingxuan Wang,Chengyi Wang,Xiangpeng Wei,Wenyuan Xu,Yufeng Yuan,Yu Yue,Lin Yan,Qiying Yu,Xiaochen Zuo,Chi Zhang,Ruofei Zhu,Zhecheng An,Zhihao Bai,Yu Bao,Xingyan Bin,Jiangjie Chen,Feng Chen,Hongmin Chen,Riwei Chen,Liangqiang Chen,Zixin Chen,Jinsong Chen,Siyan Chen,Kaiyuan Chen,Zhi Chen,Jin Chen,Jiecao Chen,Jinxin Chi,Weinan Dai,Ning Dai,Jiahui Dai,Shihan Dou,Yantao Du,Zhengyin Du,Jianhui Duan,Chen Dun,Ting-Han Fan,Jiazhan Feng,Junda Feng,Ziyuan Feng,Yuwei Fu,Wenqi Fu,Hanjie Fu,Hao Ge,Hongyi Guo,Mingji Han,Li Han,Wenhao Hao,Xintong Hao,Qianyu He,Jerry He,Feng He,Wen Heng,Zehua Hong,Qi Hou,Liang Hu,Shengding Hu,Nan Hu,Kai Hua,Qi Huang,Ziyue Huang,Hongzhi Huang,Zihao Huang,Ting Huang,Wenhao Huang,Wei Jia,Bin Jia,Xiaoying Jia,Yuhua Jiang,Haobin Jiang,Ziheng Jiang,Kaihua Jiang,Chengquan Jiang,Jianpeng Jiao,Xiaoran Jin,Xing Jin,Xunhao Lai,Zheng Li,Xiang Li,Liyi Li,Hongkai Li,Zheng Li,Shengxian Wan,Ya Wang,Yunshui Li,Chenggang Li,Niuniu Li,Siyu Li,Xi Li,Xiao Li,Aoyan Li,Yuntao Li,Nianning Liang,Xinnian Liang,Haibin Lin,Weijian Lin,Ye Lin,Zhicheng Liu,Guanlin Liu,Guanlin Liu,Chenxiao Liu,Yan Liu,Gaohong Liu,Juncai Liu,Chundian Liu,Deyi Liu,Kaibo Liu,Siyao Liu,Qi Liu,Yongfei Liu,Kang Liu,Gan Liu,Boyi Liu,Rui Long,Weiqiang Lou,Chenwei Lou,Xiang Luo,Yao Luo,Caiping Lv,Heyang Lv,Bole Ma,Qianli Ma,Hongzhi Ma,Yiyuan Ma,Jin Ma,Wenchang Ma,Tingting Ma,Chen Mao,Qiyang Min,Zhe Nan,Guanghan Ning,Jinxiang Ou,Haojie Pan,Renming Pang,Yanghua Peng,Tao Peng,Lihua Qian,Lihua Qian,Mu Qiao,Meng Qu,Cheng Ren,Hongbin Ren,Yong Shan,Wei Shen,Ke Shen,Kai Shen,Guangming Sheng,Jinlong Shi,Wenlei Shi,Guang Shi,Shuai Shuai Cao,Yuxin Song,Zuquan Song,Jing Su,Yifan Sun,Tao Sun,Zewei Sun,Borui Wan,Zihan Wang,Xiaohui Wang,Xi Wang,Shuguang Wang,Jun Wang,Qinlong Wang,Chenyuan Wang,Shuai Wang,Zihan Wang,Changbao Wang,Jiaqiang Wang,Shihang Wang,Xuwu Wang,Zaiyuan Wang,Yuxuan Wang,Wenqi Wang,Taiqing Wang,Chengzhi Wei,Houmin Wei,Ziyun Wei,Shufa Wei,Zheng Wu,Yonghui Wu,Yangjun Wu,Bohong Wu,Shuang Wu,Jingqiao Wu,Ning Wu,Shuangzhi Wu,Jianmin Wu,Chenguang Xi,Fan Xia,Yuqiao Xian,Liang Xiang,Boren Xiang,Bowen Xiao,Zhen Xiao,Xia Xiao,Yongsheng Xiao,Chao Xin,Shulin Xin,Yuwen Xiong,Jingjing Xu,Ziwen Xu,Chenyin Xu,Jiayi Xu,Yifan Xu,Wei Xu,Yufei Xu,Shikun Xu,Shipeng Yan,Shen Yan,Qingping Yang,Xi Yang,Tianhao Yang,Yuehang Yang,Yuan Yang,Ximing Yang,Zeyu Yang,Guang Yang,Yifan Yang,Xuesong Yao,Bairen Yi,Fan Yin,Jianian Yin,Ziqiang Ying,Xiangyu Yu,Hongli Yu,Song Yu,Menghan Yu,Huan Yu,Siyu Yuan,Jun Yuan,Yutao Zeng,Tianyang Zhan,Zheng Zhang,Yun Zhang,Mofan Zhang,Wang Zhang,Ru Zhang,Zhi Zhang,Tianqi Zhang,Xinyi Zhang,Zhexi Zhang,Sijun Zhang,Wenqiang Zhang,Xiangxiang Zhang,Yongtao Zhang,Yuyu Zhang,Ge Zhang,He Zhang,Yue Zhang,Renjie Zheng,Ningxin Zheng,Zhuolin Zheng,Yaowei Zheng,Chen Zheng,Xiaoyun Zhi,Wanjun Zhong,Cheng Zhong,Zheng Zhong,Baoquan Zhong,Xun Zhou,Na Zhou,Huan Zhou,Hang Zhu,Defa Zhu,Wenjia Zhu,Lei Zuo
発行日 2025-04-29 14:09:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning はコメントを受け付けていません

Universal language model with the intervention of quantum theory

要約

このペーパーでは、量子力学の理論に基づいた言語モデリングを調べます。
自然言語の表現モデルを構築するために、象徴的な意味の言語のペアへの量子力学の導入に焦点を当てています。
同時に、統計言語モデリングの基本的な手法として広く使用されているWord Embeddingは、量子力学の数学的枠組みによって説明および改善できることが認識されています。
これに基づいて、このペーパーでは、量子統計やその他の関連理論を使用して、自然言語の数学的表現、自然進化、統計的特性を研究しようとしています。
また、そのような量子特性のソースは情報の物理性であると想定されています。
量子理論を使用して自然言語をモデル化する可​​能性は、実験コードの構築を通じて指摘されています。
この論文では、アプリケーションの観点から、最近人気のある生成モデルを構築する際の理論の可能性のある助けについて説明しています。
量子コンピューターへの理論の将来の応用に関する予備的な議論も提示されています。

要約(オリジナル)

This paper examines language modeling based on the theory of quantum mechanics. It focuses on the introduction of quantum mechanics into the symbol-meaning pairs of language in order to build a representation model of natural language. At the same time, it is realized that word embedding, which is widely used as a basic technique for statistical language modeling, can be explained and improved by the mathematical framework of quantum mechanics. On this basis, this paper continues to try to use quantum statistics and other related theories to study the mathematical representation, natural evolution and statistical properties of natural language. It is also assumed that the source of such quantum properties is the physicality of information. The feasibility of using quantum theory to model natural language is pointed out through the construction of a experimental code. The paper discusses, in terms of applications, the possible help of the theory in constructing generative models that are popular nowadays. A preliminary discussion of future applications of the theory to quantum computers is also presented.

arxiv情報

著者 D. -F. Qin
発行日 2025-04-29 15:02:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, quant-ph | Universal language model with the intervention of quantum theory はコメントを受け付けていません

JaccDiv: A Metric and Benchmark for Quantifying Diversity of Generated Marketing Text in the Music Industry

要約

オンラインプラットフォームは、コンテンツを生成し、ユーザーを支援するために、データからテキストのテクノロジーを使用することにますます関心があります。
残念ながら、従来の生成方法はしばしば繰り返しパターンに分類され、数回の反復後に単調なテキストのギャラリーになります。
このホワイトペーパーでは、LLMベースのデータからテキストへのアプローチを調査して、十分な品質で多様なマーケティングテキストを自動的に生成し、幅広い採用に十分なほど生成します。
T5、GPT-3.5、GPT-4、LLAMA2などの言語モデルを活用して、微調整、少ないショット、およびゼロショットアプローチと組み合わせて、多様なマーケティングテキストのベースラインを設定します。
また、テキストのセットの多様性を評価するために、メトリックJACCDIVを紹介します。
この研究は、音楽業界を超えてその関連性を拡大し、繰り返し自動化されたコンテンツ生成が一般的なさまざまな分野で有益であることが証明されています。

要約(オリジナル)

Online platforms are increasingly interested in using Data-to-Text technologies to generate content and help their users. Unfortunately, traditional generative methods often fall into repetitive patterns, resulting in monotonous galleries of texts after only a few iterations. In this paper, we investigate LLM-based data-to-text approaches to automatically generate marketing texts that are of sufficient quality and diverse enough for broad adoption. We leverage Language Models such as T5, GPT-3.5, GPT-4, and LLaMa2 in conjunction with fine-tuning, few-shot, and zero-shot approaches to set a baseline for diverse marketing texts. We also introduce a metric JaccDiv to evaluate the diversity of a set of texts. This research extends its relevance beyond the music industry, proving beneficial in various fields where repetitive automated content generation is prevalent.

arxiv情報

著者 Anum Afzal,Alexandre Mercier,Florian Matthes
発行日 2025-04-29 15:19:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | JaccDiv: A Metric and Benchmark for Quantifying Diversity of Generated Marketing Text in the Music Industry はコメントを受け付けていません