Hysteresis Activation Function for Efficient Inference

要約

広く使用されているleluは、ハードウェアの効率に好まれます。{推論の実装は1つの標識ケースであるため}ですが、トレーニング中に「死にゆくreliu」問題などの問題に苦しんでいます。
この問題を軽減するための従来のアプローチは、しばしばより複雑で、より少ないハードウェアに優しいアクティベーション機能を導入します。
この作業では、ヒステリシス整流線形ユニット(HELU)を提案します。これは、最小限の複雑さで「死にかけているrelu」問題に対処するために設計された効率的な活性化関数です。
トレーニングと推論のために固定されたしきい値を持つ従来のアクティベーション関数とは異なり、HELUはバックプロパゲーションを改良する可変しきい値を採用しています。
この洗練されたメカニズムにより、より単純なアクティベーション関数が、不必要な複雑さを導入したり、帰納的バイアスを必要とせずに、より複雑な対応物に匹敵する競争力のあるパフォーマンスを実現します。
経験的評価は、Heluが多様なデータセット全体でモデルの一般化を強化し、幅広いニューラルネットワークアーキテクチャに適した効率的かつ効果的な推論のための有望なソリューションを提供することを示しています。

要約(オリジナル)

The widely used ReLU is favored for its hardware efficiency, {as the implementation at inference is a one bit sign case,} yet suffers from issues such as the “dying ReLU” problem, where during training, neurons fail to activate and constantly remain at zero, as highlighted by Lu et al. Traditional approaches to mitigate this issue often introduce more complex and less hardware-friendly activation functions. In this work, we propose a Hysteresis Rectified Linear Unit (HeLU), an efficient activation function designed to address the “dying ReLU” problem with minimal complexity. Unlike traditional activation functions with fixed thresholds for training and inference, HeLU employs a variable threshold that refines the backpropagation. This refined mechanism allows simpler activation functions to achieve competitive performance comparable to their more complex counterparts without introducing unnecessary complexity or requiring inductive biases. Empirical evaluations demonstrate that HeLU enhances model generalization across diverse datasets, offering a promising solution for efficient and effective inference suitable for a wide range of neural network architectures.

arxiv情報

著者 Moshe Kimhi,Idan Kashani,Avi Mendelson,Chaim Baskin
発行日 2025-03-11 13:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.NE | Hysteresis Activation Function for Efficient Inference はコメントを受け付けていません

Decoding Echo Chambers: LLM-Powered Simulations Revealing Polarization in Social Networks

要約

これらの現象は私たちの社会に破壊的な結果をもたらす可能性があるため、エコーチャンバーなどの重要な問題に対するソーシャルメディアの影響に対処する必要があります。
従来の研究は、多くの場合、感情的な傾向と意見の進化を数字と公式に単純化し、ニュースとコミュニケーションがテキストを通じて伝えられていることを無視して、これらのアプローチを制限します。
したがって、この作業では、偏光現象を評価および対抗するための社会的意見ネットワーク向けのLLMベースのシミュレーションを提案します。
最初に、社会的相互作用のさまざまな特性をシミュレートするために、3つの典型的なネットワーク構造を構築します。
次に、エージェントは推奨アルゴリズムに基づいて相互作用し、推論と分析を通じて戦略を更新します。
これらの相互作用を古典的な境界信頼モデル(BCM)、フリードキンジョンセン(FJ)モデルと比較し、エコーチャンバー関連のインデックスを使用すると、意見のダイナミクスをシミュレートし、意見の偏光やエコーチャンバーなどの現象を再現する際のフレームワークの有効性を実証します。
特に言語ベースのシミュレーション内で、エコーチャンバーを削減するのに役立つ、アクティブおよびパッシブナッジの2つの緩和方法を提案します。
私たちの仕事が、社会的偏光緩和のための貴重な洞察とガイダンスを提供することを願っています。

要約(オリジナル)

The impact of social media on critical issues such as echo chambers needs to be addressed, as these phenomena can have disruptive consequences for our society. Traditional research often oversimplifies emotional tendencies and opinion evolution into numbers and formulas, neglecting that news and communication are conveyed through text, which limits these approaches. Hence, in this work, we propose an LLM-based simulation for the social opinion network to evaluate and counter polarization phenomena. We first construct three typical network structures to simulate different characteristics of social interactions. Then, agents interact based on recommendation algorithms and update their strategies through reasoning and analysis. By comparing these interactions with the classic Bounded Confidence Model (BCM), the Friedkin Johnsen (FJ) model, and using echo chamber-related indices, we demonstrate the effectiveness of our framework in simulating opinion dynamics and reproducing phenomena such as opinion polarization and echo chambers. We propose two mitigation methods, active and passive nudges, that can help reduce echo chambers, specifically within language-based simulations. We hope our work will offer valuable insights and guidance for social polarization mitigation.

arxiv情報

著者 Chenxi Wang,Zongfang Liu,Dequan Yang,Xiuying Chen
発行日 2025-03-11 13:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SI | Decoding Echo Chambers: LLM-Powered Simulations Revealing Polarization in Social Networks はコメントを受け付けていません

SCBench: A KV Cache-Centric Analysis of Long-Context Methods

要約

長いコンテキストLLMは、多数のダウンストリームアプリケーションを有効にしましたが、計算およびメモリの効率に関連する重要な課題も導入しました。
これらの課題に対処するために、KVキャッシュを中心とした長いコンテキスト推論の最適化が開発されました。
ただし、既存のベンチマークは、多くの場合、単一のリケストで評価され、実際の使用におけるKVキャッシュの完全なライフサイクルを無視します。
KVキャッシュの再利用は、VLLMやSglangなどのLLMS推論フレームワーク、およびOpenai、Microsoft、Google、AnthropicなどのLLMプロバイダーによって広く採用されているため、この監視が特に重要です。
このギャップに対処するために、kv cachecentricの観点から長いコンテキストメソッドを評価するための包括的なベンチマークであるScbench(sharedcontextbench)を紹介します。
具体的には、Scbenchは共有コンテキストでテスト例を使用し、2つの共有コンテキストモードを備えた12のタスクを使用して、文字列検索、セマンティック検索、グローバル情報、マルチタスクの4つのカテゴリの長いコンテキスト機能をカバーしています。
それに伴い、ゲートリニアRNN、マンバアテナテンションハイブリッド、スパースの注意、KVキャッシュドロップ、量子化、回収、荷重、迅速な圧縮などの効率的な方法を含む8つのカテゴリの長いコンテキストソリューションの広範なKVキャッシュ中心分析を提供します。
評価は、8つの長いコンテキストLLMで実施されます。
私たちの調査結果は、サブO(n)メモリメソッドがマルチターンシナリオで苦しんでおり、O(n)メモリとsub-o(n^2)の事前充填計算でのスパースエンコードが堅牢に機能することを示しています。
動的なスパースは、静的パターンよりも表現力豊かなKVキャッシュをもたらし、ハイブリッドアーキテクチャのレイヤーレベルのスパースは、パフォーマンスが強いとメモリの使用量を削減します。
さらに、長い世代のシナリオで注意分布シフトの問題を特定します。
https://aka.ms/scbench。

要約(オリジナル)

Long-context LLMs have enabled numerous downstream applications but also introduced significant challenges related to computational and memory efficiency. To address these challenges, optimizations for long-context inference have been developed, centered around the KV cache. However, existing benchmarks often evaluate in single-request, neglecting the full lifecycle of the KV cache in real-world use. This oversight is particularly critical, as KV cache reuse has become widely adopted in LLMs inference frameworks, such as vLLM and SGLang, as well as by LLM providers, including OpenAI, Microsoft, Google, and Anthropic. To address this gap, we introduce SCBench(SharedContextBench), a comprehensive benchmark for evaluating long-context methods from a KV cachecentric perspective: 1) KV cache generation, 2) KV cache compression, 3) KV cache retrieval, 4) KV cache loading. Specifically, SCBench uses test examples with shared context, ranging 12 tasks with two shared context modes, covering four categories of long-context capabilities: string retrieval, semantic retrieval, global information, and multi-task. With it, we provide an extensive KV cache-centric analysis of eight categories long-context solutions, including Gated Linear RNNs, Mamba-Attention hybrids, and efficient methods such as sparse attention, KV cache dropping, quantization, retrieval, loading, and prompt compression. The evaluation is conducted on 8 long-context LLMs. Our findings show that sub-O(n) memory methods suffer in multi-turn scenarios, while sparse encoding with O(n) memory and sub-O(n^2) pre-filling computation perform robustly. Dynamic sparsity yields more expressive KV caches than static patterns, and layer-level sparsity in hybrid architectures reduces memory usage with strong performance. Additionally, we identify attention distribution shift issues in long-generation scenarios. https://aka.ms/SCBench.

arxiv情報

著者 Yucheng Li,Huiqiang Jiang,Qianhui Wu,Xufang Luo,Surin Ahn,Chengruidong Zhang,Amir H. Abdi,Dongsheng Li,Jianfeng Gao,Yuqing Yang,Lili Qiu
発行日 2025-03-11 14:02:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | SCBench: A KV Cache-Centric Analysis of Long-Context Methods はコメントを受け付けていません

Stick to Facts: Towards Fidelity-oriented Product Description Generation

要約

他のテキスト生成タスクとは異なり、製品の説明生成において、製品属性情報に固執する忠実な説明を生成することが非常に重要です。
しかし、この問題にはほとんど注意が払われていません。
このギャップを埋めるために、Fidelity指向の製品説明ジェネレーター(FPDG)という名前のモデルを提案します。
製品属性情報は常にエンティティワードによって伝えられるため、FPDGは各単語のエンティティラベルを考慮に入れます。
具体的には、最初に、エンティティラベル誘導の長期メモリ(ELSTM)セルに基づいた再発性ニューラルネットワーク(RNN)デコーダーを提案し、各単語の埋め込みラベルとエンティティラベルの両方を入力として使用します。
第二に、エンティティラベルをキーとキーワードとして値として保存するキーワードメモリを確立し、FPDGがエンティティラベルに参加することでキーワードに参加できるようにします。
大規模な現実世界の製品説明データセットで行われた実験は、モデルが従来の生成指標と人間の評価の両方の観点から最先端のパフォーマンスを達成することを示しています。
具体的には、FPDGは生成された説明の忠実度を25%増加させます。

要約(オリジナル)

Different from other text generation tasks, in product description generation, it is of vital importance to generate faithful descriptions that stick to the product attribute information. However, little attention has been paid to this problem. To bridge this gap, we propose a model named Fidelity-oriented Product Description Generator (FPDG). FPDG takes the entity label of each word into account, since the product attribute information is always conveyed by entity words. Specifically, we first propose a Recurrent Neural Network (RNN) decoder based on the Entity-label-guided Long Short-Term Memory (ELSTM) cell, taking both the embedding and the entity label of each word as input. Second, we establish a keyword memory that stores the entity labels as keys and keywords as values, allowing FPDG to attend to keywords by attending to their entity labels. Experiments conducted on a large-scale real-world product description dataset show that our model achieves state-of-the-art performance in terms of both traditional generation metrics and human evaluations. Specifically, FPDG increases the fidelity of the generated descriptions by 25%.

arxiv情報

著者 Zhangming Chan,Xiuying Chen,Yongliang Wang,Juntao Li,Zhiqiang Zhang,Kun Gai,Dongyan Zhao,Rui Yan
発行日 2025-03-11 14:04:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Stick to Facts: Towards Fidelity-oriented Product Description Generation はコメントを受け付けていません

Silent Hazards of Token Reduction in Vision-Language Models: The Hidden Impact on Consistency

要約

ビジョン言語モデル(VLM)は視覚的な推論に優れていますが、多くの場合、高い計算コストが発生します。
重要な理由の1つは、視覚トークンの冗長性です。
最近のトークン削減方法は、パフォーマンスの低下を最小限に抑えると主張していますが、広範な実験では、トークンの削減がモデルの出力分布を大幅に変更し、精度損失などの標準的なメトリックが完全にはキャプチャしないという予測パターンの変化につながることが明らかになりました。
このような矛盾は、システムの安定性が重要である実用的なアプリケーションの場合、特に懸念されます。
この現象を調査するために、トークンの減少が、特異値分解(SVD)を介した低ランク近似を使用して、VLMの内部表現のエネルギー分布にどのように影響するかを分析します。
我々の結果は、特異値スペクトルの逆参加比の変化が、トークンの削減後のモデルの一貫性と強く相関していることを示しています。
これらの洞察に基づいて、トークンプルーニングにSVDのレバレッジスコアを利用するトレーニングフリーの視覚トークン削減方法であるLofiを提案します。
実験的評価は、LOFIがパフォーマンスの低下で計算コストを削減するだけでなく、出力の一貫性の観点から最先端の方法を大幅に上回ることを示しています。

要約(オリジナル)

Vision language models (VLMs) have excelled in visual reasoning but often incur high computational costs. One key reason is the redundancy of visual tokens. Although recent token reduction methods claim to achieve minimal performance loss, our extensive experiments reveal that token reduction can substantially alter a model’s output distribution, leading to changes in prediction patterns that standard metrics such as accuracy loss do not fully capture. Such inconsistencies are especially concerning for practical applications where system stability is critical. To investigate this phenomenon, we analyze how token reduction influences the energy distribution of a VLM’s internal representations using a lower-rank approximation via Singular Value Decomposition (SVD). Our results show that changes in the Inverse Participation Ratio of the singular value spectrum are strongly correlated with the model’s consistency after token reduction. Based on these insights, we propose LoFi–a training-free visual token reduction method that utilizes the leverage score from SVD for token pruning. Experimental evaluations demonstrate that LoFi not only reduces computational costs with minimal performance degradation but also significantly outperforms state-of-the-art methods in terms of output consistency.

arxiv情報

著者 Yizheng Sun,Hao Li,Chang Xu,Chenghua Lin,Riza Batista-Navarro,Jingyuan Sun
発行日 2025-03-11 14:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Silent Hazards of Token Reduction in Vision-Language Models: The Hidden Impact on Consistency はコメントを受け付けていません

Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language Models

要約

ソーシャルプラットフォームの急速な発展は、誤った情報の普及を悪化させ、実際に検証する研究を刺激します。
最近の研究は、セマンティック機能を活用して、この問題をシングルホップタスクとして解決する傾向があります。
ただし、クレームを検証するプロセスには、複雑な内部論理と関係を備えたいくつかの証拠が必要です。
最近の研究では、パフォーマンスを向上させるために理解と推論能力の両方を改善しようとしていますが、モデルに利益をもたらすエンティティ間の重要な関係を見落として、よりよく理解し、予測を促進します。
関係の重要性を強調するために、私たちは彼らの優れた理解能力を考慮して、大規模な言語モデル(LLM)に頼ります。
LLMSを予測子として使用する他の方法の代わりに、実験結果に応じて推論よりも理解するのではなく、理解するのがより良くなるため、それらを関係抽出器として使用します。
したがって、上記の課題を解決するために、マルチホップの事実検証のために、新しい構造化された知識を得たLLMベースのネットワーク(LLM-SKAN)を提案します。
具体的には、LLM駆動型の知識抽出器を利用して、エンティティやその複雑な関係を含むきめの細かい情報をキャプチャします。
その上、知識が高まることを活用して、各ノードと対話し、より良い請求権の表現を包括的に学習します。
4つの一般的なデータセットの実験結果は、モデルの有効性と優位性を示しています。

要約(オリジナル)

The rapid development of social platforms exacerbates the dissemination of misinformation, which stimulates the research in fact verification. Recent studies tend to leverage semantic features to solve this problem as a single-hop task. However, the process of verifying a claim requires several pieces of evidence with complicated inner logic and relations to verify the given claim in real-world situations. Recent studies attempt to improve both understanding and reasoning abilities to enhance the performance, but they overlook the crucial relations between entities that benefit models to understand better and facilitate the prediction. To emphasize the significance of relations, we resort to Large Language Models (LLMs) considering their excellent understanding ability. Instead of other methods using LLMs as the predictor, we take them as relation extractors, for they do better in understanding rather than reasoning according to the experimental results. Thus, to solve the challenges above, we propose a novel Structured Knowledge-Augmented LLM-based Network (LLM-SKAN) for multi-hop fact verification. Specifically, we utilize an LLM-driven Knowledge Extractor to capture fine-grained information, including entities and their complicated relations. Besides, we leverage a Knowledge-Augmented Relation Graph Fusion module to interact with each node and learn better claim-evidence representations comprehensively. The experimental results on four common-used datasets demonstrate the effectiveness and superiority of our model.

arxiv情報

著者 Han Cao,Lingwei Wei,Wei Zhou,Songlin Hu
発行日 2025-03-11 14:47:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Multi-Hop Fact Verification with Structured Knowledge-Augmented Large Language Models はコメントを受け付けていません

ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews

要約

アカデミックペーパーレビューは、研究コミュニティ内で重要でありながら時間のかかるタスクです。
学術出版物の量が増えるにつれて、レビュープロセスを自動化することが重要な課題になりました。
主な問題は、人間のレビュアーの判断と一致する、包括的で正確で、推論的なレビューコメントを生成することにあります。
このペーパーでは、レビューアジェントを提案することにより、この課題に対処します。これは、大規模な言語モデル(LLM)を活用してアカデミックペーパーレビューを生成するフレームワークです。
最初に、LLMエージェントのトレーニング用に設計された142kのレビューコメントで構成される新しいレビューコットを紹介します。
このデータセットは、人間のレビュー担当者が論文を妨害し、関連する作品を参照し、長所と短所を特定し、レビューの結論を生み出すという構造化された推論プロセスをエミュレートします。
これに基づいて、関連するペーパー認識トレーニング方法を使用して、構造化された推論を可能にするLLMレビュアーエージェントを訓練します。
さらに、レビューコメント生成プロセスを強化するために、マルチロールのマルチLLMエージェントレビューフレームワークであるReviewAgentを構築します。
さらに、LLMSによって生成されたレビューコメントを評価するためのベンチマークであるReviewBenchを提案します。
ReviewBenchでの実験結果は、既存のLLMがレビュープロセスを自動化するためのある程度の可能性を示しているが、人間が生成したレビューと比較してギャップが残っていることを示しています。
さらに、ReviewAgentsフレームワークはこのギャップをさらに狭め、レビューコメントを生成する際に高度なLLMを上回ります。

要約(オリジナル)

Academic paper review is a critical yet time-consuming task within the research community. With the increasing volume of academic publications, automating the review process has become a significant challenge. The primary issue lies in generating comprehensive, accurate, and reasoning-consistent review comments that align with human reviewers’ judgments. In this paper, we address this challenge by proposing ReviewAgents, a framework that leverages large language models (LLMs) to generate academic paper reviews. We first introduce a novel dataset, Review-CoT, consisting of 142k review comments, designed for training LLM agents. This dataset emulates the structured reasoning process of human reviewers-summarizing the paper, referencing relevant works, identifying strengths and weaknesses, and generating a review conclusion. Building upon this, we train LLM reviewer agents capable of structured reasoning using a relevant-paper-aware training method. Furthermore, we construct ReviewAgents, a multi-role, multi-LLM agent review framework, to enhance the review comment generation process. Additionally, we propose ReviewBench, a benchmark for evaluating the review comments generated by LLMs. Our experimental results on ReviewBench demonstrate that while existing LLMs exhibit a certain degree of potential for automating the review process, there remains a gap when compared to human-generated reviews. Moreover, our ReviewAgents framework further narrows this gap, outperforming advanced LLMs in generating review comments.

arxiv情報

著者 Xian Gao,Jiacheng Ruan,Jingsheng Gao,Ting Liu,Yuzhuo Fu
発行日 2025-03-11 14:56:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews はコメントを受け付けていません

Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency

要約

多数のパラメーターにより、大規模な言語モデル(LLM)の推論フェーズはリソース集約型です。
再訓練を必要とする従来のモデル圧縮とは異なり、最近の動的計算方法は、すべてのコンポーネントが推論に必要なわけではなく、トレーニングなしのパイプラインを可能にすることを示しています。
この論文では、LLM生成の動的な深さに焦点を当てています。
パフォーマンスを維持しながら効率的に1.5倍の操作を節約するために、トークンポジションの認識レイヤースキップフレームワークが提案されています。
最初に、予測されたトークンは後で困惑し、したがって計算が少ないことを観察しました。
次に、Position-Law Decay Function、$ \ left \ lfloor l \ times(\ alpha^i)\ right \ rfloor $をレバレッジするポジショナルアウェア深度減衰デコード($ d^3 $)と呼ばれるトレーニングフリーアルゴリズムを提案します。
驚くべきことに、再訓練がなければ、$ d^3 $は、幅広い世代のタスクにわたって初めて成功を収めています。
$ 7 \ sim 70億ドルのパラメーターを使用した大規模な言語モデル(\ ie llama)の実験は、$ d^3 $がGSM8KおよびBBHベンチャーマークでほぼパフォーマンスドロップ($ <1 \%$)で同等のパフォーマンスを維持しながら、平均1.5倍のスピードアップを達成できることを示しています。

要約(オリジナル)

Due to the large number of parameters, the inference phase of Large Language Models (LLMs) is resource-intensive. Unlike traditional model compression, which needs retraining, recent dynamic computation methods show that not all components are required for inference, enabling a training-free pipeline. In this paper, we focus on the dynamic depth of LLM generation. A token-position aware layer skipping framework is proposed to save 1.5x times operations efficiently while maintaining performance. We first observed that tokens predicted later have lower perplexity and thus require less computation. Then, we propose a training-free algorithm called Position-Aware Depth Decay Decoding ($D^3$), which leverages a power-law decay function, $\left\lfloor L \times (\alpha^i) \right\rfloor$, to determine the number of layers to retain when generating token $T_i$. Remarkably, without any retraining, the $D^3$ achieves success across a wide range of generation tasks for the first time. Experiments on large language models (\ie the Llama) with $7 \sim 70$ billion parameters show that $D^3$ can achieve an average 1.5x speedup compared with the full-inference pipeline while maintaining comparable performance with nearly no performance drop ($<1\%$) on the GSM8K and BBH benchmarks.

arxiv情報

著者 Siqi Fan,Xuezhi Fang,Xingrun Xing,Peng Han,Shuo Shang,Yequan Wang
発行日 2025-03-11 15:15:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency はコメントを受け付けていません

Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation

要約

対照的な学習は、「露出バイアス」の問題を軽視し、異なるリファレンスの質を差別的に活用するために、世代のタスクで印象的な成功を達成しました。
既存の作品は、主に各単語の貢献を区別することなくインスタンスレベルでの対照的な学習に焦点を当てていますが、キーワードはテキストの要点であり、制約付きマッピング関係を支配しています。
したがって、この作業では、入力テキストでハイブリッド粒度セマンティックな意味を統合できる階層的な対照学習メカニズムを提案します。
具体的には、キーワード表現を繰り返し磨くために、正の陰性ペアの対照的な相関を介してキーワードグラフを最初に提案します。
次に、インスタンスレベルとキーワードレベル内でコントラスト内を構築し、単語が文の分布からサンプリングされたノードであると仮定します。
最後に、独立したコントラストレベル間のギャップを埋め、一般的なコントラストの消失問題に取り組むために、インスタンス分布にそれぞれ対照的なキーワードノード間の矛盾を測定するコントラスト間メカニズムを提案します。
実験は、私たちのモデルが、言い換え、対話の生成、ストーリーテリングのタスクに関する競争力のあるベースラインよりも優れていることを示しています。

要約(オリジナル)

Contrastive learning has achieved impressive success in generation tasks to militate the ‘exposure bias’ problem and discriminatively exploit the different quality of references. Existing works mostly focus on contrastive learning on the instance-level without discriminating the contribution of each word, while keywords are the gist of the text and dominant the constrained mapping relationships. Hence, in this work, we propose a hierarchical contrastive learning mechanism, which can unify hybrid granularities semantic meaning in the input text. Concretely, we first propose a keyword graph via contrastive correlations of positive-negative pairs to iteratively polish the keyword representations. Then, we construct intra-contrasts within instance-level and keyword-level, where we assume words are sampled nodes from a sentence distribution. Finally, to bridge the gap between independent contrast levels and tackle the common contrast vanishing problem, we propose an inter-contrast mechanism that measures the discrepancy between contrastive keyword nodes respectively to the instance distribution. Experiments demonstrate that our model outperforms competitive baselines on paraphrasing, dialogue generation, and storytelling tasks.

arxiv情報

著者 Mingzhe Li,XieXiong Lin,Xiuying Chen,Jinxiong Chang,Qishen Zhang,Feng Wang,Taifeng Wang,Zhongyi Liu,Wei Chu,Dongyan Zhao,Rui Yan
発行日 2025-03-11 15:21:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Keywords and Instances: A Hierarchical Contrastive Learning Framework Unifying Hybrid Granularities for Text Generation はコメントを受け付けていません

ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems

要約

Audio Foundation Models(FMS)の進歩は、エンドツーエンド(E2E)の音声対話システムへの関心を高めていますが、各システムのWebインターフェイスは異なるため、それらを効果的に比較対照することが困難になります。
これに動機付けられて、私たちは、さまざまなカスケードおよびE2Eの音声音声ダイアログシステム向けに統一されたWebインターフェイスを構築するように設計されたオープンソースのユーザーフレンドリーなツールキットを導入します。
Demoはさらに、ユーザーに、(1)レイテンシ、(2)ユーザー入力を理解する能力、(3)コヒーレンス、多様性、およびシステム応答の関連性、(4)システム出力のオーディオ品質など、オンザフライフライの自動評価メトリックを取得するオプションを提供します。
評価メトリックを使用して、さまざまなカスケードとE2Eの話し言葉システムを人間の人間の会話データセットと比較します。
私たちの分析は、このツールキットにより、研究者がさまざまなテクノロジーを簡単に比較して対比できることを示しており、現在のE2Eシステムなどの貴重な洞察をオーディオの品質が低く、より多様な応答を提供します。
Toolkitを使用して作成されたデモの例は、https://huggingface.co/spaces/siddhant/voice_assistant_demoで公開されています。

要約(オリジナル)

Advancements in audio foundation models (FMs) have fueled interest in end-to-end (E2E) spoken dialogue systems, but different web interfaces for each system makes it challenging to compare and contrast them effectively. Motivated by this, we introduce an open-source, user-friendly toolkit designed to build unified web interfaces for various cascaded and E2E spoken dialogue systems. Our demo further provides users with the option to get on-the-fly automated evaluation metrics such as (1) latency, (2) ability to understand user input, (3) coherence, diversity, and relevance of system response, and (4) intelligibility and audio quality of system output. Using the evaluation metrics, we compare various cascaded and E2E spoken dialogue systems with a human-human conversation dataset as a proxy. Our analysis demonstrates that the toolkit allows researchers to effortlessly compare and contrast different technologies, providing valuable insights such as current E2E systems having poorer audio quality and less diverse responses. An example demo produced using our toolkit is publicly available here: https://huggingface.co/spaces/Siddhant/Voice_Assistant_Demo.

arxiv情報

著者 Siddhant Arora,Yifan Peng,Jiatong Shi,Jinchuan Tian,William Chen,Shikhar Bharadwaj,Hayato Futami,Yosuke Kashiwagi,Emiru Tsunoo,Shuichiro Shimizu,Vaibhav Srivastav,Shinji Watanabe
発行日 2025-03-11 15:24:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | ESPnet-SDS: Unified Toolkit and Demo for Spoken Dialogue Systems はコメントを受け付けていません