Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models

要約

バックプロパゲーションのような1次方法を使用した微調整LLMは、計算的に集中的です。
ゼロオーダー(ZO)最適化は、勾配の代わりに関数評価を使用して、メモリの使用量を削減しますが、高次元モデルでの収束が遅いことに苦しんでいます。
その結果、LLMSのZO研究は主に分類に焦点を当てており、より複雑な生成タスクを見落としています。
このホワイトペーパーでは、LLMSで\ TextIT {Preference Optimization}用に設計された新しいZoアルゴリズムであるZoproを紹介します。
まず、従来の(1次)優先最適化中にポリシーモデルと報酬モデルの相互作用を分析し、相対的な更新のパターンを明らかにします。
これらの洞察に導かれて、収束を加速するためのターゲットサンプリング戦略に同時摂動確率的近似(SPSA)を適応させます。
要約、機械の翻訳、会話アシスタントの実験を通じて、私たちの方法は、一次方法に匹敵する収束時間を達成しながら、報酬信号を一貫して強化することを実証します。
最先端の方法には及ばないが、私たちの作業は、LLMSの優先最適化にゼロオーダーの方法を適用し、分類タスクを超えて、ほとんど未踏の研究方向への道を開く最初の方法です。
コードと視覚化は、https://github.com/alessiogalatolo/viszoproで入手できます

要約(オリジナル)

Fine-tuning LLMs with first-order methods like back-propagation is computationally intensive. Zeroth-Order (ZO) optimisation, using function evaluations instead of gradients, reduces memory usage but suffers from slow convergence in high-dimensional models. As a result, ZO research in LLMs has mostly focused on classification, overlooking more complex generative tasks. In this paper, we introduce ZOPrO, a novel ZO algorithm designed for \textit{Preference Optimisation} in LLMs. We begin by analysing the interplay between policy and reward models during traditional (first-order) Preference Optimisation, uncovering patterns in their relative updates. Guided by these insights, we adapt Simultaneous Perturbation Stochastic Approximation (SPSA) with a targeted sampling strategy to accelerate convergence. Through experiments on summarisation, machine translation, and conversational assistants, we demonstrate that our method consistently enhances reward signals while achieving convergence times comparable to first-order methods. While it falls short of some state-of-the-art methods, our work is the first to apply Zeroth-Order methods to Preference Optimisation in LLMs, going beyond classification tasks and paving the way for a largely unexplored research direction. Code and visualisations are available at https://github.com/alessioGalatolo/VisZOPrO

arxiv情報

著者 Alessio Galatolo,Zhenbang Dai,Katie Winkle,Meriem Beloucif
発行日 2025-03-05 12:49:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models はコメントを受け付けていません

Open-Source Large Language Models as Multilingual Crowdworkers: Synthesizing Open-Domain Dialogues in Several Languages With No Examples in Targets and No Machine Translation

要約

オープンドメインダイアログエージェントのドメインにおける一般的なパラダイムは、主に英語に焦点を当て、モデルとデータセットの両方を網羅しています。
さらに、特に複数の言語が関与している場合、Finetuningのためにこのようなデータセットをクラウドソーシングするために必要な金融および一時的な投資は、かなりのものです。
幸いなことに、大規模な言語モデル(LLM)の進歩により、多様なタスク全体で多くの可能性が発表されました。
具体的には、命令調整により、LLMは自然言語の指示に基づいてタスクを実行することができ、時には人間の群衆のパフォーマンスを上回ります。
さらに、これらのモデルには、単一のスレッド内のさまざまな言語で機能する機能があります。
その結果、さまざまな言語で新しいサンプルを生成するために、これらの機能を活用してデータ収集プロセスを再現することを提案します。
LLMSを使用して複数のターゲット言語でオープンドメインダイアログデータを生成するためのパイプラインを紹介し、デモンストレーションを一意のソース言語で提供します。
このアプローチで明示的な機械翻訳を避けることにより、言語固有のニュアンスへの順守を強化します。
この方法論をPersonachatデータセットに適用します。
生成された対話の開放性を高め、実生活のシナリを模倣するために、スピーカーが関与している会話のタイプに対応する音声イベントの概念と、会話の前提を表す共通の基盤の概念を追加しました。

要約(オリジナル)

The prevailing paradigm in the domain of Open-Domain Dialogue agents predominantly focuses on the English language, encompassing both models and datasets. Furthermore, the financial and temporal investments required for crowdsourcing such datasets for finetuning are substantial, particularly when multiple languages are involved. Fortunately, advancements in Large Language Models (LLMs) have unveiled a plethora of possibilities across diverse tasks. Specifically, instruction-tuning has enabled LLMs to execute tasks based on natural language instructions, occasionally surpassing the performance of human crowdworkers. Additionally, these models possess the capability to function in various languages within a single thread. Consequently, to generate new samples in different languages, we propose leveraging these capabilities to replicate the data collection process. We introduce a pipeline for generating Open-Domain Dialogue data in multiple Target Languages using LLMs, with demonstrations provided in a unique Source Language. By eschewing explicit Machine Translation in this approach, we enhance the adherence to language-specific nuances. We apply this methodology to the PersonaChat dataset. To enhance the openness of generated dialogues and mimic real life scenarii, we added the notion of speech events corresponding to the type of conversation the speakers are involved in and also that of common ground which represents the premises of a conversation.

arxiv情報

著者 Ahmed Njifenjou,Virgile Sucal,Bassam Jabaian,Fabrice Lefèvre
発行日 2025-03-05 12:52:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.LG | Open-Source Large Language Models as Multilingual Crowdworkers: Synthesizing Open-Domain Dialogues in Several Languages With No Examples in Targets and No Machine Translation はコメントを受け付けていません

Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues

要約

言語学の研究では、ジェスチャーなどの非言語的手がかりが話し言葉において重要な役割を果たすことが示されています。
たとえば、スピーカーはハンドジェスチャーを実行してトピックシフトを示し、リスナーが談話の移行を特定するのに役立ちます。
この作業では、人間の動きシーケンスと言語を使用したジェスチャーの共同モデリングが、言語モデルの音声談話モデリングを改善できるかどうかを調査します。
ジェスチャーを言語モデルに統合するために、最初に3Dヒトの動きシーケンスをVQ-Vaeを使用して離散ジェスチャートークンにエンコードします。
これらのジェスチャートークンの埋め込みは、機能アラインメントを介してテキストの埋め込みと整列し、テキストの埋め込みスペースにマッピングします。
話し言葉に関するジェスチャーに合わせた言語モデルを評価するために、言語研究に基づいた3つの重要な談話の手がかりをターゲットにしたテキスト充填タスクを構築します。
結果は、ジェスチャーを組み込むことで、3つのタスク全体でマーカー予測の精度が向上し、モデリングの談話でジェスチャーが提供できる補完的な情報を強調することを示しています。
この作業は、言語モデルの音声言語モデリングを進めるために、非言語的手がかりを活用するための最初のステップと考えています。

要約(オリジナル)

Research in linguistics shows that non-verbal cues, such as gestures, play a crucial role in spoken discourse. For example, speakers perform hand gestures to indicate topic shifts, helping listeners identify transitions in discourse. In this work, we investigate whether the joint modeling of gestures using human motion sequences and language can improve spoken discourse modeling in language models. To integrate gestures into language models, we first encode 3D human motion sequences into discrete gesture tokens using a VQ-VAE. These gesture token embeddings are then aligned with text embeddings through feature alignment, mapping them into the text embedding space. To evaluate the gesture-aligned language model on spoken discourse, we construct text infilling tasks targeting three key discourse cues grounded in linguistic research: discourse connectives, stance markers, and quantifiers. Results show that incorporating gestures enhances marker prediction accuracy across the three tasks, highlighting the complementary information that gestures can offer in modeling spoken discourse. We view this work as an initial step toward leveraging non-verbal cues to advance spoken language modeling in language models.

arxiv情報

著者 Varsha Suresh,M. Hamza Mughal,Christian Theobalt,Vera Demberg
発行日 2025-03-05 13:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues はコメントを受け付けていません

Enhancing Non-English Capabilities of English-Centric Large Language Models through Deep Supervision Fine-Tuning

要約

大規模な言語モデル(LLM)は、多言語の言語の理解と生成に大きな進歩を示しています。
ただし、トレーニングデータの不均衡により、英語以外の言語での機能は限られています。
最近の研究では、LLMSの英語のピボット多言語メカニズムが明らかになりました。LLMは、英語以外のクエリを最下層の英語のクエリに暗黙的に変換し、中間層で考えるために英語を採用しました。
ただし、LLMの中間層における横断的整合の明示的な監督が存在しないため、これらの段階の内部表現は不正確になる可能性があります。
この作業では、ワークフローを導くためにモデルの内部層に追加の監督が組み込まれた深い監督微調整法(DFT)を紹介します。
具体的には、LLMSの異なるレイヤーに2つのトレーニング目標を紹介します。1つはターゲット言語の英語への変換を制限するための最下層に、もう1つは英語で推論を制限するために中間層に制限します。
指針を効果的に達成するために、2種類の監督シグナルを設計しました。これは、より厳しい制約と比較的リラックスしたガイダンスを表すロジットと機能です。
私たちの方法は、英語以外の入力を処理する際に最終生成結果を考慮するだけでなく、内部表現の精度を確保するためにモデルを導きます。
典型的な英語中心の大型モデルであるLlama-2およびGemma-2で広範な実験を実施しましたが、複数の多言語データセットの結果は、この方法が従来の微調整方法を大幅に上回ることを示しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated significant progress in multilingual language understanding and generation. However, due to the imbalance in training data, their capabilities in non-English languages are limited. Recent studies revealed the English-pivot multilingual mechanism of LLMs, where LLMs implicitly convert non-English queries into English ones at the bottom layers and adopt English for thinking at the middle layers. However, due to the absence of explicit supervision for cross-lingual alignment in the intermediate layers of LLMs, the internal representations during these stages may become inaccurate. In this work, we introduce a deep supervision fine-tuning method (DFT) that incorporates additional supervision in the internal layers of the model to guide its workflow. Specifically, we introduce two training objectives on different layers of LLMs: one at the bottom layers to constrain the conversion of the target language into English, and another at the middle layers to constrain reasoning in English. To effectively achieve the guiding purpose, we designed two types of supervision signals: logits and feature, which represent a stricter constraint and a relatively more relaxed guidance. Our method guides the model to not only consider the final generated result when processing non-English inputs but also ensure the accuracy of internal representations. We conducted extensive experiments on typical English-centric large models, LLaMA-2 and Gemma-2, and the results on multiple multilingual datasets show that our method significantly outperforms traditional fine-tuning methods.

arxiv情報

著者 Wenshuai Huo,Xiaocheng Feng,Yichong Huang,Chengpeng Fu,Baohang Li,Yangfan Ye,Zhirui Zhang,Dandan Tu,Duyu Tang,Yunfei Lu,Hui Wang,Bing Qin
発行日 2025-03-05 13:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Non-English Capabilities of English-Centric Large Language Models through Deep Supervision Fine-Tuning はコメントを受け付けていません

Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers

要約

グラフ認識の関係推論を注意メカニズムに統合し、グラフニューラルネットワークと言語モデリングからの概念を統合することにより、変圧器アーキテクチャを変更するアプローチを提示します。
注意とグラフ理論の固有のつながりに基づいて、トランスの注意メカニズムをグラフ操作として再定式化し、グラフ認識の同型注意を提案します。
この方法は、リレーショナル構造の表現を豊かにするために、グラフ同型ネットワーク(GIN)および主要な近隣集合(PNA)を含む高度なグラフモデリング戦略を活用しています。
私たちのアプローチは、一般化ギャップの削減と学習パフォーマンスの向上によって証明されるように、複雑な依存関係を捉え、タスク全体で一般化します。
さらに、グラフ認識の注意の概念を拡大して、まばらなジンアテンションを導入します。これは、まばらなジンを使用する微調整アプローチです。
注意マトリックスをまばらな隣接グラフとして解釈することにより、この手法は、最小限の計算オーバーヘッドで事前に訓練された基礎モデルの適応性を向上させ、グラフ認識機能を授与します。
スパースジンアテンションの微調整は、低ランク適応(LORA)などの代替方法と比較して、改善されたトレーニングダイナミクスとより良い一般化を達成します。
伝統的な注意メカニズム内の潜在的なグラフのような構造について説明し、トランスを理解できる新しいレンズを提供します。
リレーショナル推論のための階層ジンモデルとして変圧器を進化させることにより。
この視点は、基礎モデル開発に対する深い意味を示唆しており、ローカルおよびグローバルな依存関係の両方に動的に適応するアーキテクチャの設計を可能にします。
バイオインフォマティクス、材料科学、言語モデリングなどのアプリケーションは、リレーショナルおよびシーケンシャルデータモデリングのこの統合の恩恵を受ける可能性があり、解釈可能で一般化可能なモデリング戦略の段階を設定します。

要約(オリジナル)

We present an approach to modifying Transformer architectures by integrating graph-aware relational reasoning into the attention mechanism, merging concepts from graph neural networks and language modeling. Building on the inherent connection between attention and graph theory, we reformulate the Transformer’s attention mechanism as a graph operation and propose Graph-Aware Isomorphic Attention. This method leverages advanced graph modeling strategies, including Graph Isomorphism Networks (GIN) and Principal Neighborhood Aggregation (PNA), to enrich the representation of relational structures. Our approach captures complex dependencies and generalizes across tasks, as evidenced by a reduced generalization gap and improved learning performance. Additionally, we expand the concept of graph-aware attention to introduce Sparse GIN-Attention, a fine-tuning approach that employs sparse GINs. By interpreting attention matrices as sparse adjacency graphs, this technique enhances the adaptability of pre-trained foundational models with minimal computational overhead, endowing them with graph-aware capabilities. Sparse GIN-Attention fine-tuning achieves improved training dynamics and better generalization compared to alternative methods like low-rank adaption (LoRA). We discuss latent graph-like structures within traditional attention mechanisms, offering a new lens through which Transformers can be understood. By evolving Transformers as hierarchical GIN models for relational reasoning. This perspective suggests profound implications for foundational model development, enabling the design of architectures that dynamically adapt to both local and global dependencies. Applications in bioinformatics, materials science, language modeling, and beyond could benefit from this synthesis of relational and sequential data modeling, setting the stage for interpretable and generalizable modeling strategies.

arxiv情報

著者 Markus J. Buehler
発行日 2025-03-05 13:19:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mes-hall, cond-mat.mtrl-sci, cs.AI, cs.CL, cs.LG | Graph-Aware Isomorphic Attention for Adaptive Dynamics in Transformers はコメントを受け付けていません

Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries

要約

1対多くの事実の質問(例:国の都市を上場する)に答えるには、言語モデル(LM)は同時に知識を思い出し、以前の回答を繰り返すことを避けなければなりません。
これらの2つのサブタスクは、内部でどのように実装および統合されていますか?
複数のデータセットとモデルにわたって、促進されたサプレスメカニズムを特定します。モデルは最初にすべての回答を思い出し、次に以前に生成された回答を抑制します。
具体的には、LMSは主題と以前の回答トークンの両方を使用して知識リコールを実行し、主題情報とMLPが回答を促進することを伝達します。
次に、MLPSが抑制信号を増幅する一方で、以前の回答トークンに注意を払って抑制します。
私たちのメカニズムは、広範な実験的証拠によって裏付けられています。早期のデコードと因果追跡を使用することに加えて、指定されたトークンからの集約された注意更新を解読する両方のトークンレンズを導入することにより、コンポーネントが異なるトークンを使用する方法を分析し、特定の注意を除去した後のMLP出力の変化を分析するノックアウト方法を分析します。
全体として、LMSの内部コンポーネントがさまざまな入力トークンと相互作用して、複雑な事実リコールをサポートする方法についての新しい洞察を提供します。
コードはhttps://github.com/lorenayannnnn/how-lms-answer-one-to-many-factual-queriesで入手できます。

要約(オリジナル)

To answer one-to-many factual queries (e.g., listing cities of a country), a language model (LM) must simultaneously recall knowledge and avoid repeating previous answers. How are these two subtasks implemented and integrated internally? Across multiple datasets and models, we identify a promote-then-suppress mechanism: the model first recalls all answers, and then suppresses previously generated ones. Specifically, LMs use both the subject and previous answer tokens to perform knowledge recall, with attention propagating subject information and MLPs promoting the answers. Then, attention attends to and suppresses previous answer tokens, while MLPs amplify the suppression signal. Our mechanism is corroborated by extensive experimental evidence: in addition to using early decoding and causal tracing, we analyze how components use different tokens by introducing both Token Lens, which decodes aggregated attention updates from specified tokens, and a knockout method that analyzes changes in MLP outputs after removing attention to specified tokens. Overall, we provide new insights into how LMs’ internal components interact with different input tokens to support complex factual recall. Code is available at https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.

arxiv情報

著者 Tianyi Lorena Yan,Robin Jia
発行日 2025-03-05 13:22:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Promote, Suppress, Iterate: How Language Models Answer One-to-Many Factual Queries はコメントを受け付けていません

Deictic Codes, Demonstratives, and Reference: A Step Toward Solving the Grounding Problem

要約

この論文では、体験的概念の接地の問題に取り組んでいます。
知覚的な実証はそのような概念の基本的な形式であることを考えると、そのような実証の指示対象を修正する方法を検討します。
「エンコーディング主義」、つまり表現を表現に関連付けることを避けるために、参照固定のプロセスはボトムアップで非概念でなければならず、概念的なコンテンツの輪を破り、世界に触れることができると仮定します。
その目的のために、表現と世界の間の適切な因果関係が必要です。
この関係は、Deictic Actsの機能を通じてオブジェクトファイルの形成につながる空間的およびオブジェクト中心の注意によって提供されると主張します。
この因果プロセス全体は、概念前のレベルで行われ、接地問題の解決策の要件を満たしています。
最後に、私たちのアカウントは、パトナムの基本的な洞察と、「新しい」リファレンスに関するクリプケの作業を捉えていると主張しています。

要約(オリジナル)

In this paper we address the issue of grounding for experiential concepts. Given that perceptual demonstratives are a basic form of such concepts, we examine ways of fixing the referents of such demonstratives. To avoid ‘encodingism’, that is, relating representations to representations, we postulate that the process of reference fixing must be bottom-up and nonconceptual, so that it can break the circle of conceptual content and touch the world. For that purpose, an appropriate causal relation between representations and the world is needed. We claim that this relation is provided by spatial and object-centered attention that leads to the formation of object files through the function of deictic acts. This entire causal process takes place at a pre-conceptual level, meeting the requirement for a solution to the grounding problem. Finally we claim that our account captures fundamental insights in Putnam’s and Kripke’s work on ‘new’ reference.

arxiv情報

著者 Athanassios Raftopoulos,Vincent C. Müller
発行日 2025-03-05 13:34:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Deictic Codes, Demonstratives, and Reference: A Step Toward Solving the Grounding Problem はコメントを受け付けていません

CURVALID: Geometrically-guided Adversarial Prompt Detection

要約

大規模な言語モデル(LLM)を侵害し、望ましくない行動を誘発することができる敵対的なプロンプトは、安全な展開に大きな障害をもたらします。
現在の緩和戦略は、組み込みの防御メカニズムの有効化やLLMSの微調整に依存していますが、敵対的プロンプトと良性プロンプトの基本的な区別はまだ理解されていません。
この作業では、幾何学的特性を活用することにより敵対的なプロンプトを効率的に検出する新しい防衛フレームワークであるCurvalidを紹介します。
これは、LLMのタイプにとって不可知論的であり、多様な敵対的なプロンプトとLLMアーキテクチャにわたって統一された検出フレームワークを提供します。
Curvalidは、テキストの幾何学的分析に基づいて、根本的な違いを明らかにします。
ホエルエル方程式を介して曲率の概念を$ n $ n $ dimensional Word埋め込みスペースに理論的に拡張し、基礎となるマニホールドのセマンティックシフトや曲率など、ローカルの幾何学的特性を定量化できるようにします。
さらに、局所固有の次元(蓋)を使用して、敵対的な部分空間内のテキストプロンプトの幾何学的特徴をキャプチャします。
私たちの調査結果は、敵対的なプロンプトが幾何学的特性の点で良性プロンプトと根本的に異なることを明らかにしています。
私たちの結果は、Curalidが敵対的な質問の優れた検出と拒否を提供し、より安全なLLM展開への道を開くことを示しています。
ソースコードは、https://github.com/cancanxxx/curvalidにあります

要約(オリジナル)

Adversarial prompts capable of jailbreaking large language models (LLMs) and inducing undesirable behaviours pose a significant obstacle to their safe deployment. Current mitigation strategies rely on activating built-in defence mechanisms or fine-tuning the LLMs, but the fundamental distinctions between adversarial and benign prompts are yet to be understood. In this work, we introduce CurvaLID, a novel defense framework that efficiently detects adversarial prompts by leveraging their geometric properties. It is agnostic to the type of LLM, offering a unified detection framework across diverse adversarial prompts and LLM architectures. CurvaLID builds on the geometric analysis of text prompts to uncover their underlying differences. We theoretically extend the concept of curvature via the Whewell equation into an $n$-dimensional word embedding space, enabling us to quantify local geometric properties, including semantic shifts and curvature in the underlying manifolds. Additionally, we employ Local Intrinsic Dimensionality (LID) to capture geometric features of text prompts within adversarial subspaces. Our findings reveal that adversarial prompts differ fundamentally from benign prompts in terms of their geometric characteristics. Our results demonstrate that CurvaLID delivers superior detection and rejection of adversarial queries, paving the way for safer LLM deployment. The source code can be found at https://github.com/Cancanxxx/CurvaLID

arxiv情報

著者 Canaan Yung,Hanxun Huang,Sarah Monazam Erfani,Christopher Leckie
発行日 2025-03-05 13:47:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | CURVALID: Geometrically-guided Adversarial Prompt Detection はコメントを受け付けていません

An Aspect Extraction Framework using Different Embedding Types, Learning Models, and Dependency Structure

要約

エンティティの特定の特徴に関連するセンチメント表現に細粒の洞察を提供する能力により、アスペクトベースのセンチメント分析は近年大きな注目を集めています。
アスペクトベースのセンチメント分析の重要な要素は、テキストからアスペクト用語を識別および抽出することを含むアスペクト抽出です。
効果的なアスペクト抽出は、アスペクトレベルでの正確な感情分析の基礎として機能します。
このホワイトペーパーでは、単語やスピーチタグにさまざまな種類の埋め込みを使用し、いくつかの学習モデルを組み合わせたアスペクト抽出モデルを提案します。
また、文のアスペクト位置をより適切にキャプチャするために、依存関係解析出力に基づいたツリーの位置エンコーディングを提案します。
さらに、新しいアスペクト抽出データセットは、制御された設定で英語データセットを翻訳する機械ごとに構築されています。
2つのトルコのデータセットで実施された実験は、提案されたモデルが同じデータセットを使用する研究をほぼ上回ることを示し、ツリー位置エンコーディングを組み込むとモデルのパフォーマンスが向上することが示されました。

要約(オリジナル)

Aspect-based sentiment analysis has gained significant attention in recent years due to its ability to provide fine-grained insights for sentiment expressions related to specific features of entities. An important component of aspect-based sentiment analysis is aspect extraction, which involves identifying and extracting aspect terms from text. Effective aspect extraction serves as the foundation for accurate sentiment analysis at the aspect level. In this paper, we propose aspect extraction models that use different types of embeddings for words and part-of-speech tags and that combine several learning models. We also propose tree positional encoding that is based on dependency parsing output to capture better the aspect positions in sentences. In addition, a new aspect extraction dataset is built for Turkish by machine translating an English dataset in a controlled setting. The experiments conducted on two Turkish datasets showed that the proposed models mostly outperform the studies that use the same datasets, and incorporating tree positional encoding increases the performance of the models.

arxiv情報

著者 Ali Erkan,Tunga Güngör
発行日 2025-03-05 13:57:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | An Aspect Extraction Framework using Different Embedding Types, Learning Models, and Dependency Structure はコメントを受け付けていません

From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency

要約

チェーンオブシュート(COT)は、大規模な言語モデル(LLM)の推論パフォーマンスを大幅に向上させます。
現在の理論的研究はしばしばこの改善を表現力と計算能力の向上に起因すると考えていますが、現在の大きなモデルが単純なタスクで失敗するため、表現力はLLMレジームの主要な制限ではないと主張します。
パリティ学習セットアップを使用して、COTが表現力で十分であってもサンプル効率を大幅に改善できることを実証します。
具体的には、COTでは、変圧器は多項式サンプル内の機能を学習できますが、COTがなければ、必要なサンプルサイズは指数関数的です。
さらに、入力トークン間にまばらな順次依存関係を導入することにより、COTが学習プロセスを簡素化し、まばらで解釈可能な注意につながることを示します。
合成層と現実世界の両方の実験で理論分析を検証し、注意層のスパース性がCOTによって誘発される改善の重要な要因であることを確認します。

要約(オリジナル)

Chain-of-thought (CoT) significantly enhances the reasoning performance of large language models (LLM). While current theoretical studies often attribute this improvement to increased expressiveness and computational capacity, we argue that expressiveness is not the primary limitation in the LLM regime, as current large models will fail on simple tasks. Using a parity-learning setup, we demonstrate that CoT can substantially improve sample efficiency even when the representation power is sufficient. Specifically, with CoT, a transformer can learn the function within polynomial samples, whereas without CoT, the required sample size is exponential. Additionally, we show that CoT simplifies the learning process by introducing sparse sequential dependencies among input tokens, and leads to a sparse and interpretable attention. We validate our theoretical analysis with both synthetic and real-world experiments, confirming that sparsity in attention layers is a key factor of the improvement induced by CoT.

arxiv情報

著者 Kaiyue Wen,Huaqing Zhang,Hongzhou Lin,Jingzhao Zhang
発行日 2025-03-05 13:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML | From Sparse Dependence to Sparse Attention: Unveiling How Chain-of-Thought Enhances Transformer Sample Efficiency はコメントを受け付けていません