Multi-Scale and Multi-Objective Optimization for Cross-Lingual Aspect-Based Sentiment Analysis

要約

アスペクトベースのセンチメント分析(ABSA)は、多言語のコンテキストでの研究関心の高まりを獲得したシーケンスラベル付けタスクです。
ただし、最近の研究には、より堅牢な特徴アライメントとより細かいアスペクトレベルのアラインメントがありません。
この論文では、横断的ABSAのための新しいフレームワーク、マルチスケールおよび多目的最適化(MSMO)を提案します。
マルチスケールのアライメント中に、異なる文化レベルとアスペクトレベルのアラインメントを実現し、異なるコンテキスト環境でアスペクト用語の機能を調整します。
具体的には、モデルの堅牢性を高めるために、コードスイッチのバイリンガル文を言語差別装置と一貫性トレーニングモジュールに紹介します。
多目的最適化中に、2つの最適化目標を設計します。監視されたトレーニングと一貫性トレーニングを目指して、間違ったセマンティックアライメントを強化することを目指しています。
モデルのパフォーマンスをさらに向上させるために、ターゲット言語の蒸留知識をモデルに組み込みます。
結果は、MSMOが複数の言語とモデルで最先端のパフォーマンスを達成することにより、言語間ABSAを大幅に強化することを示しています。

要約(オリジナル)

Aspect-based sentiment analysis (ABSA) is a sequence labeling task that has garnered growing research interest in multilingual contexts. However, recent studies lack more robust feature alignment and finer aspect-level alignment. In this paper, we propose a novel framework, Multi-Scale and Multi-Objective optimization (MSMO) for cross-lingual ABSA. During multi-scale alignment, we achieve cross-lingual sentence-level and aspect-level alignment, aligning features of aspect terms in different contextual environments. Specifically, we introduce code-switched bilingual sentences into the language discriminator and consistency training modules to enhance the model’s robustness. During multi-objective optimization, we design two optimization objectives: supervised training and consistency training, aiming to enhance cross-lingual semantic alignment. To further improve model performance, we incorporate distilled knowledge of the target language into the model. Results show that MSMO significantly enhances cross-lingual ABSA by achieving state-of-the-art performance across multiple languages and models.

arxiv情報

著者 Chengyan Wu,Bolei Ma,Ningyuan Deng,Yanqing He,Yun Xue
発行日 2025-02-19 13:43:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Multi-Scale and Multi-Objective Optimization for Cross-Lingual Aspect-Based Sentiment Analysis はコメントを受け付けていません

Learning Novel Transformer Architecture for Time-series Forecasting

要約

タイムシリーズ予測(TSP)タスクにおけるトランスベースのモデルの成功にもかかわらず、既存の変圧器アーキテクチャは依然として制限に直面しており、文献には代替アーキテクチャへの包括的な調査がありません。
これらの課題に対処するために、TSPタスクに合わせたトランスアーキテクチャの包括的な検索スペースを活用する新しいフレームワークであるAutoformer-TSを提案します。
私たちのフレームワークでは、微分可能なニューラルアーキテクチャ検索(DNAS)メソッド、AB-DARTSを紹介します。これは、アーキテクチャ内の最適な操作の識別を強化することにより、既存のDNASアプローチを改善します。
AutoFormer-TSは、代替の注意メカニズム、活性化機能、およびエンコード操作を体系的に調査し、従来の変圧器設計を超えて移動します。
広範な実験は、Autoformer-TSが一貫してさまざまなTSPベンチマークにわたって最先端のベースラインを上回り、合理的なトレーニング効率を維持しながら優れた予測精度を達成することを示しています。

要約(オリジナル)

Despite the success of Transformer-based models in the time-series prediction (TSP) tasks, the existing Transformer architecture still face limitations and the literature lacks comprehensive explorations into alternative architectures. To address these challenges, we propose AutoFormer-TS, a novel framework that leverages a comprehensive search space for Transformer architectures tailored to TSP tasks. Our framework introduces a differentiable neural architecture search (DNAS) method, AB-DARTS, which improves upon existing DNAS approaches by enhancing the identification of optimal operations within the architecture. AutoFormer-TS systematically explores alternative attention mechanisms, activation functions, and encoding operations, moving beyond the traditional Transformer design. Extensive experiments demonstrate that AutoFormer-TS consistently outperforms state-of-the-art baselines across various TSP benchmarks, achieving superior forecasting accuracy while maintaining reasonable training efficiency.

arxiv情報

著者 Juyuan Zhang,Wei Zhu,Jiechao Gao
発行日 2025-02-19 13:49:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Learning Novel Transformer Architecture for Time-series Forecasting はコメントを受け付けていません

Direct Value Optimization: Improving Chain-of-Thought Reasoning in LLMs with Refined Values

要約

複雑な推論タスクで大規模な言語モデルを強化するための革新的な強化学習フレームワークであるDirect Value Optimization(DVO)を紹介します。
優先ラベルに依存する従来の方法とは異なり、DVOは個々の推論ステップで値信号を利用し、平均四角エラー損失を介してモデルを最適化します。
DVOの重要な利点は、そのきめんべての監督にあり、労働集約的な人間の注釈の必要性を回避します。
DVO内のターゲット値は、モンテカルロツリー検索または結果値モデルのいずれかを使用して推定されます。
数学的および常識的な推論タスクの両方に関する実証分析は、DVOがトレーニングの手順が少ない場合でも、既存のオフライン優先最適化手法を常に上回ることを示しています。
これらの調査結果は、推論能力を進める際の価値信号の重要性を強調し、明示的な人間の好み情報を欠くシナリオの下で優れた方法論としてDVOを強調しています。

要約(オリジナル)

We introduce Direct Value Optimization (DVO), an innovative reinforcement learning framework for enhancing large language models in complex reasoning tasks. Unlike traditional methods relying on preference labels, DVO utilizes value signals at individual reasoning steps, optimizing models via a mean squared error loss. The key benefit of DVO lies in its fine-grained supervision, circumventing the need for labor-intensive human annotations. Target values within the DVO are estimated using either Monte Carlo Tree Search or an outcome value model. Our empirical analysis on both mathematical and commonsense reasoning tasks shows that DVO consistently outperforms existing offline preference optimization techniques, even with fewer training steps. These findings underscore the importance of value signals in advancing reasoning capabilities and highlight DVO as a superior methodology under scenarios lacking explicit human preference information.

arxiv情報

著者 Hongbo Zhang,Han Cui,Guangsheng Bao,Linyi Yang,Jun Wang,Yue Zhang
発行日 2025-02-19 13:51:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Direct Value Optimization: Improving Chain-of-Thought Reasoning in LLMs with Refined Values はコメントを受け付けていません

Adapting Large Language Models for Time Series Modeling via a Novel Parameter-efficient Adaptation Method

要約

時系列モデリングは、多くの現実世界のアプリケーションで非常に重要性を持ち、広範囲に研究されています。
事前に訓練された基礎モデルは、自然言語処理(NLP)とコンピュータービジョン(CV)の分野で印象的な進歩を遂げていますが、時系列ドメインでの開発はデータスパースによって制約されています。
一連の最近の研究では、大規模な言語モデル(LLM)がトークンの複雑なシーケンスよりも堅牢なパターン認識と推論能力を持っていることが実証されています。
ただし、現在の文献は、(a)時系列と自然言語のモダリティを効果的に整列させ、(b)推論効率を維持することとの間の高品質のバランスをまだ厳しくしています。
上記の問題に対処するために、Time-Llamaフレームワークを提案します。
Time-llamaは、最初に、線形トークン化メカニズムを介して、時系列の入力をトークン埋め込みに変換します。
第二に、時系列トークンの埋め込みは、テキストプロンプトと一致します。
第三に、時系列モデリングにLLMバックボーンをさらに適応させるために、動的な低ランク適応技術(D-LORA)を開発しました。
D-LORAは、各時系列入力のトランスバックボーンの各層で最も適切なLORAモジュールを動的に選択し、モデルの予測機能を高めます。
挑戦的な現実世界の時系列タスクの広範なコレクションに関する私たちの実験結果は、提案された方法が最先端の(SOTA)パフォーマンスを達成することを確認しています。

要約(オリジナル)

Time series modeling holds significant importance in many real-world applications and has been extensively studied. While pre-trained foundation models have made impressive strides in the fields of natural language processing (NLP) and computer vision (CV), their development in time series domains has been constrained by data sparsity. A series of recent studies have demonstrated that large language models (LLMs) possess robust pattern recognition and reasoning abilities over complex sequences of tokens. However, the current literature have yet striked a high-quality balance between (a) effectively aligning the time series and natural language modalities, and (b) keeping the inference efficiency. To address the above issues, we now propose the Time-LlaMA framework. Time-LlaMA first converts the time series input into token embeddings through a linear tokenization mechanism. Second, the time series token embeddings are aligned with the text prompts. Third, to further adapt the LLM backbone for time series modeling, we have developed a dynamic low-rank adaptation technique (D-LoRA). D-LoRA dynamically chooses the most suitable LoRA modules at each layer of the Transformer backbone for each time series input, enhancing the model’s predictive capabilities. Our experimental results on an extensive collection of challenging real-world time series tasks confirm that our proposed method achieves the state-of-the-art (SOTA) performance.

arxiv情報

著者 Juyuan Zhang,Wei Zhu,Jiechao Gao
発行日 2025-02-19 13:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Adapting Large Language Models for Time Series Modeling via a Novel Parameter-efficient Adaptation Method はコメントを受け付けていません

Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding

要約

大規模な言語モデル(LLMS)は、コンテキスト内学習(ICL)を通じてさまざまなタスクに優れており、いくつかのタスクの例は予測を導きます。
ただし、以前の調査では、LLMがICLの入力ラベルマッピング情報を見落としていることが多く、事前に訓練された知識に依存していることを強調しています。
この問題に対処するために、陽性と否定のコンテキストの例の間の出力分布を対比することにより入力ラベルマッピングを強調する新しい方法であるコンテキスト内コントラストデコード(ICCD)を紹介します。
7つの自然言語理解(NLU)タスクに関する実験は、ICCDメソッドが追加のトレーニングを必要とせずに6つの異なるスケールのLLMに一貫した大幅な改善(平均で最大+2.1改善)をもたらすことを示しています。
私たちのアプローチは多用途であり、さまざまなデモンストレーション選択方法でパフォーマンスを向上させ、その幅広い適用性と有効性を実証しています。
コードとスクリプトは公開されます。

要約(オリジナル)

Large language models (LLMs) excel at a range of tasks through in-context learning (ICL), where only a few task examples guide their predictions. However, prior research highlights that LLMs often overlook input-label mapping information in ICL, relying more on their pre-trained knowledge. To address this issue, we introduce In-Context Contrastive Decoding (ICCD), a novel method that emphasizes input-label mapping by contrasting the output distributions between positive and negative in-context examples. Experiments on 7 natural language understanding (NLU) tasks show that our ICCD method brings consistent and significant improvement (up to +2.1 improvement on average) upon 6 different scales of LLMs without requiring additional training. Our approach is versatile, enhancing performance with various demonstration selection methods, demonstrating its broad applicability and effectiveness. The code and scripts will be publicly released.

arxiv情報

著者 Keqin Peng,Liang Ding,Yuanxin Ouyang,Meng Fang,Yancheng Yuan,Dacheng Tao
発行日 2025-02-19 14:04:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding はコメントを受け付けていません

A Template Is All You Meme

要約

作成者の意図に適応できるセマンティック構造によって特徴付けられるテンプルなミームは、ミーム処理の文献内の重要でありながら未使用の領域を表しています。
計算ミーム分析の新しい方向性を確立することを目的として、5,200以上のミームテンプレート、それらに関する情報、およびテンプレートインスタンスの54,000の例(テンプルなミーム)で構成される知識ベースを作成します。
ミームテンプレートのセマンティック信号を調査するために、データセットのミームを、距離ベースのルックアップで知識ベースに含まれるベーステンプレートに一致させることができることを示します。
ミームテンプレートのパワーを実証するために、TSPlitを作成します。TSplitは、テンプレートまたはテンプレートインスタンスがトレーニングまたはテストの分割のいずれかでのみ表示できるデータセットを再編成する方法を作成します。
再スプリットデータセットは、一般的なミームの知識を高め、サンプルの効率を向上させ、より堅牢なモデルにつながります。
ミームテンプレートを調べると、検討されるすべてのデータセットの最先端のパフォーマンスが発生し、テンプレートに基づいた分析への道が開かれます。

要約(オリジナル)

Templatic memes, characterized by a semantic structure adaptable to the creator’s intent, represent a significant yet underexplored area within meme processing literature. With the goal of establishing a new direction for computational meme analysis, here we create a knowledge base composed of more than 5,200 meme templates, information about them, and 54,000 examples of template instances (templatic memes). To investigate the semantic signal of meme templates, we show that we can match memes in datasets to base templates contained in our knowledge base with a distance-based lookup. To demonstrate the power of meme templates, we create TSplit, a method to reorganize datasets, where a template or templatic instance can only appear in either the training or test split. Our re-split datasets enhance general meme knowledge and improve sample efficiency, leading to more robust models. Our examination of meme templates results in state-of-the-art performance for every dataset we consider, paving the way for analysis grounded in templateness.

arxiv情報

著者 Luke Bates,Peter Ebert Christensen,Preslav Nakov,Iryna Gurevych
発行日 2025-02-19 14:08:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Template Is All You Meme はコメントを受け付けていません

Evaluating Large Language Models for Public Health Classification and Extraction Tasks

要約

大規模な言語モデル(LLM)の進歩は、公衆衛生を含むさまざまなドメインにわたって人間の専門家をサポートする可能性に大きな関心をもたらしました。
この作業では、無料テキストの分類と抽出を含む公衆衛生タスクのLLMの自動評価を提示します。
6つの外部注釈付きデータセットと7つの新しい内部注釈付きデータセットを組み合わせて、LLMSを評価して、健康負担、疫学的リスク要因、公衆衛生介入に関連するテキストを処理します。
ゼロショット内コンテキスト学習を使用して、すべてのタスクで11のオープンウェイトLLM(7〜1230億パラメーター)を評価します。
llama-3.3-70b-instructが最高のパフォーマンスモデルであり、8/16タスクで最高の結果を達成していることがわかります(Micro-F1スコアを使用)。
すべてのオープンウェイトLLMSが連絡先分類など、いくつかの困難なタスクで60%Micro-F1をスコア以下でスコアリングし、すべてのLLMがGI疾患分類などの他の人で80%を超えるMicro-F1を達成しているというタスク全体で大きなばらつきが見られます。
11のタスクのサブセットについては、3つのGPT-4およびGPT-4Oシリーズモデルも評価し、llama-3.3-70b-instructに匹敵する結果を見つけます。
全体として、これらの最初の結果に基づいて、LLMが公衆衛生の専門家がさまざまな無料のテキストソースから情報を抽出し、公衆衛生の監視、研究、介入をサポートするための有用なツールである可能性があるという有望な兆候を見つけます。

要約(オリジナル)

Advances in Large Language Models (LLMs) have led to significant interest in their potential to support human experts across a range of domains, including public health. In this work we present automated evaluations of LLMs for public health tasks involving the classification and extraction of free text. We combine six externally annotated datasets with seven new internally annotated datasets to evaluate LLMs for processing text related to: health burden, epidemiological risk factors, and public health interventions. We evaluate eleven open-weight LLMs (7-123 billion parameters) across all tasks using zero-shot in-context learning. We find that Llama-3.3-70B-Instruct is the highest performing model, achieving the best results on 8/16 tasks (using micro-F1 scores). We see significant variation across tasks with all open-weight LLMs scoring below 60% micro-F1 on some challenging tasks, such as Contact Classification, while all LLMs achieve greater than 80% micro-F1 on others, such as GI Illness Classification. For a subset of 11 tasks, we also evaluate three GPT-4 and GPT-4o series models and find comparable results to Llama-3.3-70B-Instruct. Overall, based on these initial results we find promising signs that LLMs may be useful tools for public health experts to extract information from a wide variety of free text sources, and support public health surveillance, research, and interventions.

arxiv情報

著者 Joshua Harris,Timothy Laurence,Leo Loman,Fan Grayson,Toby Nonnenmacher,Harry Long,Loes WalsGriffith,Amy Douglas,Holly Fountain,Stelios Georgiou,Jo Hardstaff,Kathryn Hopkins,Y-Ling Chi,Galena Kuyumdzhieva,Lesley Larkin,Samuel Collins,Hamish Mohammed,Thomas Finnie,Luke Hounsome,Michael Borowitz,Steven Riley
発行日 2025-02-19 14:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG | Evaluating Large Language Models for Public Health Classification and Extraction Tasks はコメントを受け付けていません

SCALAR: Scientific Citation-based Live Assessment of Long-context Academic Reasoning

要約

大規模な言語モデルの評価(LLMS)の長いコンテキスト理解機能は依然として困難です。
学術論文とその引用ネットワークを活用する新しいベンチマークであるScalar(科学的引用ベースのライブ評価)を紹介します。
スカラーは、人間の注釈、制御可能な難易度、およびデータ汚染を防ぐ動的な更新メカニズムのない高品質のグラウンドトゥルースラベルの自動生成を特徴としています。
ICLR 2025ペーパーを使用して、8つの最先端のLLMを評価し、さまざまなコンテキストの長さと推論タイプにわたって長い科学文書を処理する能力と制限に関する重要な洞察を明らかにします。
当社のベンチマークは、LLM機能が進化するにつれて、長いコンテキストの理解における進歩を追跡するための信頼できる持続可能な方法を提供します。

要約(オリジナル)

Evaluating large language models’ (LLMs) long-context understanding capabilities remains challenging. We present SCALAR (Scientific Citation-based Live Assessment of Long-context Academic Reasoning), a novel benchmark that leverages academic papers and their citation networks. SCALAR features automatic generation of high-quality ground truth labels without human annotation, controllable difficulty levels, and a dynamic updating mechanism that prevents data contamination. Using ICLR 2025 papers, we evaluate 8 state-of-the-art LLMs, revealing key insights about their capabilities and limitations in processing long scientific documents across different context lengths and reasoning types. Our benchmark provides a reliable and sustainable way to track progress in long-context understanding as LLM capabilities evolve.

arxiv情報

著者 Renxi Wang,Honglin Mu,Liqun Ma,Lizhi Lin,Yunlong Feng,Timothy Baldwin,Xudong Han,Haonan Li
発行日 2025-02-19 14:15:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | SCALAR: Scientific Citation-based Live Assessment of Long-context Academic Reasoning はコメントを受け付けていません

GIMMICK — Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

要約

大規模なビジョン言語モデル(LVLM)は、その独特のパフォーマンスと幅広い適用性により、最近注目を集めています。
以前は、非西洋のコンテキストを含む使用シナリオでの有効性が不足していることが示されていますが、既存の研究は範囲が限られており、狭い範囲の文化をカバーし、少数の文化的側面のみに焦点を当てたり、限られた選択を評価したりします。
単一のタスクのみのモデルのみ。
グローバルに包括的なLVLM研究に向けて、6つのグローバルマクロ地域を代表する144か国で幅広い文化的知識を評価するために設計された広範なマルチモーダルベンチマークであるGimmickを紹介します。
Gimmickは、すべてのサイズの5つの独自および26のオープンウェイトモデルを含む、20のLVLMSと11 LLMを評価した728のユニークな文化イベントまたはファセットにまたがる3つの新しいデータセットの上に構築された6つのタスクで構成されています。
(1)地域の文化的バイアス、(2)モデルサイズの影響、(3)入力モダリティ、および(4)外部キューを体系的に調べます。
私たちの分析は、モデルとタスク全体の西洋文化に対する強いバイアスを明らかにし、モデルのサイズとパフォーマンスの間の強い相関関係、およびマルチモーダル入力と外部の地理的キューの有効性を強調しています。
さらに、モデルは、無形の側面(食物対儀式など)よりも具体的な知識を持ち、広範な文化的起源を認識しているが、より微妙な理解に苦しんでいることに優れていることがわかります。

要約(オリジナル)

Large Vision-Language Models (LVLMs) have recently gained attention due to their distinctive performance and broad applicability. While it has been previously shown that their efficacy in usage scenarios involving non-Western contexts falls short, existing studies are limited in scope, covering just a narrow range of cultures, focusing exclusively on a small number of cultural aspects, or evaluating a limited selection of models on a single task only. Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive multimodal benchmark designed to assess a broad spectrum of cultural knowledge across 144 countries representing six global macro-regions. GIMMICK comprises six tasks built upon three new datasets that span 728 unique cultural events or facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary and 26 open-weight models of all sizes. We systematically examine (1) regional cultural biases, (2) the influence of model size, (3) input modalities, and (4) external cues. Our analyses reveal strong biases toward Western cultures across models and tasks and highlight strong correlations between model size and performance, as well as the effectiveness of multimodal input and external geographic cues. We further find that models have more knowledge of tangible than intangible aspects (e.g., food vs. rituals) and that they excel in recognizing broad cultural origins but struggle with a more nuanced understanding.

arxiv情報

著者 Florian Schneider,Carolin Holtermann,Chris Biemann,Anne Lauscher
発行日 2025-02-19 14:27:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | GIMMICK — Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking はコメントを受け付けていません

EHOP: A Dataset of Everyday NP-Hard Optimization Problems

要約

自然言語で表現されたNPハード最適化問題のコレクションである、日常のハード最適化問題(EHOP)のデータセットを紹介します。
EHOPには、コンピューターサイエンスの教科書に見られる可能性のある問題の定式化、実生活で発生する可能性のある問題として装いられているバージョン、および逆ルールのよく知られている問題のバリエーションが含まれています。
複数のプロンプト戦略にまたがる最先端のLLMSは、実際のものや反転したカウンターパートよりも、教科書の問題を体系的に正確に解決することがわかります。
これは、LLMSが新しい問題に一般化できる推論能力を活用するのではなく、トレーニング中に見られるソリューションを適応させるという証拠を構成すると主張します。

要約(オリジナル)

We introduce the dataset of Everyday Hard Optimization Problems (EHOP), a collection of NP-hard optimization problems expressed in natural language. EHOP includes problem formulations that could be found in computer science textbooks, versions that are dressed up as problems that could arise in real life, and variants of well-known problems with inverted rules. We find that state-of-the-art LLMs, across multiple prompting strategies, systematically solve textbook problems more accurately than their real-life and inverted counterparts. We argue that this constitutes evidence that LLMs adapt solutions seen during training, rather than leveraging reasoning abilities that would enable them to generalize to novel problems.

arxiv情報

著者 Alex Duchnowski,Ellie Pavlick,Alexander Koller
発行日 2025-02-19 14:39:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68Q15, cs.CC, cs.CL, I.2.7 | EHOP: A Dataset of Everyday NP-Hard Optimization Problems はコメントを受け付けていません