Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization

要約

トランスモデルは、計算および保管リソースを株するキー価値(kV)キャッシュの成長のための非効率的なメモリ割り当てのために、因果言語モデリング(CLM)のスケーラビリティの課題に直面しています。
グループ化されたクエリの注意(GQA)やトークンレベルのKV最適化などの既存の方法は、効率を改善しますが、剛性のあるリソース割り当てに依存し、しばしば「低優先度」トークンを破棄したり、静的にグループ化したりして、トークンの重要性の動的なスペクトルに対処できません。
トークンごとの計算とメモリの割り当てを動的に最適化する新規混合(MOE)アプローチであるMixsgaを提案します。
以前のアプローチとは異なり、Mixsgaはすべてのトークンを保持しながら、KVグループサイズが変化し、粒度と効率のバランスをとる専門の専門家に適応的にルーティングします。
主要なノベルティには、次のものが含まれます。(1)学習された重要性スコアによって導かれたトークンワシの専門家選択ルーティングメカニズム、トークン廃棄なしの比例リソース割り当てを可能にします。
(2)パラメーターのオーバーヘッドを最小限に抑えるためのグループ化された注意投影全体の重量共有。
(3)CLMにおけるトレーニング関心の一貫性のための1ホットのルーティングの決定を確保するための補助的損失。
LLAMA3、Tinyllama、Opt、およびGemma2モデルファミリ全体の広範な評価は、静的ベースラインよりもMixsgaの優位性を示しています。
指導のフォローと継続的な前付のタスクで、Mixsgaは同じKV予算でより高いルージュLと低い困惑を達成します。

要約(オリジナル)

Transformer models face scalability challenges in causal language modeling (CLM) due to inefficient memory allocation for growing key-value (KV) caches, which strains compute and storage resources. Existing methods like Grouped Query Attention (GQA) and token-level KV optimization improve efficiency but rely on rigid resource allocation, often discarding ‘low-priority’ tokens or statically grouping them, failing to address the dynamic spectrum of token importance. We propose mixSGA, a novel mixture-of-expert (MoE) approach that dynamically optimizes token-wise computation and memory allocation. Unlike prior approaches, mixSGA retains all tokens while adaptively routing them to specialized experts with varying KV group sizes, balancing granularity and efficiency. Our key novelties include: (1) a token-wise expert-choice routing mechanism guided by learned importance scores, enabling proportional resource allocation without token discard; (2) weight-sharing across grouped attention projections to minimize parameter overhead; and (3) an auxiliary loss to ensure one-hot routing decisions for training-inference consistency in CLMs. Extensive evaluations across Llama3, TinyLlama, OPT, and Gemma2 model families show mixSGA’s superiority over static baselines. On instruction-following and continued pretraining tasks, mixSGA achieves higher ROUGE-L and lower perplexity under the same KV budgets.

arxiv情報

著者 Guanghui Song,Dongping Liao,Yiren Zhao,Kejiang Ye,Cheng-zhong Xu,Xitong Gao
発行日 2025-06-16 14:30:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Mixture of Weight-shared Heterogeneous Group Attention Experts for Dynamic Token-wise KV Optimization はコメントを受け付けていません

EmoDynamiX: Emotional Support Dialogue Strategy Prediction by Modelling MiXed Emotions and Discourse Dynamics

要約

苦痛を経験している人々に快適さとアドバイスを提供するために、感情的にインテリジェントな会話システムを設計することは、魅力的な研究分野です。
最近、大規模な言語モデル(LLMS)の進歩により、明示的な戦略予測ステップのないエンドツーエンドのダイアログエージェントが一般的になりました。
しかし、暗黙戦略の計画には透明性が欠けており、最近の研究では、LLMSの固有の嗜好バイアスが特定の社会感情的戦略に向けて高品質の感情的サポートの提供を妨げることが示されています。
この課題に対処するために、言語生成からのデカップリング戦略予測を提案し、新しいダイアログ戦略予測フレームワークであるEmodynamixを紹介します。これは、ユーザーの微細な感情とシステム戦略の間の談話ダイナミクスをモデル化し、パフォーマンスと透明性を向上させるために不均一なグラフを使用します。
2つのESCデータセットでの実験結果は、Emodynamixが、かなりのマージン(より良い習熟度とより低い優先バイアス)を持つ以前の最先端の方法を上回ることを示しています。
また、私たちのアプローチは、意思決定のバックトレースを可能にすることにより、より良い透明性を示しています。

要約(オリジナル)

Designing emotionally intelligent conversational systems to provide comfort and advice to people experiencing distress is a compelling area of research. Recently, with advancements in large language models (LLMs), end-to-end dialogue agents without explicit strategy prediction steps have become prevalent. However, implicit strategy planning lacks transparency, and recent studies show that LLMs’ inherent preference bias towards certain socio-emotional strategies hinders the delivery of high-quality emotional support. To address this challenge, we propose decoupling strategy prediction from language generation, and introduce a novel dialogue strategy prediction framework, EmoDynamiX, which models the discourse dynamics between user fine-grained emotions and system strategies using a heterogeneous graph for better performance and transparency. Experimental results on two ESC datasets show EmoDynamiX outperforms previous state-of-the-art methods with a significant margin (better proficiency and lower preference bias). Our approach also exhibits better transparency by allowing backtracing of decision making.

arxiv情報

著者 Chenwei Wan,Matthieu Labeau,Chloé Clavel
発行日 2025-06-16 14:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EmoDynamiX: Emotional Support Dialogue Strategy Prediction by Modelling MiXed Emotions and Discourse Dynamics はコメントを受け付けていません

Characterizing Linguistic Shifts in Croatian News via Diachronic Word Embeddings

要約

単語の意味論が時間の経過とともにどのように変化するかを測定すると、文化と視点がどのように変化するかについての理解が向上します。
時ダーニックワードの埋め込みは、このシフトを定量化するのに役立ちますが、以前の研究では、実質的に一時的に注釈されたコーパスを活用しました。
この作業では、過去25年間にわたる950万のクロアチアのニュース記事のコーパスを使用し、5年間に訓練されたスキップグラムワードの埋め込みを使用してセマンティックの変更を定量化します。
私たちの分析では、単語の埋め込みは、このタイムスパンの主要なトピックに関連する用語の言語シフトをキャプチャすることがわかります(Covid-19、欧州連合に加わるクロアチア、技術の進歩)。
また、2020年以降のエンコードからの埋め込みが、感情分析タスクの陽性の増加をエンコードし、同じ期間にわたってメンタルヘルスの低下を報告する研究を対比するという証拠を見つけます。

要約(オリジナル)

Measuring how semantics of words change over time improves our understanding of how cultures and perspectives change. Diachronic word embeddings help us quantify this shift, although previous studies leveraged substantial temporally annotated corpora. In this work, we use a corpus of 9.5 million Croatian news articles spanning the past 25 years and quantify semantic change using skip-gram word embeddings trained on five-year periods. Our analysis finds that word embeddings capture linguistic shifts of terms pertaining to major topics in this timespan (COVID-19, Croatia joining the European Union, technological advancements). We also find evidence that embeddings from post-2020 encode increased positivity in sentiment analysis tasks, contrasting studies reporting a decline in mental health over the same period.

arxiv情報

著者 David Dukić,Ana Barić,Marko Čuljak,Josip Jukić,Martin Tutek
発行日 2025-06-16 14:54:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Characterizing Linguistic Shifts in Croatian News via Diachronic Word Embeddings はコメントを受け付けていません

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

要約

世界初のオープンウェイトで大規模なハイブリッドアテナンス推論モデルであるMinimax-M1を紹介します。
Minimax-M1は、ハイブリッドの混合物の混合物(MOE)アーキテクチャと、稲妻の注意メカニズムを組み合わせたものです。
このモデルは、以前のMinimax-Text-01モデルに基づいて開発されています。これには、トークンごとに459億パラメーターがアクティブ化された合計4560億パラメーターが含まれています。
M1モデルは、DeepSeek R1のコンテキストサイズの8倍のコンテキスト長100万トークンをネイティブにサポートします。
さらに、Minimax-M1の稲妻注意メカニズムにより、テスト時間計算の効率的なスケーリングが可能になります。
これらのプロパティにより、M1は特に長い入力を処理し、幅広く考える必要がある複雑なタスクに適しています。
Minimax-M1は、Sandboxベースの実際のソフトウェアエンジニアリング環境など、さまざまな問題に関する大規模な補強学習(RL)を使用してトレーニングされています。
RLトレーニングに対するM1の固有の効率的優位性に加えて、RL効率をさらに高めるための新しいRLアルゴリズムであるCispoを提案します。
Cispo Clipsの重要性トークンの更新ではなく、重みのサンプリングの重要性があり、他の競合RLバリアントを上回ります。
ハイブリッドアテナントとCISPOを組み合わせることで、512 H800 GPUでのMIMIMAX-M1のフルRLトレーニングを3週間でわずか3週間で完了し、レンタルコストはわずか534,700ドルです。
40Kおよび80Kの思考予算を持つMinimax-M1モデルの2つのバージョンをリリースします。40Kモデルは、80Kトレーニングの中間相を表します。
標準ベンチマークでの実験は、私たちのモデルが、複雑なソフトウェアエンジニアリング、ツール利用、およびロングコンテキストタスクの特別な強度を備えた、元のDeepSeek-R1やQWEN3-235Bなどの強力なオープンウェイトモデルと同等または優れていることを示しています。
https://github.com/minimax-ai/minimax-m1でミニマックスm1を公開しています。

要約(オリジナル)

We introduce MiniMax-M1, the world’s first open-weight, large-scale hybrid-attention reasoning model. MiniMax-M1 is powered by a hybrid Mixture-of-Experts (MoE) architecture combined with a lightning attention mechanism. The model is developed based on our previous MiniMax-Text-01 model, which contains a total of 456 billion parameters with 45.9 billion parameters activated per token. The M1 model natively supports a context length of 1 million tokens, 8x the context size of DeepSeek R1. Furthermore, the lightning attention mechanism in MiniMax-M1 enables efficient scaling of test-time compute. These properties make M1 particularly suitable for complex tasks that require processing long inputs and thinking extensively. MiniMax-M1 is trained using large-scale reinforcement learning (RL) on diverse problems including sandbox-based, real-world software engineering environments. In addition to M1’s inherent efficiency advantage for RL training, we propose CISPO, a novel RL algorithm to further enhance RL efficiency. CISPO clips importance sampling weights rather than token updates, outperforming other competitive RL variants. Combining hybrid-attention and CISPO enables MiniMax-M1’s full RL training on 512 H800 GPUs to complete in only three weeks, with a rental cost of just $534,700. We release two versions of MiniMax-M1 models with 40K and 80K thinking budgets respectively, where the 40K model represents an intermediate phase of the 80K training. Experiments on standard benchmarks show that our models are comparable or superior to strong open-weight models such as the original DeepSeek-R1 and Qwen3-235B, with particular strengths in complex software engineering, tool utilization, and long-context tasks. We publicly release MiniMax-M1 at https://github.com/MiniMax-AI/MiniMax-M1.

arxiv情報

著者 MiniMax,:,Aili Chen,Aonian Li,Bangwei Gong,Binyang Jiang,Bo Fei,Bo Yang,Boji Shan,Changqing Yu,Chao Wang,Cheng Zhu,Chengjun Xiao,Chengyu Du,Chi Zhang,Chu Qiao,Chunhao Zhang,Chunhui Du,Congchao Guo,Da Chen,Deming Ding,Dianjun Sun,Dong Li,Enwei Jiao,Haigang Zhou,Haimo Zhang,Han Ding,Haohai Sun,Haoyu Feng,Huaiguang Cai,Haichao Zhu,Jian Sun,Jiaqi Zhuang,Jiaren Cai,Jiayuan Song,Jin Zhu,Jingyang Li,Jinhao Tian,Jinli Liu,Junhao Xu,Junjie Yan,Junteng Liu,Junxian He,Kaiyi Feng,Ke Yang,Kecheng Xiao,Le Han,Leyang Wang,Lianfei Yu,Liheng Feng,Lin Li,Lin Zheng,Linge Du,Lingyu Yang,Lunbin Zeng,Minghui Yu,Mingliang Tao,Mingyuan Chi,Mozhi Zhang,Mujie Lin,Nan Hu,Nongyu Di,Peng Gao,Pengfei Li,Pengyu Zhao,Qibing Ren,Qidi Xu,Qile Li,Qin Wang,Rong Tian,Ruitao Leng,Shaoxiang Chen,Shaoyu Chen,Shengmin Shi,Shitong Weng,Shuchang Guan,Shuqi Yu,Sichen Li,Songquan Zhu,Tengfei Li,Tianchi Cai,Tianrun Liang,Weiyu Cheng,Weize Kong,Wenkai Li,Xiancai Chen,Xiangjun Song,Xiao Luo,Xiao Su,Xiaobo Li,Xiaodong Han,Xinzhu Hou,Xuan Lu,Xun Zou,Xuyang Shen,Yan Gong,Yan Ma,Yang Wang,Yiqi Shi,Yiran Zhong,Yonghong Duan,Yongxiang Fu,Yongyi Hu,Yu Gao,Yuanxiang Fan,Yufeng Yang,Yuhao Li,Yulin Hu,Yunan Huang,Yunji Li,Yunzhi Xu,Yuxin Mao,Yuxuan Shi,Yuze Wenren,Zehan Li,Zelin Li,Zhanxu Tian,Zhengmao Zhu,Zhenhua Fan,Zhenzhen Wu,Zhichao Xu,Zhihang Yu,Zhiheng Lyu,Zhuo Jiang,Zibo Gao,Zijia Wu,Zijian Song,Zijun Sun
発行日 2025-06-16 15:08:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention はコメントを受け付けていません

Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems

要約

このペーパーでは、MLC-SLM Challenge 2025のシステムを紹介し、大規模な言語モデル(LLMS)を使用した多言語認識と言語モデリングに焦点を当てています。
私たちのアプローチは、微調整されたささやきのささやき-V3エンコーダーと、効率的なプロジェクターアーキテクチャとさまざまなデコーダー構成を組み合わせています。
エンコーダー、プロジェクター、およびLLMコンポーネントを徐々に最適化する3段階のトレーニング方法を採用しています。
当社のシステムは、QWEN2.5-7Bをデコーダーのみの言語モデルとして使用して、GEMMA3-12Bを使用して16.63%のプライベートテストの平均WER/CER結果で競争力のあるパフォーマンスを達成します。

要約(オリジナル)

This paper presents our system for the MLC-SLM Challenge 2025, focusing on multilingual speech recognition and language modeling with large language models (LLMs). Our approach combines a fine-tuned Whisper-large-v3 encoder with efficient projector architectures and various decoder configurations. We employ a three-stage training methodology that progressively optimizes the encoder, projector, and LLM components. Our system achieves competitive performance with a private test average WER/CER result of 16.63% using the Gemma3-12B and 18.6% using the Qwen2.5-7B as decoder-only language model.

arxiv情報

著者 Tuan Nguyen,Long-Vu Hoang,Huy-Dat Tran
発行日 2025-06-16 15:23:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | Qwen vs. Gemma Integration with Whisper: A Comparative Study in Multilingual SpeechLLM Systems はコメントを受け付けていません

Idiosyncrasies in Large Language Models

要約

この作業では、大規模な言語モデル(LLMS)で特異性を発表して研究します。これは、モデルを区別するために使用できる出力のユニークなパターンです。
そのためには、単純な分類タスクを検討します。特定のテキスト出力を与えられた場合、目的はテキストを生成するソースLLMを予測することです。
LLMのさまざまなグループにわたってこの合成タスクを評価し、LLM生成テキストに単に微調整するテキスト埋め込みモデルが優れた分類精度をもたらすことを発見しました。
特に、ChATGPT、Claude、Grok、Gemini、およびDeepSeekを含む5方向分類問題で、保有された検証データの97.1%の精度を達成します。
私たちのさらなる調査は、これらの特異性が単語レベルの分布に根ざしていることを明らかにしています。
これらのパターンは、テキストが外部LLMによって書き換え、翻訳、または要約されている場合でも持続し、セマンティックコンテンツにもエンコードされていることを示唆しています。
さらに、LLMを審査員として活用して、各モデルの特異性の詳細で自由回答形式の説明を生成します。
最後に、合成データに関するトレーニング、モデルの類似性の推測、LLMの堅牢な評価など、調査結果のより広範な意味について説明します。
コードはhttps://github.com/locuslab/llm-idiosyncrasiesで入手できます。

要約(オリジナル)

In this work, we unveil and study idiosyncrasies in Large Language Models (LLMs) — unique patterns in their outputs that can be used to distinguish the models. To do so, we consider a simple classification task: given a particular text output, the objective is to predict the source LLM that generates the text. We evaluate this synthetic task across various groups of LLMs and find that simply fine-tuning text embedding models on LLM-generated texts yields excellent classification accuracy. Notably, we achieve 97.1% accuracy on held-out validation data in the five-way classification problem involving ChatGPT, Claude, Grok, Gemini, and DeepSeek. Our further investigation reveals that these idiosyncrasies are rooted in word-level distributions. These patterns persist even when the texts are rewritten, translated, or summarized by an external LLM, suggesting that they are also encoded in the semantic content. Additionally, we leverage LLM as judges to generate detailed, open-ended descriptions of each model’s idiosyncrasies. Finally, we discuss the broader implications of our findings, including training on synthetic data, inferring model similarity, and robust evaluation of LLMs. Code is available at https://github.com/locuslab/llm-idiosyncrasies.

arxiv情報

著者 Mingjie Sun,Yida Yin,Zhiqiu Xu,J. Zico Kolter,Zhuang Liu
発行日 2025-06-16 15:27:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Idiosyncrasies in Large Language Models はコメントを受け付けていません

Experiential Semantic Information and Brain Alignment: Are Multimodal Models Better than Language Models?

要約

計算言語学の一般的な仮定は、マルチモーダルモデルによって学んだテキスト表現は、画像や音声に基づいているため、言語のみのモデルよりも豊かで人間のようなものであることです。
ただし、これが真であるかどうかを確認する実証研究には、ほとんど欠けています。
対照的なマルチモーダルモデルと言語のみのモデルからの単語表現を、既存の標準ベースの「体験モデル」によって定義され、人間のfMRI応答と一致するように、彼らが体験情報をキャプチャする程度での単語表現を比較することにより、このギャップに対処します。
我々の結果は、驚くべきことに、言語のみのモデルが両方の点でマルチモーダルモデルよりも優れていることを示しています。
さらに、体験モデルと共有されているものを超えて、よりユニークな脳関連のセマンティック情報を学びます。
全体として、私たちの研究は、マルチモーダルデータソースによって提供される補完的なセマンティック情報をよりよく統合する計算モデルを開発する必要性を強調しています。

要約(オリジナル)

A common assumption in Computational Linguistics is that text representations learnt by multimodal models are richer and more human-like than those by language-only models, as they are grounded in images or audio — similar to how human language is grounded in real-world experiences. However, empirical studies checking whether this is true are largely lacking. We address this gap by comparing word representations from contrastive multimodal models vs. language-only ones in the extent to which they capture experiential information — as defined by an existing norm-based ‘experiential model’ — and align with human fMRI responses. Our results indicate that, surprisingly, language-only models are superior to multimodal ones in both respects. Additionally, they learn more unique brain-relevant semantic information beyond that shared with the experiential model. Overall, our study highlights the need to develop computational models that better integrate the complementary semantic information provided by multimodal data sources.

arxiv情報

著者 Anna Bavaresco,Raquel Fernández
発行日 2025-06-16 15:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Experiential Semantic Information and Brain Alignment: Are Multimodal Models Better than Language Models? はコメントを受け付けていません

A Structured Bangla Dataset of Disease-Symptom Associations to Improve Diagnostic Accuracy

要約

疾病症候群のデータセットは重要であり、医学研究、疾患診断、臨床的意思決定、およびAI主導の健康管理アプリケーションの需要があります。
これらのデータセットは、特定の疾患に関連する症状パターンを特定し、診断精度を改善し、早期検出を可能にするのに役立ちます。
この研究で提示されたデータセットは、さまざまなオンラインソース、医学文献、公開されている健康データベースから病気と症​​状の関係を体系的に編集します。
このデータは、ピアレビューされた医学記事、臨床症例研究、および疾病症候群協会の報告を分析することで収集されました。
検証済みの医療ソースのみがデータセットに含まれていましたが、非ピアレビューおよび逸話源からのソースは除外されました。
データセットは表形式で構成されており、最初の列は病気を表し、残りの列は症状を表します。
各症状細胞にはバイナリ値(1または0)が含まれており、症状が疾患に関連しているかどうかを示します(存在する場合は1、不在の場合は0)。
これにより、この構造化された表現により、データセットは、機械学習ベースの疾患予測、臨床意思決定支援システム、疫学研究など、幅広い用途に非常に役立ちます。
疾病症候群データセットの分野にはいくつかの進歩がありますが、バングラ言語の構造化されたデータセットには大きなギャップがあります。
このデータセットは、多言語医療情報学ツールの開発を促進し、過小評価されている言語コミュニティの疾患予測モデルを改善することにより、そのギャップを埋めることを目的としています。
さらなる開発には、地域固有の疾患と、診断パフォーマンスを向上させるための症状関連のさらなる微調整を含める必要があります

要約(オリジナル)

Disease-symptom datasets are significant and in demand for medical research, disease diagnosis, clinical decision-making, and AI-driven health management applications. These datasets help identify symptom patterns associated with specific diseases, thus improving diagnostic accuracy and enabling early detection. The dataset presented in this study systematically compiles disease-symptom relationships from various online sources, medical literature, and publicly available health databases. The data was gathered through analyzing peer-reviewed medical articles, clinical case studies, and disease-symptom association reports. Only the verified medical sources were included in the dataset, while those from non-peer-reviewed and anecdotal sources were excluded. The dataset is structured in a tabular format, where the first column represents diseases, and the remaining columns represent symptoms. Each symptom cell contains a binary value (1 or 0), indicating whether a symptom is associated with a disease (1 for presence, 0 for absence). Thereby, this structured representation makes the dataset very useful for a wide range of applications, including machine learning-based disease prediction, clinical decision support systems, and epidemiological studies. Although there are some advancements in the field of disease-symptom datasets, there is a significant gap in structured datasets for the Bangla language. This dataset aims to bridge that gap by facilitating the development of multilingual medical informatics tools and improving disease prediction models for underrepresented linguistic communities. Further developments should include region-specific diseases and further fine-tuning of symptom associations for better diagnostic performance

arxiv情報

著者 Abdullah Al Shafi,Rowzatul Zannat,Abdul Muntakim,Mahmudul Hasan
発行日 2025-06-16 15:38:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Structured Bangla Dataset of Disease-Symptom Associations to Improve Diagnostic Accuracy はコメントを受け付けていません

An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability

要約

大規模な言語モデル(LLMS)が進歩し続けるにつれて、特に自由な指導に従うタスクには、信頼できる評価方法が不可欠です。
LLM-as-a-judgeは、LLMを評価者として使用して自動評価を可能にしますが、その信頼性は不確実なままです。
この作業では、その信頼性に影響を与える重要な要因を分析し、人間の判断と評価の一貫性との整合に焦点を当てています。
BigGenbenchとEvalbiasbenchを使用して、評価設計、解読戦略、および評価におけるチェーンオブテュート(COT)推論の効果を研究します。
我々の結果は、評価基準が信頼性にとって重要であり、非決定的なサンプリングが決定論的評価よりも人間の好みとの調整を改善し、COTの推論により、明確な評価基準が存在する場合、最小限の利益を提供することが示されています。

要約(オリジナル)

As large language models (LLMs) continue to advance, reliable evaluation methods are essential particularly for open-ended, instruction-following tasks. LLM-as-a-Judge enables automatic evaluation using LLMs as evaluators, but its reliability remains uncertain. In this work, we analyze key factors affecting its trustworthiness, focusing on alignment with human judgments and evaluation consistency. Using BIGGENBench and EvalBiasBench, we study the effects of evaluation design, decoding strategies, and Chain-of-Tought (CoT) reasoning in evaluation. Our results show that evaluation criteria are critical for reliability, non-deterministic sampling improves alignment with human preferences over deterministic evaluation, and CoT reasoning offers minimal gains when clear evaluation criteria are present.

arxiv情報

著者 Yusuke Yamauchi,Taro Yano,Masafumi Oyamada
発行日 2025-06-16 16:04:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability はコメントを受け付けていません

EvolvTrip: Enhancing Literary Character Understanding with Temporal Theory-of-Mind Graphs

要約

キャラクターの魅力的な描写は、物語の執筆の成功に不可欠です。
読者にとって、キャラクターの特性を評価するには、複雑なストーリーラインの過程で進化する信念、欲求、意図、理論の理論(トム)として知られる認知スキルを推測する能力が必要です。
長期にわたる物語でトムの推論を実行するには、読者が歴史的背景を現在の物語情報と統合する必要があります。これは、人間が優れているが大規模な言語モデル(LLM)がしばしば苦労するタスクです。
LLMSのTOM推論能力を長い物語で体系的に評価するために、古典文学の4つのTOM次元にわたってキャラクター中心の質問のベンチマークであるLitchartomを構築します。
さらに、物語全体の心理的発達を追跡する視点を意識した一時的な知識グラフであるEvolvtripを紹介します。
私たちの実験は、Evolvtripが、挑戦的な拡張コンテキストシナリオであっても、さまざまなスケール全体でLLMのパフォーマンスを一貫して強化することを示しています。
EvolvTripは、より小さなモデルにとって特に価値があり、パフォーマンスのギャップをより大きなLLMで部分的に埋め、長い物語との優れた互換性を示していることがわかります。
私たちの調査結果は、物語の理解における一時的な性格の精神状態の明示的な表現の重要性を強調し、より洗練されたキャラクター理解の基盤を提供します。
データとコードは、https://github.com/bernard-yang/evolvtripで公開されています。

要約(オリジナル)

A compelling portrayal of characters is essential to the success of narrative writing. For readers, appreciating a character’s traits requires the ability to infer their evolving beliefs, desires, and intentions over the course of a complex storyline, a cognitive skill known as Theory-of-Mind (ToM). Performing ToM reasoning in prolonged narratives requires readers to integrate historical context with current narrative information, a task at which humans excel but Large Language Models (LLMs) often struggle. To systematically evaluate LLMs’ ToM reasoning capability in long narratives, we construct LitCharToM, a benchmark of character-centric questions across four ToM dimensions from classic literature. Further, we introduce EvolvTrip, a perspective-aware temporal knowledge graph that tracks psychological development throughout narratives. Our experiments demonstrate that EvolvTrip consistently enhances performance of LLMs across varying scales, even in challenging extended-context scenarios. EvolvTrip proves to be particularly valuable for smaller models, partially bridging the performance gap with larger LLMs and showing great compatibility with lengthy narratives. Our findings highlight the importance of explicit representation of temporal character mental states in narrative comprehension and offer a foundation for more sophisticated character understanding. Our data and code are publicly available at https://github.com/Bernard-Yang/EvolvTrip.

arxiv情報

著者 Bohao Yang,Hainiu Xu,Jinhua Du,Ze Li,Yulan He,Chenghua Lin
発行日 2025-06-16 16:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | EvolvTrip: Enhancing Literary Character Understanding with Temporal Theory-of-Mind Graphs はコメントを受け付けていません