Translation in the Hands of Many:Centering Lay Users in Machine Translation Interactions

要約

社会的および技術的要因を収束させることで、言語技術を言語間で採用するユーザー向けアプリケーションに変換しました。
機械翻訳(MT)はグローバルなツールになり、多言語の大規模言語モデル(LLMS)を搭載したダイアログシステムによってもサポートされています。
このアクセシビリティにより、MTのリーチがレイユーザーの広大な基盤に拡大しました。多くの場合、言語やテクノロジー自体の専門知識はほとんどありません。
それにもかかわらず、この多様なユーザーグループ(それらのニーズ、経験、およびこれらのシステムとのやり取り)によって消費されるMTの理解は、依然として限られています。
このペーパーでは、非専門家ユーザーに焦点を当てたMTユーザープロファイルのシフトと、これらのシステムとの関与がLLMSでどのように変化するかを追跡します。
これらの相互作用を形作る可能性、信頼、リテラシーの3つの重要な要因を特定し、MTをユーザーのニーズに合わせて対処する必要があります。
これらの次元を調査することにより、ユーザー中心のアプローチで将来のMTを導く洞察を提供します。

要約(オリジナル)

Converging societal and technical factors have transformed language technologies into user-facing applications employed across languages. Machine Translation (MT) has become a global tool, with cross-lingual services now also supported by dialogue systems powered by multilingual Large Language Models (LLMs). This accessibility has expanded MT’s reach to a vast base of lay users, often with little to no expertise in the languages or the technology itself. Despite this, the understanding of MT consumed by this diverse group of users — their needs, experiences, and interactions with these systems — remains limited. This paper traces the shift in MT user profiles, focusing on non-expert users and how their engagement with these systems may change with LLMs. We identify three key factors — usability, trust, and literacy — that shape these interactions and must be addressed to align MT with user needs. By exploring these dimensions, we offer insights to guide future MT with a user-centered approach.

arxiv情報

著者 Beatrice Savoldi,Alan Ramponi,Matteo Negri,Luisa Bentivogli
発行日 2025-02-19 14:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Translation in the Hands of Many:Centering Lay Users in Machine Translation Interactions はコメントを受け付けていません

From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

要約

大規模な言語モデル(LLM)は、幅広いタスクのために作業環境でますます使用されており、個々の問題を単独で解決するのに優れています。
しかし、彼らはまた、長期的な相互作用に関して効果的に協力することができますか?
これを調査するために、リアルな設定をシミュレートし、無関係な情報の中で簡単なコーディング命令を追跡および実行するLLMSの機能をテストするために設計された合成マルチセッションデータセットであるメモリコードを紹介します。
テストしたすべてのモデルは、分離命令をうまく処理しますが、GPT-4Oのような最先端モデルのパフォーマンスでさえ、セッション全体に命令が広がると劣化します。
私たちの分析は、これが長い指導チェーンよりも情報を取得して統合しなかったことによるものであることを示唆しています。
私たちの結果は、現在のLLMの基本的な制限を強調し、長い相互作用で効果的に協力する能力を制限しています。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used in working environments for a wide range of tasks, excelling at solving individual problems in isolation. However, are they also able to effectively collaborate over long-term interactions? To investigate this, we introduce MemoryCode, a synthetic multi-session dataset designed to test LLMs’ ability to track and execute simple coding instructions amid irrelevant information, simulating a realistic setting. While all the models we tested handle isolated instructions well, even the performance of state-of-the-art models like GPT-4o deteriorates when instructions are spread across sessions. Our analysis suggests this is due to their failure to retrieve and integrate information over long instruction chains. Our results highlight a fundamental limitation of current LLMs, restricting their ability to collaborate effectively in long interactions.

arxiv情報

著者 Nathanaël Carraz Rakotonirina,Mohammed Hamdy,Jon Ander Campos,Lucas Weber,Alberto Testoni,Marzieh Fadaee,Sandro Pezzelle,Marco Del Tredici
発行日 2025-02-19 14:58:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions はコメントを受け付けていません

Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations

要約

大規模な調査は、社会科学の研究と政策を通知するための不可欠なツールですが、ランニング調査は費用がかかり、時間型であります。
したがって、グループレベルの調査結果を正確にシミュレートできれば、これは社会科学研究にとって非常に価値があります。
以前の研究では、主にプロンプ​​トを通じて人間の行動をシミュレートするための大規模な言語モデル(LLM)の使用を調査しました。
この論文では、調査対応の分布をシミュレートするタスクのためにLLMSを専門化する最初の人です。
テストベッドとして、2つのグローバルな文化的調査からの国レベルの結果を使用しています。
特定の質問の予測された応答分布と実際の応答分布との相違を最小限に抑えるために、最初のトークンの確率に基づいて微調整方法を考案します。
次に、目に見えない質問、国、完全に目に見えない調査でさえ、この方法は他の方法とゼロショット分類器を大幅に上回ることを示します。
私たちの最高のモデルでさえ、特に目に見えない質問でタスクと格闘していますが、私たちの結果はシミュレーションの専門化の利点を示しています。

要約(オリジナル)

Large-scale surveys are essential tools for informing social science research and policy, but running surveys is costly and time-intensive. If we could accurately simulate group-level survey results, this would therefore be very valuable to social science research. Prior work has explored the use of large language models (LLMs) for simulating human behaviors, mostly through prompting. In this paper, we are the first to specialize LLMs for the task of simulating survey response distributions. As a testbed, we use country-level results from two global cultural surveys. We devise a fine-tuning method based on first-token probabilities to minimize divergence between predicted and actual response distributions for a given question. Then, we show that this method substantially outperforms other methods and zero-shot classifiers, even on unseen questions, countries, and a completely unseen survey. While even our best models struggle with the task, especially on unseen questions, our results demonstrate the benefits of specialization for simulation, which may accelerate progress towards sufficiently accurate simulation in the future.

arxiv情報

著者 Yong Cao,Haijiang Liu,Arnav Arora,Isabelle Augenstein,Paul Röttger,Daniel Hershcovich
発行日 2025-02-19 15:05:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations はコメントを受け付けていません

Dialogue Language Model with Large-Scale Persona Data Engineering

要約

ChatGptのようなモデルで例示されるように、ペルソナの一貫性を維持することは、オープンドメインダイアログシステムの適用において最も重要です。
大幅な進歩にもかかわらず、現在のペルソナダイアログデータセットの限られた規模と多様性は、堅牢なペルソナ親和的な対話モデルを達成するための課題のままです。
この研究では、大規模なトレーニングの成功からインスピレーションを得て、ペルソナダイアログデータセットで広範な生成前トレーニングを採用してペルソナの一貫性を強化するPPDSを紹介します。
具体的には、膨大なペルソナダイアログデータセットを自律的かつ正確に生成するように設計されたペルソナ抽出モデルを提示します。
さらに、作成されたデータセットに固有の無効なペルソナバイアスに対処するために、先駆的なペルソナ増強技術を発表します。
定量的および人間の評価は、提案されたモデルの優れた応答の質とペルソナの一貫性を一貫して強調し、その有効性を強調しています。

要約(オリジナル)

Maintaining persona consistency is paramount in the application of open-domain dialogue systems, as exemplified by models like ChatGPT. Despite significant advancements, the limited scale and diversity of current persona dialogue datasets remain challenges to achieving robust persona-consistent dialogue models. In this study, drawing inspiration from the success of large-scale pre-training, we introduce PPDS, an open-domain persona dialogue system that employs extensive generative pre-training on a persona dialogue dataset to enhance persona consistency. Specifically, we present a persona extraction model designed to autonomously and precisely generate vast persona dialogue datasets. Additionally, we unveil a pioneering persona augmentation technique to address the invalid persona bias inherent in the constructed dataset. Both quantitative and human evaluations consistently highlight the superior response quality and persona consistency of our proposed model, underscoring its effectiveness.

arxiv情報

著者 Mengze Hong,Chen Jason Zhang,Chaotao Chen,Rongzhong Lian,Di Jiang
発行日 2025-02-19 15:08:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | Dialogue Language Model with Large-Scale Persona Data Engineering はコメントを受け付けていません

NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns

要約

会話は、社会的、認知的、計算科学に対する関心の高まりの対象です。
それでも、会話のデータセットがサイズと複雑さを増やし続けるにつれて、研究者は、音声からテキストの成績証明書を会話ターンにセグメント化するためのスケーラブルな方法を欠いています。
この課題について説明し、自然主義交換のダイナミクスを正確にキャプチャするように設計されたターンセグメンテーションアルゴリズム「ナチュラル」を導入します。
ナチュラルは、スピーカーの主要な会話ターンを、バックチャネル、短い間隔、および会話を特徴付ける他の形式の並列スピーチなど、リスナーの二次的な発話から際立たせることによって機能します。
大規模な会話コーパスからのデータを使用して、既存の方法から派生した転写産物と比較して、天然導体由来の転写産物がどのように好ましい統計的および推論的特性を示すかを示します。
天然ターンアルゴリズムは、マシンで生成された転写処理方法の改善、または研究者が会話科学の中心的な目標である社会的相互作用から生じるより広範な結果とターンテイキングのダイナミクスをリンクできるようにする「ターンモデル」を表します。

要約(オリジナル)

Conversation is the subject of increasing interest in the social, cognitive, and computational sciences. And yet, as conversational datasets continue to increase in size and complexity, researchers lack scalable methods to segment speech-to-text transcripts into conversational turns-the basic building blocks of social interaction. We discuss this challenge and then introduce ‘NaturalTurn,’ a turn segmentation algorithm designed to accurately capture the dynamics of naturalistic exchange. NaturalTurn operates by distinguishing speakers’ primary conversational turns from listeners’ secondary utterances, such as backchannels, brief interjections, and other forms of parallel speech that characterize conversation. Using data from a large conversation corpus, we show how NaturalTurn-derived transcripts demonstrate favorable statistical and inferential characteristics compared to transcripts derived from existing methods. The NaturalTurn algorithm represents an improvement in machine-generated transcript processing methods, or ‘turn models’ that will enable researchers to link turn-taking dynamics with the broader outcomes that result from social interaction, a central goal of conversation science.

arxiv情報

著者 Gus Cooney,Andrew Reece
発行日 2025-02-19 15:21:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns はコメントを受け付けていません

On the Duality between Gradient Transformations and Adapters

要約

線形勾配変換を伴うニューラルネットワークのメモリ効率の最適化を研究します。ここでは、勾配が完全なパラメーター空間よりも低次元空間に線形にマッピングされるため、勾配の蓄積とオプティマイザー状態の持続に必要なメモリを保存します。
モデルパラメーターは、最初に低次元空間で最適化ステップを実行し、次に線形マップの転置を介して元のパラメーター空間に戻ることにより更新されます。
この変換された空間でモデルを最適化することは、モデルパラメーターを追加する線形アダプターを介して元のモデルを再分析することと同等であり、アダプターのパラメーターのみを最適化するものであることを示します。
変換がKronecker-Factoredの場合、これにより、銀河と片側のロラの間の同等性が確立されます。
勾配変換とアダプターベースのリダメータ化の間のこの二重性は、メモリ効率の高いトレーニングに対する既存のアプローチを統合し、トレーニングの効率とメモリの使用を改善するための新しい技術を示唆していることを示します。

要約(オリジナル)

We study memory-efficient optimization of neural networks with linear gradient transformations, where the gradients are linearly mapped to a lower dimensional space than the full parameter space, thus saving memory required for gradient accumulation and optimizer state persistence. The model parameters are updated by first performing an optimization step in the lower dimensional space and then going back into the original parameter space via the linear map’s transpose. We show that optimizing the model in this transformed space is equivalent to reparameterizing the original model through a linear adapter that additively modifies the model parameters, and then only optimizing the adapter’s parameters. When the transformation is Kronecker-factored, this establishes an equivalence between GaLore and one-sided LoRA. We show that this duality between gradient transformations and adapter-based reparameterizations unifies existing approaches to memory-efficient training and suggests new techniques for improving training efficiency and memory use.

arxiv情報

著者 Lucas Torroba-Hennigen,Hunter Lang,Han Guo,Yoon Kim
発行日 2025-02-19 15:26:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | On the Duality between Gradient Transformations and Adapters はコメントを受け付けていません

Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking

要約

大規模な言語モデル(LLM)は、特に複雑な推論を必要とする重要なトークンの処理において、パラメーター制約の下で固有のパフォーマンスボトルネックに直面しています。
経験的分析により、挑戦的なトークンは層全体に突然の勾配スパイクを誘発し、標準変圧器の建築ストレスポイントを公開します。
この洞察に基づいて、私たちは内なる思考変圧器(ITT)を提案します。これは、層の計算を暗黙の思考ステップとして再考します。
ITTは、適応トークンルーティングを介して計算を動的に割り当て、残留思考接続を介して表現を繰り返し洗練し、思考ステップエンコードを使用して推論フェーズを区別します。
ITTにより、パラメーター拡張なしに重要なトークンをより深く処理できます。
162M-466Mパラメーターモデルの評価では、ITTが162mパラメーターのみを使用して466mの変圧器の96.5%のパフォーマンスを達成し、トレーニングデータを43.2 \%減らし、11のベンチマークでトランス/ループバリエーションを上回ることが示されています。
推論中に弾性計算割り当てを有効にすることにより、ITTは、暗黙の思考経路のアーキテクチャ対応の最適化を通じてパフォーマンスと効率のバランスをとります。

要約(オリジナル)

Large language models (LLMs) face inherent performance bottlenecks under parameter constraints, particularly in processing critical tokens that demand complex reasoning. Empirical analysis reveals challenging tokens induce abrupt gradient spikes across layers, exposing architectural stress points in standard Transformers. Building on this insight, we propose Inner Thinking Transformer (ITT), which reimagines layer computations as implicit thinking steps. ITT dynamically allocates computation through Adaptive Token Routing, iteratively refines representations via Residual Thinking Connections, and distinguishes reasoning phases using Thinking Step Encoding. ITT enables deeper processing of critical tokens without parameter expansion. Evaluations across 162M-466M parameter models show ITT achieves 96.5\% performance of a 466M Transformer using only 162M parameters, reduces training data by 43.2\%, and outperforms Transformer/Loop variants in 11 benchmarks. By enabling elastic computation allocation during inference, ITT balances performance and efficiency through architecture-aware optimization of implicit thinking pathways.

arxiv情報

著者 Yilong Chen,Junyuan Shang,Zhenyu Zhang,Yanxi Xie,Jiawei Sheng,Tingwen Liu,Shuohuan Wang,Yu Sun,Hua Wu,Haifeng Wang
発行日 2025-02-19 16:02:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Inner Thinking Transformer: Leveraging Dynamic Depth Scaling to Foster Adaptive Internal Thinking はコメントを受け付けていません

Fine-grained Fallacy Detection with Human Label Variation

要約

複数のもっともらしい答えと自然な意見の不一致を取り入れる誤acy検出の最初のデータセットであるFainaを紹介します。
Fainaには、2人の専門家アノテーターによって与えられた移住、気候変動、および公衆衛生に関するイタリア語のソーシャルメディア投稿の20種類の誤りタイプにわたって重複する11k以上のスパンレベルの注釈が含まれています。
複数のラウンドでの議論を許可する広範な注釈研究を通じて、人間のラベルの変動の信号を保持しながら、注釈エラーを最小限に抑えます。
さらに、「単一のグラウンドトゥルース」評価を超えるフレームワークを考案し、同時に複数の(同様に信頼性の高い)テストセットとタスクの特性、つまり部分的なスパンマッチ、オーバーラップ、ラベル付け誤差のさまざまな重大度を考慮します。
4つの誤acy検出セットアップにわたる実験は、マルチタスクとマルチラベル変圧器ベースのアプローチがすべての設定にわたる強力なベースラインであることを示しています。
データ、コード、および注釈のガイドラインをリリースして、誤りの検出と人間のラベルのバリエーションに関する研究をより広く育成します。

要約(オリジナル)

We introduce Faina, the first dataset for fallacy detection that embraces multiple plausible answers and natural disagreement. Faina includes over 11K span-level annotations with overlaps across 20 fallacy types on social media posts in Italian about migration, climate change, and public health given by two expert annotators. Through an extensive annotation study that allowed discussion over multiple rounds, we minimize annotation errors whilst keeping signals of human label variation. Moreover, we devise a framework that goes beyond ‘single ground truth’ evaluation and simultaneously accounts for multiple (equally reliable) test sets and the peculiarities of the task, i.e., partial span matches, overlaps, and the varying severity of labeling errors. Our experiments across four fallacy detection setups show that multi-task and multi-label transformer-based approaches are strong baselines across all settings. We release our data, code, and annotation guidelines to foster research on fallacy detection and human label variation more broadly.

arxiv情報

著者 Alan Ramponi,Agnese Daffara,Sara Tonelli
発行日 2025-02-19 16:18:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fine-grained Fallacy Detection with Human Label Variation はコメントを受け付けていません

TESS 2: A Large-Scale Generalist Diffusion Language Model

要約

Tess 2を紹介します。Tess2は、現代の指導チューニングされた拡散モデルを上回るだけでなく、強力な自己回帰(AR)モデルを上回る、時には一致し、時には上回る一般的な指導に従う拡散言語モデルです。
拡散損失として通常の交差エントロピーを使用して継続的な事前供与を介して強力なARモデルを最初に適応させ、さらに指示チューニングを実行することにより、テス2を訓練します。
適応トレーニングとベースモデルの選択は、優れた指導に従う拡散モデルをトレーニングするために重要であることがわかります。
さらに、基礎となるモデルを訓練する必要なくモデル出力を調整するための斬新でモジュール式推論時間ガイダンス手順である報酬ガイダンスを提案します。
最後に、テス2が推論時間計算の増加によりさらに改善され、推論時に使用される計算量にわたって微細な制御可能性を持つ拡散LMSの有用性を強調することを示します。
コードとモデルはhttps://github.com/hamishivi/tess-2で入手できます。

要約(オリジナル)

We introduce TESS 2, a general instruction-following diffusion language model that outperforms contemporary instruction-tuned diffusion models, as well as matches and sometimes exceeds strong autoregressive (AR) models. We train TESS 2 by first adapting a strong AR model via continued pretraining with the usual cross-entropy as diffusion loss, and then performing further instruction tuning. We find that adaptation training as well as the choice of the base model is crucial for training good instruction-following diffusion models. We further propose reward guidance, a novel and modular inference-time guidance procedure to align model outputs without needing to train the underlying model. Finally, we show that TESS 2 further improves with increased inference-time compute, highlighting the utility of diffusion LMs in having fine-grained controllability over the amount of compute used at inference time. Code and models are available at https://github.com/hamishivi/tess-2.

arxiv情報

著者 Jaesung Tae,Hamish Ivison,Sachin Kumar,Arman Cohan
発行日 2025-02-19 17:50:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TESS 2: A Large-Scale Generalist Diffusion Language Model はコメントを受け付けていません

Value Residual Learning

要約

トランスモデルはさまざまなドメインで顕著な成功を収めていますが、深いネットワークを介した情報伝播の有効性は依然として重要な課題です。
標準的な隠された状態残差は、多くの場合、初期トークンレベルの情報をより深い層に適切に保存できません。
このペーパーでは、隠された状態残差に加えて価値の残留接続を組み込むことで情報の流れを強化する新しいアーキテクチャであるResformerを紹介します。
バリアントはSVFormerで、すべてのレイヤーが最初のレイヤーの値の埋め込みを共有します。
包括的な経験的証拠は、ゼロの使用量と計算コストを維持しながら、変圧器と比較して13.3%少ないモデルパラメーターと15.4 \%のトレーニングデータで同等の検証損失を達成することを示しています。
さらに、SVFormerはKVキャッシュサイズをわずかなパフォーマンスペナルティでほぼ半分に削減し、他のKV効率の高い方法と統合して、KVキャッシュのさらなる削減をもたらし、パフォーマンスはシーケンスの長さと累積学習率の影響を受けます。

要約(オリジナル)

While Transformer models have achieved remarkable success in various domains, the effectiveness of information propagation through deep networks remains a critical challenge. Standard hidden state residuals often fail to adequately preserve initial token-level information in deeper layers. This paper introduces ResFormer, a novel architecture that enhances information flow by incorporating value residual connections in addition to hidden state residuals. And a variant is the SVFormer, where all layers share the first layer’s value embedding. Comprehensive empirical evidence demonstrates ResFormer achieves equivalent validation loss with 13.3\% fewer model parameters and 15.4\% less training data compared to Transformer, while maintaining similar memory usage and computational cost. Besides, SVFormer reduces KV cache size by nearly half with only a small performance penalty and can be integrated with other KV-efficient methods, yielding further reductions in KV cache, with performance influenced by sequence length and cumulative learning rate.

arxiv情報

著者 Zhanchao Zhou,Tianyi Wu,Zhiyun Jiang,Fares Obeid,Zhenzhong Lan
発行日 2025-02-19 17:53:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Value Residual Learning はコメントを受け付けていません