MedualTime: A Dual-Adapter Language Model for Medical Time Series-Text Multimodal Learning

要約

言語モデル(LMS)の最近の急速な進歩は、医療時系列のテキストマルチモーダル学習に注目を集めています。
ただし、既存の対照学習ベースとプロンプトベースのLMアプローチは偏りがあり、テキストモダリティを二次的なものとして扱いながら、時系列モダリティに主要な役割を割り当てることがよくあります。
これらのアプローチを、臨床報告のようなテキストモダリティに組み込まれたユニークで重要なタスク関連情報を見落とす可能性があるため、これらのアプローチを一時的なパラダイムの下で分類し、さまざまなモダリティの相互利益と相補性を完全に活用できません。
このギャップを埋めるために、私たちは、モダリティがプライマリとして機能しながら他の人によって強化され、それによってモダリティ固有の情報を効果的にキャプチャし、クロスモーダル相互作用を促進できる、モダリティがプライマリとして機能することを可能にする新しいテキストと時代のマルチモーダル学習パラダイムを提案します。
具体的には、一時的なプライマリーとテキストプライマリーモデリングを同時に実装するために、デュアルアダプターで構成される言語モデルであるMedualTimeを設計します。
各アダプター内で、軽量適応トークンがLMの最上層に注入され、高レベルのモダリティ融合を促進します。
デュアルアダプターによる共有LMパイプラインは、アダプターアラインメントを実現するだけでなく、効率的な微調整を可能にし、計算リソースを削減します。
経験的には、MedualTimeは医療データの優れたパフォーマンスを示し、監視付き設定で8%の精度と12%F1の顕著な改善を達成します。
さらに、Medualtimeの移転性は、粗粒から細粒の医療データへの少数の標識転送実験によって検証されます。
https://github.com/start2020/medualtime

要約(オリジナル)

The recent rapid advancements in language models (LMs) have garnered attention in medical time series-text multimodal learning. However, existing contrastive learning-based and prompt-based LM approaches tend to be biased, often assigning a primary role to time series modality while treating text modality as secondary. We classify these approaches under a temporal-primary paradigm, which may overlook the unique and critical task-relevant information embedded in text modality like clinical reports, thus failing to fully leverage mutual benefits and complementarity of different modalities. To fill this gap, we propose a novel textual-temporal multimodal learning paradigm that enables either modality to serve as the primary while being enhanced by the other, thereby effectively capturing modality-specific information and fostering cross-modal interaction. In specific, we design MedualTime, a language model composed of dual adapters to implement temporal-primary and textual-primary modeling simultaneously. Within each adapter, lightweight adaptation tokens are injected into the top layers of LM to encourage high-level modality fusion. The shared LM pipeline by dual adapters not only achieves adapter alignment but also enables efficient fine-tuning, reducing computational resources. Empirically, MedualTime demonstrates superior performance on medical data, achieving notable improvements of 8% accuracy and 12% F1 in supervised settings. Furthermore, MedualTime’s transferability is validated by few-shot label transfer experiments from coarse-grained to fine-grained medical data. https://github.com/start2020/MedualTime

arxiv情報

著者 Jiexia Ye,Weiqi Zhang,Ziyue Li,Jia Li,Meng Zhao,Fugee Tsung
発行日 2025-05-12 13:27:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | MedualTime: A Dual-Adapter Language Model for Medical Time Series-Text Multimodal Learning はコメントを受け付けていません

Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models

要約

大規模な言語モデル(LLM)を人間の好みに合わせて整合することは、安全な展開に不可欠ですが、既存の方法では、Bradley-Terryモデルなどの特定の優先モデルを想定しています。
この仮定は、統計的な矛盾につながります。この場合、より多くのデータが真の人間の好みへの収束を保証しません。
このクリティカルギャップに対処するために、新しいアライメントメソッド直接密度比最適化(DDRO)を導入します。
DDROは、明示的な人間の好みモデリングの必要性を回避する、優先された出力分布と未定の出力分布の密度比を直接推定します。
我々は、DDROが統計的に一貫していることを理論的に証明し、基礎となる嗜好構造に関係なく、データサイズが増加するにつれて、真の優先分布への収束を保証します。
実験は、DDROが多くの主要なベンチマークの既存の方法と比較して優れた性能を達成することを示しています。
DDROは、真にデータ駆動型のアライメントの可能性を解き放ち、より信頼性が高く人間に整列したLLMへの道を開きます。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences is crucial for safe deployment, yet existing methods assume specific preference models like Bradley-Terry model. This assumption leads to statistical inconsistency, where more data doesn’t guarantee convergence to true human preferences. To address this critical gap, we introduce a novel alignment method Direct Density Ratio Optimization (DDRO). DDRO directly estimates the density ratio between preferred and unpreferred output distributions, circumventing the need for explicit human preference modeling. We theoretically prove that DDRO is statistically consistent, ensuring convergence to the true preferred distribution as the data size grows, regardless of the underlying preference structure. Experiments demonstrate that DDRO achieves superior performance compared to existing methods on many major benchmarks. DDRO unlocks the potential for truly data-driven alignment, paving the way for more reliable and human-aligned LLMs.

arxiv情報

著者 Rei Higuchi,Taiji Suzuki
発行日 2025-05-12 13:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML | Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models はコメントを受け付けていません

A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models

要約

次の命令は、ユーザー定義の制約に準拠する出力を生成する能力について、大規模な言語モデル(LLMS)を評価します。
ただし、既存のベンチマークは、多くの場合、テンプレートされた制約プロンプトに依存しています。これは、実際の使用量の多様性を欠いており、微調整されたパフォーマンス評価を制限しています。
このギャップを埋めるために、3つの制約パターン、4つの制約カテゴリ、および4つの難易度レベルを含む多次元制約フレームフレームワークを提案します。
このフレームワークに基づいて、制約の拡大、競合検出、および命令書き換えを実行する自動命令生成パイプラインを開発し、1,200のコード検証可能な命令に従うテストサンプルを生成します。
7つのモデルファミリで19のLLMを評価し、制約形式全体でパフォーマンスの大幅な変動を明らかにします。
たとえば、平均パフォーマンスは、レベルIの77.67%からレベルIVで32.96%に低下します。
さらに、それを使用して補強学習のためのデータを生成し、一般的なパフォーマンスを低下させることなく指導の大幅な利益を達成することにより、アプローチの有用性を実証します。
詳細な分析は、これらの利益が主にモデルの注意モジュールパラメーターの変更に起因することを示しており、制約認識と順守を強化します。
コードとデータはhttps://github.com/junjie-ye/muldimifで入手できます。

要約(オリジナル)

Instruction following evaluates large language models (LLMs) on their ability to generate outputs that adhere to user-defined constraints. However, existing benchmarks often rely on templated constraint prompts, which lack the diversity of real-world usage and limit fine-grained performance assessment. To fill this gap, we propose a multi-dimensional constraint framework encompassing three constraint patterns, four constraint categories, and four difficulty levels. Building on this framework, we develop an automated instruction generation pipeline that performs constraint expansion, conflict detection, and instruction rewriting, yielding 1,200 code-verifiable instruction-following test samples. We evaluate 19 LLMs across seven model families and uncover substantial variation in performance across constraint forms. For instance, average performance drops from 77.67% at Level I to 32.96% at Level IV. Furthermore, we demonstrate the utility of our approach by using it to generate data for reinforcement learning, achieving substantial gains in instruction following without degrading general performance. In-depth analysis indicates that these gains stem primarily from modifications in the model’s attention modules parameters, which enhance constraint recognition and adherence. Code and data are available in https://github.com/Junjie-Ye/MulDimIF.

arxiv情報

著者 Junjie Ye,Caishuang Huang,Zhuohan Chen,Wenjie Fu,Chenyuan Yang,Leyi Yang,Yilong Wu,Peng Wang,Meng Zhou,Xiaolong Yang,Tao Gui,Qi Zhang,Zhongchao Shi,Jianping Fan,Xuanjing Huang
発行日 2025-05-12 14:16:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models はコメントを受け付けていません

JobHop: A Large-Scale Dataset of Career Trajectories

要約

労働市場のダイナミクスを理解することは、政策立案者、雇用主、求職者にとって不可欠です。
ただし、実際のキャリアの軌跡をキャプチャする包括的なデータセットはほとんどありません。
この論文では、ベルギーのフランダースにある公共雇用サービスであるVDABが提供する匿名化された履歴書から派生した大規模な公開データセットであるJobhopを紹介します。
大規模な言語モデル(LLM)を利用して、構造化されたキャリア情報を抽出するために非構造化された履歴書データを処理し、マルチラベル分類モデルを使用して標準化されたESCO職業コードにマッピングされます。
これにより、391,000を超えるユーザー履歴書から抽出され、標準化されたESCO職業コードにマッピングされた230万件以上の作業経験の豊富なデータセットが得られ、実世界の職業移行に関する貴重な洞察を提供します。
このデータセットにより、労働市場のモビリティ、仕事の安定性、職業的移行に対するキャリア休憩の影響など、多様なアプリケーションが可能になります。
また、キャリアパス予測やその他のデータ駆動型の意思決定プロセスもサポートしています。
その可能性を説明するために、仕事の分配、キャリアの休憩、雇用移行などの重要なデータセット特性を調査し、労働市場の調査を進めるための価値を示します。

要約(オリジナル)

Understanding labor market dynamics is essential for policymakers, employers, and job seekers. However, comprehensive datasets that capture real-world career trajectories are scarce. In this paper, we introduce JobHop, a large-scale public dataset derived from anonymized resumes provided by VDAB, the public employment service in Flanders, Belgium. Utilizing Large Language Models (LLMs), we process unstructured resume data to extract structured career information, which is then mapped to standardized ESCO occupation codes using a multi-label classification model. This results in a rich dataset of over 2.3 million work experiences, extracted from and grouped into more than 391,000 user resumes and mapped to standardized ESCO occupation codes, offering valuable insights into real-world occupational transitions. This dataset enables diverse applications, such as analyzing labor market mobility, job stability, and the effects of career breaks on occupational transitions. It also supports career path prediction and other data-driven decision-making processes. To illustrate its potential, we explore key dataset characteristics, including job distributions, career breaks, and job transitions, demonstrating its value for advancing labor market research.

arxiv情報

著者 Iman Johary,Raphael Romero,Alexandru C. Mara,Tijl De Bie
発行日 2025-05-12 15:22:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | JobHop: A Large-Scale Dataset of Career Trajectories はコメントを受け付けていません

Using Information Theory to Characterize Prosodic Typology: The Case of Tone, Pitch-Accent and Stress-Accent

要約

この論文は、語彙のアイデンティティと韻律の関係(言語変動のよく研究されたパラメーター)が情報理論を使用して特徴付けることができると主張しています。
韻律を使用して語彙の区別を使用する言語は、そうでない言語と比較して、単語のアイデンティティと韻律の間により高い相互情報を示すべきであると予測しています。
この仮説をピッチの領域でテストします。これは、広東語のような音色言語で語彙的区別を作成するために使用されます。
5つの言語ファミリの10の言語で文章を読み取るスピーカーのデータセットを使用して、テキストとピッチ曲線の間の相互情報を推定します。
言語間で、ピッチ曲線が同様の​​量のエントロピーを表示することがわかります。
ただし、これらの曲線は、ピッチおよびストレスアクセント言語と比較して、色調言語に関連するテキストを考慮して予測するのが簡単であるため、これらの言語では相互の情報が高く、仮説をサポートしています。
私たちの結果は、言語学的類型をカテゴリーではなく勾配と見なす視点をサポートしています。

要約(オリジナル)

This paper argues that the relationship between lexical identity and prosody — one well-studied parameter of linguistic variation — can be characterized using information theory. We predict that languages that use prosody to make lexical distinctions should exhibit a higher mutual information between word identity and prosody, compared to languages that don’t. We test this hypothesis in the domain of pitch, which is used to make lexical distinctions in tonal languages, like Cantonese. We use a dataset of speakers reading sentences aloud in ten languages across five language families to estimate the mutual information between the text and their pitch curves. We find that, across languages, pitch curves display similar amounts of entropy. However, these curves are easier to predict given their associated text in the tonal languages, compared to pitch- and stress-accent languages, and thus the mutual information is higher in these languages, supporting our hypothesis. Our results support perspectives that view linguistic typology as gradient, rather than categorical.

arxiv情報

著者 Ethan Gotlieb Wilcox,Cui Ding,Giovanni Acampa,Tiago Pimentel,Alex Warstadt,Tamar I. Regev
発行日 2025-05-12 15:25:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Using Information Theory to Characterize Prosodic Typology: The Case of Tone, Pitch-Accent and Stress-Accent はコメントを受け付けていません

VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues

要約

一致する手がかりを視覚的にリンクすることは、自分の手がかりに基づいて複数の写真で同じ人を識別するなど、日常生活において重要な能力です。
ビジョン言語モデル(VLM)が持っている広範な知識にもかかわらず、この基本的なタスクを実行できるかどうかは、ほとんど説明されていません。
これに対処するために、VLMSが一致するキューを視覚的にリンクできるかどうかを評価するために設計されたベンチマークであるVLM2-Benchを導入します。
8つのオープンソースVLMSとGPT-4Oにわたる包括的な評価、およびさまざまな言語側およびビジョン側のプロンプトメソッドのさらなる分析により、合計8つの重要な調査結果が発生します。
視覚的な手がかりをリンクするモデルの能力における重要な課題を特定し、GPT-4Oでさえ人間に34.80%遅れている重要なパフォーマンスギャップを強調しています。
これらの洞察に基づいて、(i)適応性を向上させ、事前知識への依存を減らすためのコア視覚能力を高めることを提唱します。

要約(オリジナル)

Visually linking matching cues is a crucial ability in daily life, such as identifying the same person in multiple photos based on their cues, even without knowing who they are. Despite the extensive knowledge that vision-language models (VLMs) possess, it remains largely unexplored whether they are capable of performing this fundamental task. To address this, we introduce VLM2-Bench, a benchmark designed to assess whether VLMs can Visually Link Matching cues, with 9 subtasks and over 3,000 test cases. Comprehensive evaluation across eight open-source VLMs and GPT-4o, along with further analysis of various language-side and vision-side prompting methods, leads to a total of eight key findings. We identify critical challenges in models’ ability to link visual cues, highlighting a significant performance gap where even GPT-4o lags 34.80% behind humans. Based on these insights, we advocate for (i) enhancing core visual capabilities to improve adaptability and reduce reliance on prior knowledge, (ii) establishing clearer principles for integrating language-based reasoning in vision-centric tasks to prevent unnecessary biases, and (iii) shifting vision-text training paradigms toward fostering models’ ability to independently structure and infer relationships among visual cues.

arxiv情報

著者 Jianshu Zhang,Dongyu Yao,Renjie Pi,Paul Pu Liang,Yi R. Fung
発行日 2025-05-12 15:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VLM2-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues はコメントを受け付けていません

From Distributional to Overton Pluralism: Investigating Large Language Model Alignment

要約

アライメントプロセスは、大規模な言語モデル(LLM)出力分布のいくつかのプロパティを変更します。
LLM応答の整列後分布シフトの2つの側面を分析します。
まず、整理後の応答の多様性の削減を以前に報告した削減を再検討します。
私たちの分析は、反応の多様性の明らかな低下が、品質管理と情報集約によって大部分が説明されていることを示唆しています。
アラインメントは、ベースLLMからのいくつかの応答にまたがる情報をカバーするより長い応答に向けて出力分布をシフトしながら、無関係で役に立たないコンテンツを抑制し、基本的に単一の応答で多様な情報を提示します。
アラインメントが有用な情報を抑制するという証拠をほとんど見つけておらず、反対の質問をするのは自然です:アライメントされたモデルは、ベースモデルから回復できない表面情報を整列させますか?
2番目の調査によると、これは事実ではなく、アラインドモデルの動作は微調整なしでベースモデルから回復可能であることが示されています。
コンテキスト内の例と応答コンテンツに関する低解像度のセマンティックヒントの組み合わせは、アライメントチューニングされたLLM応答と同様に、アライメントチューニングLLM応答と同様のベースLLMからの応答を引き出すことができます。
まとめると、これらの結果は、現在のアライメント手法がキャプチャしますが、アシスタントのようなベースLLM行動の有用なサブセットを拡張しないことを示しており、表面的なアライメント仮説のさらなる証拠を提供します。
彼らはまた、微調整なしでアライメントされたLLMを模倣するための戦略として驚くほど驚くべきことになる可能性があることを示しています。
私たちのコードとデータは、https://github.com/thomlake/investigating-alignmentで入手できます。

要約(オリジナル)

The alignment process changes several properties of a large language model’s (LLM’s) output distribution. We analyze two aspects of post-alignment distributional shift of LLM responses. First, we re-examine previously reported reductions in response diversity post-alignment. Our analysis suggests that an apparent drop in the diversity of responses is largely explained by quality control and information aggregation. Alignment suppresses irrelevant and unhelpful content while shifting the output distribution toward longer responses that cover information spanning several responses from the base LLM, essentially presenting diverse information in a single response. Finding little evidence that alignment suppresses useful information, it is natural to ask the opposite question: do aligned models surface information that cannot be recovered from base models? Our second investigation shows this is not the case and the behavior of aligned models is recoverable from base models without fine-tuning. A combination of in-context examples and lower-resolution semantic hints about response content can elicit responses from base LLMs that are as similar to alignment-tuned LLM responses as alignment-tuned LLM responses are to each other. Taken together, these results indicate that current alignment techniques capture but do not extend the useful subset of assistant-like base LLM behavior, providing further evidence for the Superficial Alignment Hypothesis. They also show that in-context alignment can go surprisingly far as a strategy for imitating aligned LLMs without fine-tuning. Our code and data is available at https://github.com/thomlake/investigating-alignment.

arxiv情報

著者 Thom Lake,Eunsol Choi,Greg Durrett
発行日 2025-05-12 16:11:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | From Distributional to Overton Pluralism: Investigating Large Language Model Alignment はコメントを受け付けていません

Codifying Character Logic in Role-Playing

要約

このペーパーでは、動作の意思決定のための構造化された実行可能機能として文字ロジックを表す新しいアプローチである、ロールプレイングのための成文化されたプロファイルを紹介します。
各プロファイルは、明示的な制御構造(例えば、If-Then-Else)とCheck_ondition(シーン、質問)などの状態チェックの両方を使用して、論理接地されたアサーショントリガーed_Statementsのリストを出力する関数Parse_by_scene(シーン)のセットを定義します。
True、False、または不明としてのLLM。
この明示的な表現は、従来のプロンプトベースのプロファイルよりも3つの重要な利点を提供します。これは、モデルの暗黙的な推論に依存するのではなく、文字ロジックの完全かつ一貫した実行を実施することにより、テキストプロンプトに文字説明を直接追加します。
(2)体系的な検査と行動論理の修正を通じて更新可能性。これは、プロンプトのみのアプローチで追跡またはデバッグすることが困難です。
(3)ロジック内で直接確率的挙動をサポートすることにより、制御可能なランダム性を促進し、促進する微粒子の変動性を可能にします。
これらの利点を検証するために、NLIベースのスコアリングを使用して、グラウンドトゥルースアクションとキャラクター応答を比較するために、ファンダムからキュレーションされた5,141シーンから構築された新しいベンチマークを導入します。
私たちの実験は、持続性、更新可能性、および行動の多様性を改善する上で、成文化されたプロファイルの重要な利点を示しています。
特に、前処理の推論のかなりの部分をオフロードすることにより、成文化されたプロファイルにより、1Bパラメーターモデルでも高品質のロールプレイを実行でき、ロールプレイエージェントのローカル展開のためのスケーラブルで効率的な基盤を提供します。

要約(オリジナル)

This paper introduces Codified Profiles for role-playing, a novel approach that represents character logic as structured, executable functions for behavioral decision-making. Each profile defines a set of functions parse_by_scene(scene) that outputs a list of logic-grounded assertions triggered_statements, using both explicit control structures (e.g., if-then-else) and condition checks like check_condition(scene, question), where each question is a semantically meaningful prompt about the scene (e.g., ‘Is the character in danger?’) discriminated by the role-playing LLM as true, false, or unknown. This explicit representation offers three key advantages over traditional prompt-based profiles, which append character descriptions directly into text prompts: (1) Persistence, by enforcing complete and consistent execution of character logic, rather than relying on the model’s implicit reasoning; (2) Updatability, through systematic inspection and revision of behavioral logic, which is difficult to track or debug in prompt-only approaches; (3) Controllable Randomness, by supporting stochastic behavior directly within the logic, enabling fine-grained variability that prompting alone struggles to achieve. To validate these advantages, we introduce a new benchmark constructed from 83 characters and 5,141 scenes curated from Fandom, using NLI-based scoring to compare character responses against ground-truth actions. Our experiments demonstrate the significant benefits of codified profiles in improving persistence, updatability, and behavioral diversity. Notably, by offloading a significant portion of reasoning to preprocessing, codified profiles enable even 1B-parameter models to perform high-quality role-playing, providing a scalable and efficient foundation for local deployment of role-play agents.

arxiv情報

著者 Letian Peng,Jingbo Shang
発行日 2025-05-12 16:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Codifying Character Logic in Role-Playing はコメントを受け付けていません

Spoken Language Understanding on Unseen Tasks With In-Context Learning

要約

音声言語理解(SLU)タスクには、モデルの情報抽出、分類、および/または生成機能を調査する多様なスキルが含まれます。
この設定では、タスク固有のトレーニングデータが常に利用できるとは限りません。
従来のタスク固有のSLUモデルはそのような要件に対応することはできませんが、音声テキストの大規模な言語モデル(LLM)は、緊急能力を備えた有望な代替品を提供します。
ただし、すぐに使用できるように、我々の評価は、SLUタスク上の顕著なオープンソースの音声テキストLLMのゼロ/少ないショットパフォーマンスがマークまでではないことを示しています。
このホワイトペーパーでは、ランダム化クラスラベルを使用して、堅牢なタス​​クに依存しない微調整に対する新しいアプローチを紹介します。
この提案された微調整により、目に見えないタスクでの音声テキストLLMのパフォーマンスは、標準的なアプローチで大幅に改善されていることを示しています。
重要なことに、提案されたアプローチは、音声テキストLLMで新しいタスクを有効にするためのタスク固有のデータアノテーションの要件を回避します。

要約(オリジナル)

Spoken language understanding (SLU) tasks involve diverse skills that probe the information extraction, classification and/or generation capabilities of models. In this setting, task-specific training data may not always be available. While traditional task-specific SLU models are unable to cater to such requirements, the speech-text large language models (LLMs) offer a promising alternative with emergent abilities. However, out of-the-box, our evaluations indicate that the zero/few-shot performance of prominent open-source speech-text LLMs on SLU tasks are not up to the mark. In this paper, we introduce a novel approach to robust task-agnostic fine-tuning using randomized class labels. With this proposed fine-tuning, we illustrate that the performance of the speech-text LLMs on an unseen task is significantly improved over standard approaches. Critically, the proposed approach avoids the requirement of task-specific data annotations for enabling new tasks in speech-text LLMs.

arxiv情報

著者 Neeraj Agrawal,Sriram Ganapathy
発行日 2025-05-12 16:38:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS | Spoken Language Understanding on Unseen Tasks With In-Context Learning はコメントを受け付けていません

Domain Regeneration: How well do LLMs match syntactic properties of text domains?

要約

大規模な言語モデルのパフォーマンスの最近の改善は、おそらく、トレーニングデータの分布をどの程度適切に近似できるかを改善しています。
この作業では、次の質問を検討します。テキストドメインのどのプロパティが忠実に近似していますか?
コーパス言語学から馴染みのある観察アプローチを適用すると、一般的に使用されるOpenSource LLMに、LLMトレーニングデータ(ウィキペディアとニューステキスト)にしばしば含まれる、許可されたライセンスの2つのドメインからテキストを再生するよう促します。
この再生パラダイムにより、LLMがかなり意味的に制御された設定で元の人間のテキストドメインを忠実に一致させることができるかどうかを調査することができます。
文の長さや記事の読みやすさなどのより単純なプロパティから、依存関係タグの分布、解析深度、解析などのより複雑で高次のプロパティまで、さまざまなレベルの構文抽象化を調査します。
再生分布の大部分は、人間のオリジナルと比較して、シフトされた平均、標準偏差の低下、長い尾の減少を示していることがわかります。

要約(オリジナル)

Recent improvement in large language model performance have, in all likelihood, been accompanied by improvement in how well they can approximate the distribution of their training data. In this work, we explore the following question: which properties of text domains do LLMs faithfully approximate, and how well do they do so? Applying observational approaches familiar from corpus linguistics, we prompt a commonly used, opensource LLM to regenerate text from two domains of permissively licensed English text which are often contained in LLM training data — Wikipedia and news text. This regeneration paradigm allows us to investigate whether LLMs can faithfully match the original human text domains in a fairly semantically-controlled setting. We investigate varying levels of syntactic abstraction, from more simple properties like sentence length, and article readability, to more complex and higher order properties such as dependency tag distribution, parse depth, and parse complexity. We find that the majority of the regenerated distributions show a shifted mean, a lower standard deviation, and a reduction of the long tail, as compared to the human originals.

arxiv情報

著者 Da Ju,Hagen Blix,Adina Williams
発行日 2025-05-12 17:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Domain Regeneration: How well do LLMs match syntactic properties of text domains? はコメントを受け付けていません