MorphTok: Morphologically Grounded Tokenization for Indian Languages

要約

トークン化は、特に大規模な言語モデル(LLM)の増加に伴い、NLPの重要なステップであり、下流のパフォーマンス、計算コスト、効率に影響を与えます。
既存のLLMは、頻繁にキャラクターのBigRamsを貪欲に融合するサブワードトークン化のために、古典的なバイトペアエンコード(BPE)アルゴリズムに依存しています。
これは、多くの場合、言語的に意味のあるユニットと一致しないセグメンテーションにつながります。
これに対処するために、BPEを適用する前に、形態を意識するセグメンテーションをトークン化前のステップとして提案します。
形態認識セグメンテーションを促進するために、サブワードトークン化を強化するためにSandhi分割を組み込んだヒンディー語とマラーティー語の新しいデータセットを作成します。
下流のタスクでの実験は、形態学的に接地されたトークン化が機械の翻訳と言語モデリングのパフォーマンスを改善することを示しています。
さらに、ディクリティックスのユニコード文字のあいまいさ、特に音節ベースのライティングシステムに依存する母音を処理するために、スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張である制約付きBPE(CBPE)を導入します。
具体的には、CBPEは従属母音を処理します。
我々の結果は、CBPEが肥沃度スコアの1.68 \%の減少を達成し、機械翻訳で同等または改善された下流のパフォーマンスを維持し、標準BPEに代わる計算効率の高い代替品を提供することを示しています。
さらに、さまざまなトークン化アルゴリズムにわたるセグメンテーションを評価するために、新しい人間の評価メトリック\ textit {evaltok}を導入し、より多くの人間に基づいた評価を可能にします。

要約(オリジナル)

Tokenization is a crucial step in NLP, especially with the rise of large language models (LLMs), impacting downstream performance, computational cost, and efficiency. Existing LLMs rely on the classical Byte-pair Encoding (BPE) algorithm for subword tokenization that greedily merges frequent character bigrams. This often leads to segmentation that does not align with linguistically meaningful units. To address this, we propose morphology-aware segmentation as a pre-tokenization step prior to applying BPE. To facilitate morphology-aware segmentation, we create a novel dataset for Hindi and Marathi, incorporating sandhi splitting to enhance the subword tokenization. Experiments on downstream tasks show that morphologically grounded tokenization improves performance for machine translation and language modeling. Additionally, to handle the ambiguity in the Unicode characters for diacritics, particularly dependent vowels in syllable-based writing systems, we introduce Constrained BPE (CBPE), an extension to the traditional BPE algorithm that incorporates script-specific constraints. Specifically, CBPE handles dependent vowels. Our results show that CBPE achieves a 1.68\% reduction in fertility scores while maintaining comparable or improved downstream performance in machine translation, offering a computationally efficient alternative to standard BPE. Moreover, to evaluate segmentation across different tokenization algorithms, we introduce a new human evaluation metric, \textit{EvalTok}, enabling more human-grounded assessment.

arxiv情報

著者 Maharaj Brahma,N J Karthika,Atul Singh,Devaraj Adiga,Smruti Bhate,Ganesh Ramakrishnan,Rohit Saluja,Maunendra Sankar Desarkar
発行日 2025-04-14 15:44:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MorphTok: Morphologically Grounded Tokenization for Indian Languages はコメントを受け付けていません

Testing the Predictions of Surprisal Theory in 11 Languages

要約

心理言語学の根本的な結果は、予測可能でない単語が処理に時間がかかることです。
この発見の理論的説明の1つは、驚くべき理論(Hale、2001; Levy、2008)です。これは、単語の予測可能性をその驚くべきものとして定量化します。
驚くべき理論の予測を支持する証拠は広く複製されていますが、ほとんどは非常に狭いデータのスライスに焦点を当てています。英語のテキストを読んでいます。
実際、包括的な多言語分析は存在しません。
私たちは、5つの言語ファミリに分配された11の異なる言語での驚き時間と読書時間の関係を調査することにより、現在の文献のこのギャップに対処します。
単一言語および多言語のコーパスで訓練された言語モデルから推定値を導き出すと、驚くべき理論に関連する3つの予測をテストします。(i)驚きが読み取り時間を予測するかどうか。
(ii)予想される驚き、すなわち文脈的エントロピーが読み取り時間を予測するかどうか。
(iii)そして、驚きと読み取り時間の間のリンク関数が線形であるかどうか。
3つの予測はすべて、言語的に反論していることがわかります。
より多様な言語のセットに焦点を当てることにより、これらの結果は、情報理論と言語間での言語処理の段階的処理との間の最も堅牢なリンクを提供すると主張します。

要約(オリジナル)

A fundamental result in psycholinguistics is that less predictable words take a longer time to process. One theoretical explanation for this finding is Surprisal Theory (Hale, 2001; Levy, 2008), which quantifies a word’s predictability as its surprisal, i.e. its negative log-probability given a context. While evidence supporting the predictions of Surprisal Theory have been replicated widely, most have focused on a very narrow slice of data: native English speakers reading English texts. Indeed, no comprehensive multilingual analysis exists. We address this gap in the current literature by investigating the relationship between surprisal and reading times in eleven different languages, distributed across five language families. Deriving estimates from language models trained on monolingual and multilingual corpora, we test three predictions associated with surprisal theory: (i) whether surprisal is predictive of reading times; (ii) whether expected surprisal, i.e. contextual entropy, is predictive of reading times; (iii) and whether the linking function between surprisal and reading times is linear. We find that all three predictions are borne out crosslinguistically. By focusing on a more diverse set of languages, we argue that these results offer the most robust link to-date between information theory and incremental language processing across languages.

arxiv情報

著者 Ethan Gotlieb Wilcox,Tiago Pimentel,Clara Meister,Ryan Cotterell,Roger P. Levy
発行日 2025-04-14 15:45:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Testing the Predictions of Surprisal Theory in 11 Languages はコメントを受け付けていません

VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge

要約

現在のマルチモーダルベンチマークは、多くの場合、推論とドメイン固有の知識を混同し、非専門家の設定で一般的な推論能力を分離および評価することを困難にします。
これに対処するために、VisualPuzzlesを導入します。これは、視覚的な推論をターゲットにしながら、専門的な知識への依存を意図的に最小限に抑えるベンチマークです。
VisualPuzzlesは、アルゴリズム、類推、演ductive、帰納的、および空間的推論の5つのカテゴリにまたがる多様な質問で構成されています。
私たちの質問の主な原因の1つは、中国の公務員試験からの論理的推論の質問を手動で翻訳することです。
実験では、視覚的パズルには、MMMUなどのベンチマークと比較して、視覚的なドメイン固有の知識とより複雑な推論が必要であり、本物のマルチモーダル推論をよりよく評価できるようにすることが示されています。
評価によると、最先端のマルチモーダルな大手言語モデルは、視覚的パズルの人間のパフォーマンスに一貫して遅れをとっており、知識集約型ベンチマークの強力なパフォーマンスは、必ずしも推論に焦点を合わせた知識の光のタスクの成功につながるわけではありません。
さらに、推論計算のスケールアップ(「思考」モードを使用して)などの推論の強化は、モデルとタスクタイプ間で一貫性のない利益をもたらし、モデルサイズとパフォーマンスの間に明確な相関関係は観察されません。
また、モデルは、知識に重点を置いたベンチマークと比較して、視覚的パズルの異なる推論と応答パターンを示すことを発見しました。
VisualPuzzlesは、事実上のリコールやドメインの知識を超えて、推論機能を評価するためのより明確なレンズを提供します。

要約(オリジナル)

Current multimodal benchmarks often conflate reasoning with domain-specific knowledge, making it difficult to isolate and evaluate general reasoning abilities in non-expert settings. To address this, we introduce VisualPuzzles, a benchmark that targets visual reasoning while deliberately minimizing reliance on specialized knowledge. VisualPuzzles consists of diverse questions spanning five categories: algorithmic, analogical, deductive, inductive, and spatial reasoning. One major source of our questions is manually translated logical reasoning questions from the Chinese Civil Service Examination. Experiments show that VisualPuzzles requires significantly less intensive domain-specific knowledge and more complex reasoning compared to benchmarks like MMMU, enabling us to better evaluate genuine multimodal reasoning. Evaluations show that state-of-the-art multimodal large language models consistently lag behind human performance on VisualPuzzles, and that strong performance on knowledge-intensive benchmarks does not necessarily translate to success on reasoning-focused, knowledge-light tasks. Additionally, reasoning enhancements such as scaling up inference compute (with ‘thinking’ modes) yield inconsistent gains across models and task types, and we observe no clear correlation between model size and performance. We also found that models exhibit different reasoning and answering patterns on VisualPuzzles compared to benchmarks with heavier emphasis on knowledge. VisualPuzzles offers a clearer lens through which to evaluate reasoning capabilities beyond factual recall and domain knowledge.

arxiv情報

著者 Yueqi Song,Tianyue Ou,Yibo Kong,Zecheng Li,Graham Neubig,Xiang Yue
発行日 2025-04-14 15:50:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge はコメントを受け付けていません

Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis

要約

最近のゼロショットテキスト(TTS)システムは一般的なジレンマに直面しています。自己回帰(AR)モデルは、生成が遅く、持続時間の制御性が欠けていますが、非自動性(NAR)モデルは時間的モデリングがなく、通常は複雑な設計が必要です。
この論文では、ARおよびNARモデリングを統合する新しい擬似アトレガレッシブ(PAR)コーデック言語モデリングアプローチを紹介します。
ARからの明示的な時間モデリングとNARからの並列生成を組み合わせることで、パルは固定された時間ステップで動的長さのスパンを生成します。
パーに基づいて、初期生成に続いてNAR洗練が続く2段階のTTSシステムであるPalleを提案します。
最初の段階では、PARは時間次元に沿って徐々に音声トークンを生成し、各ステップはすべての位置を並列で予測しますが、左端のスパンのみを保持します。
第2段階では、低自信トークンは並行して繰り返し洗練され、グローバルなコンテキスト情報を活用します。
実験は、Librittsで訓練されたPalleが、F5-TT、E2-TTS、MASKGCTを含む大規模なデータでトレーニングされた最先端のシステムを、音声品質、スピーカーの類似性、および知識性の観点からLibrispeechテストクリーンのセットで、10回の時間までに達成しながら、インテリアの速度を達成することを示しています。
オーディオサンプルはhttps://anonymous-palle.github.ioで入手できます。

要約(オリジナル)

Recent zero-shot text-to-speech (TTS) systems face a common dilemma: autoregressive (AR) models suffer from slow generation and lack duration controllability, while non-autoregressive (NAR) models lack temporal modeling and typically require complex designs. In this paper, we introduce a novel pseudo-autoregressive (PAR) codec language modeling approach that unifies AR and NAR modeling. Combining explicit temporal modeling from AR with parallel generation from NAR, PAR generates dynamic-length spans at fixed time steps. Building on PAR, we propose PALLE, a two-stage TTS system that leverages PAR for initial generation followed by NAR refinement. In the first stage, PAR progressively generates speech tokens along the time dimension, with each step predicting all positions in parallel but only retaining the left-most span. In the second stage, low-confidence tokens are iteratively refined in parallel, leveraging the global contextual information. Experiments demonstrate that PALLE, trained on LibriTTS, outperforms state-of-the-art systems trained on large-scale data, including F5-TTS, E2-TTS, and MaskGCT, on the LibriSpeech test-clean set in terms of speech quality, speaker similarity, and intelligibility, while achieving up to ten times faster inference speed. Audio samples are available at https://anonymous-palle.github.io.

arxiv情報

著者 Yifan Yang,Shujie Liu,Jinyu Li,Yuxuan Hu,Haibin Wu,Hui Wang,Jianwei Yu,Lingwei Meng,Haiyang Sun,Yanqing Liu,Yan Lu,Kai Yu,Xie Chen
発行日 2025-04-14 16:03:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis はコメントを受け付けていません

MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages

要約

31の言語をカバーするLLMSの多言語性を評価するための新しいベンチマークであるMultilokoを紹介します。
Multilokoは3つのパーティションで構成されています。言語ごとに500の質問で構成されるメインパーティションで、特定の言語に局所的に関連するように供給され、30の非英語言語から英語とその逆への人間の告発された翻訳を含む2つの翻訳されたパーティションです。
比較のために、対応する機械執筆の翻訳もリリースします。
データは、DEV分割と盲目的な分散テストの分割の2つの分割に等しく分布しています。
Multilokoを使用して、LLMの多言語性に関するさまざまな質問と、多言語のベンチマーク作成に関するメタ質問を研究できます。
マルチリンギャルであるために販売されている11のベースモデルとチャットモデルのマルチロコスコアを計算し、平均パフォーマンス、言語間のパフォーマンスパリティ、質問に答える能力が質問言語に依存し、どの言語が最も難しいかを研究します。
私たちが研究したモデルはいずれも、平均スコアが低いだけでなく、最高のスコアリング言語と最悪の言語の大きな違いによって示されるように、Multilokoでうまく機能しません。
さらに、質問言語の実質的な効果があり、言語間の最適な知識転送を示しています。
最後に、ローカルと英語翻訳データを使用すると、最高のパフォーマンスモデルで20ポイント以上の違いが発生する可能性があり、一部の言語の推定難易度を大幅に変更することがわかります。
人間の翻訳の代わりにマシンを使用するために、言語の難易度の順序付け、モデルランキングの大きな違い、およびすべてのモデルの推定パフォーマンスの大幅な低下に弱い効果があることがわかります。

要約(オリジナル)

We present MultiLoKo, a new benchmark for evaluating multilinguality in LLMs covering 31 languages. MultiLoKo consists of three partitions: a main partition consisting of 500 questions per language, separately sourced to be locally relevant to the specific language, and two translated partitions, containing human-authored translations from 30 non-English languages to English and vice versa. For comparison, we also release corresponding machine-authored translations. The data is equally distributed over two splits: a dev split and a blind, out-of-distribution test split. MultiLoKo can be used to study a variety of questions regarding the multilinguality of LLMs as well as meta-questions about multilingual benchmark creation. We compute MultiLoKo scores for 11 base and chat models marketed to be multilingual and study their average performance, their performance parity across languages, how much their ability to answer questions depends on the question language, and which languages are most difficult. None of the models we studied performs well on MultiLoKo, as indicated by low average scores as well as large differences between the best and worst scoring languages. Furthermore, we find a substantial effect of the question language, indicating sub-optimal knowledge transfer between languages. Lastly, we find that using local vs English-translated data can result in differences more than 20 points for the best performing models, drastically change the estimated difficulty of some languages. For using machines instead of human translations, we find a weaker effect on ordering of language difficulty, a larger difference in model rankings, and a substantial drop in estimated performance for all models.

arxiv情報

著者 Dieuwke Hupkes,Nikolay Bogoychev
発行日 2025-04-14 16:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | MultiLoKo: a multilingual local knowledge benchmark for LLMs spanning 31 languages はコメントを受け付けていません

DICE: A Framework for Dimensional and Contextual Evaluation of Language Models

要約

言語モデル(LMS)はますます幅広いアプリケーションに統合されていますが、最新の評価パラダイムは、それらが実際にどのように使用されているかを十分に反映していません。
現在の評価は、LMSが展開されている実際のコンテキストへの直接的な適用性を欠くベンチマークに依存しています。
このギャップに対処するために、粒状のコンテキスト依存の次元でLMSを評価するアプローチである次元およびコンテキスト評価(DICE)を提案します。
このポジションペーパーでは、既存のLMベンチマークの不十分さを調べ、実際のユースケースへの限られた適用性を強調することから始めます。
次に、さまざまなアプリケーションドメインにわたって利害関係者にとってより意味のあるLM動作の次元をキャプチャする一連の細い評価パラメーターを提案します。
具体的には、LMSを特定の設定に展開することを選択する利害関係者の特定のコンテキストの制約と要求に合わせなければならない、堅牢性、一貫性、認識論的誠実さなど、コンテキストに依存しないパラメーターの概念を紹介します。
次に、この評価フレームワークを運用するための潜在的なアプローチについて議論し、LM評価環境にDICEが提示する機会と課題で終了します。
最終的に、この作業は、LMSのコンテキスト固有で利害関係者に関連する評価のための実用的で親しみやすい出発点として機能します。

要約(オリジナル)

Language models (LMs) are increasingly being integrated into a wide range of applications, yet the modern evaluation paradigm does not sufficiently reflect how they are actually being used. Current evaluations rely on benchmarks that often lack direct applicability to the real-world contexts in which LMs are being deployed. To address this gap, we propose Dimensional and Contextual Evaluation (DICE), an approach that evaluates LMs on granular, context-dependent dimensions. In this position paper, we begin by examining the insufficiency of existing LM benchmarks, highlighting their limited applicability to real-world use cases. Next, we propose a set of granular evaluation parameters that capture dimensions of LM behavior that are more meaningful to stakeholders across a variety of application domains. Specifically, we introduce the concept of context-agnostic parameters – such as robustness, coherence, and epistemic honesty – and context-specific parameters that must be tailored to the specific contextual constraints and demands of stakeholders choosing to deploy LMs into a particular setting. We then discuss potential approaches to operationalize this evaluation framework, finishing with the opportunities and challenges DICE presents to the LM evaluation landscape. Ultimately, this work serves as a practical and approachable starting point for context-specific and stakeholder-relevant evaluation of LMs.

arxiv情報

著者 Aryan Shrivastava,Paula Akemi Aoyagui
発行日 2025-04-14 16:08:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC | DICE: A Framework for Dimensional and Contextual Evaluation of Language Models はコメントを受け付けていません

RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models

要約

大規模な言語モデル(LLMS)の微調整では、いくつかの高品質の指示が多数の低品質の指示よりも優れていることがコンセンサスになっています。
現在、多くの命令選択方法が提案されていますが、これらの方法のほとんどはヒューリスティックな品質メトリックに基づいて命令を選択し、トレーニング前にデータ選択のみを考慮しています。
これらの設計により、命令の微調整の最適化が不十分になり、固定ヒューリスティックインジケーターは特定のタスクに最適化するのが難しいことがよくあります。
そこで、私たちは、モデルのパフォーマンス改善に対する指示の予想される影響に基づいて、各ステップで命令を選択する微調整プロセス全体を組み込んだ、動的でタスク指示駆動型の命令選択フレームワークの上昇(強化された適応命令選択)を設計しました。
私たちのアプローチはよく解釈可能であり、タスク固有の強力な最適化機能を備えています。
連続的な意思決定プロセスとして動的命令選択をモデル化することにより、RLを使用して選択戦略をトレーニングします。
広範な実験と結果分析は、他の命令選択方法と比較して、方法の優位性を証明します。
特に、Raiseは、フルデータトレーニングと比較してトレーニングステップの1 \%のみを更新することにより、優れたパフォーマンスを達成し、その効率と有効性を実証します。

要約(オリジナル)

In the instruction fine-tuning of large language models (LLMs), it has become a consensus that a few high-quality instructions are superior to a large number of low-quality instructions. At present, many instruction selection methods have been proposed, but most of these methods select instruction based on heuristic quality metrics, and only consider data selection before training. These designs lead to insufficient optimization of instruction fine-tuning, and fixed heuristic indicators are often difficult to optimize for specific tasks. So we designed a dynamic, task-objective-driven instruction selection framework RAISE(Reinforenced Adaptive Instruction SElection), which incorporates the entire instruction fine-tuning process into optimization, selecting instruction at each step based on the expected impact of instruction on model performance improvement. Our approach is well interpretable and has strong task-specific optimization capabilities. By modeling dynamic instruction selection as a sequential decision-making process, we use RL to train our selection strategy. Extensive experiments and result analysis prove the superiority of our method compared with other instruction selection methods. Notably, RAISE achieves superior performance by updating only 1\% of the training steps compared to full-data training, demonstrating its efficiency and effectiveness.

arxiv情報

著者 Lv Qingsong,Yangning Li,Zihua Lan,Zishan Xu,Jiwei Tang,Yinghui Li,Wenhao Jiang,Hai-Tao Zheng,Philip S. Yu
発行日 2025-04-14 16:23:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | RAISE: Reinforenced Adaptive Instruction Selection For Large Language Models はコメントを受け付けていません

A 10.8mW Mixed-Signal Simulated Bifurcation Ising Solver using SRAM Compute-In-Memory with 0.6us Time-to-Solution

要約

組み合わせの最適化の問題は、金融からワイヤレスネットワークに至るまでのさまざまな分野に基づいています。
この作業は、NPハード最適化問題のCMOSのシミュレートされた分岐(SB)ISINGソルバーを提示します。
アナログドメインコンピューティングは、SB ISINGソルバーでは固有の注入ノイズが必要であるため、このアルゴリズムの優れた実装をもたらしました。
アーキテクチャのノベルティには、分岐点を加速するためのSRAMコンピューティングインメモリ(CIM)の使用、およびアナログドメインでの最適な減衰ノイズの生成と注入が含まれます。
私たちは、三元の乗算を実行できる新しい10-T SRAMセルを提案します。
60ノード、50%密度、ランダム、バイナリのマックスカットグラフで測定すると、このすべてに接続されたISINGソルバーは、TSMC 180NM CMOで10.8MW平均出力で0.6USで基底状態溶液の93%以上を確実に達成します。
私たちのチップは、CMOやその他のプラットフォームで以前に提案されていたISingソルバーと比較して、時間と電力の時間と電力の数桁の改善を達成しています。

要約(オリジナル)

Combinatorial optimization problems are funda- mental for various fields ranging from finance to wireless net- works. This work presents a simulated bifurcation (SB) Ising solver in CMOS for NP-hard optimization problems. Analog domain computing led to a superior implementation of this algorithm as inherent and injected noise is required in SB Ising solvers. The architecture novelties include the use of SRAM compute-in-memory (CIM) to accelerate bifurcation as well as the generation and injection of optimal decaying noise in the analog domain. We propose a novel 10-T SRAM cell capable of performing ternary multiplication. When measured with 60- node, 50% density, random, binary MAXCUT graphs, this all- to-all connected Ising solver reliably achieves above 93% of the ground state solution in 0.6us with 10.8mW average power in TSMC 180nm CMOS. Our chip achieves an order of magnitude improvement in time-to-solution and power compared to previously proposed Ising solvers in CMOS and other platforms.

arxiv情報

著者 Alana Marie Dee,Sajjad Moazeni
発行日 2025-04-14 16:28:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SY, eess.SY | A 10.8mW Mixed-Signal Simulated Bifurcation Ising Solver using SRAM Compute-In-Memory with 0.6us Time-to-Solution はコメントを受け付けていません

LLM-driven Constrained Copy Generation through Iterative Refinement

要約

コピーがさまざまな制約を遵守する必要があるため、マーケティングメッセージ(コピー)またはコピーライティングの作成は挑戦的な世代のタスクです。
コピーの作成は、最初のドラフトから始まり、その後の連続した改良から始まる人間にとって本質的に反復的です。
ただし、手動のコピー作成は時間がかかり、高価であるため、各ユースケースに対してわずか数コピーしかできません。
この制限により、コンテンツを顧客にパーソナライズする能力が制限されます。
マニュアルアプローチとは反対に、LLMSはコピーを迅速に生成できますが、生成されたコンテンツは、最初の試み(人間と同様)のすべての制約を一貫して満たしていません。
最近の研究では、反復洗練による制約のある生成の改善に有望が示されていますが、主にいくつかの単純な制約しかないタスクに対処しています。
その結果、多くの複雑な制約を伴うコピー生成などのタスクの反復改良の有効性は不明のままです。
このギャップに対処するために、反復的な改良を使用して、スケーラブルなコピー生成のためのLLMベースのエンドツーエンドフレームワークを提案します。
私たちの知る限り、これはコピー生成において複数の挑戦的な制約に同時に対処する最初の研究です。
これらの制約の例には、長さ、トピック、キーワード、好ましい語彙順序、および音声トーンが含まれます。
さまざまな複雑さの3つの異なるユースケースのeコマースバナーのコピーを作成することにより、フレームワークのパフォーマンスを実証します。
私たちの結果は、反復的な改良により、コピーの成功率がユースケースで16.25-35.91 $%増加することを示しています。
さらに、私たちのアプローチを使用して生成されたコピーは、マルチアームのBanditフレームワークを使用して、複数のパイロット研究で手動で作成されたコンテンツよりも優れていました。
受賞コピーは、クリックスルーレートを38.5-45.21 $%改善しました。

要約(オリジナル)

Crafting a marketing message (copy), or copywriting is a challenging generation task, as the copy must adhere to various constraints. Copy creation is inherently iterative for humans, starting with an initial draft followed by successive refinements. However, manual copy creation is time-consuming and expensive, resulting in only a few copies for each use case. This limitation restricts our ability to personalize content to customers. Contrary to the manual approach, LLMs can generate copies quickly, but the generated content does not consistently meet all the constraints on the first attempt (similar to humans). While recent studies have shown promise in improving constrained generation through iterative refinement, they have primarily addressed tasks with only a few simple constraints. Consequently, the effectiveness of iterative refinement for tasks such as copy generation, which involves many intricate constraints, remains unclear. To address this gap, we propose an LLM-based end-to-end framework for scalable copy generation using iterative refinement. To the best of our knowledge, this is the first study to address multiple challenging constraints simultaneously in copy generation. Examples of these constraints include length, topics, keywords, preferred lexical ordering, and tone of voice. We demonstrate the performance of our framework by creating copies for e-commerce banners for three different use cases of varying complexity. Our results show that iterative refinement increases the copy success rate by $16.25-35.91$% across use cases. Furthermore, the copies generated using our approach outperformed manually created content in multiple pilot studies using a multi-armed bandit framework. The winning copy improved the click-through rate by $38.5-45.21$%.

arxiv情報

著者 Varun Vasudevan,Faezeh Akhavizadegan,Abhinav Prakash,Yokila Arora,Jason Cho,Tanya Mendiratta,Sushant Kumar,Kannan Achan
発行日 2025-04-14 16:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LLM-driven Constrained Copy Generation through Iterative Refinement はコメントを受け付けていません

CliniChat: A Multi-Source Knowledge-Driven Framework for Clinical Interview Dialogue Reconstruction and Evaluation

要約

大規模な言語モデル(LLMS)は、流fluentなインタラクティブな能力と広範な医学的知識のために、臨床インタビューを支援することに大きな期待を抱いています。
ただし、高品質のインタビュー対話データと広く受け入れられている評価方法の欠如は、このプロセスを大幅に妨げています。
そのため、LLMが実際の臨床インタビューをシミュレートできるようにマルチソースの知識を統合するフレームワークであるClinichatを提案します。
これは、それぞれインタビューの対話の再構築と評価を担当する2つのモジュールで構成されています。
3つの知識源を組み込むことにより、Clini-Reconは臨床ノートを体系的、専門的、共感的なインタビューの対話に変換します。
Clini-Evalは、包括的な評価メトリックシステムと2フェーズの自動評価アプローチを組み合わせて、LLMが専門家のようなインタビューパフォーマンスを評価できるようにします。
高品質の合成インタビューダイアログデータセットであるMedqa-Dialogと、臨床インタビューに特化したモデルであるClinichatglmを貢献します。
実験結果は、Clinichatglmのインタビュー能力が、特に歴史を獲得し、最先端のパフォーマンスを達成する包括的なアップグレードを受けることを示しています。

要約(オリジナル)

Large language models (LLMs) hold great promise for assisting clinical interviews due to their fluent interactive capabilities and extensive medical knowledge. However, the lack of high-quality interview dialogue data and widely accepted evaluation methods has significantly impeded this process. So we propose CliniChat, a framework that integrates multi-source knowledge to enable LLMs to simulate real-world clinical interviews. It consists of two modules: Clini-Recon and Clini-Eval, each responsible for reconstructing and evaluating interview dialogues, respectively. By incorporating three sources of knowledge, Clini-Recon transforms clinical notes into systematic, professional, and empathetic interview dialogues. Clini-Eval combines a comprehensive evaluation metric system with a two-phase automatic evaluation approach, enabling LLMs to assess interview performance like experts. We contribute MedQA-Dialog, a high-quality synthetic interview dialogue dataset, and CliniChatGLM, a model specialized for clinical interviews. Experimental results demonstrate that CliniChatGLM’s interview capabilities undergo a comprehensive upgrade, particularly in history-taking, achieving state-of-the-art performance.

arxiv情報

著者 Jing Chen,Zhihua Wei,Wei Zhang,Yingying Hu,Qiong Zhang
発行日 2025-04-14 17:06:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CliniChat: A Multi-Source Knowledge-Driven Framework for Clinical Interview Dialogue Reconstruction and Evaluation はコメントを受け付けていません