Reinforcement Learning for Reasoning in Large Language Models with One Training Example

要約

1つのトレーニング例(1ショットRLVR)を使用して検証可能な報酬を使用した強化学習が、大規模な言語モデル(LLM)の数学推論能力を奨励するのに効果的であることを示しています。
RLVRを基本モデルQWEN2.5-MATH-1.5Bに適用すると、Math500のモデルパフォーマンスを36.0%から73.6%に昇格させ、6つの一般的な数学的推論ベンチマークの平均パフォーマンスを17.6%から35.7%に改善する単一の例を特定します。
この結果は、前述の例を含む1.2Kディープスカラーサブセット(Math500:73.6%、平均:35.9%)を使用して得られたパフォーマンスと一致します。
さまざまなモデル(QWEN2.5-MATH-7B、LLAMA3.2-3B-INSTRUCT、DEEPSEEK-R1-DISTILL-QWEN-1.5B)、RLアルゴリズム(GRPOおよびPPO)、および異なる数学の例(多くの場合、1つのトレーニングの例としてMath500の改善が約30%以上の改善)で同様の実質的な改善が観察されます。
さらに、トレーニングの精度が飽和した後でも、クロスドメインの一般化、自己反射の頻度の増加、および持続的なテストパフォーマンスの改善など、1ショットのRLVR中にいくつかの興味深い現象を特定します。
さらに、1ショットRLVRの有効性は主にポリシーグラデーションの損失から生じることを確認し、「グローキング」現象と区別します。
また、1ショットRLVRトレーニングにおいて、探査を促進する重要な役割(たとえば、適切な係数でエントロピー損失を追加することにより)を示します。
ボーナスとして、結果の報酬なしでエントロピー損失のみを適用すると、QWEN2.5-MATH-1.5BのMath500でのパフォーマンスが大幅に向上することがわかります。
これらの調査結果は、RLVRデータ効率に関する将来の作業を促し、RLVRの最近の進捗と基礎となるメカニズムの両方の再検討を促進することができます。
私たちのコード、モデル、およびデータはhttps://github.com/ypwang61/one-shot-rlvrのオープンソースです

要約(オリジナル)

We show that reinforcement learning with verifiable reward using one training example (1-shot RLVR) is effective in incentivizing the math reasoning capabilities of large language models (LLMs). Applying RLVR to the base model Qwen2.5-Math-1.5B, we identify a single example that elevates model performance on MATH500 from 36.0% to 73.6%, and improves the average performance across six common mathematical reasoning benchmarks from 17.6% to 35.7%. This result matches the performance obtained using the 1.2k DeepScaleR subset (MATH500: 73.6%, average: 35.9%), which includes the aforementioned example. Similar substantial improvements are observed across various models (Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL algorithms (GRPO and PPO), and different math examples (many of which yield approximately 30% or greater improvement on MATH500 when employed as a single training example). In addition, we identify some interesting phenomena during 1-shot RLVR, including cross-domain generalization, increased frequency of self-reflection, and sustained test performance improvement even after the training accuracy has saturated, a phenomenon we term post-saturation generalization. Moreover, we verify that the effectiveness of 1-shot RLVR primarily arises from the policy gradient loss, distinguishing it from the ‘grokking’ phenomenon. We also show the critical role of promoting exploration (e.g., by adding entropy loss with an appropriate coefficient) in 1-shot RLVR training. As a bonus, we observe that applying entropy loss alone, without any outcome reward, significantly enhances Qwen2.5-Math-1.5B’s performance on MATH500 by 27.4%. These findings can inspire future work on RLVR data efficiency and encourage a re-examination of both recent progress and the underlying mechanisms in RLVR. Our code, model, and data are open source at https://github.com/ypwang61/One-Shot-RLVR

arxiv情報

著者 Yiping Wang,Qing Yang,Zhiyuan Zeng,Liliang Ren,Lucas Liu,Baolin Peng,Hao Cheng,Xuehai He,Kuan Wang,Jianfeng Gao,Weizhu Chen,Shuohang Wang,Simon Shaolei Du,Yelong Shen
発行日 2025-04-29 09:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Reinforcement Learning for Reasoning in Large Language Models with One Training Example はコメントを受け付けていません

ClonEval: An Open Voice Cloning Benchmark

要約

音声クローニングテキストからスピーチモデルの新しいベンチマークを提示します。
ベンチマークは、評価プロトコル、音声クローニングモデルのパフォーマンスを評価するためのオープンソースライブラリ、および付随するリーダーボードで構成されています。
この論文では、設計上の考慮事項について説明し、評価手順の詳細な説明を提示します。
ソフトウェアライブラリの使用については、リーダーボード上の結果の構成とともに説明されています。

要約(オリジナル)

We present a novel benchmark for voice cloning text-to-speech models. The benchmark consists of an evaluation protocol, an open-source library for assessing the performance of voice cloning models, and an accompanying leaderboard. The paper discusses design considerations and presents a detailed description of the evaluation procedure. The usage of the software library is explained, along with the organization of results on the leaderboard.

arxiv情報

著者 Iwona Christop,Tomasz Kuczyński,Marek Kubis
発行日 2025-04-29 09:36:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ClonEval: An Open Voice Cloning Benchmark はコメントを受け付けていません

ReasonIR: Training Retrievers for Reasoning Tasks

要約

一般的な推論タスクのために特別に訓練された最初のレトリーバーであるReasuir-8Bを提示します。
既存のトレーニングデータセットが簡単に答えるドキュメントに関連する短い事実上のクエリに焦点を当てているため、既存のレトリバーは推論タスクの利益が限られていることを示しています。
各ドキュメントに対して、パイプラインが挑戦的で関連性の高いクエリを作成する合成データ生成パイプラインを開発し、さらにはっきりと関連しているが最終的には役に立たないハードネガティブを作成します。
合成データと既存のパブリックデータの混合物をトレーニングすることにより、Reasuir-8Bは、レランカーなしで29.9 NDCG@10の新しい最新のNDCGと36.9 NDCG@10の明るい、広く使用されている推論集約型情報検索(IR)ベンチマークを実現します。
RAGタスクに適用されると、Reasuir-8Bは、クローズドブックのベースラインと比較して、それぞれMMLUおよびGPQAのパフォーマンスを6.4%と22.6%改善し、他のレトリバーや検索エンジンを上回ります。
さらに、Reasuir-8Bはテスト時間計算をより効果的に使用します。明るくすると、そのパフォーマンスは、より長く、より情報が豊富な書き換えクエリとともに一貫して増加します。
LLMレランカーと組み合わせると、他のレトリバーよりも優れています。
私たちのトレーニングレシピは一般的であり、将来のLLMに簡単に拡張できます。
この目的のために、コード、データ、モデルをオープンソースします。

要約(オリジナル)

We present ReasonIR-8B, the first retriever specifically trained for general reasoning tasks. Existing retrievers have shown limited gains on reasoning tasks, in part because existing training datasets focus on short factual queries tied to documents that straightforwardly answer them. We develop a synthetic data generation pipeline that, for each document, our pipeline creates a challenging and relevant query, along with a plausibly related but ultimately unhelpful hard negative. By training on a mixture of our synthetic data and existing public data, ReasonIR-8B achieves a new state-of-the-art of 29.9 nDCG@10 without reranker and 36.9 nDCG@10 with reranker on BRIGHT, a widely-used reasoning-intensive information retrieval (IR) benchmark. When applied to RAG tasks, ReasonIR-8B improves MMLU and GPQA performance by 6.4% and 22.6% respectively, relative to the closed-book baseline, outperforming other retrievers and search engines. In addition, ReasonIR-8B uses test-time compute more effectively: on BRIGHT, its performance consistently increases with longer and more information-rich rewritten queries; it continues to outperform other retrievers when combined with an LLM reranker. Our training recipe is general and can be easily extended to future LLMs; to this end, we open-source our code, data, and model.

arxiv情報

著者 Rulin Shao,Rui Qiao,Varsha Kishore,Niklas Muennighoff,Xi Victoria Lin,Daniela Rus,Bryan Kian Hsiang Low,Sewon Min,Wen-tau Yih,Pang Wei Koh,Luke Zettlemoyer
発行日 2025-04-29 09:49:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | ReasonIR: Training Retrievers for Reasoning Tasks はコメントを受け付けていません

TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

要約

道徳的な物語は、値を送信するための実施された手段ですが、現代のNLPには、一貫した物語を明示的な倫理レッスンと結びつける大規模で構造化されたコーパスがありません。
このギャップは、TF1-EN-3Mで閉じます。これは、8B以上のパラメーターよりも大きい命令チューニングモデルによってのみ生成される300万の英語のf話の最初のオープンデータセットです。
各ストーリーは、6スロットの足場(文字 – >特性 – >設定 – > complet-> resolution-> moral)に続き、広いテーマの空間を覆いながらジャンルの忠実度を保証する組み合わせプロンプトエンジンを介して生成されます。
ハイブリッド評価パイプラインは、(i)文法、創造性、道徳的な明快さ、およびテンプレートの遵守を(ii)参照のない多様性と読みやすさのメトリックとスコアリングするGPTベースの批評家をブレンドします。
10人のオープンウェイト候補のうち、8BパラメーターのLlama-3バリアントは、最高品質のスピードトレードオフを提供し、1,000のf話あたり約13.5セントで、単一の消費者GPU(<24 GB VRAM)に高得点を生成します。 寛容なライセンスの下でデータセット、生成コード、評価スクリプト、および完全なメタデータをリリースし、正確な再現性とコストベンチマークを可能にします。 TF1-EN-3Mは、指導、物語の知性、価値の整合性、および子供に優しい教育AIにおける研究の研究の手段を開き、大規模な道徳的ストーリーテリングには独自の巨大なモデルがもはや必要ではないことを示しています。

要約(オリジナル)

Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We close this gap with TF1-EN-3M, the first open dataset of three million English-language fables generated exclusively by instruction-tuned models no larger than 8B parameters. Each story follows a six-slot scaffold (character -> trait -> setting -> conflict -> resolution -> moral), produced through a combinatorial prompt engine that guarantees genre fidelity while covering a broad thematic space. A hybrid evaluation pipeline blends (i) a GPT-based critic that scores grammar, creativity, moral clarity, and template adherence with (ii) reference-free diversity and readability metrics. Among ten open-weight candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM) at approximately 13.5 cents per 1,000 fables. We release the dataset, generation code, evaluation scripts, and full metadata under a permissive license, enabling exact reproducibility and cost benchmarking. TF1-EN-3M opens avenues for research in instruction following, narrative intelligence, value alignment, and child-friendly educational AI, demonstrating that large-scale moral storytelling no longer requires proprietary giant models.

arxiv情報

著者 Mihai Nadas,Laura Diosan,Andrei Piscoran,Andreea Tomescu
発行日 2025-04-29 10:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models はコメントを受け付けていません

WenyanGPT: A Large Language Model for Classical Chinese Tasks

要約

古典的な中国人は、中国文化の中核キャリアとして、古代文学の相続と研究において重要な役割を果たしています。
ただし、既存の自然言語処理モデルは、主に現代の中国語に最適化されているため、古典中国語では不十分なパフォーマンスが発生します。
このペーパーでは、古典的な中国語処理のための包括的なソリューションを提示します。
llama3-8b-chineseモデルでトレーニング前と指導を継続することにより、古典的な中国のタスク用に特別に設計された大規模な言語モデルであるwenyangptを構築します。
さらに、評価ベンチマークデータセット、Wenyanbenchを開発します。
Wenyanbenchでの実験結果は、Wenyangptがさまざまな古典的な中国のタスクで現在の高度なLLMを大幅に上回ることを示しています。
モデルのトレーニングデータ、命令微調整データ\脚注、および評価ベンチマークデータセットを、古典的な中国の処理の分野でのさらなる研究開発を促進するために公開されています。

要約(オリジナル)

Classical Chinese, as the core carrier of Chinese culture, plays a crucial role in the inheritance and study of ancient literature. However, existing natural language processing models primarily optimize for Modern Chinese, resulting in inadequate performance on Classical Chinese. This paper presents a comprehensive solution for Classical Chinese language processing. By continuing pre-training and instruction fine-tuning on the LLaMA3-8B-Chinese model, we construct a large language model, WenyanGPT, which is specifically designed for Classical Chinese tasks. Additionally, we develop an evaluation benchmark dataset, WenyanBENCH. Experimental results on WenyanBENCH demonstrate that WenyanGPT significantly outperforms current advanced LLMs in various Classical Chinese tasks. We make the model’s training data, instruction fine-tuning data\footnote, and evaluation benchmark dataset publicly available to promote further research and development in the field of Classical Chinese processing.

arxiv情報

著者 Xinyu Yao,Mengdi Wang,Bo Chen,Xiaobing Zhao
発行日 2025-04-29 10:19:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | WenyanGPT: A Large Language Model for Classical Chinese Tasks はコメントを受け付けていません

Cooking Up Creativity: A Cognitively-Inspired Approach for Enhancing LLM Creativity through Structured Representations

要約

大規模な言語モデル(LLMS)は無数のタスクで優れていますが、創造性に苦しんでいます。
この論文では、LLMを構造化された表現と認知的に促した操作を結びつける新しいアプローチを紹介し、より創造的で多様なアイデアを生み出します。
創造性の概念は、表面的なトークンレベルのバリエーションを超えています。
むしろ、既存のアイデアの構造化された表現を明示的に再結合し、アルゴリズムがアイデアのより抽象的な状況を効果的に探求できるようにします。
私たちは、創造的なレシピを生成するモデルであるDishcoverを使用して、料理のドメインでのアプローチを実証します。
モデルの結果をGPT-4oの結果と比較する実験は、多様性が大きくなっています。
ドメインの専門家の評価は、ほとんど一貫した実現可能な料理の作品である私たちの出力が、斬新さの点でGPT-4oを大幅に上回り、したがって創造的な世代でそれを上回ることを明らかにしています。
私たちの仕事が、AIの構造化された創造性に関するさらなる研究を促すことを願っています。

要約(オリジナル)

Large Language Models (LLMs) excel at countless tasks, yet struggle with creativity. In this paper, we introduce a novel approach that couples LLMs with structured representations and cognitively inspired manipulations to generate more creative and diverse ideas. Our notion of creativity goes beyond superficial token-level variations; rather, we explicitly recombine structured representations of existing ideas, allowing our algorithm to effectively explore the more abstract landscape of ideas. We demonstrate our approach in the culinary domain with DishCOVER, a model that generates creative recipes. Experiments comparing our model’s results to those of GPT-4o show greater diversity. Domain expert evaluations reveal that our outputs, which are mostly coherent and feasible culinary creations, significantly surpass GPT-4o in terms of novelty, thus outperforming it in creative generation. We hope our work inspires further research into structured creativity in AI.

arxiv情報

著者 Moran Mizrahi,Chen Shani,Gabriel Stanovsky,Dan Jurafsky,Dafna Shahaf
発行日 2025-04-29 11:13:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Cooking Up Creativity: A Cognitively-Inspired Approach for Enhancing LLM Creativity through Structured Representations はコメントを受け付けていません

DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators

要約

プライバシー(DP)保護の下で表形式データを生成すると、理論的なプライバシーの保証が保証されますが、主に騒々しい監督信号の下で複雑な構造をキャプチャする必要があるため、機械学習モデルをトレーニングするための課題をもたらします。
最近、事前に訓練された大規模な言語モデル(LLMS) – GPT-2の規模のものでさえ、表形式データの合成に大きな可能性を示しています。
ただし、DPの制約に基づくアプリケーションは、ほとんど説明されていません。
この作業では、合成表形式データの生成にDP技術を適用することにより、このギャップに対処します。
私たちの調査結果は、プライバシーの予算がテーブル構造のような非プライベート要素に非効率的に割り当てられているため、DPで微調整されたときにLLMSがコヒーレントテキストを生成するのに困難に直面していることを示しています。
これを克服するために、差次的にプライベートな表形式のデータ生成のための2段階の微調整フレームワークであるDP-2ステージを提案します。
最初の段階では、擬似データセットで非プライベートの微調整を行い、その後、プライベートデータセットでDP微調整が行われます。
私たちの経験的結果は、このアプローチが、DPコンテキストで直接微調整されたLLMと比較して、さまざまな設定とメトリックのパフォーマンスを改善することを示しています。
https://github.com/tejuafonja/dp-2stageでコードとセットアップをリリースします。

要約(オリジナル)

Generating tabular data under differential privacy (DP) protection ensures theoretical privacy guarantees but poses challenges for training machine learning models, primarily due to the need to capture complex structures under noisy supervision signals. Recently, pre-trained Large Language Models (LLMs) — even those at the scale of GPT-2 — have demonstrated great potential in synthesizing tabular data. However, their applications under DP constraints remain largely unexplored. In this work, we address this gap by applying DP techniques to the generation of synthetic tabular data. Our findings shows that LLMs face difficulties in generating coherent text when fine-tuned with DP, as privacy budgets are inefficiently allocated to non-private elements like table structures. To overcome this, we propose DP-2Stage, a two-stage fine-tuning framework for differentially private tabular data generation. The first stage involves non-private fine-tuning on a pseudo dataset, followed by DP fine-tuning on a private dataset. Our empirical results show that this approach improves performance across various settings and metrics compared to directly fine-tuned LLMs in DP contexts. We release our code and setup at https://github.com/tejuafonja/DP-2Stage.

arxiv情報

著者 Tejumade Afonja,Hui-Po Wang,Raouf Kerkouche,Mario Fritz
発行日 2025-04-29 11:33:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG, G.3 | DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators はコメントを受け付けていません

A Generative-AI-Driven Claim Retrieval System Capable of Detecting and Retrieving Claims from Social Media Platforms in Multiple Languages

要約

オンラインの偽情報はグローバルな課題を提起し、虚偽の情報の拡散を防ぐために請求を効率的に検証しなければならない事実確認者に大きな要求を置きます。
このプロセスの主要な問題は、すでに事実にチェックされた請求の冗長な検証であり、これにより、ワークロードが増加し、新たに出現したクレームに対する応答が遅れます。
この研究では、以前に事実確認されたクレームを取得し、特定の入力との関連性を評価し、事実確認者をサポートするための補足情報を提供するアプローチを紹介します。
私たちの方法は、大規模な言語モデル(LLM)を採用して、無関係なファクトチェックをフィルタリングし、簡潔な要約と説明を生成し、事実確認者が以前に検証されたかどうかをより速く評価できるようにします。
さらに、人間が開発されたツールと相互作用してその有効性をレビューする自動評価と人間の両方の評価を通じてアプローチを評価します。
我々の結果は、LLMが多くの無関係な事実チェックを除外し、したがって、努力を削減し、事実確認プロセスを合理化できることを示しています。

要約(オリジナル)

Online disinformation poses a global challenge, placing significant demands on fact-checkers who must verify claims efficiently to prevent the spread of false information. A major issue in this process is the redundant verification of already fact-checked claims, which increases workload and delays responses to newly emerging claims. This research introduces an approach that retrieves previously fact-checked claims, evaluates their relevance to a given input, and provides supplementary information to support fact-checkers. Our method employs large language models (LLMs) to filter irrelevant fact-checks and generate concise summaries and explanations, enabling fact-checkers to faster assess whether a claim has been verified before. In addition, we evaluate our approach through both automatic and human assessments, where humans interact with the developed tool to review its effectiveness. Our results demonstrate that LLMs are able to filter out many irrelevant fact-checks and, therefore, reduce effort and streamline the fact-checking process.

arxiv情報

著者 Ivan Vykopal,Martin Hyben,Robert Moro,Michal Gregor,Jakub Simko
発行日 2025-04-29 11:49:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | A Generative-AI-Driven Claim Retrieval System Capable of Detecting and Retrieving Claims from Social Media Platforms in Multiple Languages はコメントを受け付けていません

Non-native Children’s Automatic Speech Assessment Challenge (NOCASA)

要約

このペーパーでは、「非ネイティブチルドレンの自動音声評価」(NOCASA) – IEEE MLSP 2025会議のデータコンテストの一部を紹介します。
Nocasaは参加者に挑戦し、Gameified発音トレーニングアプリの一部として、若い第二言語(L2)学習者の単一単語発音を評価できる新しいシステムを開発するように挑戦します。
これを達成するには、いくつかの問題に対処する必要があります。最も顕著なのは、利用可能なトレーニングデータの限られた性質と、発音レベルのカテゴリ間で非常に不均衡な分布です。
開発を促進するために、1〜5スケール(ゲームで与えられるべき星の数)で205個の異なるノルウェーの単語を発音しようとする44人のスピーカーからの10,334の録音を含む擬似匿名のトレーニングデータ(Teflonnorl2)を提供します。
データに加えて、すでに訓練された2つのシステムが公式ベースラインとしてリリースされます。Compare_16アコースティック機能セットとマルチタスクWAV2VEC 2.0モデルでトレーニングされたSVM分類器です。
後者は、36.37%の加重平均リコール(UAR)で、チャレンジテストセットで最高のパフォーマンスを実現します。

要約(オリジナル)

This paper presents the ‘Non-native Children’s Automatic Speech Assessment’ (NOCASA) – a data competition part of the IEEE MLSP 2025 conference. NOCASA challenges participants to develop new systems that can assess single-word pronunciations of young second language (L2) learners as part of a gamified pronunciation training app. To achieve this, several issues must be addressed, most notably the limited nature of available training data and the highly unbalanced distribution among the pronunciation level categories. To expedite the development, we provide a pseudo-anonymized training data (TeflonNorL2), containing 10,334 recordings from 44 speakers attempting to pronounce 205 distinct Norwegian words, human-rated on a 1 to 5 scale (number of stars that should be given in the game). In addition to the data, two already trained systems are released as official baselines: an SVM classifier trained on the ComParE_16 acoustic feature set and a multi-task wav2vec 2.0 model. The latter achieves the best performance on the challenge test set, with an unweighted average recall (UAR) of 36.37%.

arxiv情報

著者 Yaroslav Getman,Tamás Grósz,Mikko Kurimo,Giampiero Salvi
発行日 2025-04-29 11:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS | Non-native Children’s Automatic Speech Assessment Challenge (NOCASA) はコメントを受け付けていません

Are Information Retrieval Approaches Good at Harmonising Longitudinal Survey Questions in Social Science?

要約

縦方向の社会科学調査における意味的に同等の質問の自動検出は、社会的、経済、および健康科学の経験的研究を通知する長期研究にとって重要です。
同等の質問を取得することは、二重の課題に直面しています:研究全体の理論構造(すなわち、概念/サブコンセプト)の一貫性のない表現、および質問と回答のオプション、および縦断テキストの語彙と構造の進化。
これらの課題に対処するために、コンピューター科学者と調査スペシャリストの学際的なコラボレーションは、縦断的集団研究を調和させるための質問と回答オプションの概念(例えば、住宅、仕事など)の等価性を特定するという新しい情報検索(IR)タスクを提示します。
このペーパーでは、確率モデル、言語モデルの線形調査、IR専用の事前に訓練されたニューラルネットワークなど、1946年から2020年にかけての調査データセットに関する複数の監視されていないアプローチを調査します。
IR特有のニューラルモデルは、他のアプローチが同等のパフォーマンスを発揮し、最高の全体的なパフォーマンスを達成することを示しています。
さらに、神経モデルを使用した確率モデルの結果の再ランキングは、F1スコアで最大で0.07の控えめな改善をもたらすだけです。
調査スペシャリストによる定性的な事後評価は、モデルが一般に、特にサブコンセプトが不一致になっている場合に、高語彙のオーバーラップの高い質問に対して感度が低いことを示しています。
全体として、私たちの分析は、社会科学における縦断的研究の調和に関するさらなる研究に役立ちます。

要約(オリジナル)

Automated detection of semantically equivalent questions in longitudinal social science surveys is crucial for long-term studies informing empirical research in the social, economic, and health sciences. Retrieving equivalent questions faces dual challenges: inconsistent representation of theoretical constructs (i.e. concept/sub-concept) across studies as well as between question and response options, and the evolution of vocabulary and structure in longitudinal text. To address these challenges, our multi-disciplinary collaboration of computer scientists and survey specialists presents a new information retrieval (IR) task of identifying concept (e.g. Housing, Job, etc.) equivalence across question and response options to harmonise longitudinal population studies. This paper investigates multiple unsupervised approaches on a survey dataset spanning 1946-2020, including probabilistic models, linear probing of language models, and pre-trained neural networks specialised for IR. We show that IR-specialised neural models achieve the highest overall performance with other approaches performing comparably. Additionally, the re-ranking of the probabilistic model’s results with neural models only introduces modest improvements of 0.07 at most in F1-score. Qualitative post-hoc evaluation by survey specialists shows that models generally have a low sensitivity to questions with high lexical overlap, particularly in cases where sub-concepts are mismatched. Altogether, our analysis serves to further research on harmonising longitudinal studies in social science.

arxiv情報

著者 Wing Yan Li,Zeqiang Wang,Jon Johnson,Suparna De
発行日 2025-04-29 12:00:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Are Information Retrieval Approaches Good at Harmonising Longitudinal Survey Questions in Social Science? はコメントを受け付けていません