Generalizable, real-time neural decoding with hybrid state-space models

要約

神経活動のリアルタイムデコードは、閉ループ実験から脳コンピューター界面まで、神経科学および神経科学のアプリケーションの中心であり、モデルは厳密な潜在的制約の影響を受けます。
単純な再発性ニューラルネットワークを含む従来の方法は、高速で軽量ですが、目に見えないデータに一般化するのに苦労しています。
対照的に、最近の変圧器ベースのアプローチは、強力な一般化パフォーマンスのために大規模な事前トレーニングを活用していますが、通常ははるかに大きな計算要件を持ち、低リソースやリアルタイムの設定に常に適しているわけではありません。
これらの欠点に対処するために、クロスアテンションモジュールを介した個々のスパイクトークン化を再発状態空間モデル(SSM)バックボーンと組み合わせて(1)(1)(1)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)(2)、新しいセッション、個人、およびマルチダタセットのPretrineを通じてのタスクの個人化、個人、および(2)効率的な一般化を実現する新しいHybridアーキテクチャであるPassmを提示します。
Monkey Motor Taskの皮質内デコードに関するPossmのデコード性能と推論速度を評価し、臨床応用、つまり人間の被験者における手書きと音声解読にまで及ぶことを示します。
特に、サルの運動皮質記録を事前に除去すると、人間の手書きタスクのデコードパフォーマンスが向上し、異種移動のエキサイティングな可能性を強調することが実証されています。
これらのタスクのすべてで、Possmは、推論コストのほんの一部(GPUで最大9倍高速)で、最先端の変圧器に匹敵するデコード精度を達成することがわかります。
これらの結果は、ハイブリッドSSMが、リアルタイムの閉ループアプリケーションのために神経デコーダーをトレーニングする際の精度、推論速度、および一般化の間のギャップを埋めるための有望なアプローチであることを示唆しています。

要約(オリジナル)

Real-time decoding of neural activity is central to neuroscience and neurotechnology applications, from closed-loop experiments to brain-computer interfaces, where models are subject to strict latency constraints. Traditional methods, including simple recurrent neural networks, are fast and lightweight but often struggle to generalize to unseen data. In contrast, recent Transformer-based approaches leverage large-scale pretraining for strong generalization performance, but typically have much larger computational requirements and are not always suitable for low-resource or real-time settings. To address these shortcomings, we present POSSM, a novel hybrid architecture that combines individual spike tokenization via a cross-attention module with a recurrent state-space model (SSM) backbone to enable (1) fast and causal online prediction on neural activity and (2) efficient generalization to new sessions, individuals, and tasks through multi-dataset pretraining. We evaluate POSSM’s decoding performance and inference speed on intracortical decoding of monkey motor tasks, and show that it extends to clinical applications, namely handwriting and speech decoding in human subjects. Notably, we demonstrate that pretraining on monkey motor-cortical recordings improves decoding performance on the human handwriting task, highlighting the exciting potential for cross-species transfer. In all of these tasks, we find that POSSM achieves decoding accuracy comparable to state-of-the-art Transformers, at a fraction of the inference cost (up to 9x faster on GPU). These results suggest that hybrid SSMs are a promising approach to bridging the gap between accuracy, inference speed, and generalization when training neural decoders for real-time, closed-loop applications.

arxiv情報

著者 Avery Hee-Woon Ryoo,Nanda H. Krishna,Ximeng Mao,Mehdi Azabou,Eva L. Dyer,Matthew G. Perich,Guillaume Lajoie
発行日 2025-06-05 17:57:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | Generalizable, real-time neural decoding with hybrid state-space models はコメントを受け付けていません

LSM-2: Learning from Incomplete Wearable Sensor Data

要約

機械学習における最近の進歩の基礎であるFoundationモデルは、主に完全でよく構築されたデータで繁栄しています。
ウェアラブルセンサーデータは頻繁に大きな欠落に苦しんでおり、通常、完全なデータ入力を想定する自己監視学習(SSL)モデルに大きな課題をもたらします。
このホワイトペーパーでは、明示的な帰属を必要とせずに不完全なデータから直接堅牢な表現を学習する新しいSSLアプローチである、適応および継承されたマスキング(AIM)を使用して、第2世代の大センサーモデル(LSM-2)を紹介します。
AIMのコアノベルティは、学習可能なマスクトークンを使用して、既存(「継承」)と人為的に導入された欠落の両方をモデル化し、推論中に断片化された実際のデータを堅牢に処理できるようにします。
40m時間の1日のマルチモーダルセンサーデータの広範なデータセットで事前に訓練されたAIMのLSM-2は、分類、回帰、生成モデリングなど、多様なタスクで最高のパフォーマンスを実現します。
さらに、AIMを備えたLSM-2は優れたスケーリングパフォーマンスを示し、非常に高いパフォーマンスは、高血圧予測のための夜間バイオシグナルの診断値など、臨床的に一貫性のあるパターンを反映して、ターゲットの欠落シナリオの下でも高性能を維持します。
これにより、実際のウェアラブルデータアプリケーションにとって、AIMはより信頼性の高い選択になります。

要約(オリジナル)

Foundation models, a cornerstone of recent advancements in machine learning, have predominantly thrived on complete and well-structured data. Wearable sensor data frequently suffers from significant missingness, posing a substantial challenge for self-supervised learning (SSL) models that typically assume complete data inputs. This paper introduces the second generation of Large Sensor Model (LSM-2) with Adaptive and Inherited Masking (AIM), a novel SSL approach that learns robust representations directly from incomplete data without requiring explicit imputation. AIM’s core novelty lies in its use of learnable mask tokens to model both existing (‘inherited’) and artificially introduced missingness, enabling it to robustly handle fragmented real-world data during inference. Pre-trained on an extensive dataset of 40M hours of day-long multimodal sensor data, our LSM-2 with AIM achieves the best performance across a diverse range of tasks, including classification, regression and generative modeling. Furthermore, LSM-2 with AIM exhibits superior scaling performance, and critically, maintains high performance even under targeted missingness scenarios, reflecting clinically coherent patterns, such as the diagnostic value of nighttime biosignals for hypertension prediction. This makes AIM a more reliable choice for real-world wearable data applications.

arxiv情報

著者 Maxwell A. Xu,Girish Narayanswamy,Kumar Ayush,Dimitris Spathis,Shun Liao,Shyam A. Tailor,Ahmed Metwally,A. Ali Heydari,Yuwei Zhang,Jake Garrison,Samy Abdel-Ghaffar,Xuhai Xu,Ken Gu,Jacob Sunshine,Ming-Zher Poh,Yun Liu,Tim Althoff,Shrikanth Narayanan,Pushmeet Kohli,Mark Malhotra,Shwetak Patel,Yuzhe Yang,James M. Rehg,Xin Liu,Daniel McDuff
発行日 2025-06-05 17:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | LSM-2: Learning from Incomplete Wearable Sensor Data はコメントを受け付けていません

Seeing the Invisible: Machine learning-Based QPI Kernel Extraction via Latent Alignment

要約

準粒子干渉(QPI)イメージングは​​、量子材料の電子構造を調査するための強力なツールですが、マルチスカッカー画像から単一散乱QPIパターン(つまり、カーネル)を抽出するための強力なツールです。
この作業では、QPIカーネル抽出のための最初のAIベースのフレームワークを提案します。
観測からカーネルへの推論から学習をカーネル表現を分離する2段階の学習戦略を紹介します。
最初のステップでは、バリエーションオートエンコーダーを訓練して、散乱カーネルのコンパクトな潜在スペースを学習します。
2番目のステップでは、QPI観測の潜在的な表現を、専用エンコーダーを使用して、事前に学習したカーネルの潜在表現と整列させます。
この設計により、モデルは、複雑で絡み合った散乱条件下でも核心を堅牢に推測できます。
100個の一意のカーネルで構成される多様で物理的に現実的なQPIデータセットを構築し、直接のワンステップベースラインに対して方法を評価します。
実験結果は、私たちのアプローチが抽出の精度が大幅に高いことを実証し、目に見えないカーネルへの一般化を改善したことを示しています。

要約(オリジナル)

Quasiparticle interference (QPI) imaging is a powerful tool for probing electronic structures in quantum materials, but extracting the single-scatterer QPI pattern (i.e., the kernel) from a multi-scatterer image remains a fundamentally ill-posed inverse problem. In this work, we propose the first AI-based framework for QPI kernel extraction. We introduce a two-step learning strategy that decouples kernel representation learning from observation-to-kernel inference. In the first step, we train a variational autoencoder to learn a compact latent space of scattering kernels. In the second step, we align the latent representation of QPI observations with those of the pre-learned kernels using a dedicated encoder. This design enables the model to infer kernels robustly even under complex, entangled scattering conditions. We construct a diverse and physically realistic QPI dataset comprising 100 unique kernels and evaluate our method against a direct one-step baseline. Experimental results demonstrate that our approach achieves significantly higher extraction accuracy, and improved generalization to unseen kernels.

arxiv情報

著者 Yingshuai Ji,Haomin Zhuang,Matthew Toole,James McKenzie,Xiaolong Liu,Xiangliang Zhang
発行日 2025-06-05 17:58:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Seeing the Invisible: Machine learning-Based QPI Kernel Extraction via Latent Alignment はコメントを受け付けていません

Admissibility of Completely Randomized Trials: A Large-Deviation Approach

要約

実験者が適応試験を実行するオプションを持っている場合、このオプションを無視して代わりに不適合試験を実行することは許容されますか?
実験者は、最も効果的な治療部門を自信を持って展開するために測定努力を慎重に割り当てることを目指している最高の腕の識別問題で、この質問に対する否定的な答えを提供します。
少なくとも3つの治療群があるときはいつでも、普遍的かつ厳密に支配的でない完全に無作為化された試験を普遍的かつ厳密に支配する単純な適応設計が存在することがわかります。
この優位性は、実験サンプルが大きいときに設計の統計効率を定量化する効率指数と呼ばれる概念によって特徴付けられます。
私たちの分析は、バッチングアームエリミネーションデザインのクラスに焦点を当てており、事前に指定されたバッチ間隔で徐々にパフォーマンスの低いアームを徐々に排除します。
これらの設計が完全に無作為化された試験を普遍的かつ厳密に支配する単純な十分な条件を特徴付けます。
これらの結果は、Qin [2022]でもたらされる2番目の未解決の問題を解決します。

要約(オリジナル)

When an experimenter has the option of running an adaptive trial, is it admissible to ignore this option and run a non-adaptive trial instead? We provide a negative answer to this question in the best-arm identification problem, where the experimenter aims to allocate measurement efforts judiciously to confidently deploy the most effective treatment arm. We find that, whenever there are at least three treatment arms, there exist simple adaptive designs that universally and strictly dominate non-adaptive completely randomized trials. This dominance is characterized by a notion called efficiency exponent, which quantifies a design’s statistical efficiency when the experimental sample is large. Our analysis focuses on the class of batched arm elimination designs, which progressively eliminate underperforming arms at pre-specified batch intervals. We characterize simple sufficient conditions under which these designs universally and strictly dominate completely randomized trials. These results resolve the second open problem posed in Qin [2022].

arxiv情報

著者 Guido Imbens,Chao Qin,Stefan Wager
発行日 2025-06-05 17:58:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.ML | Admissibility of Completely Randomized Trials: A Large-Deviation Approach はコメントを受け付けていません

The NTNU System at the S&I Challenge 2025 SLA Open Track

要約

音声言語評価に関する最近の研究ライン(SLA)は、BertやWAV2VEC 2.0(W2V)などのニューラルモデルを採用して、言語および音響モダリティ全体の話す習熟度を評価しています。
両方のモデルは、口頭能力に関連する機能を効果的にキャプチャしますが、それぞれがモダリティ固有の制限を示しています。
BERTベースの方法は、SLAの韻律的および音声的キューをキャプチャできないことが多いASR転写産物に依存しています。
対照的に、W2Vベースの方法は、音響機能のモデリングに優れていますが、セマンティックな解釈可能性がありません。
これらの制限を克服するために、スコアフュージョン戦略を通じてW2VをPHI-4マルチモーダル大手言語モデル(MLLM)を統合するシステムを提案します。
提案されたシステムは、Speak&Import Challenge 2025の公式テストセットで0.375のルート平均平方根誤差(RMSE)を達成し、競争で2位を獲得します。
比較のために、トップランク、3位、および公式のベースラインシステムのRMSは、それぞれ0.364、0.384、および0.444です。

要約(オリジナル)

A recent line of research on spoken language assessment (SLA) employs neural models such as BERT and wav2vec 2.0 (W2V) to evaluate speaking proficiency across linguistic and acoustic modalities. Although both models effectively capture features relevant to oral competence, each exhibits modality-specific limitations. BERT-based methods rely on ASR transcripts, which often fail to capture prosodic and phonetic cues for SLA. In contrast, W2V-based methods excel at modeling acoustic features but lack semantic interpretability. To overcome these limitations, we propose a system that integrates W2V with Phi-4 multimodal large language model (MLLM) through a score fusion strategy. The proposed system achieves a root mean square error (RMSE) of 0.375 on the official test set of the Speak & Improve Challenge 2025, securing second place in the competition. For comparison, the RMSEs of the top-ranked, third-ranked, and official baseline systems are 0.364, 0.384, and 0.444, respectively.

arxiv情報

著者 Hong-Yun Lin,Tien-Hong Lo,Yu-Hsuan Fang,Jhen-Ke Lin,Chung-Chun Wang,Hao-Chien Lu,Berlin Chen
発行日 2025-06-05 15:09:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | The NTNU System at the S&I Challenge 2025 SLA Open Track はコメントを受け付けていません

CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature

要約

人間の革新の特徴は、組換えのプロセスです。既存のメカニズムと概念の要素を統合することにより、オリジナルのアイデアを作成します。
この作業では、科学文献を自動的にマイニングし、キメラを構築します。再結合の例の大規模な知識ベース(KB)です。
キメラは、科学者がどのように概念を再結合し、さまざまな分野からインスピレーションを得るかを経験的に調査するために、または新しい創造的なクロスドメインの方向を予測することを学ぶ監督された機械学習モデルを訓練するために使用できます。
このKBを構築するために、科学論文の要約から組換えを抽出するという新しい情報抽出タスクを提示し、数百の手動で発表されたアブストラクトの高品質のコーパスを収集し、LLMベースの抽出モデルを訓練するためにそれを使用します。
このモデルは、AIドメイン内の大規模な紙のコーパスに適用され、28kを超える組換え例のKBが得られます。
キメラを分析して、AIの異なるサブレアの組換えの特性を探索します。
最後に、KBを使用して科学的仮説生成モデルを訓練します。これは、現実世界の研究者がインスピレーションを感じる新しい組換え方向を予測します。
データとコードは、https://github.com/noy-sternlicht/chimera-kbで入手できます

要約(オリジナル)

A hallmark of human innovation is the process of recombination — creating original ideas by integrating elements of existing mechanisms and concepts. In this work, we automatically mine the scientific literature and build CHIMERA: a large-scale knowledge base (KB) of recombination examples. CHIMERA can be used to empirically explore at scale how scientists recombine concepts and take inspiration from different areas, or to train supervised machine learning models that learn to predict new creative cross-domain directions. To build this KB, we present a novel information extraction task of extracting recombination from scientific paper abstracts, collect a high-quality corpus of hundreds of manually annotated abstracts, and use it to train an LLM-based extraction model. The model is applied to a large corpus of papers in the AI domain, yielding a KB of over 28K recombination examples. We analyze CHIMERA to explore the properties of recombination in different subareas of AI. Finally, we train a scientific hypothesis generation model using the KB, which predicts new recombination directions that real-world researchers find inspiring. Our data and code are available at https://github.com/noy-sternlicht/CHIMERA-KB

arxiv情報

著者 Noy Sternlicht,Tom Hope
発行日 2025-06-05 15:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CHIMERA: A Knowledge Base of Idea Recombination in Scientific Literature はコメントを受け付けていません

Information Locality as an Inductive Bias for Neural Language Models

要約

帰納的バイアスは、すべての機械学習システムに固有のものであり、モデルが有限データからどのように一般化するかを形成します。
神経言語モデル(LMS)の場合、これらのバイアスが人間の処理の制約に沿っているか分岐するかについて議論が続きます。
この問題に対処するために、これらのバイアスの性質に関する制御された調査を可能にする定量的フレームワークを提案します。
私たちのフレームワーク内で、$ m $ -localエントロピー$ \ unicode {x2013} $を導入します。
確率的な有限状態のオートマトン(PFSA)によって定義された摂動自然言語corporaと言語の両方での実験では、より高い$ m $ localエントロピーを持つ言語がトランスとLSTM LMSが学習するのがより困難であることを示しています。
これらの結果は、神経LMSは、人間と同じように、言語の局所統計構造に非常に敏感であることを示唆しています。

要約(オリジナル)

Inductive biases are inherent in every machine learning system, shaping how models generalize from finite data. In the case of neural language models (LMs), debates persist as to whether these biases align with or diverge from human processing constraints. To address this issue, we propose a quantitative framework that allows for controlled investigations into the nature of these biases. Within our framework, we introduce $m$-local entropy$\unicode{x2013}$an information-theoretic measure derived from average lossy-context surprisal$\unicode{x2013}$that captures the local uncertainty of a language by quantifying how effectively the $m-1$ preceding symbols disambiguate the next symbol. In experiments on both perturbed natural language corpora and languages defined by probabilistic finite-state automata (PFSAs), we show that languages with higher $m$-local entropy are more difficult for Transformer and LSTM LMs to learn. These results suggest that neural LMs, much like humans, are highly sensitive to the local statistical structure of a language.

arxiv情報

著者 Taiga Someya,Anej Svete,Brian DuSell,Timothy J. O’Donnell,Mario Giulianelli,Ryan Cotterell
発行日 2025-06-05 15:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Information Locality as an Inductive Bias for Neural Language Models はコメントを受け付けていません

Do Large Language Models Judge Error Severity Like Humans?

要約

大規模な言語モデル(LLM)は、自然言語生成の自動評価者としてますます使用されていますが、エラーの重大度の人間の判断を正確に複製できるかどうかは不明のままです。
この研究では、制御されたセマンティックエラーを含む画像記述のヒトとLLMの評価を体系的に比較します。
Van Miltenburgらの実験的枠組みを拡張します。
(2020)Unimodal(テキストのみ)およびマルチモーダル(テキスト +画像)設定の両方に、年齢、性別、衣類の種類、衣類の色の4つのエラータイプを評価します。
私たちの調査結果は、人間がさまざまなエラータイプにさまざまなレベルの重症度を割り当て、視覚的なコンテキストが色とタイプのエラーの知覚された重大度を大幅に増幅することを明らかにしています。
特に、ほとんどのLLMは、性別エラーに低いスコアを割り当てますが、非常に深刻であると判断するが異なる理由で両方を判断する人間とは異なり、色のエラーに対して不釣り合いに高いスコアを割り当てます。
これは、これらのモデルがジェンダーの判断に影響を与える社会的規範を内面化したかもしれないが、異なる神経メカニズムによって形作られる色に対する人間の感受性をエミュレートするための知覚的な基盤を欠いていることを示唆しています。
評価されたLLMSの1つであるDoubaoは、エラーの重大度の人間のようなランキングを複製しますが、人間と同じくらい明確にエラータイプを区別できません。
驚くべきことに、ユニモーダルLLMであるDeepSeek-V3は、単峰性とマルチモーダルの両方の条件で人間の判断と最高の整合性を達成し、最先端のマルチモーダルモデルを上回ります。

要約(オリジナル)

Large Language Models (LLMs) are increasingly used as automated evaluators in natural language generation, yet it remains unclear whether they can accurately replicate human judgments of error severity. In this study, we systematically compare human and LLM assessments of image descriptions containing controlled semantic errors. We extend the experimental framework of van Miltenburg et al. (2020) to both unimodal (text-only) and multimodal (text + image) settings, evaluating four error types: age, gender, clothing type, and clothing colour. Our findings reveal that humans assign varying levels of severity to different error types, with visual context significantly amplifying perceived severity for colour and type errors. Notably, most LLMs assign low scores to gender errors but disproportionately high scores to colour errors, unlike humans, who judge both as highly severe but for different reasons. This suggests that these models may have internalised social norms influencing gender judgments but lack the perceptual grounding to emulate human sensitivity to colour, which is shaped by distinct neural mechanisms. Only one of the evaluated LLMs, Doubao, replicates the human-like ranking of error severity, but it fails to distinguish between error types as clearly as humans. Surprisingly, DeepSeek-V3, a unimodal LLM, achieves the highest alignment with human judgments across both unimodal and multimodal conditions, outperforming even state-of-the-art multimodal models.

arxiv情報

著者 Diege Sun,Guanyi Chen,Fan Zhao,Xiaorong Cheng,Tingting He
発行日 2025-06-05 15:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Do Large Language Models Judge Error Severity Like Humans? はコメントを受け付けていません

CIVET: Systematic Evaluation of Understanding in VLMs

要約

ビジョン言語モデル(VLM)はさまざまなタスクで競争力のあるパフォーマンスを達成していますが、根本的な構造とシーンのセマンティクスの理解は、依然として研究されていません。
VLMの理解を調査するために、オブジェクトの特性と関係に関する能力を制御された解釈可能な方法で研究します。
この範囲に、制御された刺激を介して体系的な評価のための斬新で拡張可能なフレームワークであるCarvetを紹介します。
Carvetは、VLMの理解を評価するための標準化された体系的評価の欠如に対処し、研究者が統計的厳密さで仮説をテストできるようにします。
Carvetを使用すると、徹底的な刺激セット、注釈ノイズ、データセット固有のバイアス、および制御されていないシーンの複雑さで5つの最先端のVLMを評価します。
私たちの調査結果は、1)現在のVLMが限られた基本オブジェクトプロパティのみを正確に認識できることを明らかにしています。
2)彼らのパフォーマンスは、シーン内のオブジェクトの位置に大きく依存します。
3)彼らはオブジェクト間の基本的な関係を理解するのに苦労しています。
さらに、ヒトのアノテーターとの比較評価は、VLMがまだ人間レベルの精度を達成することに依然として及ばないことを明らかにしています。

要約(オリジナル)

While Vision-Language Models (VLMs) have achieved competitive performance in various tasks, their comprehension of the underlying structure and semantics of a scene remains understudied. To investigate the understanding of VLMs, we study their capability regarding object properties and relations in a controlled and interpretable manner. To this scope, we introduce CIVET, a novel and extensible framework for systematiC evaluatIon Via controllEd sTimuli. CIVET addresses the lack of standardized systematic evaluation for assessing VLMs’ understanding, enabling researchers to test hypotheses with statistical rigor. With CIVET, we evaluate five state-of-the-art VLMs on exhaustive sets of stimuli, free from annotation noise, dataset-specific biases, and uncontrolled scene complexity. Our findings reveal that 1) current VLMs can accurately recognize only a limited set of basic object properties; 2) their performance heavily depends on the position of the object in the scene; 3) they struggle to understand basic relations among objects. Furthermore, a comparative evaluation with human annotators reveals that VLMs still fall short of achieving human-level accuracy.

arxiv情報

著者 Massimo Rizzoli,Simone Alghisi,Olha Khomyn,Gabriel Roccabruna,Seyed Mahed Mousavi,Giuseppe Riccardi
発行日 2025-06-05 15:27:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | CIVET: Systematic Evaluation of Understanding in VLMs はコメントを受け付けていません

ValueSim: Generating Backstories to Model Individual Value Systems

要約

大規模な言語モデル(LLM)はますます人間のような能力を示し続けているため、それらを人間の価値に合わせて揃えることが非常に重要になりました。
迅速な学習や強化学習などの現代の高度なテクニックは、LLMを人間の価値とより適切に調整するために展開されています。
ただし、これらのアプローチは広範な倫理的考慮事項と有用性に対処していますが、個別の人間の価値システムのシミュレーションに焦点を当てることはめったにありません。
このギャップに対処するために、過去の経験と人口統計情報を反映する個人的なバックストーリーの生成を通じて個々の値をシミュレートするフレームワークであるValueImを提示します。
Valueimは、構造化された個々のデータを物語のバックストーリーに変換し、認知感情の性格システムに触発されたマルチモジュールアーキテクチャを採用して、これらの物語に基づいて個々の価値をシミュレートします。
World Values Surveyから派生した自己構築ベンチマークのテストValueimは、検索された生成方法と比較して、Top-1の精度の改善が10%以上の改善を示しています。
さらなる分析により、パフォーマンスが追加のユーザーインタラクション履歴が利用可能になるにつれてパフォーマンスが向上し、時間の経過とともにペルソナシミュレーション機能を改善するモデルの能力が示されています。

要約(オリジナル)

As Large Language Models (LLMs) continue to exhibit increasingly human-like capabilities, aligning them with human values has become critically important. Contemporary advanced techniques, such as prompt learning and reinforcement learning, are being deployed to better align LLMs with human values. However, while these approaches address broad ethical considerations and helpfulness, they rarely focus on simulating individualized human value systems. To address this gap, we present ValueSim, a framework that simulates individual values through the generation of personal backstories reflecting past experiences and demographic information. ValueSim converts structured individual data into narrative backstories and employs a multi-module architecture inspired by the Cognitive-Affective Personality System to simulate individual values based on these narratives. Testing ValueSim on a self-constructed benchmark derived from the World Values Survey demonstrates an improvement in top-1 accuracy by over 10% compared to retrieval-augmented generation methods. Further analysis reveals that performance enhances as additional user interaction history becomes available, indicating the model’s ability to refine its persona simulation capabilities over time.

arxiv情報

著者 Bangde Du,Ziyi Ye,Zhijing Wu,Jankowska Monika,Shuqi Zhu,Qingyao Ai,Yujia Zhou,Yiqun Liu
発行日 2025-06-05 15:41:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ValueSim: Generating Backstories to Model Individual Value Systems はコメントを受け付けていません