Temporal Graph Rewiring with Expander Graphs

要約

現実世界のネットワークにおける進化する関係は、多くの場合、時間グラフによってモデル化されます。
テンポラル グラフ ニューラル ネットワーク (TGNN) は、グラフ ニューラル ネットワーク (GNN) の核となるメッセージ パッシング プリミティブを利用することで、そのようなグラフの進化的動作をモデル化するために登場しました。
GNN が、リーチ不足や過剰潰しなど、入力グラフ トポロジに直接関係するいくつかの問題に対して脆弱であることはよく知られています。これらの問題は、特に古いノードの結果として、時間グラフで悪化することが多いと主張します。
そしてエッジ。
グラフ再配線技術は、グラフ トポロジをメッセージ パッシングに適したものにするために GNN で頻繁に使用されていますが、TGNN では主流で使用されていません。
この研究では、私たちの知る限り、時間グラフ上のグラフ再配線のための最初のアプローチである時間グラフ再配線 (TGR) を提案します。
TGR は、基礎となるグラフ構造に最小限の仮定を置く、静的グラフでのグラフ再配線に使用される著名なフレームワークであるエキスパンダー グラフ伝播を利用して、連続時間動的グラフ内の時間的に離れたノード間にメッセージ パッシング ハイウェイを構築します。
困難な TGB ベンチマークにおいて、TGR は執筆時点で tgbl-review、tgbl-coin、tgbl-comment、および tgbl-flight データセットで最先端の結果を達成しています。
tgbl-review の場合、TGR はベースの TGN モデルと比較して MRR が 50.5% 向上し、ベースの TNCN モデルと比較して 22.2% 向上しています。
基本モデルに対する大幅な改善は、時間グラフの再配線の明らかな利点を示しています。

要約(オリジナル)

Evolving relations in real-world networks are often modelled by temporal graphs. Temporal Graph Neural Networks (TGNNs) emerged to model evolutionary behaviour of such graphs by leveraging the message passing primitive at the core of Graph Neural Networks (GNNs). It is well-known that GNNs are vulnerable to several issues directly related to the input graph topology, such as under-reaching and over-squashing – we argue that these issues can often get exacerbated in temporal graphs, particularly as the result of stale nodes and edges. While graph rewiring techniques have seen frequent usage in GNNs to make the graph topology more favourable for message passing, they have not seen any mainstream usage on TGNNs. In this work, we propose Temporal Graph Rewiring (TGR), the first approach for graph rewiring on temporal graphs, to the best of our knowledge. TGR constructs message passing highways between temporally distant nodes in a continuous-time dynamic graph by utilizing expander graph propagation, a prominent framework used for graph rewiring on static graphs which makes minimal assumptions on the underlying graph structure. On the challenging TGB benchmark, TGR achieves state-of-the-art results on tgbl-review, tgbl-coin, tgbl-comment and tgbl-flight datasets at the time of writing. For tgbl-review, TGR has 50.5% improvement in MRR over the base TGN model and 22.2% improvement over the base TNCN model. The significant improvement over base models demonstrates clear benefits of temporal graph rewiring.

arxiv情報

著者 Katarina Petrović,Shenyang Huang,Farimah Poursafaei,Petar Veličković
発行日 2024-10-22 13:43:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SI, stat.ML | Temporal Graph Rewiring with Expander Graphs はコメントを受け付けていません

Can a Machine Distinguish High and Low Amount of Social Creak in Speech?

要約

目的: 特に女性の話者の間で社交的きしみの有病率が増加していることが、いくつかの研究で報告されています。
社会的きしみの研究は、音声の知覚評価と、高調波対雑音比やケプストラムピークプロミネンスなどの従来の音響パラメータを組み合わせることによって、これまでに実施されてきた。
現在の研究では、機械学習 (ML) を使用して、社会的きしみの量が少ない音声と社会的きしみの量が多い音声を自動的に区別しました。
方法: 90 人の女性話者によってフィンランド語で生成された連続音声サンプルのきしみの量が、まず 2 人の音声専門家によって知覚的に評価されました。
評価に基づいて、音声サンプルは 2 つのカテゴリ (低 $vs$、多量のきしみ音) に分類されました。
音声信号とそのきしみラベルを使用して、7 つの異なる ML モデルがトレーニングされました。
3 つのスペクトル表現が各モデルの特徴として使用されました。
結果: 結果は、メル スペクトログラム機能を使用した Adaboost 分類器とメル周波数ケプストラム係数機能を使用した決定木分類器の 2 つのシステムによって最高のパフォーマンス (精度 71.1\%) が得られたことを示しています。
結論: 社会言語学的および音声学的研究において、社会的きしみの研究はますます人気が高まっています。
従来の人間によるきしみの量の知覚評価は手間がかかるため、ML テクノロジーを使用して社会的きしみを研究する研究者を支援できる可能性があります。
この研究で報告された分類システムは、ソーシャル クリークに関する今後の ML ベースの研究のベースラインとして考慮される可能性があります。

要約(オリジナル)

Objectives: ncreased prevalence of social creak particularly among female speakers has been reported in several studies. The study of social creak has been previously conducted by combining perceptual evaluation of speech with conventional acoustical parameters such as the harmonic-to-noise ratio and cepstral peak prominence. In the current study, machine learning (ML) was used to automatically distinguish speech of low amount of social creak from speech of high amount of social creak. Methods: The amount of creak in continuous speech samples produced in Finnish by 90 female speakers was first perceptually assessed by two voice specialists. Based on their assessments, the speech samples were divided into two categories (low $vs$. high amount of creak). Using the speech signals and their creak labels, seven different ML models were trained. Three spectral representations were used as feature for each model. Results: The results show that the best performance (accuracy of 71.1\%) was obtained by the following two systems: an Adaboost classifier using the mel-spectrogram feature and a decision tree classifier using the mel-frequency cepstral coefficient feature. Conclusions: The study of social creak is becoming increasingly popular in sociolinguistic and vocological research. The conventional human perceptual assessment of the amount of creak is laborious and therefore ML technology could be used to assist researchers studying social creak. The classification systems reported in this study could be considered as baselines in future ML-based studies on social creak.

arxiv情報

著者 Anne-Maria Laukkanen,Sudarsana Reddy Kadiri,Shrikanth Narayanan,Paavo Alku
発行日 2024-10-22 13:52:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SD, eess.AS | Can a Machine Distinguish High and Low Amount of Social Creak in Speech? はコメントを受け付けていません

GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks

要約

地球科学における時空間データとモデリング タスクの需要が高まっているため、地理空間コード生成テクノロジが生産性を向上させるための重要な要素となっています。
大規模言語モデル (LLM) はコード生成タスクでの可能性を示していますが、ドメイン固有の知識やコード コーパスの欠如により、地理空間コード生成においてコーディングの拒否や幻覚などの問題に遭遇することがよくあります。
これらの課題に対処するために、このペーパーでは、GeoCode-PT および GeoCode-SFT コーパスを GeoCode-Eval 評価データセットとともに提示し、オープンソース化します。
さらに、事前トレーニングと微調整に QLoRA と LoRA を活用することで、Code Llama-7B から微調整された地理空間コード生成に焦点を当てた最初の LLM である GeoCode-GPT-7B を導入します。
さらに、オプション マッチング、専門家による検証、LLM の迅速なエンジニアリング スコアリングを組み込んだ包括的な地理空間コード評価フレームワークを確立し、GeoCode-Eval データセットを使用して GeoCode-GPT-7B を系統的に評価します。
実験結果では、GeoCode-GPT は他のモデルよりも多肢選択精度で 9.1% ~ 32.1%、コード要約能力で 1.7% ~ 25.4%、コード生成能力で 1.2% ~ 25.1% 優れていることが示されています。
このペーパーでは、地理空間コード生成における LLM のパフォーマンスを向上させるためのソリューションと経験的検証を提供し、ドメイン固有のモデル アプリケーションの境界を拡張し、地理空間コード生成における LLM の可能性を解き放つための貴重な洞察を提供します。

要約(オリジナル)

The increasing demand for spatiotemporal data and modeling tasks in geosciences has made geospatial code generation technology a critical factor in enhancing productivity. Although large language models (LLMs) have demonstrated potential in code generation tasks, they often encounter issues such as refusal to code or hallucination in geospatial code generation due to a lack of domain-specific knowledge and code corpora. To address these challenges, this paper presents and open-sources the GeoCode-PT and GeoCode-SFT corpora, along with the GeoCode-Eval evaluation dataset. Additionally, by leveraging QLoRA and LoRA for pretraining and fine-tuning, we introduce GeoCode-GPT-7B, the first LLM focused on geospatial code generation, fine-tuned from Code Llama-7B. Furthermore, we establish a comprehensive geospatial code evaluation framework, incorporating option matching, expert validation, and prompt engineering scoring for LLMs, and systematically evaluate GeoCode-GPT-7B using the GeoCode-Eval dataset. Experimental results show that GeoCode-GPT outperforms other models in multiple-choice accuracy by 9.1% to 32.1%, in code summarization ability by 1.7% to 25.4%, and in code generation capability by 1.2% to 25.1%. This paper provides a solution and empirical validation for enhancing LLMs’ performance in geospatial code generation, extends the boundaries of domain-specific model applications, and offers valuable insights into unlocking their potential in geospatial code generation.

arxiv情報

著者 Shuyang Hou,Zhangxiao Shen,Anqi Zhao,Jianyuan Liang,Zhipeng Gui,Xuefeng Guan,Rui Li,Huayi Wu
発行日 2024-10-22 13:57:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SE | GeoCode-GPT: A Large Language Model for Geospatial Code Generation Tasks はコメントを受け付けていません

Insights on Disagreement Patterns in Multimodal Safety Perception across Diverse Rater Groups

要約

AI システムは人間の評価に大きく依存していますが、これらの評価は多くの場合集約され、現実世界の現象に本来備わっている視点の多様性が曖昧になります。
これは、認識とそれに伴う危害が社会文化的文脈によって大きく異なる可能性があるため、生成型 AI の安全性を評価する場合に特に懸念されます。
最近の研究では、注釈付けテキストに対する人口統計の違いの影響が研究されていますが、これらの主観的な違いが生成 AI のマルチモーダル安全性にどのように影響するかについては十分な理解が得られていません。
これに対処するために、年齢、性別、民族を超えた 30 の交差グループにまたがる 630 人の評価者からなる人口統計的に多様な評価者プールからの約 1,000 世代のテキストから画像への (T2I) 世代の高度に並列した安全性評価を使用する大規模な研究を実施します。

私たちの調査では、(1) 危害の深刻度を評価する際には、人口統計上のグループ (交差グループを含む) によって大きな違いがあり、これらの違いは安全違反の種類によって異なること、(2) 多様な評価者プールが注釈を捉えていることが示されています。
特定の安全ポリシーのセットについて訓練を受けた専門評価者とは大きく異なるパターン、および (3) T2I の安全性で観察される違いは、以前に文書化されたテキストベースの安全タスクにおけるグループレベルの違いとは区別されます。
これらのさまざまな視点をさらに理解するために、評価者が提供する自由形式の説明の定性分析を実施します。
この分析により、さまざまなグループが T2I 世代において害を認識する理由の核となる違いが明らかになりました。
私たちの調査結果は、これらのシステムが真に包括的であり、すべてのユーザーの価値観を反映していることを保証するために、生成 AI の安全性評価に多様な視点を組み込むことが重要であることを強調しています。

要約(オリジナル)

AI systems crucially rely on human ratings, but these ratings are often aggregated, obscuring the inherent diversity of perspectives in real-world phenomenon. This is particularly concerning when evaluating the safety of generative AI, where perceptions and associated harms can vary significantly across socio-cultural contexts. While recent research has studied the impact of demographic differences on annotating text, there is limited understanding of how these subjective variations affect multimodal safety in generative AI. To address this, we conduct a large-scale study employing highly-parallel safety ratings of about 1000 text-to-image (T2I) generations from a demographically diverse rater pool of 630 raters balanced across 30 intersectional groups across age, gender, and ethnicity. Our study shows that (1) there are significant differences across demographic groups (including intersectional groups) on how severe they assess the harm to be, and that these differences vary across different types of safety violations, (2) the diverse rater pool captures annotation patterns that are substantially different from expert raters trained on specific set of safety policies, and (3) the differences we observe in T2I safety are distinct from previously documented group level differences in text-based safety tasks. To further understand these varying perspectives, we conduct a qualitative analysis of the open-ended explanations provided by raters. This analysis reveals core differences into the reasons why different groups perceive harms in T2I generations. Our findings underscore the critical need for incorporating diverse perspectives into safety evaluation of generative AI ensuring these systems are truly inclusive and reflect the values of all users.

arxiv情報

著者 Charvi Rastogi,Tian Huey Teh,Pushkar Mishra,Roma Patel,Zoe Ashwood,Aida Mostafazadeh Davani,Mark Diaz,Michela Paganini,Alicia Parrish,Ding Wang,Vinodkumar Prabhakaran,Lora Aroyo,Verena Rieser
発行日 2024-10-22 13:59:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Insights on Disagreement Patterns in Multimodal Safety Perception across Diverse Rater Groups はコメントを受け付けていません

Deep Memory Search: A Metaheuristic Approach for Optimizing Heuristic Search

要約

メタヒューリスティック検索手法は、複雑な最適化の課題に取り組むために不可欠なツールであることが証明されていますが、その可能性を最大限に発揮するには、従来のアルゴリズム フレームワークによって制限されることがよくあります。
この論文では、メタヒューリスティック検索をメモリ主導のプロセスとしてモデル化する、ディープ ヒューリスティック検索 (DHS) と呼ばれる新しいアプローチを紹介します。
DHS は、複数の検索レイヤーとメモリベースの探索/活用メカニズムを採用して、大規模で動的な検索スペースをナビゲートします。
モデルフリーのメモリ表現を利用することにより、DHS は確率的遷移モデルに依存せずに時間的軌跡を横断する機能を強化します。
提案された方法は、さまざまなヒューリスティック最適化問題にわたって検索効率とパフォーマンスが大幅に向上することを示しています。

要約(オリジナル)

Metaheuristic search methods have proven to be essential tools for tackling complex optimization challenges, but their full potential is often constrained by conventional algorithmic frameworks. In this paper, we introduce a novel approach called Deep Heuristic Search (DHS), which models metaheuristic search as a memory-driven process. DHS employs multiple search layers and memory-based exploration-exploitation mechanisms to navigate large, dynamic search spaces. By utilizing model-free memory representations, DHS enhances the ability to traverse temporal trajectories without relying on probabilistic transition models. The proposed method demonstrates significant improvements in search efficiency and performance across a range of heuristic optimization problems.

arxiv情報

著者 Abdel-Rahman Hedar,Alaa E. Abdel-Hakim,Wael Deabes,Youseef Alotaibi,Kheir Eddine Bouazza
発行日 2024-10-22 14:16:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, I.2.6 | Deep Memory Search: A Metaheuristic Approach for Optimizing Heuristic Search はコメントを受け付けていません

A Comparison of Baseline Models and a Transformer Network for SOC Prediction in Lithium-Ion Batteries

要約

リチウムイオン電池の充電状態を正確に予測することは、電気自動車の電池管理システムのパフォーマンスにとって不可欠です。
電気自動車の世界的な普及が遅れている主な理由の 1 つは、航続距離に対する不安です。
充電状態を正確に推定するバッテリー管理システムの機能は、この問題の軽減に役立ちます。
この論文では、データ駆動型の充電状態推定手法の比較が行われます。
この論文では、SOC 推定のためのさまざまなニューラル ネットワーク ベースのモデルと一般的な回帰モデルを比較しています。
これらのモデルには、いくつかのアブレーション変換ネットワーク、ニューラル ネットワーク、ラッソ回帰モデル、線形回帰モデル、および決定木が含まれます。
BMW i3 バッテリーの自然な運転サイクルから得られたデータに対して行われたさまざまな実験の結果は、ディシジョン ツリーが自己注意と位置エンコーディングを備えたより複雑な変圧器ネットワークを含む他のすべてのモデルよりも優れていることを示しています。

要約(オリジナル)

Accurately predicting the state of charge of Lithium-ion batteries is essential to the performance of battery management systems of electric vehicles. One of the main reasons for the slow global adoption of electric cars is driving range anxiety. The ability of a battery management system to accurately estimate the state of charge can help alleviate this problem. In this paper, a comparison between data-driven state-of-charge estimation methods is conducted. The paper compares different neural network-based models and common regression models for SOC estimation. These models include several ablated transformer networks, a neural network, a lasso regression model, a linear regression model and a decision tree. Results of various experiments conducted on data obtained from natural driving cycles of the BMW i3 battery show that the decision tree outperformed all other models including the more complex transformer network with self-attention and positional encoding.

arxiv情報

著者 Hadeel Aboueidah,Abdulrahman Altahhan
発行日 2024-10-22 14:27:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SY, eess.SY | A Comparison of Baseline Models and a Transformer Network for SOC Prediction in Lithium-Ion Batteries はコメントを受け付けていません

UnStar: Unlearning with Self-Taught Anti-Sample Reasoning for LLMs

要約

機械学習の主要なコンポーネントは、トレーニング用のデータ サンプル、学習パターン用のモデル、精度を最適化するための損失関数です。
同様に、アンラーニングは、アンチデータ サンプル (またはアンチサンプル)、アンラーニング メソッド、および逆損失関数を通じて達成できる可能性があります。
これまでの研究では、アンラーニング手法や損失関数の逆転が検討されてきましたが、アンチサンプルの可能性はほとんど未開発のままです。
このペーパーでは、UnSTAR: 大規模言語モデル (LLM) のための独習アンチサンプル推論によるアンラーニングを紹介します。
私たちの貢献は 3 つあります。
まず、反サンプル誘発非学習という新しい概念を提案します。
2 番目に、誤解を招く根拠を利用してアンチサンプルを生成します。これは、学習された関連付けを逆転させ、非学習プロセスを加速するのに役立ちます。
3 番目に、きめの細かいターゲットを絞ったアンラーニングを可能にし、関連する知識に影響を与えることなく、特定の関連付けを選択的に削除できるようにします。これは、以前の研究では達成できなかったことです。
結果は、アンチサンプルが LLM に効率的で的を絞ったアンラーニング戦略を提供し、プライバシーを保護する機械学習とモデル変更のための新しい道を開くことを示しています。

要約(オリジナル)

The key components of machine learning are data samples for training, model for learning patterns, and loss function for optimizing accuracy. Analogously, unlearning can potentially be achieved through anti-data samples (or anti-samples), unlearning method, and reversed loss function. While prior research has explored unlearning methods and reversed loss functions, the potential of anti-samples remains largely untapped. In this paper, we introduce UnSTAR: Unlearning with Self-Taught Anti-Sample Reasoning for large language models (LLMs). Our contributions are threefold; first, we propose a novel concept of anti-sample-induced unlearning; second, we generate anti-samples by leveraging misleading rationales, which help reverse learned associations and accelerate the unlearning process; and third, we enable fine-grained targeted unlearning, allowing for the selective removal of specific associations without impacting related knowledge – something not achievable by previous works. Results demonstrate that anti-samples offer an efficient, targeted unlearning strategy for LLMs, opening new avenues for privacy-preserving machine learning and model modification.

arxiv情報

著者 Yash Sinha,Murari Mandal,Mohan Kankanhalli
発行日 2024-10-22 14:30:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | UnStar: Unlearning with Self-Taught Anti-Sample Reasoning for LLMs はコメントを受け付けていません

A Novel Reinforcement Learning Model for Post-Incident Malware Investigations

要約

この研究は、サイバーインシデント対応中のマルウェアフォレンジック調査を最適化するための新しい強化学習(RL)モデルを提案します。
偽陰性を減らし、現在の手法を進化するマルウェアのシグネチャに適応させることで、フォレンジック調査の効率を向上させることを目的としています。
提案された RL フレームワークは、Q ラーニングやマルコフ決定プロセス (MDP) などの技術を活用して、ライブ メモリ ダンプ内のマルウェア パターンを識別するようにシステムをトレーニングし、それによってフォレンジック タスクを自動化します。
RL モデルは、静的手法と動作手法、および機械学習アルゴリズムを使用したマルウェア アーティファクトの分析をガイドする詳細なマルウェア ワークフロー図に基づいています。
さらに、法医学的証拠の正確性を確保することで、英国司法制度の課題に対処することを目指しています。
Windows オペレーティング システムで作成されたデータセットを使用してマルウェア感染をシミュレートし、制御された環境でテストと評価を実施します。
実験結果は、RL モデルのパフォーマンスが環境の複雑さと学習率に応じて変化することにより、RL が従来の方法と比較してマルウェア検出率を向上させることを示しています。
この研究では、RL はマルウェア フォレンジックの自動化に有望な可能性を提供するものの、さまざまな種類のマルウェアに対する RL の有効性を実現するには、報酬システムと特徴抽出方法の継続的な改良が必要であると結論付けています。

要約(オリジナル)

This Research proposes a Novel Reinforcement Learning (RL) model to optimise malware forensics investigation during cyber incident response. It aims to improve forensic investigation efficiency by reducing false negatives and adapting current practices to evolving malware signatures. The proposed RL framework leverages techniques such as Q-learning and the Markov Decision Process (MDP) to train the system to identify malware patterns in live memory dumps, thereby automating forensic tasks. The RL model is based on a detailed malware workflow diagram that guides the analysis of malware artefacts using static and behavioural techniques as well as machine learning algorithms. Furthermore, it seeks to address challenges in the UK justice system by ensuring the accuracy of forensic evidence. We conduct testing and evaluation in controlled environments, using datasets created with Windows operating systems to simulate malware infections. The experimental results demonstrate that RL improves malware detection rates compared to conventional methods, with the RL model’s performance varying depending on the complexity and learning rate of the environment. The study concludes that while RL offers promising potential for automating malware forensics, its efficacy across diverse malware types requires ongoing refinement of reward systems and feature extraction methods.

arxiv情報

著者 Dipo Dunsin,Mohamed Chahine Ghanem,Karim Ouazzane,Vassil Vassilev
発行日 2024-10-22 14:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR | A Novel Reinforcement Learning Model for Post-Incident Malware Investigations はコメントを受け付けていません

One Thousand and One Pairs: A ‘novel’ challenge for long-context language models

要約

合成ロングコンテキスト LLM ベンチマーク (例: 「干し草の中の針」) は、表面レベルの検索機能のみをテストしますが、ロングコンテキスト LLM は、書籍サイズの入力全体にわたる情報をどの程度うまく検索、合成、推論できるでしょうか?
私たちは、最近出版された英語のフィクション本 67 冊について、人間の読者によって書かれた真偽の主張の最小限に異なる 1,001 組のデータセットである NoCha を作成することで、この疑問に取り組みます。
既存のロングコンテキストベンチマークとは対照的に、私たちのアノテーターは、NoCha のペアの最大シェアを検証するには書籍全体にわたるグローバルな推論が必要であることを確認しています。
私たちの実験によると、人間の読者はこのタスクを簡単に実行できますが、評価した 10 個のロングコンテキスト LLM すべてにとっては非常に困難です。オープンウェイト モデルは (合成ベンチマークでの優れたパフォーマンスにもかかわらず) ランダムな確率を超えるパフォーマンスを発揮することはありませんが、GPT-4o
55.8% という最高の精度を達成します。
さらなる分析により、(1) 平均して、モデルは文レベルの検索のみを必要とするペアの方がグローバル推論よりもはるかに優れたパフォーマンスを発揮することがわかります。
(2) モデルによって生成された意思決定の説明は、正しくラベル付けされたクレームであっても不正確であることがよくあります。
(3) 広範な世界構築を含む推理小説の本では、モデルのパフォーマンスが大幅に低下します。
NoCha で提案された方法論により、ベンチマーク データセットの進化と将来のモデルの簡単な分析が可能になります。

要約(オリジナル)

Synthetic long-context LLM benchmarks (e.g., ‘needle-in-the-haystack’) test only surface-level retrieval capabilities, but how well can long-context LLMs retrieve, synthesize, and reason over information across book-length inputs? We address this question by creating NoCha, a dataset of 1,001 minimally different pairs of true and false claims about 67 recently-published English fictional books, written by human readers of those books. In contrast to existing long-context benchmarks, our annotators confirm that the largest share of pairs in NoCha require global reasoning over the entire book to verify. Our experiments show that while human readers easily perform this task, it is enormously challenging for all ten long-context LLMs that we evaluate: no open-weight model performs above random chance (despite their strong performance on synthetic benchmarks), while GPT-4o achieves the highest accuracy at 55.8%. Further analysis reveals that (1) on average, models perform much better on pairs that require only sentence-level retrieval vs. global reasoning; (2) model-generated explanations for their decisions are often inaccurate even for correctly-labeled claims; and (3) models perform substantially worse on speculative fiction books that contain extensive world-building. The methodology proposed in NoCha allows for the evolution of the benchmark dataset and the easy analysis of future models.

arxiv情報

著者 Marzena Karpinska,Katherine Thai,Kyle Lo,Tanya Goyal,Mohit Iyyer
発行日 2024-10-22 15:09:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | One Thousand and One Pairs: A ‘novel’ challenge for long-context language models はコメントを受け付けていません

Science Out of Its Ivory Tower: Improving Accessibility with Reinforcement Learning

要約

膨大な量の学術論文が毎日出版されていますが、その多くは専門用語が多く複雑な言葉が使われているため、一般の人々がアクセスできないままになっています。
科学コミュニケーションにおけるこの課題に対処するために、言語モデルを微調整して学術的な要約をよりわかりやすいバージョンに書き直す強化学習フレームワークを導入します。
私たちの言語モデルは、単語レベルと文レベルのアクセシビリティ報酬の慎重にバランスのとれた組み合わせによって導かれ、専門用語をよりアクセシブルな代替物に効果的に置き換えます。これは、微調整されたモデルや従来の読みやすさの尺度によって監視されたモデルでは達成するのが困難なタスクです。
私たちの最良のモデルは、学術要旨の読みやすさのレベルを米国の学年レベルの約 6 段階分、つまり大学院レベルから高校レベルまで調整します。
これは、事実の正確さと高品質な表現を維持しながら、監視付き微調整ベースラインよりも相対的に約 90% 向上したことになります。
私たちのアプローチを詳細に分析したところ、バランスの取れた報酬が基本モデルの体系的な変更につながり、よりスムーズな最適化と優れたパフォーマンスに貢献する可能性が高いことがわかりました。
私たちはこの作品を、学術研究と一般大衆、特に若い読者や大学の学位を持たない読者との間のギャップを埋めるための一歩として構想しています。

要約(オリジナル)

A vast amount of scholarly work is published daily, yet much of it remains inaccessible to the general public due to dense jargon and complex language. To address this challenge in science communication, we introduce a reinforcement learning framework that fine-tunes a language model to rewrite scholarly abstracts into more comprehensible versions. Guided by a carefully balanced combination of word- and sentence-level accessibility rewards, our language model effectively substitutes technical terms with more accessible alternatives, a task which models supervised fine-tuned or guided by conventional readability measures struggle to accomplish. Our best model adjusts the readability level of scholarly abstracts by approximately six U.S. grade levels — in other words, from a postgraduate to a high school level. This translates to roughly a 90% relative boost over the supervised fine-tuning baseline, all while maintaining factual accuracy and high-quality language. An in-depth analysis of our approach shows that balanced rewards lead to systematic modifications in the base model, likely contributing to smoother optimization and superior performance. We envision this work as a step toward bridging the gap between scholarly research and the general public, particularly younger readers and those without a college degree.

arxiv情報

著者 Haining Wang,Jason Clark,Hannah McKelvey,Leila Sterman,Zheng Gao,Zuoyu Tian,Sandra Kübler,Xiaozhong Liu
発行日 2024-10-22 15:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Science Out of Its Ivory Tower: Improving Accessibility with Reinforcement Learning はコメントを受け付けていません