Demographic Attributes Prediction from Speech Using WavLM Embeddings

要約

このペーパーでは、WAVLM機能に基づいた一般的な分類器を紹介し、年齢、性別、母国語、教育、国などの人口統計学的特性をスピーチから推測します。
人口統計機能の予測は、言語学習、アクセシビリティ、デジタルフォレンジックなどのアプリケーションで重要な役割を果たし、よりパーソナライズされた包括的なテクノロジーを可能にします。
埋め込み抽出のための前提条件のモデルを活用して、提案されたフレームワークは、人口統計属性に関連する重要な音響および言語のFEAから、年齢予測では4.94の平均絶対誤差(MAE)、さまざまなデータセット全体の性別分類の99.81%を超える精度を達成します。
当社のシステムは、MAEで相対的な30%まで既存のモデルを改善し、タスク全体で相対的な10%とF1スコアを改善し、多様な範囲のデータセットと大規模な前提型モデルを活用して、堅牢性と一般化可能性を確保します。
この研究は、スピーカーの多様性に関する新しい洞察を提供し、音声ベースの人口統計プロファイリングにおける将来の研究のための強力な基盤を提供します。

要約(オリジナル)

This paper introduces a general classifier based on WavLM features, to infer demographic characteristics, such as age, gender, native language, education, and country, from speech. Demographic feature prediction plays a crucial role in applications like language learning, accessibility, and digital forensics, enabling more personalized and inclusive technologies. Leveraging pretrained models for embedding extraction, the proposed framework identifies key acoustic and linguistic fea-tures associated with demographic attributes, achieving a Mean Absolute Error (MAE) of 4.94 for age prediction and over 99.81% accuracy for gender classification across various datasets. Our system improves upon existing models by up to relative 30% in MAE and up to relative 10% in accuracy and F1 scores across tasks, leveraging a diverse range of datasets and large pretrained models to ensure robustness and generalizability. This study offers new insights into speaker diversity and provides a strong foundation for future research in speech-based demographic profiling.

arxiv情報

著者 Yuchen Yang,Thomas Thebaud,Najim Dehak
発行日 2025-02-17 16:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Demographic Attributes Prediction from Speech Using WavLM Embeddings はコメントを受け付けていません

MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs

要約

数学的推論やコーディングなどのドメインでの専門的な大手言語モデル(LLMS)の最近の成功により、これらの専門家LLMを統合された混合混合物(MOE)モデルに統合する方法への関心が高まって、パフォーマンスを向上させることを目標としています。
一般的なタスクに対する有効性を保持しながら、各ドメインで。
ただし、専門家モデルの効果的なマージは、特に非常に多様な体重パラメーターまたは異なるアーキテクチャを持つモデルでは、オープンな課題のままです。
最先端のMOEマージメソッドは、均一なモデルアーキテクチャでのみ機能し、パラメーター干渉に対処せず、パフォーマンスを回復するために合併したMOEの広範な微調整が必​​要な、エキスパートレイヤーをマージするための単純な非加重平均化に依存しています。
これらの制限に対処するために、このペーパーでは、パラメーター干渉を緩和する戦略、ヒューリスティックをルーティングしてMoe微調整の必要性を減らすための新しいMoeマージテクニック、およびさまざまなアーキテクチャと専門家を統合するための新しい方法を紹介します。
複数のドメインにわたる広範な実験は、提案された方法の有効性を示し、微調整コストを削減し、最先端の方法のパフォーマンスを改善し、MOE合併の適用性を拡大します。

要約(オリジナル)

The recent success of specialized Large Language Models (LLMs) in domains such as mathematical reasoning and coding has led to growing interest in methods for merging these expert LLMs into a unified Mixture-of-Experts (MoE) model, with the goal of enhancing performance in each domain while retaining effectiveness on general tasks. However, the effective merging of expert models remains an open challenge, especially for models with highly divergent weight parameters or different architectures. State-of-the-art MoE merging methods only work with homogeneous model architectures and rely on simple unweighted averaging to merge expert layers, which does not address parameter interference and requires extensive fine-tuning of the merged MoE to restore performance. To address these limitations, this paper introduces new MoE merging techniques, including strategies to mitigate parameter interference, routing heuristics to reduce the need for MoE fine-tuning, and a novel method for merging experts with different architectures. Extensive experiments across multiple domains demonstrate the effectiveness of our proposed methods, reducing fine-tuning costs, improving performance over state-of-the-art methods, and expanding the applicability of MoE merging.

arxiv情報

著者 Yuhang Zhou,Giannis Karamanolakis,Victor Soto,Anna Rumshisky,Mayank Kulkarni,Furong Huang,Wei Ai,Jianhua Lu
発行日 2025-02-17 16:51:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | MergeME: Model Merging Techniques for Homogeneous and Heterogeneous MoEs はコメントを受け付けていません

Atom of Thoughts for Markov LLM Test-Time Scaling

要約

大規模な言語モデル(LLMS)は、トレーニングタイムスケーリングを通じて優れたパフォーマンスを実現し、テスト時間スケーリングは、推論中に効果的な推論を実施することにより機能をさらに強化します。
ただし、推論の規模が増加するにつれて、既存のテスト時間スケーリング方法は、計算リソースを浪費するだけでなく、効果的な推論を妨げる歴史的な情報に苦しみます。
この問題に対処するために、それぞれが自己完結型で検証可能である一連の独立したサブクエストを解決することにより、複雑な推論の進行がしばしば達成されることを観察します。
これらのサブクエストは本質的に原子的質問であり、マルコフプロセスの記憶のない遷移と同様に、主に蓄積された履歴ではなく現在の状態に依存しています。
この観察に基づいて、推論プロセスの各状態遷移は、現在の質問を依存関係に基づいた向きのある非環式グラフに分解し、そのサブクエストを収縮させ、新しい原子質問状態を形成することで構成されていることを提案します。
この反復分解対照プロセスは、直接的な原子的質問に到達するまで続き、質問状態間のマルコフの遷移を自然に実現します。
さらに、これらの原子的質問は、既存のテスト時間スケーリング方法にシームレスに統合され、AOTが推論機能を改善するためのプラグインの拡張機能として機能することができます。
6つのベンチマークにわたる実験は、スタンドアロンフレームワークとプラグインの強化の両方としてのAOTの有効性を示しています。
特に、Hotpotqaでは、GPT-4O-MINIに適用すると、AOTは80.6%のF1スコアを達成し、O3-MINIを3.4%、DeepSeek-R1を10.6%上回ります。
コードはhttps://github.com/qixucen/atomで入手できます。

要約(オリジナル)

Large Language Models (LLMs) achieve superior performance through training-time scaling, and test-time scaling further enhances their capabilities by conducting effective reasoning during inference. However, as the scale of reasoning increases, existing test-time scaling methods suffer from accumulated historical information, which not only wastes computational resources but also interferes with effective reasoning. To address this issue, we observe that complex reasoning progress is often achieved by solving a sequence of independent subquestions, each being self-contained and verifiable. These subquestions are essentially atomic questions, relying primarily on their current state rather than accumulated history, similar to the memoryless transitions in a Markov process. Based on this observation, we propose Atom of Thoughts (AoT), where each state transition in the reasoning process consists of decomposing the current question into a dependency-based directed acyclic graph and contracting its subquestions, forming a new atomic question state. This iterative decomposition-contraction process continues until reaching directly solvable atomic questions, naturally realizing Markov transitions between question states. Furthermore, these atomic questions can be seamlessly integrated into existing test-time scaling methods, enabling AoT to serve as a plug-in enhancement for improving reasoning capabilities. Experiments across six benchmarks demonstrate the effectiveness of AoT both as a standalone framework and a plug-in enhancement. Notably, on HotpotQA, when applied to gpt-4o-mini, AoT achieves an 80.6% F1 score, surpassing o3-mini by 3.4% and DeepSeek-R1 by 10.6%. The code will be available at https://github.com/qixucen/atom.

arxiv情報

著者 Fengwei Teng,Zhaoyang Yu,Quan Shi,Jiayi Zhang,Chenglin Wu,Yuyu Luo
発行日 2025-02-17 16:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Atom of Thoughts for Markov LLM Test-Time Scaling はコメントを受け付けていません

Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving

要約

大規模な言語モデル(LLMS)を使用した数学的推論への既存のアプローチは、一般化可能性または正確な計算のためのツール統合推論(TIR)についてチェーンオブ思考(COT)に依存しています。
これらの方法を組み合わせるための努力がなされていますが、主に選択後の戦略または事前定義された戦略に依存しており、LLMSが固有の能力に基づいて推論戦略を自律的に適応できるかどうかを明らかにしています。
この作業では、TATA(LLMSの適性に応じてLLMを教える)を提案します。これは、LLMが自然に推論戦略を自然にパーソナライズできるようにし、本質的な適性と合わせて推論戦略をパーソナライズできるようにします。
TATAは、モデルの独自の能力に合わせてトレーニングデータを調整するために、監視された微調整(SFT)中にベースLLMを意識したデータ選択を組み込みます。
このアプローチは、テスト時に適切な推論戦略を自律的に決定し、適用するためにLLMを装備します。
汎用と数学専門のLLMの両方を使用して、6つの数学的推論ベンチマークに関する広範な実験を通じてTATAを評価します。
経験的結果は、TATAがCOTとTIRの相補的な強度を効果的に組み合わせて、TIR単独と比較して優れたパフォーマンスを実現した推論効率を改善することを示しています。
さらなる分析では、LLMが効果的かつ適応的な推論決定を行い、推論戦略をモデル機能に合わせることができるようにする際の適性認識データ選択の重要な役割を強調しています。

要約(オリジナル)

Existing approaches to mathematical reasoning with large language models (LLMs) rely on Chain-of-Thought (CoT) for generalizability or Tool-Integrated Reasoning (TIR) for precise computation. While efforts have been made to combine these methods, they primarily rely on post-selection or predefined strategies, leaving an open question: whether LLMs can autonomously adapt their reasoning strategy based on their inherent capabilities. In this work, we propose TATA (Teaching LLMs According to Their Aptitude), an adaptive framework that enables LLMs to personalize their reasoning strategy spontaneously, aligning it with their intrinsic aptitude. TATA incorporates base-LLM-aware data selection during supervised fine-tuning (SFT) to tailor training data to the model’s unique abilities. This approach equips LLMs to autonomously determine and apply the appropriate reasoning strategy at test time. We evaluate TATA through extensive experiments on six mathematical reasoning benchmarks, using both general-purpose and math-specialized LLMs. Empirical results demonstrate that TATA effectively combines the complementary strengths of CoT and TIR, achieving superior or comparable performance with improved inference efficiency compared to TIR alone. Further analysis underscores the critical role of aptitude-aware data selection in enabling LLMs to make effective and adaptive reasoning decisions and align reasoning strategies with model capabilities.

arxiv情報

著者 Xin Xu,Yan Xu,Tianhao Chen,Yuchen Yan,Chengwu Liu,Zaoyu Chen,Yufei Wang,Yichun Yin,Yasheng Wang,Lifeng Shang,Qun Liu
発行日 2025-02-17 16:56:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving はコメントを受け付けていません

SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities

要約

DeepSeek-R1モデルなどの新たな大きな推論モデル(LRMS)は、構造化された中間ステップを生成し、推論能力を高めるために長い考え方(COT)の推論を活用します。
ただし、長いCOTは本質的に安全な出力を保証するものではなく、コードのセキュリティの脆弱性の導入や誤報の拡大などの有害な結果につながる可能性があります。
大規模な言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMSの長いCOTスタイルの出力を見落とす短い回答の応答に焦点を当てています。
このギャップを埋めるために、LRMの安全性に関する体系的な研究を実施します。
まず、人間の注釈に対して較正された安全性評価者を調査します。
新しく開発されたメトリックを使用して、StrongRejectおよびWildjailbreakデータセットで12の最先端のLRMの安全性を徹底的に評価します。
私たちの結果は、LR​​Mが推論の進歩と比較して安全ではないことを示しています。
さらに、推論の痕跡と最終的な答えのきめの細かい分析を実行します。
3つのデコード戦略など、ゼロチンク、テンクレス、およびモレチンクキャンは、追加のトレーニングなしでモデルの安全性を改善することがわかります。
ただし、これらの戦略は、制約された推論トレースを使用するか、高い推論コストを負担します。
LRMの安全性を向上させるために、COTスタイルの初めての安全トレーニングデータセットであるSafeChainを紹介します。
SafeChainで2つのLRMSを微調整して、モデルの安全性を高めるだけでなく、6つの推論ベンチマークでパフォーマンスを保存することを示しています。

要約(オリジナル)

Emerging large reasoning models (LRMs), such as DeepSeek-R1 models, leverage long chain-of-thought (CoT) reasoning to generate structured intermediate steps, enhancing their reasoning capabilities. However, long CoT does not inherently guarantee safe outputs, potentially leading to harmful consequences such as the introduction of security vulnerabilities in code or the spread of misinformation. Current research on large language model (LLM) safety usually focuses on short-answer responses, overlooking the long CoT style outputs of LRMs. To bridge this gap, we conduct a systematic study of LRM safety. First, we investigate safety evaluators calibrated against human annotations. Using our newly developed metrics, we thoroughly assess the safety of 12 state-of-the-art LRMs on StrongReject and WildJailbreak datasets. Our results show that LRMs are not safe compared to their reasoning advance. Further, we perform a fine-grained analysis of the reasoning trace and final answer. We find that three decoding strategies-ZeroThink, LessThink, and MoreThink-can improve model safety without additional training. However, these strategies either use constrained reasoning traces or incur high inference costs. To better strengthen LRM safety, we introduce SafeChain, the first-of-its-kind safety training dataset in CoT style. We fine-tune two LRMs with SafeChain, showing that it not only enhances model safety but also preserves performance across 6 reasoning benchmarks.

arxiv情報

著者 Fengqing Jiang,Zhangchen Xu,Yuetai Li,Luyao Niu,Zhen Xiang,Bo Li,Bill Yuchen Lin,Radha Poovendran
発行日 2025-02-17 16:57:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities はコメントを受け付けていません

KnowPath: Knowledge-enhanced Reasoning via LLM-generated Inference Paths over Knowledge Graphs

要約

大規模な言語モデル(LLM)は、さまざまな複雑なタスクで顕著な能力を実証していますが、それでも幻覚に苦しんでいます。
ナレッジグラフなどの外部知識を導入すると、事実の答えを提供するLLMSの能力を高めることができます。
LLMには、知識グラフをインタラクティブに探索する機能があります。
ただし、ほとんどのアプローチは、LLMSでの不十分な内部知識の掘削、信頼できる知識推論の限られた生成パス、および内部知識と外部知識の間の曖昧な統合の影響を受けています。
したがって、私たちは、内部および外部の知識のコラボレーションによって駆動される知識強化された大きなモデルフレームワークであるKnowPathを提案します。
LLMの内部知識に依存して、外部の知識グラフで解釈可能な指示されたサブグラフの探求を導き、2つの知識ソースをより正確な推論のために統合します。
複数の現実世界のデータセットでの広範な実験は、KnowPathの優位性を確認します。

要約(オリジナル)

Large language models (LLMs) have demonstrated remarkable capabilities in various complex tasks, yet they still suffer from hallucinations. Introducing external knowledge, such as knowledge graph, can enhance the LLMs’ ability to provide factual answers. LLMs have the ability to interactively explore knowledge graphs. However, most approaches have been affected by insufficient internal knowledge excavation in LLMs, limited generation of trustworthy knowledge reasoning paths, and a vague integration between internal and external knowledge. Therefore, we propose KnowPath, a knowledge-enhanced large model framework driven by the collaboration of internal and external knowledge. It relies on the internal knowledge of the LLM to guide the exploration of interpretable directed subgraphs in external knowledge graphs, better integrating the two knowledge sources for more accurate reasoning. Extensive experiments on multiple real-world datasets confirm the superiority of KnowPath.

arxiv情報

著者 Qi Zhao,Hongyu Yang,Qi Song,Xinwei Yao,Xiangyang Li
発行日 2025-02-17 17:02:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | KnowPath: Knowledge-enhanced Reasoning via LLM-generated Inference Paths over Knowledge Graphs はコメントを受け付けていません

Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning

要約

最近、マスクされた潜在的な予測に基づく自己教師の学習方法は、入力データを強力な表現にエンコードすることが証明されています。
ただし、トレーニング中に、学習した潜在スペースをさらに変換して、下流の分類タスクに適している高レベルの情報を抽出できます。
したがって、新しい方法を提案します:マスクされた潜在的な予測と分類(MATPAC)。これは、共同で解決された2つの口実タスクで訓練されています。
以前の作業と同様に、最初の口実タスクはマスクされた潜在的な予測タスクであり、潜在空間での堅牢な入力表現を確保します。
2つ目は、教師と生徒の間の確率分布を一致させるために、最初の口実タスクの潜在的な表現を利用する監視なし分類です。
MATPAC法を他の最先端の提案と比較し、アブレーション研究を実施することにより、MATPACメソッドを検証します。
MATPACは、OpenMIC、GTZAN、ESC-50、US8Kなどの参照オーディオ分類データセットで最先端の自己監視学習結果に到達し、Magna-Tag-a-Tuneの音楽自動タグのための同等の監視された方法の結果を上回ります。

要約(オリジナル)

Recently, self-supervised learning methods based on masked latent prediction have proven to encode input data into powerful representations. However, during training, the learned latent space can be further transformed to extract higher-level information that could be more suited for downstream classification tasks. Therefore, we propose a new method: MAsked latenT Prediction And Classification (MATPAC), which is trained with two pretext tasks solved jointly. As in previous work, the first pretext task is a masked latent prediction task, ensuring a robust input representation in the latent space. The second one is unsupervised classification, which utilises the latent representations of the first pretext task to match probability distributions between a teacher and a student. We validate the MATPAC method by comparing it to other state-of-the-art proposals and conducting ablations studies. MATPAC reaches state-of-the-art self-supervised learning results on reference audio classification datasets such as OpenMIC, GTZAN, ESC-50 and US8K and outperforms comparable supervised methods results for musical auto-tagging on Magna-tag-a-tune.

arxiv情報

著者 Aurian Quelennec,Pierre Chouteau,Geoffroy Peeters,Slim Essid
発行日 2025-02-17 17:02:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.SD | Masked Latent Prediction and Classification for Self-Supervised Audio Representation Learning はコメントを受け付けていません

A Survey on Bridging EEG Signals and Generative AI: From Image and Text to Beyond

要約

脳コンピューターインターフェイス(BCIS)と生成人工知能(GENAI)の統合により、脳信号のデコードで新しいフロンティアが開かれ、支援コミュニケーション、神経表現学習、およびマルチモーダル統合が可能になりました。
BCIS、特に脳波(EEG)を活用するBCIは、神経活動を意味のある出力に変換する非侵襲的な手段を提供します。
生成的敵対的ネットワーク(GANS)および変圧器ベースの大手言語モデル(LLM)を含む最近の深い学習の進歩により、EEGベースの画像、テキスト、音声の世代の世代が大幅に改善されました。
このホワイトペーパーでは、(i)GAN、変分自動エンコーダー(VAE)、および拡散モデルを介したEEGからイメージの生成に焦点を当てたEEGベースのマルチモーダル生成の最先端の文献レビューを提供します。
EEGからテキストの生成トランスベースの言語モデルと対照学習方法を活用します。
さらに、進化するマルチモーダルフロンティアであるEEG-to-Speech合成の新しいドメインについて説明します。
生成アプローチを支える主要なデータセット、ユースケース、課題、EEG機能のエンコードメソッドを強調します。
EEGベースの生成AIの構造化された概要を提供することにより、この調査は、研究者と実践者に神経デコードを前進させ、支援技術を強化し、脳コンピューターの相互作用のフロンティアを拡大するための洞察を提供することを目的としています。

要約(オリジナル)

Integration of Brain-Computer Interfaces (BCIs) and Generative Artificial Intelligence (GenAI) has opened new frontiers in brain signal decoding, enabling assistive communication, neural representation learning, and multimodal integration. BCIs, particularly those leveraging Electroencephalography (EEG), provide a non-invasive means of translating neural activity into meaningful outputs. Recent advances in deep learning, including Generative Adversarial Networks (GANs) and Transformer-based Large Language Models (LLMs), have significantly improved EEG-based generation of images, text, and speech. This paper provides a literature review of the state-of-the-art in EEG-based multimodal generation, focusing on (i) EEG-to-image generation through GANs, Variational Autoencoders (VAEs), and Diffusion Models, and (ii) EEG-to-text generation leveraging Transformer based language models and contrastive learning methods. Additionally, we discuss the emerging domain of EEG-to-speech synthesis, an evolving multimodal frontier. We highlight key datasets, use cases, challenges, and EEG feature encoding methods that underpin generative approaches. By providing a structured overview of EEG-based generative AI, this survey aims to equip researchers and practitioners with insights to advance neural decoding, enhance assistive technologies, and expand the frontiers of brain-computer interaction.

arxiv情報

著者 Shreya Shukla,Jose Torres,Abhijit Mishra,Jacek Gwizdka,Shounak Roychowdhury
発行日 2025-02-17 17:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.LG | A Survey on Bridging EEG Signals and Generative AI: From Image and Text to Beyond はコメントを受け付けていません

PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning

要約

大規模な言語モデルは、さまざまなドメイン、特に数学と論理推論にわたって顕著な能力を示しています。
しかし、現在の評価は物理ベースの推論を見落としています – 物理学の定理と制約を必要とする複雑なタスク。
知識ベース(25%)および推論ベース(75%)の問題を含む1,200の問題ベンチマークであるPhysreasonを提示します。後者は3つの難易度レベル(簡単、中、硬い)に分割されます。
特に、問題には平均8.1ソリューションステップが必要であり、物理ベースの推論の複雑さを反映して、15.6が必要です。
効率的な回答レベルで包括的なステップレベルの評価を組み込んだ物理ソリューションオートスコアリングフレームワークを提案します。
DeepSeek-R1、Gemini-2.0-Flash-Shinking、O3-Mini-Highなどの最高のパフォーマンスモデルは、回答レベルの評価で60%未満であり、パフォーマンスは知識の質問(75.11%)から困難な問題(31.95%に低下します。
)。
ステップレベルの評価を通じて、物理学定理アプリケーション、物理プロセスの理解、計算、および物理学の状態分析という4つの重要なボトルネックを特定しました。
これらの調査結果は、物理学ベースの推論能力を大規模な言語モデルにおいて評価するための斬新で包括的なベンチマークとして物理学的なベンチマークとして位置付けています。
当社のコードとデータは、https:/dxzxy12138.github.io/physreasonで公開されます。

要約(オリジナル)

Large language models demonstrate remarkable capabilities across various domains, especially mathematics and logic reasoning. However, current evaluations overlook physics-based reasoning – a complex task requiring physics theorems and constraints. We present PhysReason, a 1,200-problem benchmark comprising knowledge-based (25%) and reasoning-based (75%) problems, where the latter are divided into three difficulty levels (easy, medium, hard). Notably, problems require an average of 8.1 solution steps, with hard requiring 15.6, reflecting the complexity of physics-based reasoning. We propose the Physics Solution Auto Scoring Framework, incorporating efficient answer-level and comprehensive step-level evaluations. Top-performing models like Deepseek-R1, Gemini-2.0-Flash-Thinking, and o3-mini-high achieve less than 60% on answer-level evaluation, with performance dropping from knowledge questions (75.11%) to hard problems (31.95%). Through step-level evaluation, we identified four key bottlenecks: Physics Theorem Application, Physics Process Understanding, Calculation, and Physics Condition Analysis. These findings position PhysReason as a novel and comprehensive benchmark for evaluating physics-based reasoning capabilities in large language models. Our code and data will be published at https:/dxzxy12138.github.io/PhysReason.

arxiv情報

著者 Xinyu Zhang,Yuxuan Dong,Yanrui Wu,Jiaxing Huang,Chengyou Jia,Basura Fernando,Mike Zheng Shou,Lingling Zhang,Jun Liu
発行日 2025-02-17 17:24:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning はコメントを受け付けていません

AI-generated Text Detection with a GLTR-based Approach

要約

LLMS(大規模な言語モデル)の台頭は、最先端のNLPアプリケーションのパフォーマンスと開発の改善に貢献しています。
ただし、これらは、偽のニュースの広がり、有害なコンテンツ、個人になりすまし、学校の盗作を促進するなど、悪意を持って使用するとリスクをもたらす可能性があります。
これは、LLMが高品質のテキストを生成できるためです。これは、人間によって書かれたものと区別するのが困難です。
GLTRは、巨大な言語モデルのテストルームの略で、MIT-IBM Watson AI LabとHarvardnlpが共同で開発したもので、GPT-2に基づいて機械で生成されたテキストを検出するのに役立つ視覚ツールであり、テキストの単語を強調しています。
それらが機械で生成された可能性について。
GLTRの制限の1つは、返される結果が曖昧で混乱につながることがあることです。
この研究の目的は、英語とスペイン語の両方の言語で、Iberlef-autextification 2023共有タスクのコンテキスト内で、AI生成されたテキストを検出するためのGLTRの有効性を改善するためのさまざまな方法を探求することを目的としています。
実験結果は、GLTRベースのGPT-2モデルが、最初のランキングモデル(80.91%)を除き、マクロF1スコアの80.19%で英語データセットの最先端モデルを克服していることを示しています。
ただし、スペインのデータセットでは、66.20%のマクロF1スコアを取得しました。これは、最高のパフォーマンスモデルと比較して4.57%異なります。

要約(オリジナル)

The rise of LLMs (Large Language Models) has contributed to the improved performance and development of cutting-edge NLP applications. However, these can also pose risks when used maliciously, such as spreading fake news, harmful content, impersonating individuals, or facilitating school plagiarism, among others. This is because LLMs can generate high-quality texts, which are challenging to differentiate from those written by humans. GLTR, which stands for Giant Language Model Test Room and was developed jointly by the MIT-IBM Watson AI Lab and HarvardNLP, is a visual tool designed to help detect machine-generated texts based on GPT-2, that highlights the words in text depending on the probability that they were machine-generated. One limitation of GLTR is that the results it returns can sometimes be ambiguous and lead to confusion. This study aims to explore various ways to improve GLTR’s effectiveness for detecting AI-generated texts within the context of the IberLef-AuTexTification 2023 shared task, in both English and Spanish languages. Experiment results show that our GLTR-based GPT-2 model overcomes the state-of-the-art models on the English dataset with a macro F1-score of 80.19%, except for the first ranking model (80.91%). However, for the Spanish dataset, we obtained a macro F1-score of 66.20%, which differs by 4.57% compared to the top-performing model.

arxiv情報

著者 Lucía Yan Wu,Isabel Segura-Bedmar
発行日 2025-02-17 17:32:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | AI-generated Text Detection with a GLTR-based Approach はコメントを受け付けていません