Few-shot Hate Speech Detection Based on the MindSpore Framework

要約

ソーシャルメディアでのヘイトスピーチの急増は、オンラインコミュニティに大きな脅威をもたらし、効果的な検出システムを必要とします。
深い学習モデルは有望であることを示していますが、大規模な注釈付きコーパスに依存するため、彼らのパフォーマンスはしばしば少ないショットまたは低リソースの設定で悪化します。
これに対処するために、MINDSPOREディープラーニングプラットフォームに実装された少数のショットヘイトスピーチ検出のための迅速な神経フレームワークであるMS-FSLHATEを提案します。
このモデルは、学習可能なプロンプトエンミング、注意プーリングを備えたCNN-Bilstmバックボーン、および同義語ベースの敵対的データ増強を統合して、一般化を改善します。
2つのベンチマークデータセットHatexPlainでの実験結果は、私たちのアプローチが精度、リコール、およびF1スコアの競争力のあるベースラインよりも優れていることをHSOLが構成しています。
さらに、このフレームワークは高い効率とスケーラビリティを示しており、リソースに制約のある環境での展開に適していることを示唆しています。
これらの調査結果は、迅速な学習と、少ないショットシナリオで堅牢で適応可能なヘイトスピーチ検出のための敵対的な増強を組み合わせる可能性を強調しています。

要約(オリジナル)

The proliferation of hate speech on social media poses a significant threat to online communities, requiring effective detection systems. While deep learning models have shown promise, their performance often deteriorates in few-shot or low-resource settings due to reliance on large annotated corpora. To address this, we propose MS-FSLHate, a prompt-enhanced neural framework for few-shot hate speech detection implemented on the MindSpore deep learning platform. The model integrates learnable prompt embeddings, a CNN-BiLSTM backbone with attention pooling, and synonym-based adversarial data augmentation to improve generalization. Experimental results on two benchmark datasets-HateXplain and HSOL-demonstrate that our approach outperforms competitive baselines in precision, recall, and F1-score. Additionally, the framework shows high efficiency and scalability, suggesting its suitability for deployment in resource-constrained environments. These findings highlight the potential of combining prompt-based learning with adversarial augmentation for robust and adaptable hate speech detection in few-shot scenarios.

arxiv情報

著者 Zhenkai Qin,Dongze Wu,Yuxin Liu,Guifang Yang
発行日 2025-04-22 15:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Few-shot Hate Speech Detection Based on the MindSpore Framework はコメントを受け付けていません

Methods for Recognizing Nested Terms

要約

この論文では、ネストされた用語を抽出することに専念するRutermeval競争への参加について説明します。
以前にネストされた名前のエンティティの認識に正常に適用されていたバインダーモデルを適用して、ネストされた用語を抽出します。
Rutermeval競争の3つのトラックすべてで、学期認識の最良の結果を得ました。
さらに、ネストされていない用語で注釈が付けられたフラットトレーニングデータから、ネストされた用語の認識という新しいタスクを研究します。
この作業で提案したいくつかのアプローチは、ネストされたラベル付けなしにネストされた用語を効果的に取得するのに十分なほど実行可能であると結論付けることができます。

要約(オリジナル)

In this paper, we describe our participation in the RuTermEval competition devoted to extracting nested terms. We apply the Binder model, which was previously successfully applied to the recognition of nested named entities, to extract nested terms. We obtained the best results of term recognition in all three tracks of the RuTermEval competition. In addition, we study the new task of recognition of nested terms from flat training data annotated with terms without nestedness. We can conclude that several approaches we proposed in this work are viable enough to retrieve nested terms effectively without nested labeling of them.

arxiv情報

著者 Igor Rozhkov,Natalia Loukachevitch
発行日 2025-04-22 16:15:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Methods for Recognizing Nested Terms はコメントを受け付けていません

Certified Mitigation of Worst-Case LLM Copyright Infringement

要約

トレーニング前に大規模な言語モデル(LLM)を著作権で保護された材料に曝露すると、展開後の意図しない著作権侵害に関する懸念が生じます。
これにより、モデルが著作権で保護されたものと実質的に類似したコンテンツを生成するのを防ぐことを目的としたトレーニング後のアプローチの「著作権テイクダウン」方法の開発が促進されました。
現在の緩和アプローチは、平均ケースのリスクに多少効果的ですが、著作権で保護されたソースからの長い逐語的な引用の存在によって示される最悪の著作権リスクを見落としていることを示しています。
Bloomscrubを提案します。これは、認定された著作権テイクダウンを提供する非常にシンプルで非常に効果的な推論時間アプローチです。
私たちの方法は、潜在的に侵害するセグメントを変換するために、書き換え技術と引用検出を繰り返し繰り返します。
効率的なデータスケッチ(ブルームフィルター)を活用することにより、このアプローチにより、大規模な実世界のコーパスでもスケーラブルな著作権スクリーニングが可能になります。
長さのしきい値を超えた引用を削除できない場合、システムは応答を控えることができ、認定されたリスク削減を提供します。
実験結果は、BloomsCrubが侵害のリスクを減らし、効用を維持し、適応的棄権を伴うさまざまなレベルの執行の強迫性に対応することを示しています。
私たちの結果は、軽量の推論時間方法が著作権予防に驚くほど効果的であることを示唆しています。

要約(オリジナル)

The exposure of large language models (LLMs) to copyrighted material during pre-training raises concerns about unintentional copyright infringement post deployment. This has driven the development of ‘copyright takedown’ methods, post-training approaches aimed at preventing models from generating content substantially similar to copyrighted ones. While current mitigation approaches are somewhat effective for average-case risks, we demonstrate that they overlook worst-case copyright risks exhibits by the existence of long, verbatim quotes from copyrighted sources. We propose BloomScrub, a remarkably simple yet highly effective inference-time approach that provides certified copyright takedown. Our method repeatedly interleaves quote detection with rewriting techniques to transform potentially infringing segments. By leveraging efficient data sketches (Bloom filters), our approach enables scalable copyright screening even for large-scale real-world corpora. When quotes beyond a length threshold cannot be removed, the system can abstain from responding, offering certified risk reduction. Experimental results show that BloomScrub reduces infringement risk, preserves utility, and accommodates different levels of enforcement stringency with adaptive abstention. Our results suggest that lightweight, inference-time methods can be surprisingly effective for copyright prevention.

arxiv情報

著者 Jingyu Zhang,Jiacan Yu,Marc Marone,Benjamin Van Durme,Daniel Khashabi
発行日 2025-04-22 17:16:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Certified Mitigation of Worst-Case LLM Copyright Infringement はコメントを受け付けていません

Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability

要約

人工知能(AI)は、特に大規模な言語モデル(LLM)の大幅な進歩を通じて、最近、現代社会にますます影響を与えています。
ただし、LLMの計算およびストレージの高い要求は、リソースに制約のある環境での展開を依然として制限しています。
知識の蒸留は、より大きな教師モデルから小さな生徒モデルをトレーニングすることにより、この課題に対処します。
以前の研究では、トレーニングデータの生成と学生モデルのトレーニングの両方のために、いくつかの蒸留方法が導入されています。
それらの関連性にもかかわらず、モデルのパフォーマンスと説明可能性に対する最先端の蒸留方法の影響は、徹底的に調査され、比較されていません。
この作業では、データ生成のための蒸留に批評家の促進を促すことと、既存のトレーニングのための既存の方法を合成することにより、利用可能な方法のセットを拡大します。
これらの方法では、広く使用されている常識的な質問(CQA)データセットに基づいた体系的な比較を提供します。
学生モデルの精度を介してパフォーマンスを測定しますが、説明可能性を評価するために人間に基づいた研究を採用しています。
私たちは、パフォーマンスと説明可能性の両方の観点から、新しい蒸留方法とその比較を貢献します。
これにより、小言語モデルの蒸留がさらに進むため、LLMテクノロジーのより広範な適用性とより速い拡散に貢献します。

要約(オリジナル)

Artificial Intelligence (AI) has increasingly influenced modern society, recently in particular through significant advancements in Large Language Models (LLMs). However, high computational and storage demands of LLMs still limit their deployment in resource-constrained environments. Knowledge distillation addresses this challenge by training a small student model from a larger teacher model. Previous research has introduced several distillation methods for both generating training data and for training the student model. Despite their relevance, the effects of state-of-the-art distillation methods on model performance and explainability have not been thoroughly investigated and compared. In this work, we enlarge the set of available methods by applying critique-revision prompting to distillation for data generation and by synthesizing existing methods for training. For these methods, we provide a systematic comparison based on the widely used Commonsense Question-Answering (CQA) dataset. While we measure performance via student model accuracy, we employ a human-grounded study to evaluate explainability. We contribute new distillation methods and their comparison in terms of both performance and explainability. This should further advance the distillation of small language models and, thus, contribute to broader applicability and faster diffusion of LLM technology.

arxiv情報

著者 Daniel Hendriks,Philipp Spitzer,Niklas Kühl,Gerhard Satzger
発行日 2025-04-22 17:32:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Honey, I Shrunk the Language Model: Impact of Knowledge Distillation Methods on Performance and Explainability はコメントを受け付けていません

Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques

要約

大規模な言語モデル(LLMS)は、テキスト、画像、ビデオコンテンツを生成する際に並外れた機能を実証しています。
ただし、コンテキストの長さが増加するにつれて、注意の計算コストは​​トークンの数とともに二次的に増加し、重要な効率の課題を提示します。
このペーパーでは、さまざまなキー価値(kV)キャッシュ圧縮戦略の分析を提示し、根本的な原則と実装手法によってこれらの方法を分類する包括的な分類法を提供します。
さらに、パフォーマンスと推論の遅延に対する影響を評価し、その有効性に関する重要な洞察を提供します。
私たちの調査結果は、KVキャッシュ圧縮に関連するトレードオフと、長いコンテキストシナリオの処理への影響を強調し、より効率的なLLM実装への道を開いています。

要約(オリジナル)

Large language models (LLMs) have demonstrated exceptional capabilities in generating text, images, and video content. However, as context length grows, the computational cost of attention increases quadratically with the number of tokens, presenting significant efficiency challenges. This paper presents an analysis of various Key-Value (KV) cache compression strategies, offering a comprehensive taxonomy that categorizes these methods by their underlying principles and implementation techniques. Furthermore, we evaluate their impact on performance and inference latency, providing critical insights into their effectiveness. Our findings highlight the trade-offs involved in KV cache compression and its influence on handling long-context scenarios, paving the way for more efficient LLM implementations.

arxiv情報

著者 Neusha Javidnia,Bita Darvish Rouhani,Farinaz Koushanfar
発行日 2025-04-22 17:34:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Key, Value, Compress: A Systematic Exploration of KV Cache Compression Techniques はコメントを受け付けていません

Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation

要約

参照式生成(REG)は、視覚言語システムの実用的な能力を評価するための中核的なタスクであり、正確なセマンティック接地だけでなく、協力コミュニケーションの原則への遵守も必要です(Grice、1975)。
ただし、視覚言語モデル(VLM)の現在の評価は、しばしば実用的な次元を見落とし、regを地域ベースのキャプションタスクに減らし、グライスの格言を無視します。
この作業では、実用的な視点からRegを再検討し、書かれた式と話された式の両方で注釈された1.5k画像の新しいデータセット(refoi)を導入します。
最先端のVLMSの体系的な評価を通じて、実用的な能力の3つの重要な障害を特定します。(1)指示対象者を一意に識別できないこと、(2)過剰または無関係な情報の包含、および(3)最小の空間的キューの不足しているような人間の実用的選好との誤整理。
また、標準的な自動評価は、これらの実用的な違反をキャプチャできず、真の参照の成功ではなく表面的な手がかりを強化することも示しています。
私たちの調査結果は、実際の人間のコミュニケーションと一致する実用的に情報に基づいたモデルと評価フレームワークに新たな焦点を求めています。

要約(オリジナル)

Referring Expression Generation (REG) is a core task for evaluating the pragmatic competence of vision-language systems, requiring not only accurate semantic grounding but also adherence to principles of cooperative communication (Grice, 1975). However, current evaluations of vision-language models (VLMs) often overlook the pragmatic dimension, reducing REG to a region-based captioning task and neglecting Gricean maxims. In this work, we revisit REG from a pragmatic perspective, introducing a new dataset (RefOI) of 1.5k images annotated with both written and spoken referring expressions. Through a systematic evaluation of state-of-the-art VLMs, we identify three key failures of pragmatic competence: (1) failure to uniquely identify the referent, (2) inclusion of excessive or irrelevant information, and (3) misalignment with human pragmatic preference, such as the underuse of minimal spatial cues. We also show that standard automatic evaluations fail to capture these pragmatic violations, reinforcing superficial cues rather than genuine referential success. Our findings call for a renewed focus on pragmatically informed models and evaluation frameworks that align with real human communication.

arxiv情報

著者 Ziqiao Ma,Jing Ding,Xuejun Zhang,Dezhi Luo,Jiahe Ding,Sihan Xu,Yuchen Huang,Run Peng,Joyce Chai
発行日 2025-04-22 17:37:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation はコメントを受け付けていません

A Python Tool for Reconstructing Full News Text from GDELT

要約

ニュースデータは、経済学、財政、管理、社会科学、コンピューターサイエンスなど、さまざまな分野にわたって重要なリソースになっています。
研究者は新聞記事を活用して、経済動向、市場のダイナミクス、企業戦略、公的認識、政治的言説、世論の進化を研究します。
さらに、ニュースデータセットは、センチメント分析、偽のニュース検出、自動ニュース要約のアプリケーションを備えた大規模な言語モデルのトレーニングに貢献しています。
その重要性にもかかわらず、包括的なニュースコーパスへのアクセスは依然として重要な課題です。
FactivaやLexisNexisなどの多くのフルテキストニュースプロバイダーには、費用のかかるサブスクリプションが必要ですが、無料の代替案は不完全なデータや透明性の問題に苦しむことがよくあります。
このペーパーでは、イベント、言語、トーン(GDELT)のグローバルデータベースからデータを活用することにより、ほぼゼロのコストで全文新聞記事を取得するための新しいアプローチを紹介します。
具体的には、Gdelt Web News Ngrams 3.0データセットに焦点を当て、グローバルなオンラインニュースソースから抽出されたN-Gramsの高周波更新を提供します。
重複するテキストフラグメントを識別し、それらをインテリジェントにマージすることにより、これらのNグラムからフルテキストの記事を再構築するためのPythonコードを提供します。
私たちの方法により、研究者は、既存の独自のデータセットの制限を克服しながら、テキスト分析のために構造化された大規模な新聞データにアクセスできます。
提案されたアプローチは、経験的研究のためのニュースデータのアクセシビリティを強化し、経済予測、計算社会科学、および自然言語処理におけるアプリケーションを促進します。

要約(オリジナル)

News data have become an essential resource across various disciplines, including economics, finance, management, social sciences, and computer science. Researchers leverage newspaper articles to study economic trends, market dynamics, corporate strategies, public perception, political discourse, and the evolution of public opinion. Additionally, news datasets have been instrumental in training large-scale language models, with applications in sentiment analysis, fake news detection, and automated news summarization. Despite their significance, access to comprehensive news corpora remains a key challenge. Many full-text news providers, such as Factiva and LexisNexis, require costly subscriptions, while free alternatives often suffer from incomplete data and transparency issues. This paper presents a novel approach to obtaining full-text newspaper articles at near-zero cost by leveraging data from the Global Database of Events, Language, and Tone (GDELT). Specifically, we focus on the GDELT Web News NGrams 3.0 dataset, which provides high-frequency updates of n-grams extracted from global online news sources. We provide Python code to reconstruct full-text articles from these n-grams by identifying overlapping textual fragments and intelligently merging them. Our method enables researchers to access structured, large-scale newspaper data for text analysis while overcoming the limitations of existing proprietary datasets. The proposed approach enhances the accessibility of news data for empirical research, facilitating applications in economic forecasting, computational social science, and natural language processing.

arxiv情報

著者 A. Fronzetti Colladon,R. Vestrelli
発行日 2025-04-22 17:40:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB, cs.IR, H.2.8 | A Python Tool for Reconstructing Full News Text from GDELT はコメントを受け付けていません

State Space Models are Strong Text Rerankers

要約

トランスがNLPとIRを支配しています。
しかし、より長いコンテキストに外挿する際のそれらの推論の非効率性と課題は、代替モデルアーキテクチャへの関心を引き起こしました。
これらの中で、MAMBAのような状態空間モデル(SSM)は、特に$ O(1)$の推論の複雑さを有望な利点を提供します。
その可能性にもかかわらず、テキスト再ランキングでのSSMの有効性(きめ細かいクエリドキュメントの相互作用と長い文書の理解を必要とするタスク)は、採用不足のままです。
この調査では、さまざまなスケール、アーキテクチャ、およびテキストリランキングタスクのパフォーマンスと効率に焦点を当てたさまざまなスケール、アーキテクチャ、およびトレーニング前の目標にわたるトランスベースのモデルに対して、SSMベースのアーキテクチャ(具体的にはMAMBA-1およびMAMBA-2)をベンチマークします。
(1)Mambaアーキテクチャは、同様のサイズの変圧器ベースのモデルに匹敵する競争力のあるテキストランキングパフォーマンスを実現していることがわかります。
(2)フラッシュの注意を払ったトランスと比較して、トレーニングと推論が効率的ではありません。
(3)Mamba-2は、パフォーマンスと効率の両方でMamba-1を上回ります。
これらの結果は、変圧器の代替としての状態空間モデルの可能性を強調し、将来のIRアプリケーションの改善のための領域を強調しています。

要約(オリジナル)

Transformers dominate NLP and IR; but their inference inefficiencies and challenges in extrapolating to longer contexts have sparked interest in alternative model architectures. Among these, state space models (SSMs) like Mamba offer promising advantages, particularly $O(1)$ time complexity in inference. Despite their potential, SSMs’ effectiveness at text reranking — a task requiring fine-grained query-document interaction and long-context understanding — remains underexplored. This study benchmarks SSM-based architectures (specifically, Mamba-1 and Mamba-2) against transformer-based models across various scales, architectures, and pre-training objectives, focusing on performance and efficiency in text reranking tasks. We find that (1) Mamba architectures achieve competitive text ranking performance, comparable to transformer-based models of similar size; (2) they are less efficient in training and inference compared to transformers with flash attention; and (3) Mamba-2 outperforms Mamba-1 in both performance and efficiency. These results underscore the potential of state space models as a transformer alternative and highlight areas for improvement in future IR applications.

arxiv情報

著者 Zhichao Xu,Jinghua Yan,Ashim Gupta,Vivek Srikumar
発行日 2025-04-22 17:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | State Space Models are Strong Text Rerankers はコメントを受け付けていません

Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation

要約

視覚言語モデル(VLMS)の最近の進歩により、複雑なグラフィカルユーザーインターフェイス(GUI)インタラクションタスクの処理における機能が顕著になりました。
これらの改善にもかかわらず、現在のフレームワークはしばしば、挑戦的なGUI環境で正しいアクションを生成するのに苦労しています。
最先端の商用VLMはブラックボックスであり、GUIタスク用の微調整オープンソースVLMには重要なリソースが必要です。
さらに、フィードバックの遅延とローカル最適化の問題により、既存の軌道レベルの評価と改良技術は頻繁に不足しています。
これらの課題に対処するために、推論時にGUIナビゲーションと制御中に報酬モデルによってVLMエージェントをプロセス監督で導くアプローチを提案します。
このガイダンスにより、VLMエージェントは各推論ステップでアクションを最適化することができ、それにより、静的環境と動的環境の両方でパフォーマンスが向上します。
特に、私たちの方法は、3つのGUIナビゲーションタスクの大幅なパフォーマンスの向上を示し、静的環境のシングルステップアクション精度が3.4%改善され、1つの動的環境でのタスク成功率が約33%増加します。
軌道反射と再試行メカニズムのさらなる統合により、タスクの成功のさらに強化も実証します。

要約(オリジナル)

Recent advancements in visual language models (VLMs) have notably enhanced their capabilities in handling complex Graphical User Interface (GUI) interaction tasks. Despite these improvements, current frameworks often struggle to generate correct actions in challenging GUI environments. State-of-the-art commercial VLMs are black-boxes, and fine-tuning open-source VLMs for GUI tasks requires significant resources. Additionally, existing trajectory-level evaluation and refinement techniques frequently fall short due to delayed feedback and local optimization issues. To address these challenges, we propose an approach that guides VLM agents with process supervision by a reward model during GUI navigation and control at inference time. This guidance allows the VLM agent to optimize actions at each inference step, thereby improving performance in both static and dynamic environments. In particular, our method demonstrates significant performance gains in three GUI navigation tasks, achieving a 3.4% improvement in single step action accuracy for static environments, along with a around 33% increase in task success rate in one dynamic environment. With further integration of trajectory reflection and retry mechanisms, we also demonstrate even greater enhancement in task success.

arxiv情報

著者 Zhiyuan Hu,Shiyun Xiong,Yifan Zhang,See-Kiong Ng,Anh Tuan Luu,Bo An,Shuicheng Yan,Bryan Hooi
発行日 2025-04-22 17:52:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation はコメントを受け付けていません

PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

要約

Phybenchを紹介します。Phybenchは、物理的なコンテキストで大規模な言語モデル(LLM)の推論能力を評価するために設計された斬新で高品質のベンチマークを紹介します。
Phybenchは、現実的な物理的プロセスを理解し、推論するモデルの能力を評価するために設計された、実際の物理シナリオに基づいて、綿密にキュレーションされた500の物理学の問題で構成されています。
メカニズム、電磁気、熱力学、光学、現代物理学、および高度な物理学をカバーするため、ベンチマークは高校の演習から学部の問題や物理学のオリンピックの課題まで、難易度に及びます。
さらに、数学的式間の編集距離に基づいた新しい評価メトリックである式編集距離(EED)スコアを提案します。これは、モデル推論プロセスの違いと、従来のバイナリスコアリング方法を超えた結果を効果的にキャプチャします。
PhybenchでさまざまなLLMを評価し、そのパフォーマンスを人間の専門家と比較します。
私たちの結果は、最先端の推論モデルでさえ、人間の専門家に大幅に遅れており、それらの限界と複雑な身体的推論シナリオの改善の必要性を強調していることを明らかにしています。
ベンチマークの結果とデータセットは、https://phybench official.github.io/phybench-demo/で公開されています。

要約(オリジナル)

We introduce PHYBench, a novel, high-quality benchmark designed for evaluating reasoning capabilities of large language models (LLMs) in physical contexts. PHYBench consists of 500 meticulously curated physics problems based on real-world physical scenarios, designed to assess the ability of models to understand and reason about realistic physical processes. Covering mechanics, electromagnetism, thermodynamics, optics, modern physics, and advanced physics, the benchmark spans difficulty levels from high school exercises to undergraduate problems and Physics Olympiad challenges. Additionally, we propose the Expression Edit Distance (EED) Score, a novel evaluation metric based on the edit distance between mathematical expressions, which effectively captures differences in model reasoning processes and results beyond traditional binary scoring methods. We evaluate various LLMs on PHYBench and compare their performance with human experts. Our results reveal that even state-of-the-art reasoning models significantly lag behind human experts, highlighting their limitations and the need for improvement in complex physical reasoning scenarios. Our benchmark results and dataset are publicly available at https://phybench-official.github.io/phybench-demo/.

arxiv情報

著者 Shi Qiu,Shaoyang Guo,Zhuo-Yang Song,Yunbo Sun,Zeyu Cai,Jiashen Wei,Tianyu Luo,Yixuan Yin,Haoxu Zhang,Yi Hu,Chenyang Wang,Chencheng Tang,Haoling Chang,Qi Liu,Ziheng Zhou,Tianyu Zhang,Jingtian Zhang,Zhangyi Liu,Minghao Li,Yuku Zhang,Boxuan Jing,Xianqi Yin,Yutong Ren,Zizhuo Fu,Weike Wang,Xudong Tian,Anqi Lv,Laifu Man,Jianxiang Li,Feiyu Tao,Qihua Sun,Zhou Liang,Yushu Mu,Zhongxuan Li,Jing-Jun Zhang,Shutao Zhang,Xiaotian Li,Xingqi Xia,Jiawei Lin,Zheyu Shen,Jiahang Chen,Qiuhao Xiong,Binran Wang,Fengyuan Wang,Ziyang Ni,Bohan Zhang,Fan Cui,Changkun Shao,Qing-Hong Cao,Ming-xing Luo,Muhan Zhang,Hua Xing Zhu
発行日 2025-04-22 17:53:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models はコメントを受け付けていません