CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR

要約

コンピュータグラフィックス、機械学習、センサー技術における最近の発展により、技能訓練からエンターテインメントまで、日常生活における拡張現実感(XR)セットアップの多くの機会が可能になった。大企業が手頃なコンシューマーグレードのヘッドマウントディスプレイ(HMD)を提供することで、XRは普及し、HMDはスマートフォンやタブレットのようなパーソナルデバイスとして発展していくだろう。しかし、XRにインテリジェントな空間と自然なインタラクションを持たせることは、ユーザーが仮想空間や拡張空間でのエンゲージメントを高めるために、技術の進歩と同じくらい重要である。この目的のために、大規模言語モデル(LLM)を搭載したノンプレイヤーキャラクター(NPC)は、STT(Speech-to-Text)やTTS(Text-to-Speech)モデルを備え、XRにおいてより自然な会話型ユーザーインターフェース(CUI)を促進するために、従来のNPCや事前にスクリプト化されたNPCよりも大きな利点をもたらします。本論文では、オープンソースで、カスタマイズ可能で、拡張可能で、プライバシーに配慮したUnityパッケージであるCUIfyをコミュニティに提供し、広く使用されているLLM、STT、TTSモデルを使って、音声ベースのNPCとユーザとの対話を容易にします。また、本パッケージは、環境ごとに複数のLLMを搭載したNPCをサポートし、ストリーミングにより異なる計算モデル間の待ち時間を最小化することで、ユーザとNPC間のユーザビリティの高いインタラクションを実現します。ソースコードは以下のリポジトリで公開しています: https://gitlab.lrz.de/hctl/cuify

要約(オリジナル)

Recent developments in computer graphics, machine learning, and sensor technologies enable numerous opportunities for extended reality (XR) setups for everyday life, from skills training to entertainment. With large corporations offering affordable consumer-grade head-mounted displays (HMDs), XR will likely become pervasive, and HMDs will develop as personal devices like smartphones and tablets. However, having intelligent spaces and naturalistic interactions in XR is as important as technological advances so that users grow their engagement in virtual and augmented spaces. To this end, large language model (LLM)–powered non-player characters (NPCs) with speech-to-text (STT) and text-to-speech (TTS) models bring significant advantages over conventional or pre-scripted NPCs for facilitating more natural conversational user interfaces (CUIs) in XR. This paper provides the community with an open-source, customizable, extendable, and privacy-aware Unity package, CUIfy, that facilitates speech-based NPC-user interaction with widely used LLMs, STT, and TTS models. Our package also supports multiple LLM-powered NPCs per environment and minimizes latency between different computational models through streaming to achieve usable interactions between users and NPCs. We publish our source code in the following repository: https://gitlab.lrz.de/hctl/cuify

arxiv情報

著者 Kadir Burak Buldu,Süleyman Özdel,Ka Hei Carrie Lau,Mengdi Wang,Daniel Saad,Sofie Schönborn,Auxane Boch,Enkelejda Kasneci,Efe Bozkir
発行日 2025-03-03 13:41:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.HC | CUIfy the XR: An Open-Source Package to Embed LLM-powered Conversational Agents in XR はコメントを受け付けていません

OpenReviewer: A Specialized Large Language Model for Generating Critical Scientific Paper Reviews

要約

OpenReviewerは、機械学習とAIのカンファレンス論文の高品質な査読を生成するためのオープンソースシステムです。Llama-OpenReviewer-8Bは、8Bのパラメータを持つ言語モデルであり、トップカンファレンスからの79,000件の専門家レビューに基づいて特別に微調整されています。OpenReviewerは、PDFの投稿論文とレビューテンプレートを入力として与えると、数式や表などの技術的な内容を含む全文を抽出し、学会固有のガイドラインに従って構造化されたレビューを生成します。400のテスト論文に対する我々の評価では、OpenReviewerはGPT-4やClaude-3.5のような汎用のLLMと比較して、かなり批判的で現実的なレビューを生成することがわかりました。他のLLMが過度に肯定的な評価をする傾向があるのに対し、OpenReviewerの推奨は人間の査読者の評価分布と密接に一致しています。このシステムは、投稿前に原稿を改善するための迅速で建設的なフィードバックを著者に提供しますが、人間の査読に取って代わることを意図したものではありません。OpenReviewerは、オンラインデモおよびオープンソースツールとして利用可能です。

要約(オリジナル)

We present OpenReviewer, an open-source system for generating high-quality peer reviews of machine learning and AI conference papers. At its core is Llama-OpenReviewer-8B, an 8B parameter language model specifically fine-tuned on 79,000 expert reviews from top conferences. Given a PDF paper submission and review template as input, OpenReviewer extracts the full text, including technical content like equations and tables, and generates a structured review following conference-specific guidelines. Our evaluation on 400 test papers shows that OpenReviewer produces considerably more critical and realistic reviews compared to general-purpose LLMs like GPT-4 and Claude-3.5. While other LLMs tend toward overly positive assessments, OpenReviewer’s recommendations closely match the distribution of human reviewer ratings. The system provides authors with rapid, constructive feedback to improve their manuscripts before submission, though it is not intended to replace human peer review. OpenReviewer is available as an online demo and open-source tool.

arxiv情報

著者 Maximilian Idahl,Zahra Ahmadi
発行日 2025-03-03 13:58:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | OpenReviewer: A Specialized Large Language Model for Generating Critical Scientific Paper Reviews はコメントを受け付けていません

Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks

要約

オフラインのデータセットに対して自己教師付き学習で訓練された大規模モデルは、テキストや画像の領域で顕著な能力を示しているが、逐次的な決定問題で行動するエージェントに対して同様の汎化を達成することは、依然として未解決の課題である。本研究では、数千万の2次元物理ベースタスクを手続き的に生成し、これらを用いて物理制御のための一般的な強化学習(RL)エージェントを訓練することで、この目標に向けて一歩を踏み出す。この目的のために、我々はKinetixを紹介する。Kinetixは物理ベースのRL環境のオープンエンドな空間であり、ロボットの運動や把持からビデオゲームや古典的なRL環境まで、様々なタスクを統一されたフレームワークで表現することができる。Kinetixは、我々の新しいハードウェアアクセラレーション物理エンジンJax2Dを利用しており、トレーニング中に何十億もの環境ステップを安価にシミュレートすることができる。訓練されたエージェントは、2D空間において強力な物理的推論能力を発揮し、人間が設計した未知の環境をゼロショットで解決することができます。さらに、この一般的なエージェントを興味のあるタスクで微調整すると、RLエージェントを*tabula rasa*で訓練するよりも著しく強力な性能を示す。これには、標準的なRLトレーニングが完全に失敗する環境も含まれる。我々は、これがオンラインRLのための大規模で質の混在した事前トレーニングの実現可能性を示していると考えており、Kinetixがこれをさらに調査するための有用なフレームワークとして機能することを期待している。

要約(オリジナル)

While large models trained with self-supervised learning on offline datasets have shown remarkable capabilities in text and image domains, achieving the same generalisation for agents that act in sequential decision problems remains an open challenge. In this work, we take a step towards this goal by procedurally generating tens of millions of 2D physics-based tasks and using these to train a general reinforcement learning (RL) agent for physical control. To this end, we introduce Kinetix: an open-ended space of physics-based RL environments that can represent tasks ranging from robotic locomotion and grasping to video games and classic RL environments, all within a unified framework. Kinetix makes use of our novel hardware-accelerated physics engine Jax2D that allows us to cheaply simulate billions of environment steps during training. Our trained agent exhibits strong physical reasoning capabilities in 2D space, being able to zero-shot solve unseen human-designed environments. Furthermore, fine-tuning this general agent on tasks of interest shows significantly stronger performance than training an RL agent *tabula rasa*. This includes solving some environments that standard RL training completely fails at. We believe this demonstrates the feasibility of large scale, mixed-quality pre-training for online RL and we hope that Kinetix will serve as a useful framework to investigate this further.

arxiv情報

著者 Michael Matthews,Michael Beukman,Chris Lu,Jakob Foerster
発行日 2025-03-03 14:29:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | Kinetix: Investigating the Training of General Agents through Open-Ended Physics-Based Control Tasks はコメントを受け付けていません

From Tokens to Words: On the Inner Lexicon of LLMs

要約

自然言語は単語で構成されているが、現代の大規模言語モデル(LLM)は、部分単語を入力として処理する。この矛盾から生じる自然な疑問は、LLMは単語を内部的に符号化しているのか、もしそうならどのように符号化しているのかということである。我々は、LLMが本質的なデトークニゼーションプロセスを行い、サブワード列が最後のトークンで首尾一貫した全単語表現に結合されるという証拠を提示する。我々の実験によれば、このプロセスは主にモデルの初期層と中間層で行われる。さらに、任意の分割(例えば、’cats’から’ca’と’ts’)、タイプミス、そして重要な語彙外単語に対して頑健であることを実証する。このような単語の最後のトークンの内部表現を入力としてモデルに与えると、学習中にそのような表現を入力として見たことがないにもかかわらず、完全な単語として「理解」することができる。この結果は、LLMがトークン化器の範囲を超えた潜在的語彙を保持していることを示唆している。これらの洞察は、訓練済みモデルの語彙を拡張するための、微調整不要の実用的なアプリケーションを提供する。新しい語彙の追加を可能にすることで、入力の長さと推論の反復を減らし、モデルの精度をほとんど落とすことなく、空間とモデルの待ち時間の両方を削減する。

要約(オリジナル)

Natural language is composed of words, but modern large language models (LLMs) process sub-words as input. A natural question raised by this discrepancy is whether LLMs encode words internally, and if so how. We present evidence that LLMs engage in an intrinsic detokenization process, where sub-word sequences are combined into coherent whole-word representations at their last token. Our experiments show that this process primarily takes place within the early and middle layers of the model. We further demonstrate its robustness to arbitrary splits (e.g., ‘cats’ to ‘ca’ and ‘ts’), typos, and importantly-to out-of-vocabulary words: when feeding the last token internal representations of such words to the model as input, it can ‘understand’ them as the complete word despite never seeing such representations as input during training. Our findings suggest that LLMs maintain a latent vocabulary beyond the tokenizer’s scope. These insights provide a practical, finetuning-free application for expanding the vocabulary of pre-trained models. By enabling the addition of new vocabulary words, we reduce input length and inference iterations, which reduces both space and model latency, with little to no loss in model accuracy.

arxiv情報

著者 Guy Kaplan,Matanel Oren,Yuval Reif,Roy Schwartz
発行日 2025-03-03 14:30:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | From Tokens to Words: On the Inner Lexicon of LLMs はコメントを受け付けていません

Gumbel Counterfactual Generation From Language Models

要約

言語モデルにおける因果生成メカニズムを理解し操作することは、言語モデルの振る舞いを制御するために不可欠である。これまでの研究では、これらのモデルに「介入」するために、主に表 現手術のような技術–例えば、モデルの切除や特定の概念に結びついた線形部分空間の操作–に頼ってきた。介入の影響を正確に理解するためには、例えば、与えられた文章が特定の介入後にモデルによって生成されていたらどのように現れたかを調べることが有効である。我々は、反事実推論は、Pearlの因果階層で明確にされているように、介入とは概念的に異なることを強調する。この観察に基づき、我々はGumbel counterfactual generationと呼ぶ、Gumbel-maxトリックを用いた構造方程式モデルとして言語モデルを再定式化することにより、真の文字列の反事実を生成するフレームワークを提案する。この再定式化により、元の文字列と、サンプリング・ノイズの同じインスタンス化から生じるその反事実に関する共同分布をモデル化することができる。我々は、潜在ノイズ変数を推論し、観測された文字列の反事実を生成することを可能にする、後知恵ガンベルサンプリングに基づくアルゴリズムを開発する。我々の実験は、このアプローチが意味のある反事実を生成することを示すと同時に、一般的に用いられる介入技法には望ましくない副作用がかなりあることを示す。

要約(オリジナル)

Understanding and manipulating the causal generation mechanisms in language models is essential for controlling their behavior. Previous work has primarily relied on techniques such as representation surgery — e.g., model ablations or manipulation of linear subspaces tied to specific concepts — to \emph{intervene} on these models. To understand the impact of interventions precisely, it is useful to examine \emph{counterfactuals} — e.g., how a given sentence would have appeared had it been generated by the model following a specific intervention. We highlight that counterfactual reasoning is conceptually distinct from interventions, as articulated in Pearl’s causal hierarchy. Based on this observation, we propose a framework for generating true string counterfactuals by reformulating language models as a structural equation model using the Gumbel-max trick, which we called Gumbel counterfactual generation. This reformulation allows us to model the joint distribution over original strings and their counterfactuals resulting from the same instantiation of the sampling noise. We develop an algorithm based on hindsight Gumbel sampling that allows us to infer the latent noise variables and generate counterfactuals of observed strings. Our experiments demonstrate that the approach produces meaningful counterfactuals while at the same time showing that commonly used intervention techniques have considerable undesired side effects.

arxiv情報

著者 Shauli Ravfogel,Anej Svete,Vésteinn Snæbjarnarson,Ryan Cotterell
発行日 2025-03-03 14:56:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Gumbel Counterfactual Generation From Language Models はコメントを受け付けていません

CNsum:Automatic Summarization for Chinese News Text

要約

膨大なデータから価値ある情報を効率的に取得することは、ビッグデータ時代における我々の研究目標となっている。テキスト要約技術は、この需要に応えるために継続的に開発されてきた。また、最近の研究では、自然言語処理(NLP)の様々なタスクにおいて、変換器ベースの事前学習済み言語モデルが大きな成功を収めていることが示されている。本稿では、中国語ニュース要約生成の問題と中国語へのTransformer構造の適用を目的として、Transformer構造に基づく中国語ニューステキスト要約モデル(CNsum)を提案し、THUCNewsなどの中国語データセットでテストする。実験の結果、CNsumはベースラインモデルよりも優れたROUGEスコアを達成し、このモデルの性能が優れていることが実証された。

要約(オリジナル)

Obtaining valuable information from massive data efficiently has become our research goal in the era of Big Data. Text summarization technology has been continuously developed to meet this demand. Recent work has also shown that transformer-based pre-trained language models have achieved great success on various tasks in Natural Language Processing (NLP). Aiming at the problem of Chinese news text summary generation and the application of Transformer structure on Chinese, this paper proposes a Chinese news text summarization model (CNsum) based on Transformer structure, and tests it on Chinese datasets such as THUCNews. The results of the conducted experiments show that CNsum achieves better ROUGE score than the baseline models, which verifies the outperformance of the model.

arxiv情報

著者 Yu Zhao,Songping Huang,Dongsheng Zhou,Zhaoyun Ding,Fei Wang,Aixin Nian
発行日 2025-03-03 15:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL | CNsum:Automatic Summarization for Chinese News Text はコメントを受け付けていません

First-Person Fairness in Chatbots

要約

チャットボットの急速な普及を考えると、チャットボットの公平性を評価することは極めて重要であるが、典型的なチャットボットのタスク(履歴書作成、エンターテイメントなど)は、従来アルゴリズムの公平性を議論する上で中心的であった制度的な意思決定タスク(履歴書スクリーニングなど)と乖離している。チャットボットのオープンエンドな性質と多様なユースケースは、バイアス評価のための新しい方法を必要とする。本稿では、「一人称の公平性」(人口統計学的特徴に基づくチャットボットユーザーに対する公平性)を評価するためのスケーラブルな反事実的アプローチを導入することで、これらの課題に対処する。私たちの方法は、有害なステレオタイプの定量的測定とチャットボットの応答における人口統計学的差異の定性的分析を得るために、リサーチアシスタントとしての言語モデル(LMRA)を採用しています。我々はこのアプローチを適用し、9つのドメインにおける66のタスクをカバーし、2つの性別と4つの人種にまたがる、数百万の対話にわたる6つの言語モデルのバイアスを評価する。独立した人間によるアノテーションにより、LMRAが生成したバイアスの評価が裏付けられた。本研究は、実世界のチャットデータに基づく初の大規模な公平性評価である。学習後の強化学習技術により、これらのバイアスが大幅に軽減されることを強調している。この評価は、継続的なバイアスの監視と緩和のための実用的な方法論を提供する。

要約(オリジナル)

Evaluating chatbot fairness is crucial given their rapid proliferation, yet typical chatbot tasks (e.g., resume writing, entertainment) diverge from the institutional decision-making tasks (e.g., resume screening) which have traditionally been central to discussion of algorithmic fairness. The open-ended nature and diverse use-cases of chatbots necessitate novel methods for bias assessment. This paper addresses these challenges by introducing a scalable counterfactual approach to evaluate ‘first-person fairness,’ meaning fairness toward chatbot users based on demographic characteristics. Our method employs a Language Model as a Research Assistant (LMRA) to yield quantitative measures of harmful stereotypes and qualitative analyses of demographic differences in chatbot responses. We apply this approach to assess biases in six of our language models across millions of interactions, covering sixty-six tasks in nine domains and spanning two genders and four races. Independent human annotations corroborate the LMRA-generated bias evaluations. This study represents the first large-scale fairness evaluation based on real-world chat data. We highlight that post-training reinforcement learning techniques significantly mitigate these biases. This evaluation provides a practical methodology for ongoing bias monitoring and mitigation.

arxiv情報

著者 Tyna Eloundou,Alex Beutel,David G. Robinson,Keren Gu-Lemberg,Anna-Luisa Brakman,Pamela Mishkin,Meghan Shah,Johannes Heidecke,Lilian Weng,Adam Tauman Kalai
発行日 2025-03-03 15:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CY | First-Person Fairness in Chatbots はコメントを受け付けていません

Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

要約

OpenAIのo1シリーズに代表される大規模言語モデル(LLM)におけるテストタイムスケーリングの登場は、推論中の計算リソースの割り当てをスケーリングすることによって推論能力を進化させました。QwQ、Deepseek-R1(R1)、LIMOのような後継モデルもこれらの進化を再現しているが、これらのモデルが本当にテストタイムスケーリング能力を持っているかどうかは未解明である。本研究では、これらのo1のようなモデルのCoTが長くなっても、一貫して精度が向上するわけではないことを発見した。さらに調査を進めると、この現象はモデルの自己修正能力と密接に関係しており、長いCoTはより多くの自己修正を含み、しばしば性能低下につながることがわかった。次に、QwQ、R1、LIMOで逐次スケーリングと並列スケーリングを比較し、並列スケーリングがより優れたカバレッジとスケーラビリティを達成することを発見した。これらの知見に基づき、並列スケーリング戦略とCoTの長さ特性を組み合わせた手法である最短多数決を提案し、従来の多数決アプローチと比較してモデルのテスト時間スケーラビリティを大幅に改善する。

要約(オリジナル)

The advent of test-time scaling in large language models (LLMs), exemplified by OpenAI’s o1 series, has advanced reasoning capabilities by scaling computational resource allocation during inference. While successors like QwQ, Deepseek-R1 (R1) and LIMO replicate these advancements, whether these models truly possess test-time scaling capabilities remains underexplored. This study found that longer CoTs of these o1-like models do not consistently enhance accuracy; in fact, correct solutions are often shorter than incorrect ones for the same questions. Further investigation shows this phenomenon is closely related to models’ self-revision capabilities – longer CoTs contain more self-revisions, which often lead to performance degradation. We then compare sequential and parallel scaling strategies on QwQ, R1 and LIMO, finding that parallel scaling achieves better coverage and scalability. Based on these insights, we propose Shortest Majority Vote, a method that combines parallel scaling strategies with CoT length characteristics, significantly improving models’ test-time scalability compared to conventional majority voting approaches.

arxiv情報

著者 Zhiyuan Zeng,Qinyuan Cheng,Zhangyue Yin,Yunhua Zhou,Xipeng Qiu
発行日 2025-03-03 15:29:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG | Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? はコメントを受け付けていません

IOHunter: Graph Foundation Model to Uncover Online Information Operations

要約

ソーシャルメディア・プラットフォームは、現代の言論機関として、さまざまな声が社会の語り口に影響を与える、重要な言論空間となっている。しかし、そのオープンな性質は、世論を操作するための情報操作(IO)を行うことができる、国家に支援された団体を含む悪意のある行為者に悪用されやすいものでもある。誤った情報、虚偽のニュース、誤解を招く主張の拡散は、民主主義のプロセスと社会の結束を脅かすため、オンライン上の言説の完全性を守るために、不正な活動をタイムリーに検出する手法を開発することが極めて重要である。本研究では、様々な影響力キャンペーンにおいて情報操作を指揮するユーザー、別名IOドライバーを特定するための手法を紹介する。IOHunterと名付けられた我々のフレームワークは、言語モデルとグラフニューラルネットワークの組み合わせの強みを活用し、教師あり、教師なし、IO横断的なコンテキストにおける汎化を改善する。我々のアプローチは、6カ国の複数のIOセットにおいて、既存のアプローチを大幅に上回る最先端のパフォーマンスを達成した。この研究は、ソーシャルメディアプラットフォーム上のIO検出タスクに特化したグラフファウンデーションモデルの開発への一歩となる。

要約(オリジナル)

Social media platforms have become vital spaces for public discourse, serving as modern agor\`as where a wide range of voices influence societal narratives. However, their open nature also makes them vulnerable to exploitation by malicious actors, including state-sponsored entities, who can conduct information operations (IOs) to manipulate public opinion. The spread of misinformation, false news, and misleading claims threatens democratic processes and societal cohesion, making it crucial to develop methods for the timely detection of inauthentic activity to protect the integrity of online discourse. In this work, we introduce a methodology designed to identify users orchestrating information operations, a.k.a. IO drivers, across various influence campaigns. Our framework, named IOHunter, leverages the combined strengths of Language Models and Graph Neural Networks to improve generalization in supervised, scarcely-supervised, and cross-IO contexts. Our approach achieves state-of-the-art performance across multiple sets of IOs originating from six countries, significantly surpassing existing approaches. This research marks a step toward developing Graph Foundation Models specifically tailored for the task of IO detection on social media platforms.

arxiv情報

著者 Marco Minici,Luca Luceri,Francesco Fabbri,Emilio Ferrara
発行日 2025-03-03 15:32:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, cs.SI | IOHunter: Graph Foundation Model to Uncover Online Information Operations はコメントを受け付けていません

Evaluating the quality of published medical research with ChatGPT

要約

出版された研究の質を推定することは、学部、研究者、就職希望者の評価にとって重要である。引用に基づく指標はこれらのタスクをサポートすることがありますが、新しい論文には機能せず、精度は低いか中程度です。これまでの研究で、ChatGPTは研究論文の質を推定できることが示されており、そのスコアはすべての分野で専門家のスコアプロキシと正の相関があり、臨床医学を除いては引用ベースの指標よりも強いことが多い。したがって、ChatGPTのスコアは、アプリケーションによっては引用ベースの指標に取って代わる可能性がある。この論文では、臨床医学の異常について、これまでで最大のデータセットと、より詳細な分析を用いて調査しています。その結果、英国のREF(Research Excellence Framework)2021 UoA(Unit of Assessment)1 Clinical Medicineに投稿された論文のChatGPT 4o-miniスコアは、理論上の最大相関r=0.226に対して、部門平均REFスコアと正の相関(r=0.134、n=9872)を示した。ChatGPT 4o と 3.5 turbo も正の相関を示した。学部レベルでは、ChatGPTの平均得点は学部平均REF得点とより強く相関していた(r=0.395、n=31)。UoA 1で最も論文数の多い100誌の平均ChatGPTスコアは、REFスコアと強い相関があったが(r=0.495)、被引用率とは負の相関があった(r=-0.148)。ChatGPTは、権威ある医学雑誌に掲載された研究、または人の健康に直接影響する研究、あるいはその両方の質を評価するのに有効でないことを、ジャーナルや部門ごとの異常が示している。とはいえ、この結果は、ChatGPTが引用に基づく指標に代わって新しい研究を評価する可能性がある、臨床医学の全体的な研究の質を評価する能力を実証しています。

要約(オリジナル)

Estimating the quality of published research is important for evaluations of departments, researchers, and job candidates. Citation-based indicators sometimes support these tasks, but do not work for new articles and have low or moderate accuracy. Previous research has shown that ChatGPT can estimate the quality of research articles, with its scores correlating positively with an expert scores proxy in all fields, and often more strongly than citation-based indicators, except for clinical medicine. ChatGPT scores may therefore replace citation-based indicators for some applications. This article investigates the clinical medicine anomaly with the largest dataset yet and a more detailed analysis. The results showed that ChatGPT 4o-mini scores for articles submitted to the UK’s Research Excellence Framework (REF) 2021 Unit of Assessment (UoA) 1 Clinical Medicine correlated positively (r=0.134, n=9872) with departmental mean REF scores, against a theoretical maximum correlation of r=0.226. ChatGPT 4o and 3.5 turbo also gave positive correlations. At the departmental level, mean ChatGPT scores correlated more strongly with departmental mean REF scores (r=0.395, n=31). For the 100 journals with the most articles in UoA 1, their mean ChatGPT score correlated strongly with their REF score (r=0.495) but negatively with their citation rate (r=-0.148). Journal and departmental anomalies in these results point to ChatGPT being ineffective at assessing the quality of research in prestigious medical journals or research directly affecting human health, or both. Nevertheless, the results give evidence of ChatGPT’s ability to assess research quality overall for Clinical Medicine, where it might replace citation-based indicators for new research.

arxiv情報

著者 Mike Thelwall,Xiaorui Jiang,Peter A. Bath
発行日 2025-03-03 15:46:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.DL | Evaluating the quality of published medical research with ChatGPT はコメントを受け付けていません