The Problem of Coherence in Natural Language Explanations of Recommendations

要約

推奨事項に自然言語の説明を提供することは、非専門家ユーザーの観点から特に役立ちます。
このような説明を提供するためのいくつかの方法が最近提案されましたが、説明の質の重要な側面が実験的評価で見落とされていると主張します。
具体的には、生成されたテキストと予測評価の間の一貫性は、説明が有用であるために必要な条件であり、現在使用されている評価測定によって適切に捉えられていません。
この論文では、1)最先端のアプローチのいずれかによって生成された説明の手動検証からの結果を提示する説明と予測の一貫性の問題を強調しています2)自動コヒーレンス評価の方法を提案する3)新しいトランスベースの方法を導入することは、説明のあるアプローチよりも重要なアプローチを実行するよりも、アートのアプローチを実行するよりも、より多くのコヒーレントな説明を生成することを目的としています。
推奨パフォーマンスの他の側面。

要約(オリジナル)

Providing natural language explanations for recommendations is particularly useful from the perspective of a non-expert user. Although several methods for providing such explanations have recently been proposed, we argue that an important aspect of explanation quality has been overlooked in their experimental evaluation. Specifically, the coherence between generated text and predicted rating, which is a necessary condition for an explanation to be useful, is not properly captured by currently used evaluation measures. In this paper, we highlight the issue of explanation and prediction coherence by 1) presenting results from a manual verification of explanations generated by one of the state-of-the-art approaches 2) proposing a method of automatic coherence evaluation 3) introducing a new transformer-based method that aims to produce more coherent explanations than the state-of-the-art approaches 4) performing an experimental evaluation which demonstrates that this method significantly improves the explanation coherence without affecting the other aspects of recommendation performance.

arxiv情報

著者 Jakub Raczyński,Mateusz Lango,Jerzy Stefanowski
発行日 2025-03-18 14:01:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG | The Problem of Coherence in Natural Language Explanations of Recommendations はコメントを受け付けていません

DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal

要約

大規模な言語モデル(LLM)は、自動化を可能にすることにより、自然言語処理、データ分析、ソフトウェア開発など、さまざまなドメインに革命をもたらしました。
ソフトウェアエンジニアリングでは、LLM駆動のコーディングエージェントは、複雑な開発タスクを自動化し、デバッグを支援し、生産性を向上させる可能性があるため、大きな注目を集めています。
ただし、既存のアプローチは、多くの場合、最適下の意思決定に苦労しており、広範な手動介入または非効率的な計算スケーリング戦略のいずれかを必要とします。
コーディングエージェントのパフォーマンスを向上させるために、コードエージェントの新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DAR)を提示します。
従来のエージェントは、線形軌道に従うか、スケーリングコンピューティングのためのランダムサンプリングに依存していますが、私たちのアプローチは、そのポイントからの前の試みの軌跡と実行フィードバックの履歴を考慮して、特定の重要な決定ポイントで軌跡を分岐することにより機能します。
SWE-Bench Lite Benchmarkでのアプローチを評価し、このスケーリング戦略がClaude 3.5 Sonnet V2で55%のパス@Kスコアを達成することを実証しています。
私たちのフレームワークは、47%のパス@1レートを達成し、最先端(SOTA)のオープンソースフレームワークを上回ります。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized various domains, including natural language processing, data analysis, and software development, by enabling automation. In software engineering, LLM-powered coding agents have garnered significant attention due to their potential to automate complex development tasks, assist in debugging, and enhance productivity. However, existing approaches often struggle with sub-optimal decision-making, requiring either extensive manual intervention or inefficient compute scaling strategies. To improve coding agent performance, we present Dynamic Action Re-Sampling (DARS), a novel inference time compute scaling approach for coding agents, that is faster and more effective at recovering from sub-optimal decisions compared to baselines. While traditional agents either follow linear trajectories or rely on random sampling for scaling compute, our approach DARS works by branching out a trajectory at certain key decision points by taking an alternative action given the history of the trajectory and execution feedback of the previous attempt from that point. We evaluate our approach on SWE-Bench Lite benchmark, demonstrating that this scaling strategy achieves a pass@k score of 55% with Claude 3.5 Sonnet V2. Our framework achieves a pass@1 rate of 47%, outperforming state-of-the-art (SOTA) open-source frameworks.

arxiv情報

著者 Vaibhav Aggarwal,Ojasv Kamal,Abhinav Japesh,Zhijing Jin,Bernhard Schölkopf
発行日 2025-03-18 14:02:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal はコメントを受け付けていません

Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach

要約

画像分類のための既存の説明方法は、忠実でもっともらしい説明を提供するために苦労しています。
この論文は、トレーニングプロセスを変更したり、予測パフォーマンスに影響を与えることなく、CNNベースの分類器に適用できる事後の自然言語説明方法を提案することにより、この問題に対処します。
影響力のあるニューロンと対応するアクティベーションマップを分析することにより、この方法は、構造化された意味表現の形で分類器の決定プロセスの忠実な説明を生成し、それが言語モデルによってテキストに変換されます。
このパイプラインアプローチを通じて、生成された説明はニューラルネットワークアーキテクチャに基づいており、非専門家にアクセスしやすいままである間、分類プロセスに対する正確な洞察を提供します。
実験結果は、私たちの方法によって構築されたNLEがより妥当で忠実であることを示しています。
特に、ニューラルネットワーク構造(ニューロンのマスキング)におけるユーザー介入は、ベースラインの3倍効果的です。

要約(オリジナル)

Existing explanation methods for image classification struggle to provide faithful and plausible explanations. This paper addresses this issue by proposing a post-hoc natural language explanation method that can be applied to any CNN-based classifier without altering its training process or affecting predictive performance. By analysing influential neurons and the corresponding activation maps, the method generates a faithful description of the classifier’s decision process in the form of a structured meaning representation, which is then converted into text by a language model. Through this pipeline approach, the generated explanations are grounded in the neural network architecture, providing accurate insight into the classification process while remaining accessible to non-experts. Experimental results show that the NLEs constructed by our method are significantly more plausible and faithful. In particular, user interventions in the neural network structure (masking of neurons) are three times more effective than the baselines.

arxiv情報

著者 Adam Wojciechowski,Mateusz Lango,Ondrej Dusek
発行日 2025-03-18 14:13:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach はコメントを受け付けていません

Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions

要約

大規模な言語モデル(LLM)は、非常に曖昧なユーザーリクエストにしばしば応答する必要があります。
そのような場合、LLMの最善の対応は、より多くの情報を引き出すために明確な質問をすることです。
既存のLLMは、多くの場合、このような曖昧な要求の単一の解釈を前提とすることで対応し、異なる解釈を意図したイライラするユーザーに対応します。
これは、LLM応答が以前のコンテキストでのみ評価される現在の設定データラベル付けの実践によって引き起こされると推測します。
これに対処するために、将来のターンで予想される結果をシミュレートすることにより、優先ラベルを割り当てます。
これにより、LLMSは、将来のターンで各ユーザーの解釈に合わせた応答を生成できるときに、明確な質問をすることを学ぶことができます。
複数の注釈を備えたオープンドメインQAデータセットでは、各ユーザーの解釈と予想される回答を回復するために明確な質問をする能力に基づいてシステムを評価します。
提案された優先ラベル付け方法を使用してトレーニングされたシステムを標準の方法と比較します。これは、以前のコンテキストのみに基づいて設定を割り当てます。
私たちの方法は、各クエリの異なる解釈からの回答セットに対して測定されたF1の5%の改善を達成し、将来の会話ターンをモデリングする価値を示しています。
さらに、私たちの方法を使用してモデルを訓練するために、明確な質問をする時期を慎重に決定し、説明が不要な場合に質問に直接答えることができることを実証します。
実験では、この方法では、既存の方法よりもそのような判断の精度が3%改善されることがわかります。

要約(オリジナル)

Large language models (LLMs) must often respond to highly ambiguous user requests. In such cases, the LLM’s best response may be to ask a clarifying question to elicit more information. Existing LLMs often respond by presupposing a single interpretation of such ambiguous requests, frustrating users who intended a different interpretation. We speculate this is caused by current preference data labeling practice, where LLM responses are evaluated only on their prior contexts. To address this, we assign preference labels by simulating their expected outcomes in future turns. This allows LLMs to learn to ask clarifying questions when it can generate responses that are tailored to each user interpretation in future turns. On open-domain QA datasets with multiple annotations, we evaluate systems based on their ability to ask clarifying questions to recover each user’s interpretation and expected answer. We compare systems trained using our proposed preference labeling methods against standard methods, which assign preferences based on only prior context. Our method achieves a 5% improvement in F1 measured against the answer set from different interpretations of each query, showing the value of modeling future conversation turns. We further demonstrate that our method can be used to train models to judiciously determine when to ask clarifying questions, directly answering the question when clarification is unnecessary. In our experiments, we find that our method achieves a 3% improvement in accuracy of such judgments over existing methods.

arxiv情報

著者 Michael J. Q. Zhang,W. Bradley Knox,Eunsol Choi
発行日 2025-03-18 14:17:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Modeling Future Conversation Turns to Teach LLMs to Ask Clarifying Questions はコメントを受け付けていません

TopoLM: brain-like spatio-functional organization in a topographic language model

要約

脳内のニューロンは空間的に組織化されているため、組織上の隣接が同様の応答プロファイルを示すことがよくあります。
人間の言語システムでは、実験的研究で構文およびセマンティックカテゴリのクラスターが観察されていますが、この機能組織の根底にあるメカニズムは不明のままです。
ここでは、ビジョン文献の作業に基づいて、モデルユニットの明示的な2次元空間表現を備えたトランス言語モデルであるTopolmを開発します。
次のトークン予測目標と空間的滑らかさの損失を組み合わせることにより、このモデルの表現は、テキストの意味的に解釈可能なグループ化に対応し、脳の言語システムの機能組織と密接に一致するクラスターに集まります。
Topolmは、皮質言語システムの空間機能組織の出現と、ヒト皮質で経験的に観察される細粒の言語特徴のために選択的な機能的クラスターの組織化の出現を成功裏に予測します。
私たちの結果は、人間の言語システムの機能組織が統一された空間的目的によって駆動され、脳内の言語処理の機能的および空間的に整合したモデルを提供することを示唆しています。

要約(オリジナル)

Neurons in the brain are spatially organized such that neighbors on tissue often exhibit similar response profiles. In the human language system, experimental studies have observed clusters for syntactic and semantic categories, but the mechanisms underlying this functional organization remain unclear. Here, building on work from the vision literature, we develop TopoLM, a transformer language model with an explicit two-dimensional spatial representation of model units. By combining a next-token prediction objective with a spatial smoothness loss, representations in this model assemble into clusters that correspond to semantically interpretable groupings of text and closely match the functional organization in the brain’s language system. TopoLM successfully predicts the emergence of the spatio-functional organization of a cortical language system as well as the organization of functional clusters selective for fine-grained linguistic features empirically observed in human cortex. Our results suggest that the functional organization of the human language system is driven by a unified spatial objective, and provide a functionally and spatially aligned model of language processing in the brain.

arxiv情報

著者 Neil Rathi,Johannes Mehrer,Badr AlKhamissi,Taha Binhuraib,Nicholas M. Blauch,Martin Schrimpf
発行日 2025-03-18 14:40:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TopoLM: brain-like spatio-functional organization in a topographic language model はコメントを受け付けていません

TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control

要約

スタイル転送とスタイルコントロールを備えたゼロショット歌声合成(SVS)は、オーディオとテキストプロンプトから目に見えない音色とスタイル(歌唱方法、感情、リズム、テクニック、発音を含む)を使用して高品質の歌声を生成することを目的としています。
ただし、歌のスタイルの多面的な性質は、効果的なモデリング、転送、および制御に大きな課題をもたらします。
さらに、現在のSVSモデルは、目に見えない歌手のための文体的なニュアンスが豊富な歌声の声を生成できないことがよくあります。
これらの課題に対処するために、マルチレベルのスタイルコントロールとともに、言語間のスピーチと歌のスタイルを横切るスタイル転送のための最初のゼロショットSVSモデルであるTCSingerを紹介します。
具体的には、TCSingerは3つの主要なモジュールを提案します。1)クラスタリングスタイルエンコーダーは、クラスタリングベクター量子化モデルを採用して、スタイル情報をコンパクトな潜在スペースに安定に凝縮します。
2)スタイルと期間の言語モデル(S \&d-LM)は、スタイル情報と音素期間を同時に予測します。
3)スタイルアダプティブデコーダーは、新しいメルスタイルの適応正規化方法を使用して、詳細を強化した歌声を生成します。
実験結果は、TCSingerが、ゼロショットスタイルの転送、マルチレベルのスタイルコントロール、横断的スタイルの転送、スピーチツーシングスタイルの転送など、さまざまなタスクにわたる合成品質、歌手の類似性、およびスタイルの制御性のすべてのベースラインモデルを上回ることを示しています。
Singing Voiceサンプルはhttps://aaronz345.github.io/tcsingerdemo/でアクセスできます。

要約(オリジナル)

Zero-shot singing voice synthesis (SVS) with style transfer and style control aims to generate high-quality singing voices with unseen timbres and styles (including singing method, emotion, rhythm, technique, and pronunciation) from audio and text prompts. However, the multifaceted nature of singing styles poses a significant challenge for effective modeling, transfer, and control. Furthermore, current SVS models often fail to generate singing voices rich in stylistic nuances for unseen singers. To address these challenges, we introduce TCSinger, the first zero-shot SVS model for style transfer across cross-lingual speech and singing styles, along with multi-level style control. Specifically, TCSinger proposes three primary modules: 1) the clustering style encoder employs a clustering vector quantization model to stably condense style information into a compact latent space; 2) the Style and Duration Language Model (S\&D-LM) concurrently predicts style information and phoneme duration, which benefits both; 3) the style adaptive decoder uses a novel mel-style adaptive normalization method to generate singing voices with enhanced details. Experimental results show that TCSinger outperforms all baseline models in synthesis quality, singer similarity, and style controllability across various tasks, including zero-shot style transfer, multi-level style control, cross-lingual style transfer, and speech-to-singing style transfer. Singing voice samples can be accessed at https://aaronz345.github.io/TCSingerDemo/.

arxiv情報

著者 Yu Zhang,Ziyue Jiang,Ruiqi Li,Changhao Pan,Jinzheng He,Rongjie Huang,Chuxin Wang,Zhou Zhao
発行日 2025-03-18 15:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS | TCSinger: Zero-Shot Singing Voice Synthesis with Style Transfer and Multi-Level Style Control はコメントを受け付けていません

PENCIL: Long Thoughts with Short Memory

要約

最近の作品(O1、Deepseek R1など)は、言語モデルの推論能力を改善するために長い考え方(COT)を使用するという大きな約束を実証しています。
私たちは、自己回帰生成プロセスに還元メカニズムを組み込んだペンシルを提案し、モデルがトレーニングから学んだパターンに基づいて中間思考を再帰的にクリーンアップできるようにします。
この削減メカニズムにより、鉛筆は生成中に必要な最大コンテキストの長さを大幅に削減し、したがって、メモリが制限されているより長い思考を生成し、より多くの思考時間を考慮して大規模な問題を解決できます。
たとえば、ペンシルは、2048コンテキストの長さを持つ小さな25mパラメータートランスのみを使用して、挑戦的なアインシュタインのパズル(GPT-4のような大規模なモデルでさえ苦労している)で97 \%の精度を達成することを示しています。
理論的には、ペンシルが最適な時間と空間の複雑さでチューリングマシンをシミュレートすることにより、普遍的な空間効率の計算を実行できることを証明し、したがって、コンテキストウィンドウの制約を考慮して扱いにくい任意の計算タスクを解決できます。

要約(オリジナル)

While recent works (e.g. o1, DeepSeek R1) have demonstrated great promise of using long Chain-of-Thought (CoT) to improve reasoning capabilities of language models, scaling it up during test-time is challenging due to inefficient memory usage — intermediate computations accumulate indefinitely in context even no longer needed for future thoughts. We propose PENCIL, which incorporates a reduction mechanism into the autoregressive generation process, allowing the model to recursively clean up intermediate thoughts based on patterns learned from training. With this reduction mechanism, PENCIL significantly reduces the maximal context length required during generation, and thus can generate longer thoughts with limited memory, solving larger-scale problems given more thinking time. For example, we demonstrate PENCIL achieves 97\% accuracy on the challenging Einstein’s puzzle — a task even large models like GPT-4 struggle with — using only a small 25M-parameter transformer with 2048 context length. Theoretically, we prove PENCIL can perform universal space-efficient computation by simulating Turing machines with optimal time and space complexity, and thus can solve arbitrary computational tasks that would otherwise be intractable given context window constraints.

arxiv情報

著者 Chenxiao Yang,Nathan Srebro,David McAllester,Zhiyuan Li
発行日 2025-03-18 15:14:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | PENCIL: Long Thoughts with Short Memory はコメントを受け付けていません

Cancer-Answer: Empowering Cancer Care with Advanced Large Language Models

要約

胃腸(GI)路癌は、管理の改善と患者の転帰に早期診断が重要である世界的な癌の負担のかなりの部分を占めています。
GIがん全体の複雑な病因と重複症状は、しばしば診断を遅らせ、最適ではない治療戦略につながります。
がん関連のクエリは、正確で包括的な情報へのアクセスが結果に大きく影響する可能性があるため、タイムリーな診断、治療、患者教育には重要です。
しかし、病気としての癌の複雑さは、利用可能な膨大なデータと組み合わされて、臨床医と患者がすぐに正確な答えを見つけることを困難にします。
これらの課題に対処するために、GPT-3.5ターボなどの大規模な言語モデル(LLM)を活用して、がん関連のクエリに対する正確で文脈的に関連する反応を生成します。
医療データを事前に訓練したこれらのモデルは、がんの診断とケアにおける情報に基づいた意思決定をサポートするタイムリーで実用的な洞察を提供し、最終的に患者の転帰を改善します。
2つのメトリックを計算します。A1(ゴールドスタンダードと比較してモデル生成の回答に存在するエンティティの割合を表します)とA2(ゴールドスタンダードに関するモデル生成の回答の言語的正確性と意味を表します)、それぞれ0.546および0.881の最大値を達成します。

要約(オリジナル)

Gastrointestinal (GI) tract cancers account for a substantial portion of the global cancer burden, where early diagnosis is critical for improved management and patient outcomes. The complex aetiologies and overlapping symptoms across GI cancers often delay diagnosis, leading to suboptimal treatment strategies. Cancer-related queries are crucial for timely diagnosis, treatment, and patient education, as access to accurate, comprehensive information can significantly influence outcomes. However, the complexity of cancer as a disease, combined with the vast amount of available data, makes it difficult for clinicians and patients to quickly find precise answers. To address these challenges, we leverage large language models (LLMs) such as GPT-3.5 Turbo to generate accurate, contextually relevant responses to cancer-related queries. Pre-trained with medical data, these models provide timely, actionable insights that support informed decision-making in cancer diagnosis and care, ultimately improving patient outcomes. We calculate two metrics: A1 (which represents the fraction of entities present in the model-generated answer compared to the gold standard) and A2 (which represents the linguistic correctness and meaningfulness of the model-generated answer with respect to the gold standard), achieving maximum values of 0.546 and 0.881, respectively.

arxiv情報

著者 Aniket Deroy,Subhankar Maity
発行日 2025-03-18 15:36:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Cancer-Answer: Empowering Cancer Care with Advanced Large Language Models はコメントを受け付けていません

CryptoLLM: Unleashing the Power of Prompted LLMs for SmartQnA and Classification of Crypto Posts

要約

ソーシャルメディアの急速な成長により、特に暗号通貨などのニッチドメインで、ユーザーが生成したコンテンツが大量に生成されました。
このタスクは、堅牢な分類モデルの開発に焦点を当てて、暗号通貨関連のソーシャルメディア投稿を事前定義されたクラスに正確に分類します。これには、客観的、ポジティブ、ネガティブなどを含むがこれらに限定されません。さらに、タスクは、特定の質問に応答して、一連の投稿から最も関連する回答を特定する必要があります。
高度なLLMSを活用することにより、この研究は暗号通貨の談話の理解とフィルタリングを強化することを目的としており、それにより、この不安定なセクターでのより多くの情報に基づいた意思決定を促進します。
Redditの投稿やTwitterの投稿の分類タスクを解決するために、プロンプトベースの手法を使用しました。
また、GPT-4-Turboモデルのプロンプトとともに64ショット技術を使用して、回答が質問に関連しているかどうかを判断しました。

要約(オリジナル)

The rapid growth of social media has resulted in an large volume of user-generated content, particularly in niche domains such as cryptocurrency. This task focuses on developing robust classification models to accurately categorize cryptocurrency-related social media posts into predefined classes, including but not limited to objective, positive, negative, etc. Additionally, the task requires participants to identify the most relevant answers from a set of posts in response to specific questions. By leveraging advanced LLMs, this research aims to enhance the understanding and filtering of cryptocurrency discourse, thereby facilitating more informed decision-making in this volatile sector. We have used a prompt-based technique to solve the classification task for reddit posts and twitter posts. Also, we have used 64-shot technique along with prompts on GPT-4-Turbo model to determine whether a answer is relevant to a question or not.

arxiv情報

著者 Aniket Deroy,Subhankar Maity
発行日 2025-03-18 15:49:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | CryptoLLM: Unleashing the Power of Prompted LLMs for SmartQnA and Classification of Crypto Posts はコメントを受け付けていません

Good/Evil Reputation Judgment of Celebrities by LLMs via Retrieval Augmented Generation

要約

この論文の目的は、大規模な言語モデル(LLM)が有名人の善/邪悪な評判を判断することに関して善と悪とは何かを理解できるかどうかを調べることです。
具体的には、最初に、Webページの有名人に関する記事からターゲットセレブリティに言及する文を収集するタスクに、大きな言語モデル(つまり、ChatGpt)を適用します。
次に、収集された文は、ChatGptによってその内容に基づいて分類されます。ChatGPTは、それらの各カテゴリにカテゴリ名を割り当てます。
割り当てられたカテゴリ名は、各有名人の「側面」と呼ばれます。
次に、検索拡張生成(RAG)のフレームワークを適用することにより、大規模な言語モデルが各有名人の側面と説明の良い/邪悪な評判を判断するタスクに非常に効果的であることを示します。
最後に、RAG関数を組み込んだ既存のサービスよりも提案された方法の利点を証明するという観点から、各有名人の側面/説明の善/悪を判断する提案された方法が、RAG機能を組み込んだ既存のサービスを大幅に上回ることを示します。

要約(オリジナル)

The purpose of this paper is to examine whether large language models (LLMs) can understand what is good and evil with respect to judging good/evil reputation of celebrities. Specifically, we first apply a large language model (namely, ChatGPT) to the task of collecting sentences that mention the target celebrity from articles about celebrities on Web pages. Next, the collected sentences are categorized based on their contents by ChatGPT, where ChatGPT assigns a category name to each of those categories. Those assigned category names are referred to as ‘aspects’ of each celebrity. Then, by applying the framework of retrieval augmented generation (RAG), we show that the large language model is quite effective in the task of judging good/evil reputation of aspects and descriptions of each celebrity. Finally, also in terms of proving the advantages of the proposed method over existing services incorporating RAG functions, we show that the proposed method of judging good/evil of aspects/descriptions of each celebrity significantly outperform an existing service incorporating RAG functions.

arxiv情報

著者 Rikuto Tsuchida,Hibiki Yokoyama,Takehito Utsuro
発行日 2025-03-18 16:15:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Good/Evil Reputation Judgment of Celebrities by LLMs via Retrieval Augmented Generation はコメントを受け付けていません