VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation

要約

音声大規模な言語モデル(LLM)は、音声処理における顕著な研究の焦点として浮上しています。
リアルタイムの音声相互作用のために設計されたスケーラブルでモデルと存在するトレーニングフレームワークによって有効になっている一連の高性能で低遅延の音声LLMSであるVocalNet-1BとVocalNet-8Bを紹介します。
私たちの貢献の中心は、スピーチLLMSへのマルチトークン予測(MTP)の最初の適用です。
このアプローチは、標準的な隣接予測(NTP)からのパラダイムシフトを表し、生成速度と品質の同時改善を提供します。
音声生成と実験的比較に対するMTPの効果の分析により、私たちは簡単で非常に効果的なMTP実装を設計しました。
実験では、VocalNetがトレーニングデータが限られていても、主流のOmni LLMと同等に機能し、既存のオープンソースのスピーチLLMを大幅に上回ることを示しています。
再現性とコミュニティの進歩を促進するために、すべてのモデルの重み、推論コード、トレーニングデータ、フレームワークの実装がhttps://github.com/sjtu-omniagent/vocalnetで公開されています

要約(オリジナル)

Speech large language models (LLMs) have emerged as a prominent research focus in speech processing. We introduce VocalNet-1B and VocalNet-8B, a series of high-performance, low-latency speech LLMs enabled by a scalable and model-agnostic training framework designed for real-time voice interaction. Central to our contribution is the first application of multi-token prediction (MTP) to speech LLMs. This approach represents a paradigm shift from standard next-token prediction (NTP), offering simultaneous improvements in generation speed and quality. Informed by analysis of MTP’s effect on speech generation and experimental comparisons, we designed a straightforward and highly effective MTP implementation. Experiments demonstrate that VocalNet performs on par with mainstream Omni LLMs even with limited training data, and significantly surpasses existing open-source speech LLMs. To foster reproducibility and community advancement, all model weights, inference code, training data, and framework implementations have been made publicly available at https://github.com/SJTU-OmniAgent/VocalNet

arxiv情報

著者 Yuhao Wang,Heyang Liu,Ziyang Cheng,Ronghua Wu,Qunshan Gu,Yanfeng Wang,Yu Wang
発行日 2025-04-22 07:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS | VocalNet: Speech LLM with Multi-Token Prediction for Faster and High-Quality Generation はコメントを受け付けていません

FinTextSim: Enhancing Financial Text Analysis with BERTopic

要約

情報の可用性と計算機能の最近の進歩により、年次報告書の分析が変化し、従来の財務指標とテキストデータからの洞察を統合しました。
この豊富なテキストデータから貴重な洞察を抽出するには、トピックモデリングなどの自動化されたレビュープロセスが重要です。
この研究では、S&P 500企業(2016-2022)からの10-Kファイリングの項目7と項目7Aを分析するために、コンテキストの埋め込みに依存する最先端のトピックモデルであるBertopicの有効性を検証します。
さらに、財務的なコンテキストでのクラスタリングとセマンティック検索のために最適化されたFintuned Sente-TransformerモデルであるFintextSimを紹介します。
最も広く使用されている文化変換者であるAll-Minilm-L6-V2と比較して、FintextSimは視界内の類似性を81%増加させ、トピック間類似性を100%減らし、組織の明確さを大幅に向上させます。
FintextSimとAll-Minilm-L6-V2の両方からの埋め込みを使用して、Bertopicのパフォーマンスを評価します。
私たちの調査結果は、Fintextsimの埋め込みと組み合わせると、Bertopicが明確で明確な経済的トピッククラスターのみを形成することを明らかにしています。
fintextsimがなければ、bertopicは誤分類と重複するトピックとの闘いをします。
したがって、fintextsimは、金融テキスト分析を進めるために極めて重要です。
Fintextsimの財務ドメインに合わせて調整されたFintextsimの強化されたコンテキスト埋め込みは、将来の研究と財務情報の質を高めます。
この財務情報の質の向上により、利害関係者は競争上の優位性を獲得し、リソースの割り当てと意思決定プロセスを合理化できます。
さらに、改善された洞察は、ビジネス評価と株価予測モデルを活用する可能性があります。

要約(オリジナル)

Recent advancements in information availability and computational capabilities have transformed the analysis of annual reports, integrating traditional financial metrics with insights from textual data. To extract valuable insights from this wealth of textual data, automated review processes, such as topic modeling, are crucial. This study examines the effectiveness of BERTopic, a state-of-the-art topic model relying on contextual embeddings, for analyzing Item 7 and Item 7A of 10-K filings from S&P 500 companies (2016-2022). Moreover, we introduce FinTextSim, a finetuned sentence-transformer model optimized for clustering and semantic search in financial contexts. Compared to all-MiniLM-L6-v2, the most widely used sentence-transformer, FinTextSim increases intratopic similarity by 81% and reduces intertopic similarity by 100%, significantly enhancing organizational clarity. We assess BERTopic’s performance using embeddings from both FinTextSim and all-MiniLM-L6-v2. Our findings reveal that BERTopic only forms clear and distinct economic topic clusters when paired with FinTextSim’s embeddings. Without FinTextSim, BERTopic struggles with misclassification and overlapping topics. Thus, FinTextSim is pivotal for advancing financial text analysis. FinTextSim’s enhanced contextual embeddings, tailored for the financial domain, elevate the quality of future research and financial information. This improved quality of financial information will enable stakeholders to gain a competitive advantage, streamlining resource allocation and decision-making processes. Moreover, the improved insights have the potential to leverage business valuation and stock price prediction models.

arxiv情報

著者 Simon Jehnen,Joaquín Ordieres-Meré,Javier Villalba-Díez
発行日 2025-04-22 08:06:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T50, cs.CL, cs.LG, econ.GN, I.2.7, q-fin.EC, q-fin.GN | FinTextSim: Enhancing Financial Text Analysis with BERTopic はコメントを受け付けていません

Subject islands do not reduce to construction-specific discourse function

要約

言語学の島という用語は、要素を抽出することで非文法性をもたらすフレーズを指します(Ross、1967)。
文法の被験者は島々と見なされます。なぜなら、被験者のサブパートを抽出すると、明確な意図された意味があるにもかかわらず、不運な文が生じるためです(例えば、「あなたについての記事はどのトピックがあなたにインスパイアされましたか?」)。
構文を意味と機能の自律的と見なす生成的伝統は、この非文法性を、解釈に関連付けられているwh-phraseと主題内部の位置との間の抽象的な動きの依存性に起因します。
ただし、そのコミュニケーション機能を強調する言語に関する研究は、代わりに、島を含む構文的な制約が異なる構造パッケージ情報に基づいて説明できることを示唆しています。
したがって、Abeill \ ‘E et al。
(2020)被験者の諸島性は、wh-questionsの情報構造に固有であり、被験者は運動のために島ではなく、談話の根拠のために焦点を合わせていることを提案していることを示唆しています。
これは、情報構造がwh-questionsとは異なるが、動きを伴う他の構造は、主題の島の効果を生み出すべきではないと予測しています。
この予測は、WH質問、相対条項、および局所化の3つの異なる構造で、主題の島違反をシングルした超加法デザインを使用して、3つの大規模な受容性研究でテストします。
Abeill \ ‘E et al。
(2020)「情報構造の衝突」と呼ばれます。
これは、構造に関連するコミュニケーション機能とは無関係に、抽象的で構文表現の観点から島の説明を動機付けると主張します。

要約(オリジナル)

The term islands in linguistics refers to phrases from which extracting an element results in ungrammaticality (Ross, 1967). Grammatical subjects are considered islands because extracting a sub-part of a subject results in an ill-formed sentence, despite having a clear intended meaning (e.g., ‘Which topic did the article about inspire you?’). The generative tradition, which views syntax as autonomous of meaning and function, attributes this ungrammaticality to the abstract movement dependency between the wh-phrase and the subject-internal position with which it is associated for interpretation. However, research on language that emphasizes its communicative function suggests instead that syntactic constraints, including islands, can be explained based on the way different constructions package information. Accordingly, Abeill\’e et al. (2020) suggest that the islandhood of subjects is specific to the information structure of wh-questions, and propose that subjects are not islands for movement, but for focusing, due to their discourse-backgroundedness. This predicts that other constructions that differ in their information structure from wh-questions, but still involve movement, should not create a subject island effect. We test this prediction in three large-scale acceptability studies, using a super-additive design that singles out subject island violations, in three different constructions: wh-questions, relative clauses, and topicalization. We report evidence for a subject island effect in each construction type, despite only wh-questions introducing what Abeill\’e et al. (2020) call ‘a clash in information structure.’ We argue that this motivates an account of islands in terms of abstract, syntactic representations, independent of the communicative function associated with the constructions.

arxiv情報

著者 Mandy Cartner,Matthew Kogan,Nikolas Webster,Matthew Wagers,Ivy Sichel
発行日 2025-04-22 08:13:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Subject islands do not reduce to construction-specific discourse function はコメントを受け付けていません

Fearful Falcons and Angry Llamas: Emotion Category Annotations of Arguments by Humans and LLMs

要約

議論は感情を呼び起こし、議論自体の効果に影響を与えます。
感情的な強さだけでなく、カテゴリも議論の影響に影響を与えます。たとえば、スタンスを適応させる意欲です。
バイナリ感情は議論で研究されていますが、そのようなデータには、個別の感情カテゴリ(「怒り」など)に関する研究はありません。
このギャップを埋めるために、ドイツの議論コーパスの感情カテゴリの主観的な注釈をクラウドソーシングし、自動LLMベースのラベル付け方法を評価します。
具体的には、3つの大規模な命令チューニング言語モデル(Falcon-7B-Instruct、llama-3.1-8b-instruct、gpt-4o-mini)で、3つのプロンプト戦略(ゼロショット、ワンショット、チェーンのチェーン)を比較します。
さらに、出力空間の定義は、バイナリ(議論に感情がありますか?)、閉じたドメイン(特定のラベルセットからの感情が議論にありますか?)、またはオープンドメイン(どの感情が議論にありますか?)を変えます。
感情のカテゴリは、議論における感情の予測を強化し、議論における個別の感情注釈の必要性を強調することがわかります。
すべての迅速な設定とモデルにわたって、自動予測は、怒りと恐怖を予測するための高いリコールですが、低い精度を示し、否定的な感情に対する強いバイアスを示しています。

要約(オリジナル)

Arguments evoke emotions, influencing the effect of the argument itself. Not only the emotional intensity but also the category influence the argument’s effects, for instance, the willingness to adapt stances. While binary emotionality has been studied in arguments, there is no work on discrete emotion categories (e.g., ‘Anger’) in such data. To fill this gap, we crowdsource subjective annotations of emotion categories in a German argument corpus and evaluate automatic LLM-based labeling methods. Specifically, we compare three prompting strategies (zero-shot, one-shot, chain-of-thought) on three large instruction-tuned language models (Falcon-7b-instruct, Llama-3.1-8B-instruct, GPT-4o-mini). We further vary the definition of the output space to be binary (is there emotionality in the argument?), closed-domain (which emotion from a given label set is in the argument?), or open-domain (which emotion is in the argument?). We find that emotion categories enhance the prediction of emotionality in arguments, emphasizing the need for discrete emotion annotations in arguments. Across all prompt settings and models, automatic predictions show a high recall but low precision for predicting anger and fear, indicating a strong bias toward negative emotions.

arxiv情報

著者 Lynn Greschner,Roman Klinger
発行日 2025-04-22 10:20:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Fearful Falcons and Angry Llamas: Emotion Category Annotations of Arguments by Humans and LLMs はコメントを受け付けていません

Tina: Tiny Reasoning Models via LoRA

要約

言語モデルでは、強力な推論能力をどの程度費用対効果に達することができますか?
この基本的な質問に駆られて、私たちは、高コスト効率で達成された小さな推論モデルの家族であるティナを提示します。
特に、Tinaは、補強学習(RL)中にパラメーター効率の高い更新を適用し、低ランク適応(LORA)を使用して、すでに小さな1.5Bパラメーターベースモデルに適用することにより、最小限のリソースのみを使用して実質的な推論パフォーマンスを開発できることを実証しています。
このミニマリストアプローチは、同じ基本モデルに基づいて構築されたSOTA RL推論モデルと競争力があり、時にはそれを上回る推論パフォーマンスを達成するモデルを生成します。
重要なことに、これは既存のSOTAモデルで採用されている計算後のコストのごく一部で達成されます。
実際、最高のティナモデルは、aime24で> 20 \%の推論パフォーマンスの増加と43.33%パス@1の精度を達成します。
私たちの仕事は、LORAを介した効率的なRL推論の驚くべき有効性を明らかにしています。
これは、複数のオープンソースの推論データセットと、単一の固定されたハイパーパラメーターセットから始まるさまざまなアブレーション設定で検証します。
さらに、この有効性と効率性は、ロラがRLによって報われる推論の構造形式に迅速に適応すると同時に、基本モデルの根本的な知識を主に維持すると仮定します。
アクセシビリティとオープンリサーチにサービスを提供しているため、すべてのコード、トレーニングログ、モデルの重み\&チェックポイントを完全にオープンソースで囲みます。

要約(オリジナル)

How cost-effectively can strong reasoning abilities be achieved in language models? Driven by this fundamental question, we present Tina, a family of tiny reasoning models achieved with high cost-efficiency. Notably, Tina demonstrates that substantial reasoning performance can be developed using only minimal resources, by applying parameter-efficient updates during reinforcement learning (RL), using low-rank adaptation (LoRA), to an already tiny 1.5B parameter base model. This minimalist approach produces models that achieve reasoning performance which is competitive with, and sometimes surpasses, SOTA RL reasoning models built upon the same base model. Crucially, this is achieved at a tiny fraction of the computational post-training cost employed by existing SOTA models. In fact, the best Tina model achieves a >20\% reasoning performance increase and 43.33\% Pass@1 accuracy on AIME24, at only \$9 USD post-training and evaluation cost (i.e., an estimated 260x cost reduction). Our work reveals the surprising effectiveness of efficient RL reasoning via LoRA. We validate this across multiple open-source reasoning datasets and various ablation settings starting with a single, fixed set of hyperparameters. Furthermore, we hypothesize that this effectiveness and efficiency stem from LoRA rapidly adapting the model to the structural format of reasoning rewarded by RL, while largely preserving the base model’s underlying knowledge. In service of accessibility and open research, we fully open-source all code, training logs, and model weights \& checkpoints.

arxiv情報

著者 Shangshang Wang,Julian Asilis,Ömer Faruk Akgül,Enes Burak Bilgin,Ollie Liu,Willie Neiswanger
発行日 2025-04-22 10:38:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Tina: Tiny Reasoning Models via LoRA はコメントを受け付けていません

TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

要約

数学的な幾何学的問題解決(GPS)には、多くの場合、マルチモーダル情報の効果的な統合と検証可能な論理コヒーレンスが必要です。
一般的な問題解決における大規模な言語モデルの急速な開発にもかかわらず、特に合成GPSベンチマークの脱出は自己検証されておらず、LLMSの幻想のためにノイズと自己矛盾した情報が含まれていることが多いという事実を考えると、方法論とベンチマークの両方を考慮して解決されていません。
この論文では、問題生成のためにTrustGeogenと呼ばれるスケーラブルなデータエンジンを提案し、原則的なベンチマークを提供するための正式な検証を提案します。
エンジンは、4つの主要なイノベーションを通じて幾何学的データを合成します。1)マルチモーダルに合わせた生成の図、テキストの説明、および段階的なソリューション。
2)ルールに準拠した推論パスを確保する正式な検証。
3)再帰状態の生成を介した複雑さのエスカレーションを可能にするブートストラップメカニズムと4)当社の考案されたGeoexploreシリーズアルゴリズムは、マルチソリューションバリアントと自己反射バックトラッキングトレースを同時に生成します。
正式な論理検証により、TrustGeogenは、GeoTrust-200Kデータセットを保証されたモダリティの完全性とGeoTrust-Testテストセットを生成します。
実験により、最先端のモデルは地盤テストで49.17%の精度のみを達成し、その評価の厳格さを実証していることが明らかになりました。
重要なことに、ジオラストで訓練されたモデルは、geoqaでoodの一般化を達成し、Openai-O1によって注釈が付けられた擬似ラベルと比較して論理的な矛盾を大幅に削減します。
私たちのコードは、https://github.com/alpha-innovator/trustgeogenで入手できます

要約(オリジナル)

Mathematical geometric problem solving (GPS) often requires effective integration of multimodal information and verifiable logical coherence. Despite the fast development of large language models in general problem solving, it remains unresolved regarding with both methodology and benchmarks, especially given the fact that exiting synthetic GPS benchmarks are often not self-verified and contain noise and self-contradicted information due to the illusion of LLMs. In this paper, we propose a scalable data engine called TrustGeoGen for problem generation, with formal verification to provide a principled benchmark, which we believe lays the foundation for the further development of methods for GPS. The engine synthesizes geometric data through four key innovations: 1) multimodal-aligned generation of diagrams, textual descriptions, and stepwise solutions; 2) formal verification ensuring rule-compliant reasoning paths; 3) a bootstrapping mechanism enabling complexity escalation via recursive state generation and 4) our devised GeoExplore series algorithms simultaneously produce multi-solution variants and self-reflective backtracking traces. By formal logical verification, TrustGeoGen produces GeoTrust-200K dataset with guaranteed modality integrity, along with GeoTrust-test testset. Experiments reveal the state-of-the-art models achieve only 49.17\% accuracy on GeoTrust-test, demonstrating its evaluation stringency. Crucially, models trained on GeoTrust achieve OOD generalization on GeoQA, significantly reducing logical inconsistencies relative to pseudo-label annotated by OpenAI-o1. Our code is available at https://github.com/Alpha-Innovator/TrustGeoGen

arxiv情報

著者 Daocheng Fu,Zijun Chen,Renqiu Xia,Qi Liu,Yuan Feng,Hongbin Zhou,Renrui Zhang,Shiyang Feng,Peng Gao,Junchi Yan,Botian Shi,Bo Zhang,Yu Qiao
発行日 2025-04-22 10:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving はコメントを受け付けていません

Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach

要約

クリエイティブライティングは、文学、ストーリーテリング、さまざまなクリエイティブドメインの潜在的なアプリケーションを備えた大規模な言語モデル(LLM)の重要な機能です。
ただし、既存の方法は費用のかかる手動注釈に依存しているか、人間の評価と密接に連携できないため、機械で生成されたテキストの創造性を評価することは重要な課題のままです。
この論文では、創造性を製品として評価するクリエイティブライティングのトーランステスト(TTCW)に基づいた効果的な自動評価方法を提案します。
私たちの方法では、参照ベースのリッカートスタイルのアプローチを採用しており、さまざまなテストにわたる高品質の参照テキストに比べて生成された創造テキストをスコアリングします。
実験結果は、この方法がLLM評価と人間の評価とのアラインメントを大幅に改善し、0.75(+15 \%)のペアワイズ精度を達成することを示しています。

要約(オリジナル)

Creative writing is a key capability of Large Language Models (LLMs), with potential applications in literature, storytelling, and various creative domains. However, evaluating the creativity of machine-generated texts remains a significant challenge, as existing methods either rely on costly manual annotations or fail to align closely with human assessments. In this paper, we propose an effective automated evaluation method based on the Torrance Test of Creative Writing (TTCW), which evaluates creativity as product. Our method employs a reference-based Likert-style approach, scoring generated creative texts relative to high-quality reference texts across various tests. Experimental results demonstrate that our method significantly improves the alignment between LLM evaluations and human assessments, achieving a pairwise accuracy of 0.75 (+15\%).

arxiv情報

著者 Ruizhe Li,Chiwei Zhu,Benfeng Xu,Xiaorui Wang,Zhendong Mao
発行日 2025-04-22 10:52:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach はコメントを受け付けていません

ConExion: Concept Extraction with Large Language Models

要約

この論文では、事前に訓練された大手言語モデル(LLMS)を使用したドキュメントからの概念抽出のアプローチを提示します。
ドキュメントで説明されている重要な情報を要約するキーフレーズを抽出する従来の方法と比較して、私たちのアプローチは、重要なドメインだけでなく、特定のドメインに関連するすべての現在の概念を抽出するというより困難なタスクに取り組んでいます。
広く使用されている2つのベンチマークデータセットの包括的な評価を通じて、私たちの方法は、最先端の手法と比較してF1スコアを改善することを実証します。
さらに、監視されていない概念抽出のためにこれらのモデル内でプロンプトを使用する可能性を調査します。
抽出された概念は、オントロジーのドメインカバレッジ評価をサポートし、オントロジー学習を促進することを目的としており、概念抽出タスクにおけるLLMの有効性を強調しています。
ソースコードとデータセットは、https://github.com/ise-fizkarlsruhe/concept_extractionで公開されています。

要約(オリジナル)

In this paper, an approach for concept extraction from documents using pre-trained large language models (LLMs) is presented. Compared with conventional methods that extract keyphrases summarizing the important information discussed in a document, our approach tackles a more challenging task of extracting all present concepts related to the specific domain, not just the important ones. Through comprehensive evaluations of two widely used benchmark datasets, we demonstrate that our method improves the F1 score compared to state-of-the-art techniques. Additionally, we explore the potential of using prompts within these models for unsupervised concept extraction. The extracted concepts are intended to support domain coverage evaluation of ontologies and facilitate ontology learning, highlighting the effectiveness of LLMs in concept extraction tasks. Our source code and datasets are publicly available at https://github.com/ISE-FIZKarlsruhe/concept_extraction.

arxiv情報

著者 Ebrahim Norouzi,Sven Hertling,Harald Sack
発行日 2025-04-22 11:11:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | ConExion: Concept Extraction with Large Language Models はコメントを受け付けていません

Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation

要約

大規模な言語モデル(LLMS)の最近の進歩により、幅広いタスクにわたって並外れたパフォーマンスが実証されており、推奨システムへのアプリケーションに大きな関心を集めています。
ただし、既存の方法は、LLMの可能性を完全に活用していません。多くの場合、限られた入力情報によって制約されているか、高度な推論機能を完全に活用できなかったことがよくあります。
これらの制限に対処するために、ユーザーとアイテムのレビューに含まれる豊富な選好情報を活用するように設計された新しいLLMベースの推奨ユーザーであるExp3RTを紹介します。
EXP3RTは、基本的に教師LLMからの蒸留により微調整され、3つの重要なタスクを順番に実行します。EXP3RTは、最初の抽出および生のレビューから本質的な主観的な好みをカプセル化し、特定の基準に従ってユーザーとアイテムのプロファイルを作成するための特定の基準に従ってそれらを要約します。
次に、ユーザー/アイテムのプロファイルとアイテムの説明からの主観的および客観的な情報の両方を考慮することにより、詳細なステップバイステップの推論に続いて予測された評価、つまり推論強化評価予測が生成されます。
EXP3RTからのこのパーソナライズされた好みの推論は、評価予測の精度を高め、推奨の忠実で合理的な説明を提供します。
広範な実験では、EXP3RTは、推奨システムの説明可能性を大幅に向上させながら、評価予測と候補アイテムの再ランキングの両方で既存の方法を上回ることが示されています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have demonstrated exceptional performance across a wide range of tasks, generating significant interest in their application to recommendation systems. However, existing methods have not fully capitalized on the potential of LLMs, often constrained by limited input information or failing to fully utilize their advanced reasoning capabilities. To address these limitations, we introduce EXP3RT, a novel LLM-based recommender designed to leverage rich preference information contained in user and item reviews. EXP3RT is basically fine-tuned through distillation from a teacher LLM to perform three key tasks in order: EXP3RT first extracts and encapsulates essential subjective preferences from raw reviews, aggregates and summarizes them according to specific criteria to create user and item profiles. It then generates detailed step-by-step reasoning followed by predicted rating, i.e., reasoning-enhanced rating prediction, by considering both subjective and objective information from user/item profiles and item descriptions. This personalized preference reasoning from EXP3RT enhances rating prediction accuracy and also provides faithful and reasonable explanations for recommendation. Extensive experiments show that EXP3RT outperforms existing methods on both rating prediction and candidate item reranking for top-k recommendation, while significantly enhancing the explainability of recommendation systems.

arxiv情報

著者 Jieyong Kim,Hyunseo Kim,Hyunjin Cho,SeongKu Kang,Buru Chang,Jinyoung Yeo,Dongha Lee
発行日 2025-04-22 11:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Review-driven Personalized Preference Reasoning with Large Language Models for Recommendation はコメントを受け付けていません

A closer look at how large language models trust humans: patterns and biases

要約

大規模な言語モデル(LLM)とLLMベースのエージェントが意思決定のコンテキストで人間とますます相互作用するようになるため、人間とAIのエージェント間の信頼ダイナミクスを理解することが中心的な関心事になります。
人間がAIエージェントをどのように信頼するかを研究しているかなりの文献が研究されていますが、LLMベースのエージェントが人間に対する効果的な信頼をどのように開発するかはあまり理解されていません。
LLMベースのエージェントは、意思決定を支援および影響を与えるために、信託関連のコンテキスト(例:個々のローン申請を評価する)に対する何らかの暗黙の効果的な信頼に依存している可能性があります。
確立された行動理論を使用して、LLMSの信頼が3つの主要な信頼性の側面、つまり能力、慈悲、人間の主題の完全性に依存するかどうかを研究するアプローチを開発します。
また、人口統計変数が効果的な信頼にどのように影響するかを研究します。
43,200のシミュレートされた実験で、5つの一般的な言語モデルで、5つの異なるシナリオで、LLMトラスト開発が人間の信頼開発と全体的な類似性を示していることがわかります。
すべての場合ではありませんが、LLMトラストは信頼性によって強く予測されており、場合によっては年齢、宗教、性別、特に財務シナリオでも偏って​​いることがわかります。
これは、文献で一般的なシナリオや新しいモデルに特に当てはまります。
全体的なパターンは、効果的な信頼形成の人間のようなメカニズムと一致していますが、異なるモデルは信頼を推定する方法にばらつきを示します。
場合によっては、信頼性と人口統計学的要因は、効果的な信頼の弱い予測因子です。
これらの調査結果は、AIから人間への信頼のダイナミクスとバイアスの監視と、AIの信頼に敏感なアプリケーションにおける意図的で潜在的に有害な結果を防ぐために、バイアスの監視と信頼開発パターンをよりよく理解する必要があります。

要約(オリジナル)

As large language models (LLMs) and LLM-based agents increasingly interact with humans in decision-making contexts, understanding the trust dynamics between humans and AI agents becomes a central concern. While considerable literature studies how humans trust AI agents, it is much less understood how LLM-based agents develop effective trust in humans. LLM-based agents likely rely on some sort of implicit effective trust in trust-related contexts (e.g., evaluating individual loan applications) to assist and affect decision making. Using established behavioral theories, we develop an approach that studies whether LLMs trust depends on the three major trustworthiness dimensions: competence, benevolence and integrity of the human subject. We also study how demographic variables affect effective trust. Across 43,200 simulated experiments, for five popular language models, across five different scenarios we find that LLM trust development shows an overall similarity to human trust development. We find that in most, but not all cases, LLM trust is strongly predicted by trustworthiness, and in some cases also biased by age, religion and gender, especially in financial scenarios. This is particularly true for scenarios common in the literature and for newer models. While the overall patterns align with human-like mechanisms of effective trust formation, different models exhibit variation in how they estimate trust; in some cases, trustworthiness and demographic factors are weak predictors of effective trust. These findings call for a better understanding of AI-to-human trust dynamics and monitoring of biases and trust development patterns to prevent unintended and potentially harmful outcomes in trust-sensitive applications of AI.

arxiv情報

著者 Valeria Lerman,Yaniv Dover
発行日 2025-04-22 11:31:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | A closer look at how large language models trust humans: patterns and biases はコメントを受け付けていません