Retrieving Time-Series Differences Using Natural Language Queries

要約

タイムシリーズデータを効果的に検索することは、システム分析に不可欠です。
ただし、従来の方法では、検索基準を定義するためにドメインの専門知識が必要です。
最近の進歩により、自然言語ベースの検索が可能になりましたが、これらの方法は時系列データ間の違いを処理するのに苦労しています。
この制限に対処するために、クエリで指定された違いに基づいて、時系列データのペアを取得するための自然言語クエリベースのアプローチを提案します。
具体的には、違いの6つの重要な特性を定義し、対応するデータセットを構築し、対照的な学習ベースのモデルを開発して、時系列データ間の違いをクエリテキストに合わせます。
実験結果は、私たちのモデルが時系列ペアを取得する際に0.994の全体的なマップスコアを達成することを示しています。

要約(オリジナル)

Effectively searching time-series data is essential for system analysis; however, traditional methods often require domain expertise to define search criteria. Recent advancements have enabled natural language-based search, but these methods struggle to handle differences between time-series data. To address this limitation, we propose a natural language query-based approach for retrieving pairs of time-series data based on differences specified in the query. Specifically, we define six key characteristics of differences, construct a corresponding dataset, and develop a contrastive learning-based model to align differences between time-series data with query texts. Experimental results demonstrate that our model achieves an overall mAP score of 0.994 in retrieving time-series pairs.

arxiv情報

著者 Kota Dohi,Tomoya Nishida,Harsh Purohit,Takashi Endo,Yohei Kawaguchi
発行日 2025-03-27 11:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Retrieving Time-Series Differences Using Natural Language Queries はコメントを受け付けていません

Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models

要約

近年、大規模な推論モデルの急速な発展により、数学的推論を評価するための既存のベンチマークが飽和し、より挑戦的で厳密な評価フレームワークの緊急の必要性を強調しています。
このギャップに対処するために、LLMSの複雑な推論能力を厳密にテストするように設計された、オリンピアードレベルの新しい数学ベンチマークであるOlymmathを紹介します。
Olymmathは、細心の注意を払ってキュレーションされた200個の問題を特徴としており、それぞれが手動で検証され、並行して英語と中国語のバージョンで利用可能です。
問題は、2つの異なる難易度層に体系的に編成されています。(1)数学的推論評価のベースラインを確立するAIMEレベルの問題(簡単)、および(2)現在の最先端モデルの境界を押し上げるように設計された大幅に挑戦的な問題(ハード)。
ベンチマークでは、これらの問題は、客観的でルールベースの評価を可能にする検証可能な数値ソリューションを含む4つのコア数学フィールドに及びます。
経験的な結果は、Olymmathが提示する重要な課題を強調しており、Deepseek-R1やOpenaiのO3-Miniを含む最先端のモデルがハードサブセットで特に限定的な精度を示しています。
さらに、このベンチマークは、数学的推論能力の包括的なバイリンガル評価を促進します。これは、主流の数学的推論ベンチマークではほとんど告訴されていない重要な側面です。
Still Project:https://github.com/rucaibox/slow_thinking_with_llmsでOlymmathベンチマークをリリースします。

要約(オリジナル)

In recent years, the rapid development of large reasoning models has resulted in the saturation of existing benchmarks for evaluating mathematical reasoning, highlighting the urgent need for more challenging and rigorous evaluation frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level mathematical benchmark, designed to rigorously test the complex reasoning capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each manually verified and available in parallel English and Chinese versions. The problems are systematically organized into two distinct difficulty tiers: (1) AIME-level problems (easy) that establish a baseline for mathematical reasoning assessment, and (2) significantly more challenging problems (hard) designed to push the boundaries of current state-of-the-art models. In our benchmark, these problems span four core mathematical fields, each including a verifiable numerical solution to enable objective, rule-based evaluation. Empirical results underscore the significant challenge presented by OlymMATH, with state-of-the-art models including DeepSeek-R1 and OpenAI’s o3-mini demonstrating notably limited accuracy on the hard subset. Furthermore, the benchmark facilitates comprehensive bilingual assessment of mathematical reasoning abilities-a critical dimension that remains largely unaddressed in mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.

arxiv情報

著者 Haoxiang Sun,Yingqian Min,Zhipeng Chen,Wayne Xin Zhao,Zheng Liu,Zhongyuan Wang,Lei Fang,Ji-Rong Wen
発行日 2025-03-27 11:20:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models はコメントを受け付けていません

Controlling Large Language Model with Latent Actions

要約

強化学習(RL)を使用して、大規模な言語モデル(LLMS)を下流のタスクに適応させることは、効果的なアプローチであることが証明されています。
ただし、LLMは、特にアクション空間を定義するという点で、RLトレーニング用のエージェントの構造を本質的に定義していません。
このペーパーでは、LLMのRLの制御性と調査を強化するためのコンパクトな潜在アクションスペースを学習します。
潜在的なアクション空間を事前に訓練されたLLMに統合するフレームワークである潜在アクション(COLA)を使用して、大規模な言語モデルを制御することを提案します。
ラマ-3.1-8Bモデルにコーラを適用します。
私たちの実験は、トークンレベルのアクションを備えたRLと比較して、コーラの潜在的なアクションにより、テキスト生成の意味的な多様性が高まることを示しています。
ダウンストリームタスクを強化するために、RLとColaがMath500ベンチマークで42.4のスコアを達成し、ベースラインスコア38.2を超え、モンテカルロツリー検索バリアントで増強すると68.2に達することを示します。
さらに、RLとColaは、ベースラインとは異なり、事前に訓練されたLLMの機能を分解することなく、エージェントベースのタスクのパフォーマンスを一貫して改善します。
最後に、COLAは、RLによってLLMSの強化された思考プロンプトを含むタスクで計算時間を半分に短縮します。
これらの結果は、ダウンストリームアプリケーションに対するLLMSのRLベースの適応を進める可能性を強調しています。

要約(オリジナル)

Adapting Large Language Models (LLMs) to downstream tasks using Reinforcement Learning (RL) has proven to be an effective approach. However, LLMs do not inherently define the structure of an agent for RL training, particularly in terms of defining the action space. This paper studies learning a compact latent action space to enhance the controllability and exploration of RL for LLMs. We propose Controlling Large Language Models with Latent Actions (CoLA), a framework that integrates a latent action space into pre-trained LLMs. We apply CoLA to the Llama-3.1-8B model. Our experiments demonstrate that, compared to RL with token-level actions, CoLA’s latent action enables greater semantic diversity in text generation. For enhancing downstream tasks, we show that CoLA with RL achieves a score of 42.4 on the math500 benchmark, surpassing the baseline score of 38.2, and reaches 68.2 when augmented with a Monte Carlo Tree Search variant. Furthermore, CoLA with RL consistently improves performance on agent-based tasks without degrading the pre-trained LLM’s capabilities, unlike the baseline. Finally, CoLA reduces computation time by half in tasks involving enhanced thinking prompts for LLMs by RL. These results highlight CoLA’s potential to advance RL-based adaptation of LLMs for downstream applications.

arxiv情報

著者 Chengxing Jia,Ziniu Li,Pengyuan Wang,Yi-Chen Li,Zhenyu Hou,Yuxiao Dong,Yang Yu
発行日 2025-03-27 11:25:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Controlling Large Language Model with Latent Actions はコメントを受け付けていません

Ontology Matching with Large Language Models and Prioritized Depth-First Search

要約

オントロジーマッチング(OM)は、データの相互運用性と知識の共有を可能にする上で重要な役割を果たしますが、機械学習アプローチにおける大規模なトレーニングデータセットと限られた語彙処理が必要なため、困難なままです。
最近、大規模な言語モデル(LLMS)に基づいた方法は、特に回収されたトレイブ – プロムプトパイプラインを使用することにより、OMに大きな期待を示しています。
このアプローチでは、関連するターゲットエンティティが最初に取得され、次にLLMに最終試合を予測するよう促すために使用されます。
それらの可能性にもかかわらず、これらのシステムはまだ限られたパフォーマンスと高い計算オーバーヘッドを示しています。
これらの問題に対処するために、優先された深度検索(PDFS)戦略内に回収されたIdentify-Pipelineを埋め込む新しいアプローチであるMILAを紹介します。
このアプローチは、高精度で多数のセマンティック対応を効率的に識別し、LLM要求を最も境界線の場合のみに制限します。
Ontology Alignment評価イニシアチブの2023年および2024年版で提案された生物医学的課題を使用してMILAを評価しました。
私たちの方法は、5つの監視されていないタスクのうち4つで最高のFメジャーを達成し、最先端のOMシステムを最大17%上回りました。
また、主要な監視されたOMシステムよりも優れたパフォーマンスを発揮しました。
MILAはさらにタスクに依存しないパフォーマンスを示し、すべてのタスクと設定にわたって安定したままでありながら、LLM要求を大幅に削減しました。
これらの調査結果は、ドメイン固有のヒューリスティックや微調整を必要とせずに、プログラムされた(PDFS)、学習(ベクターの埋め込み)、およびプロンプトベースのヒューリスティックの組み合わせを通じて、高性能LLMベースのOMを達成できることを強調しています。

要約(オリジナル)

Ontology matching (OM) plays a key role in enabling data interoperability and knowledge sharing, but it remains challenging due to the need for large training datasets and limited vocabulary processing in machine learning approaches. Recently, methods based on Large Language Model (LLMs) have shown great promise in OM, particularly through the use of a retrieve-then-prompt pipeline. In this approach, relevant target entities are first retrieved and then used to prompt the LLM to predict the final matches. Despite their potential, these systems still present limited performance and high computational overhead. To address these issues, we introduce MILA, a novel approach that embeds a retrieve-identify-prompt pipeline within a prioritized depth-first search (PDFS) strategy. This approach efficiently identifies a large number of semantic correspondences with high accuracy, limiting LLM requests to only the most borderline cases. We evaluated MILA using the biomedical challenge proposed in the 2023 and 2024 editions of the Ontology Alignment Evaluation Initiative. Our method achieved the highest F-Measure in four of the five unsupervised tasks, outperforming state-of-the-art OM systems by up to 17%. It also performed better than or comparable to the leading supervised OM systems. MILA further exhibited task-agnostic performance, remaining stable across all tasks and settings, while significantly reducing LLM requests. These findings highlight that high-performance LLM-based OM can be achieved through a combination of programmed (PDFS), learned (embedding vectors), and prompting-based heuristics, without the need of domain-specific heuristics or fine-tuning.

arxiv情報

著者 Maria Taboada,Diego Martinez,Mohammed Arideh,Rosa Mosquera
発行日 2025-03-27 11:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Ontology Matching with Large Language Models and Prioritized Depth-First Search はコメントを受け付けていません

Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG

要約

検索された生成(RAG)は、ドメインの知識を大規模な言語モデル(LLM)に組み込むための顕著な方法として浮上しています。
RAGは、コンテキストに検索されたドメインの知識を組み込むことにより応答の関連性を高めますが、検索エラーは幻覚と誤った答えにつながる可能性があります。
レトリーバーの障害から回復するために、検索エラーの場合でも、モデルを微調整して正しい応答を生成することにより、ドメインの知識が注入されます。
ただし、体系的な知識の増強がなければ、微調整されたLLMは新しい情報を記憶するかもしれませんが、関連するドメインの知識を抽出できず、パフォーマンスが低下することがわかります。
この作業では、トレーニングデータを2つの方法で拡張することにより、微調整プロセスを大幅に強化する新しいフレームワークを提示します – コンテキストの増強と知識の言い換え。
コンテキストの増強では、検索された情報の関連性を変化させて、特定のQAペアの複数のトレーニングサンプルを作成し、モデルにいつ無視するか、いつ回収されたコンテンツに依存するかを教えます。
知識の言い換えでは、同じ質問に対する複数の回答で微調整され、LLMが専門的な知識をよりよく内在化できるようにします。
微調整による壊滅的な忘却を緩和するために、質問にドメイン固有の識別子を追加し、一般的なQAペアを含むリプレイバッファーも利用します。
実験結果は、LLMの一般化能力を維持しながら、トークンレベルのリコールで最大10 \%の相対的なゲインを達成し、既存の手法に対する方法の有効性を示しています。

要約(オリジナル)

Retrieval-Augmented Generation (RAG) has emerged as a prominent method for incorporating domain knowledge into Large Language Models (LLMs). While RAG enhances response relevance by incorporating retrieved domain knowledge in the context, retrieval errors can still lead to hallucinations and incorrect answers. To recover from retriever failures, domain knowledge is injected by fine-tuning the model to generate the correct response, even in the case of retrieval errors. However, we observe that without systematic knowledge augmentation, fine-tuned LLMs may memorize new information but still fail to extract relevant domain knowledge, leading to poor performance. In this work, we present a novel framework that significantly enhances the fine-tuning process by augmenting the training data in two ways — context augmentation and knowledge paraphrasing. In context augmentation, we create multiple training samples for a given QA pair by varying the relevance of the retrieved information, teaching the model when to ignore and when to rely on retrieved content. In knowledge paraphrasing, we fine-tune with multiple answers to the same question, enabling LLMs to better internalize specialized knowledge. To mitigate catastrophic forgetting due to fine-tuning, we add a domain-specific identifier to a question and also utilize a replay buffer containing general QA pairs. Experimental results demonstrate the efficacy of our method over existing techniques, achieving up to 10\% relative gain in token-level recall while preserving the LLM’s generalization capabilities.

arxiv情報

著者 Kushagra Bhushan,Yatin Nandwani,Dinesh Khandelwal,Sonam Gupta,Gaurav Pandey,Dinesh Raghu,Sachindra Joshi
発行日 2025-03-27 11:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Systematic Knowledge Injection into Large Language Models via Diverse Augmentation for Domain-Specific RAG はコメントを受け付けていません

An evaluation of LLMs and Google Translate for translation of selected Indian languages via sentiment and semantic analyses

要約

大規模な言語モデル(LLM)は、低リソース言語を含む言語翻訳にとって顕著です。
Gemini、GPT、Google Translateなど、LLMによって生成された翻訳の品質の評価に関する研究は限られています。
この研究では、サンスクリット語、テルグ語、ヒンディー語を含むインド語の選択されたLLMのセマンティックと感情分析を使用して、この制限に対処します。
専門家によってよく翻訳された顕著なテキストを選択し、LLMを使用して翻訳を英語に生成し、選択した専門家(人間)翻訳と比較します。
私たちの調査結果は、LLMが翻訳の正確性に大きな進歩を遂げた一方で、特に比fig的および哲学的な文脈において、感情と意味的な完全性を維持することに課題が残っていることを示唆しています。
感情分析により、GPT-4OとGPT-3.5は、Google翻訳と比較した場合、Bhagavad Gita(Sanskrit-English)翻訳の感情を維持するのに優れていることが明らかになりました。
Tamas(Hindi-English)とMaha P(Telugu-English)翻訳の場合についても同様の傾向を観察しました。
GPT-4oは、3つの言語の感情の観点から、翻訳でGPT-3.5と同様に実行されます。
Google翻訳と比較した場合、LLMは一般に感情を捉えるための翻訳に優れていることがわかりました。

要約(オリジナル)

Large Language models (LLMs) have been prominent for language translation, including low-resource languages. There has been limited study about the assessment of the quality of translations generated by LLMs, including Gemini, GPT and Google Translate. In this study, we address this limitation by using semantic and sentiment analysis of selected LLMs for Indian languages, including Sanskrit, Telugu and Hindi. We select prominent texts that have been well translated by experts and use LLMs to generate their translations to English, and then we provide a comparison with selected expert (human) translations. Our findings suggest that while LLMs have made significant progress in translation accuracy, challenges remain in preserving sentiment and semantic integrity, especially in figurative and philosophical contexts. The sentiment analysis revealed that GPT-4o and GPT-3.5 are better at preserving the sentiments for the Bhagavad Gita (Sanskrit-English) translations when compared to Google Translate. We observed a similar trend for the case of Tamas (Hindi-English) and Maha P (Telugu-English) translations. GPT-4o performs similarly to GPT-3.5 in the translation in terms of sentiments for the three languages. We found that LLMs are generally better at translation for capturing sentiments when compared to Google Translate.

arxiv情報

著者 Rohitash Chandra,Aryan Chaudhary,Yeshwanth Rayavarapu
発行日 2025-03-27 11:35:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | An evaluation of LLMs and Google Translate for translation of selected Indian languages via sentiment and semantic analyses はコメントを受け付けていません

Composable Prompting Workspaces for Creative Writing: Exploration and Iteration Using Dynamic Widgets

要約

生成AIモデルは、テキストの作成と変換の可能性が多く提供されます。
現在のグラフィカルユーザーインターフェイス(GUI)は、実用的なインターフェイスオブジェクトとしてプロンプトを表していないため、反復探査のサポートが不足しています。
動的ウィジェットを使用して、テキストの探索と反復のためのコンポーネブルプロンプトキャンバスの概念を提案します。
ユーザーは、システムの提案を介してウィジェットを生成し、プロンプト、または手動で生成されたテキストに影響を与えるタスク関連のファセットをキャプチャします。
ベースライン(会話UI)を使用した比較研究では、18人の参加者が2つの執筆タスクに取り組み、カスタムウィジェットと空間レイアウトを備えた多様なプロンプト環境を作成しました。
彼らは、生成されたテキストをより制御することを報告し、ベースラインよりもシステムを優先しました。
私たちのデザインは、創造性サポートインデックスのベースラインを大幅に上回り、参加者は結果が努力する価値があると感じました。
この作業は、プロンプトの柔軟性と効率の両方を高めるために、ユーザー駆動型のカスタマイズと(再)構造化をサポートするGUIの必要性を強調しています。

要約(オリジナル)

Generative AI models offer many possibilities for text creation and transformation. Current graphical user interfaces (GUIs) for prompting them lack support for iterative exploration, as they do not represent prompts as actionable interface objects. We propose the concept of a composable prompting canvas for text exploration and iteration using dynamic widgets. Users generate widgets through system suggestions, prompting, or manually to capture task-relevant facets that affect the generated text. In a comparative study with a baseline (conversational UI), 18 participants worked on two writing tasks, creating diverse prompting environments with custom widgets and spatial layouts. They reported having more control over the generated text and preferred our system over the baseline. Our design significantly outperformed the baseline on the Creativity Support Index, and participants felt the results were worth the effort. This work highlights the need for GUIs that support user-driven customization and (re-)structuring to increase both the flexibility and efficiency of prompting.

arxiv情報

著者 Rifat Mehreen Amin,Oliver Hans Kühle,Daniel Buschek,Andreas Butz
発行日 2025-03-27 11:36:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.HC, H.5.2 | Composable Prompting Workspaces for Creative Writing: Exploration and Iteration Using Dynamic Widgets はコメントを受け付けていません

Large Language Model Agent: A Survey on Methodology, Applications and Challenges

要約

インテリジェントエージェントの時代は、大規模な言語モデルの革新的な進歩によって推進されています。
目標主導の動作と動的な適応能力を備えた大規模な言語モデル(LLM)エージェントは、人工的な一般情報への重要な経路を潜在的に表しています。
この調査は、建築基盤、コラボレーションメカニズム、および進化経路をリンクする方法論中心の分類法を通じてLLMエージェントシステムを体系的に分解します。
エージェントの設計原則と複雑な環境での緊急行動との根本的なつながりを明らかにすることにより、断片化された研究スレッドを統合します。
私たちの作品は、統一された建築の視点を提供し、エージェントの構築方法、協力方法、および時間の経過とともにどのように進化するかを調べ、評価方法、ツールアプリケーション、実用的な課題、および多様なアプリケーションドメインにも対処します。
この急速に進化する分野の最新の開発を調査することにより、研究者にLLMエージェントを理解するための構造化された分類法を提供し、将来の研究のための有望な方向性を特定します。
このコレクションは、https://github.com/luo-junyu/awesome-agent-papersで入手できます。

要約(オリジナル)

The era of intelligent agents is upon us, driven by revolutionary advancements in large language models. Large Language Model (LLM) agents, with goal-driven behaviors and dynamic adaptation capabilities, potentially represent a critical pathway toward artificial general intelligence. This survey systematically deconstructs LLM agent systems through a methodology-centered taxonomy, linking architectural foundations, collaboration mechanisms, and evolutionary pathways. We unify fragmented research threads by revealing fundamental connections between agent design principles and their emergent behaviors in complex environments. Our work provides a unified architectural perspective, examining how agents are constructed, how they collaborate, and how they evolve over time, while also addressing evaluation methodologies, tool applications, practical challenges, and diverse application domains. By surveying the latest developments in this rapidly evolving field, we offer researchers a structured taxonomy for understanding LLM agents and identify promising directions for future research. The collection is available at https://github.com/luo-junyu/Awesome-Agent-Papers.

arxiv情報

著者 Junyu Luo,Weizhi Zhang,Ye Yuan,Yusheng Zhao,Junwei Yang,Yiyang Gu,Bohan Wu,Binqi Chen,Ziyue Qiao,Qingqing Long,Rongcheng Tu,Xiao Luo,Wei Ju,Zhiping Xiao,Yifan Wang,Meng Xiao,Chenwu Liu,Jingyang Yuan,Shichang Zhang,Yiqiao Jin,Fan Zhang,Xian Wu,Hanqing Zhao,Dacheng Tao,Philip S. Yu,Ming Zhang
発行日 2025-03-27 12:50:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Large Language Model Agent: A Survey on Methodology, Applications and Challenges はコメントを受け付けていません

Harnessing Chain-of-Thought Metadata for Task Routing and Adversarial Prompt Detection

要約

この作業では、タスクの難易度を決定し、生産コンテキストで大規模な言語モデル(LLMS)をサポートするために、思考数(NOFT)と呼ばれるメトリックを提案します。
思考の数に基づいてしきい値を設定することにより、このメトリックはプロンプトの難易度を識別し、より効果的なプロンプトルーティングをサポートできます。
17億、70億、および140億のパラメーターで、量子化された蒸留バージョンのDeepSeekの蒸留バージョンを介してMathinStructデータセットからプロンプトをルーティングすると、2%の減少が達成されます。
さらに、このメトリックを使用して、高効果の迅速な注入攻撃で使用される敵対的なプロンプトを検出できます。
思考の数は、敵対的な迅速な検出で95%の精度を達成する分類子に通知することができます。
使用されている実験広告データセットは、githubページ(https://github.com/rymarinelli/number_of_thoughts/tree/main)で入手できます。

要約(オリジナル)

In this work, we propose a metric called Number of Thoughts (NofT) to determine the difficulty of tasks pre-prompting and support Large Language Models (LLMs) in production contexts. By setting thresholds based on the number of thoughts, this metric can discern the difficulty of prompts and support more effective prompt routing. A 2% decrease in latency is achieved when routing prompts from the MathInstruct dataset through quantized, distilled versions of Deepseek with 1.7 billion, 7 billion, and 14 billion parameters. Moreover, this metric can be used to detect adversarial prompts used in prompt injection attacks with high efficacy. The Number of Thoughts can inform a classifier that achieves 95% accuracy in adversarial prompt detection. Our experiments ad datasets used are available on our GitHub page: https://github.com/rymarinelli/Number_Of_Thoughts/tree/main.

arxiv情報

著者 Ryan Marinelli,Josef Pichlmeier,Tamas Bisztray
発行日 2025-03-27 12:54:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PF | Harnessing Chain-of-Thought Metadata for Task Routing and Adversarial Prompt Detection はコメントを受け付けていません

OmniVox: Zero-Shot Emotion Recognition with Omni-LLMs

要約

特に音声を含むマルチモーダル認知状態タスクでは、OMNI-LLMS(入力としてモダリティを受け入れる大規模な言語モデル)の使用は研究されていません。
ゼロショット感情認識タスクに関する4つのオムニルスの最初の系統的評価であるOmnivoxを提示します。
広く使用されている2つのマルチモーダル感情ベンチマークで評価され、IEMOCAPとMELDを使用して、ゼロショットOMNI-LLMのアウトパフォームを見つけるか、微調整されたオーディオモデルと競合します。
オーディオのみの評価に加えて、テキストのみとテキストとオーディオのOMNI-LLMを評価します。
音響機能分析、会話のコンテキスト分析、段階的な推論に焦点を当てたOMNI-LLMSのオーディオ固有のプロンプト戦略であるアコースティックプロンプトを提示します。
音響プロンプトを最小限のプロンプトと完全なチェーンプロンプトテクニックと比較します。
IEMOCAPとMELDのコンテキストウィンドウ分析を実行し、特にIEMOCAPでコンテキストを使用するのに役立つことがわかります。
OMNI-LLMSからの生成された音響推論出力に関するエラー分析で結論を出します。

要約(オリジナル)

The use of omni-LLMs (large language models that accept any modality as input), particularly for multimodal cognitive state tasks involving speech, is understudied. We present OmniVox, the first systematic evaluation of four omni-LLMs on the zero-shot emotion recognition task. We evaluate on two widely used multimodal emotion benchmarks: IEMOCAP and MELD, and find zero-shot omni-LLMs outperform or are competitive with fine-tuned audio models. Alongside our audio-only evaluation, we also evaluate omni-LLMs on text only and text and audio. We present acoustic prompting, an audio-specific prompting strategy for omni-LLMs which focuses on acoustic feature analysis, conversation context analysis, and step-by-step reasoning. We compare our acoustic prompting to minimal prompting and full chain-of-thought prompting techniques. We perform a context window analysis on IEMOCAP and MELD, and find that using context helps, especially on IEMOCAP. We conclude with an error analysis on the generated acoustic reasoning outputs from the omni-LLMs.

arxiv情報

著者 John Murzaku,Owen Rambow
発行日 2025-03-27 13:12:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | OmniVox: Zero-Shot Emotion Recognition with Omni-LLMs はコメントを受け付けていません