Towards Multi-Agent Reasoning Systems for Collaborative Expertise Delegation: An Exploratory Design Study

要約

集合的な推論を強化するためのマルチエージェントLLMシステムの効果的なコラボレーション構造を設計することは重要ですが、未調査のままです。
このホワイトペーパーでは、コラボレーションの推論パフォーマンスが3つの主要な設計ディメンションによってどのように影響を受けるかを体系的に調査します。
私たちの調査結果は、専門知識の調整の利点が非常にドメイン継続的であり、文脈上の推論タスクに最も効果的であることを証明していることが明らかになりました。
さらに、多様な知識の統合に焦点を当てたコラボレーションは、一貫して厳格なタスク分解よりも優れています。
最後に、マルチエージェントシステムを専門知識の専門化でスケー​​リングすることの影響を経験的に調査し、より効率的な通信プロトコル設計の必要性を強調し、計算トレードオフを研究します。
この作業は、専門化されたマルチエージェントシステムを構成するための具体的なガイドラインを提供し、スケーラブルなマルチエージェント推論のための重要なアーキテクチャトレードオフとボトルネックを識別します。
コードは、受け入れられると利用可能になります。

要約(オリジナル)

Designing effective collaboration structure for multi-agent LLM systems to enhance collective reasoning is crucial yet remains under-explored. In this paper, we systematically investigate how collaborative reasoning performance is affected by three key design dimensions: (1) Expertise-Domain Alignment, (2) Collaboration Paradigm (structured workflow vs. diversity-driven integration), and (3) System Scale. Our findings reveal that expertise alignment benefits are highly domain-contingent, proving most effective for contextual reasoning tasks. Furthermore, collaboration focused on integrating diverse knowledge consistently outperforms rigid task decomposition. Finally, we empirically explore the impact of scaling the multi-agent system with expertise specialization and study the computational trade off, highlighting the need for more efficient communication protocol design. This work provides concrete guidelines for configuring specialized multi-agent system and identifies critical architectural trade-offs and bottlenecks for scalable multi-agent reasoning. The code will be made available upon acceptance.

arxiv情報

著者 Baixuan Xu,Chunyang Li,Weiqi Wang,Wei Fan,Tianshi Zheng,Haochen Shi,Tao Fan,Yangqiu Song,Qiang Yang
発行日 2025-05-12 07:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Towards Multi-Agent Reasoning Systems for Collaborative Expertise Delegation: An Exploratory Design Study はコメントを受け付けていません

The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models

要約

マルチモーダル報酬モデル(MM-RMS)は、特にLLMがマルチモーダルデータとますます相互作用するようになるため、大規模な言語モデル(LLM)を人間の好みに合わせるために重要です。
ただし、既存のデータセットでトレーニングされたMM-RMSは、単峰性のスプリアスな相関に依存するため、主にトレーニング分布内のテキストのみのショートカットに依存しているため、分散分布データに一般化するのに苦労することがよくあります。
これに対処するために、トレーニングサンプルを動的に再測定し、より良いマルチモーダル理解に分布をシフトし、イモダルのスプリアスな相関への依存を減らすことにより、この問題を軽減するショートカットを意識したMM-RM学習アルゴリズムを導入します。
私たちの実験は、一般化、下流のタスクのパフォーマンス、およびスケーラビリティの大幅な改善を示し、マルチモーダル報酬モデリングのためのより堅牢なフレームワークを確立します。

要約(オリジナル)

Multimodal Reward Models (MM-RMs) are crucial for aligning Large Language Models (LLMs) with human preferences, particularly as LLMs increasingly interact with multimodal data. However, we find that MM-RMs trained on existing datasets often struggle to generalize to out-of-distribution data due to their reliance on unimodal spurious correlations, primarily text-only shortcuts within the training distribution, which prevents them from leveraging true multimodal reward functions. To address this, we introduce a Shortcut-aware MM-RM learning algorithm that mitigates this issue by dynamically reweighting training samples, shifting the distribution toward better multimodal understanding, and reducing dependence on unimodal spurious correlations. Our experiments demonstrate significant improvements in generalization, downstream task performance, and scalability, establishing a more robust framework for multimodal reward modeling.

arxiv情報

著者 Zichao Li,Xueru Wen,Jie Lou,Yuqiu Ji,Yaojie Lu,Xianpei Han,Debing Zhang,Le Sun
発行日 2025-05-12 08:19:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | The Devil Is in the Details: Tackling Unimodal Spurious Correlations for Generalizable Multimodal Reward Models はコメントを受け付けていません

XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models

要約

LLMエージェントのアプリケーションはますます複雑になり、多様化されており、コード、構造化された関数呼び出し、および具体化されたエージェントコマンドに解析できる構造化された出力の需要が高くなります。
これらの開発は、LLM推論における構造化された世代に大きな要求をもたらします。
コンテキストフリーの文法は、制約されたデコードを介して構造化された生成を可能にする柔軟なアプローチです。
ただし、コンテキストフリーの文法を実行するには、ランタイム中に語彙のすべてのトークンにわたっていくつかのスタック状態を通過する必要があり、構造化された生成のために無視できないオーバーヘッドをもたらします。
この論文では、大規模な言語モデル向けの柔軟で効率的な構造生成エンジンであるXgrammarを提案します。
Xgrammarは、語彙を、実行時に解釈する必要があるコンテキストに依存しないトークンとコンテキスト依存のトークンに分割することにより、コンテキストのない文法実行を加速します。
さらに、文法のコンテキストを拡大し、コンテキストに依存しないトークンの数を減らすために変換を構築します。
さらに、コンテキスト依存のトークンチェックを加速するために、効率的な永続的なスタックを構築します。
最後に、GPU実行と文法計算を重複させるために、文法エンジンをLLM推論エンジンと共同設計します。
評価の結果は、Xgrammarが既存のソリューションよりも最大100倍のスピードアップを達成できることを示しています。
LLM推論エンジンと組み合わせることで、エンドツーエンドの低地サービングでゼロ近くのオーバーヘッド構造生成を生成できます。

要約(オリジナル)

The applications of LLM Agents are becoming increasingly complex and diverse, leading to a high demand for structured outputs that can be parsed into code, structured function calls, and embodied agent commands. These developments bring significant demands for structured generation in LLM inference. Context-free grammar is a flexible approach to enable structured generation via constrained decoding. However, executing context-free grammar requires going through several stack states over all tokens in vocabulary during runtime, bringing non-negligible overhead for structured generation. In this paper, we propose XGrammar, a flexible and efficient structure generation engine for large language models. XGrammar accelerates context-free grammar execution by dividing the vocabulary into context-independent tokens that can be prechecked and context-dependent tokens that need to be interpreted during runtime. We further build transformations to expand the grammar context and reduce the number of context-independent tokens. Additionally, we build an efficient persistent stack to accelerate the context-dependent token checks. Finally, we co-design the grammar engine with LLM inference engine to overlap grammar computation with GPU executions. Evaluation results show that XGrammar can achieve up to 100x speedup over existing solutions. Combined with an LLM inference engine, it can generate near-zero overhead structure generation in end-to-end low-LLM serving.

arxiv情報

著者 Yixin Dong,Charlie F. Ruan,Yaxing Cai,Ruihang Lai,Ziyi Xu,Yilong Zhao,Tianqi Chen
発行日 2025-05-12 08:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.PL | XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models はコメントを受け付けていません

QUPID: Quantified Understanding for Enhanced Performance, Insights, and Decisions in Korean Search Engines

要約

大規模な言語モデル(LLM)は、情報検索の関連性評価に広く使用されています。
ただし、我々の研究では、2つの異なる小さな言語モデル(SLM)と異なるアーキテクチャを組み合わせることで、このタスクでLLMを上回ることができることが示されています。
私たちのアプローチ – qupid-は、生成的SLMを埋め込みベースのSLMと統合し、最先端のLLMソリューションと比較して計算コストを削減しながら、より高い関連性の判断精度を達成します。
この計算効率により、実際の検索システムが毎日何百万ものクエリを処理するために、QUPIDは非常にスケーラブルになります。
多様なドキュメントタイプの実験では、私たちの方法では、60倍高速な推論時間を提供しながら、一貫したパフォーマンスの改善(リーディングLLMの0.646対0.387)を実証しました。
さらに、生産検索パイプラインに統合された場合、QUPIDはNDCG@5スコアを1.9%改善しました。
これらの調査結果は、モデルの組み合わせにおけるアーキテクチャの多様性が、情報検索システムの検索関連と運用効率の両方を大幅に向上させる方法を強調しています。

要約(オリジナル)

Large language models (LLMs) have been widely used for relevance assessment in information retrieval. However, our study demonstrates that combining two distinct small language models (SLMs) with different architectures can outperform LLMs in this task. Our approach — QUPID — integrates a generative SLM with an embedding-based SLM, achieving higher relevance judgment accuracy while reducing computational costs compared to state-of-the-art LLM solutions. This computational efficiency makes QUPID highly scalable for real-world search systems processing millions of queries daily. In experiments across diverse document types, our method demonstrated consistent performance improvements (Cohen’s Kappa of 0.646 versus 0.387 for leading LLMs) while offering 60x faster inference times. Furthermore, when integrated into production search pipelines, QUPID improved nDCG@5 scores by 1.9%. These findings underscore how architectural diversity in model combinations can significantly enhance both search relevance and operational efficiency in information retrieval systems.

arxiv情報

著者 Ohjoon Kwon,Changsu Lee,Jihye Back,Lim Sun Suk,Inho Kang,Donghyeon Jeon
発行日 2025-05-12 08:35:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | QUPID: Quantified Understanding for Enhanced Performance, Insights, and Decisions in Korean Search Engines はコメントを受け付けていません

Integrating Expert Knowledge into Logical Programs via LLMs

要約

このペーパーでは、Exklopを紹介します。Exklopは、専門家の知識を論理的推論システムにどのように効果的に大規模な言語モデル(LLM)を統合するかを評価するために設計された新しいフレームワークです。
この機能は、メーカーが推奨する運用範囲など、専門知識など、自動監視システムに直接組み込まれるエンジニアリングで特に価値があります。
専門家の検証手順をミラーリングすることにより、範囲チェックや制約検証などのタスクがシステムの安全性と信頼性を確保するのに役立ちます。
私たちのアプローチは、LLM生成された論理ルールを体系的に評価し、これらの重要な検証タスクにおける構文の流encyさと論理的正しさの両方を評価します。
また、コード実行の結果に基づいて、反復フィードバックループを介してモデルの自己修正能力を調査します。
Exklopは、130のエンジニアリング施設、950プロンプト、および対応する検証ポイントで構成される拡張可能なデータセットを提示します。
包括的なベンチマークを可能にしながら、タスクの複雑さと実験のスケーラビリティを制御できます。
合成データ作成方法論を活用して、LLAMA3、GEMMA3、Codestral、QWENCODERを含むLLMの多様なセットで広範な経験的評価を実施します。
結果は、ほとんどのモデルがほぼ完全な構文的に正しいコードを生成し、専門知識を正しいコードに変換する際に強力なパフォーマンスを示すことを明らかにしています。
同時に、ほとんどのLLMはほぼ完璧な構文出力を生成しますが、自己改善の能力と同様に、論理ルールを正しく実装する能力は異なります。
全体として、Exklopは、遭遇するエラーの種類を明確に描写しながら、自己修正システムの効果的なモデルの選択を合理化する堅牢な評価プラットフォームとして機能します。

要約(オリジナル)

This paper introduces ExKLoP, a novel framework designed to evaluate how effectively Large Language Models (LLMs) integrate expert knowledge into logical reasoning systems. This capability is especially valuable in engineering, where expert knowledge-such as manufacturer-recommended operational ranges-can be directly embedded into automated monitoring systems. By mirroring expert verification steps, tasks like range checking and constraint validation help ensure system safety and reliability. Our approach systematically evaluates LLM-generated logical rules, assessing both syntactic fluency and logical correctness in these critical validation tasks. We also explore the models’ capacity for self-correction via an iterative feedback loop based on code execution outcomes. ExKLoP presents an extensible dataset comprising 130 engineering premises, 950 prompts, and corresponding validation points. It enables comprehensive benchmarking while allowing control over task complexity and scalability of experiments. We leverage the synthetic data creation methodology to conduct extensive empirical evaluation on a diverse set of LLMs including Llama3, Gemma3, Codestral and QwenCoder. The results reveal that most models generate nearly perfect syntactically correct code and exhibit strong performance in translating expert knowledge into correct code. At the same time, while most LLMs produce nearly flawless syntactic output, their ability to correctly implement logical rules varies, as does their capacity for self-improvement. Overall, ExKLoP serves as a robust evaluation platform that streamlines the selection of effective models for self-correcting systems while clearly delineating the types of errors encountered.

arxiv情報

著者 Franciszek Górski,Oskar Wysocki,Marco Valentino,Andre Freitas
発行日 2025-05-12 08:43:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MA | Integrating Expert Knowledge into Logical Programs via LLMs はコメントを受け付けていません

Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

要約

DCASE 2025チャレンジのタスク5を紹介します。音響質問(AQA)ベンチマークは、健全な理解の複数のドメインにまたがっています。
このタスクは、3つのQAサブセット(生体acoustics、時間的サウンドスケープ、および複雑なQA)を定義して、多様な音響シーンを介したインタラクティブな質問回答に関するオーディオ言語モデルをテストします。
データセットの構成(海洋哺乳類の呼び出しからサウンドスケープや複雑な現実世界のクリップまで)、評価プロトコル(回答の堅牢性を備えたトップ1精度)、およびベースラインシステム(QWEN2-Audio-7B、Audioflamingo 2、Gemini-2-Flash)について説明します。
開発セットの予備的な結果が比較され、モデルとサブセット間の強力な変動が示されています。
この課題の目的は、AIエージェントが世界について効果的に知覚し、相互作用することを可能にするために重要な人間レベルの視力に対するオーディオ言語モデルのオーディオ理解と推論能力を前進させることを目的としています。

要約(オリジナル)

We present Task 5 of the DCASE 2025 Challenge: an Audio Question Answering (AQA) benchmark spanning multiple domains of sound understanding. This task defines three QA subsets (Bioacoustics, Temporal Soundscapes, and Complex QA) to test audio-language models on interactive question-answering over diverse acoustic scenes. We describe the dataset composition (from marine mammal calls to soundscapes and complex real-world clips), the evaluation protocol (top-1 accuracy with answer-shuffling robustness), and baseline systems (Qwen2-Audio-7B, AudioFlamingo 2, Gemini-2-Flash). Preliminary results on the development set are compared, showing strong variation across models and subsets. This challenge aims to advance the audio understanding and reasoning capabilities of audio-language models toward human-level acuity, which are crucial for enabling AI agents to perceive and interact about the world effectively.

arxiv情報

著者 Chao-Han Huck Yang,Sreyan Ghosh,Qing Wang,Jaeyeon Kim,Hengyi Hong,Sonal Kumar,Guirui Zhong,Zhifeng Kong,S Sakshi,Vaibhavi Lokegaonkar,Oriol Nieto,Ramani Duraiswami,Dinesh Manocha,Gunhee Kim,Jun Du,Rafael Valle,Bryan Catanzaro
発行日 2025-05-12 09:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS | Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge はコメントを受け付けていません

HREB-CRF: Hierarchical Reduced-bias EMA for Chinese Named Entity Recognition

要約

誤った境界区分、複雑な意味表現、および発音と意味の違いは、しばしば中国の名前付きエンティティ認識(CNER)のエラーにつながります。
これらの問題に対処するために、このホワイトペーパーでは、HREB-CRFフレームワーク:CRFを使用した階層的な減少Bias EMAを提案しています。
提案された方法は、ローカルおよびグローバルな階層的注意の指数関数的に固定された加重平均を通じて、単語の境界とプールの長いテキスト勾配を増幅します。
MSRA、Resume、およびWeiboデータセットの実験結果は、F1で優れており、ベースラインモデルを1.1 \%、1.6 \%、および9.8 \%よりも優れています。
F1の大幅な改善は、CNERタスクにおける強い有効性と堅牢性の証拠を示しています。

要約(オリジナル)

Incorrect boundary division, complex semantic representation, and differences in pronunciation and meaning often lead to errors in Chinese Named Entity Recognition(CNER). To address these issues, this paper proposes HREB-CRF framework: Hierarchical Reduced-bias EMA with CRF. The proposed method amplifies word boundaries and pools long text gradients through exponentially fixed-bias weighted average of local and global hierarchical attention. Experimental results on the MSRA, Resume, and Weibo datasets show excellent in F1, outperforming the baseline model by 1.1\%, 1.6\%, and 9.8\%. The significant improvement in F1 shows evidences of strong effectiveness and robustness of approach in CNER tasks.

arxiv情報

著者 Sijin Sun,Ming Deng,Xinrui Yu,Liangbin Zhao
発行日 2025-05-12 09:24:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | HREB-CRF: Hierarchical Reduced-bias EMA for Chinese Named Entity Recognition はコメントを受け付けていません

A Statistical Case Against Empirical Human-AI Alignment

要約

経験的な人間とaiの調整は、観察された人間の行動に沿ってAIシステムを行動することを目的としています。
ノーブルの目標はありますが、経験的アライメントは、注意を必要とする統計的バイアスを誤って導入できると主張します。
したがって、このポジションペーパーは、基本的な経験的アライメントに対して主張し、代替として規範的なアライメントと事後の経験的アライメントを提供します。
私たちは、言語モデルの人間中心のデコードなどの有形の例によって、原則的な議論を実証します。

要約(オリジナル)

Empirical human-AI alignment aims to make AI systems act in line with observed human behavior. While noble in its goals, we argue that empirical alignment can inadvertently introduce statistical biases that warrant caution. This position paper thus advocates against naive empirical alignment, offering prescriptive alignment and a posteriori empirical alignment as alternatives. We substantiate our principled argument by tangible examples like human-centric decoding of language models.

arxiv情報

著者 Julian Rodemann,Esteban Garces Arias,Christoph Luther,Christoph Jansen,Thomas Augustin
発行日 2025-05-12 09:51:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.OT | A Statistical Case Against Empirical Human-AI Alignment はコメントを受け付けていません

Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles

要約

民主社会には信頼できる情報が必要です。
ニュース記事やビデオなどの人気のあるメディアでの誤報は、市民の言説を損なう恐れがあります。
残念ながら、市民は、このコンテンツの洪水を毎日消費している洪水を増やしていることを確認するために装備されていません。
この作業は、オンラインメディアの科学的精度を半自動的に定量化することを目的としています。
未知の真実性のメディアをセマンス化することにより、それらの声明は、等しく処理された信頼できるソースと比較できます。
LLMベースのステートメント抽出および知識グラフ分析を使用してワークフローを実装しました。
私たちの神経系統系は、明らかに最先端の真実性の定量化を合理化することができました。
専門家のインタビューとユーザー調査で評価されたこのツールは、有益な真正性の兆候を提供します。
ただし、この指標は、必要な粒度とスケールで公共メディアに注釈を付けることができません。
市民の言説を科学的にサポートするためには、公正(見つけやすく、アクセス可能で、相互運用可能、再利用可能な)グラウンドトゥルースと補完的な指標に向けてさらなる作業が必要です。

要約(オリジナル)

Democratic societies need reliable information. Misinformation in popular media such as news articles or videos threatens to impair civic discourse. Citizens are, unfortunately, not equipped to verify this content flood consumed daily at increasing rates. This work aims to semi-automatically quantify scientific accuracy of online media. By semantifying media of unknown veracity, their statements can be compared against equally processed trusted sources. We implemented a workflow using LLM-based statement extraction and knowledge graph analysis. Our neurosymbolic system was able to evidently streamline state-of-the-art veracity quantification. Evaluated via expert interviews and a user survey, the tool provides a beneficial veracity indication. This indicator, however, is unable to annotate public media at the required granularity and scale. Further work towards a FAIR (Findable, Accessible, Interoperable, Reusable) ground truth and complementary metrics are required to scientifically support civic discourse.

arxiv情報

著者 Tim Wittenborg,Constantin Sebastian Tremel,Markus Stocker,Sören Auer
発行日 2025-05-12 10:03:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Computational Fact-Checking of Online Discourse: Scoring scientific accuracy in climate change related news articles はコメントを受け付けていません

ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation

要約

マルチモーダルレビューの有用性予測(MRHP)は、特にeコマースプラットフォームでの推奨システムに不可欠なタスクです。
ユーザーが生成したレビューの有用性を判断すると、ユーザーエクスペリエンスが向上し、消費者の意思決定が向上します。
しかし、既存のデータセットは主に英語とインドネシアに焦点を当てており、特にベトナム語などの低リソース言語では言語の多様性が不足しています。
この論文では、ベトナムのMRHPタスクの大規模なベンチマークデータセットであるVIMRHP(ベトナムのマルチモーダルレビューの有用性予測)を紹介します。
このデータセットは、46Kレビューの2K製品を含む4つのドメインをカバーしています。
一方、大規模なデータセットにはかなりの時間とコストが必要です。
注釈プロセスを最適化するために、AIを活用して、AnotatorがVIMRHPデータセットの構築を支援します。
AIの支援により、注釈時間はデータの品質を維持し、全体的なコストを約65%削減しながら、注釈時間が短縮されます(タスクあたり90〜120秒減少します)。
ただし、AIに生成された注釈には、複雑な注釈タスクにはまだ制限があり、詳細なパフォーマンス分析を通じてさらに調べます。
VIMRHPでの実験では、ヒトで検証されたAIに生成された注釈のベースラインモデルを評価して、それらの品質の違いを評価します。
VIMRHPデータセットは、https://github.com/trng28/vimrhpで公開されています

要約(オリジナル)

Multimodal Review Helpfulness Prediction (MRHP) is an essential task in recommender systems, particularly in E-commerce platforms. Determining the helpfulness of user-generated reviews enhances user experience and improves consumer decision-making. However, existing datasets focus predominantly on English and Indonesian, resulting in a lack of linguistic diversity, especially for low-resource languages such as Vietnamese. In this paper, we introduce ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), a large-scale benchmark dataset for MRHP task in Vietnamese. This dataset covers four domains, including 2K products with 46K reviews. Meanwhile, a large-scale dataset requires considerable time and cost. To optimize the annotation process, we leverage AI to assist annotators in constructing the ViMRHP dataset. With AI assistance, annotation time is reduced (90 to 120 seconds per task down to 20 to 40 seconds per task) while maintaining data quality and lowering overall costs by approximately 65%. However, AI-generated annotations still have limitations in complex annotation tasks, which we further examine through a detailed performance analysis. In our experiment on ViMRHP, we evaluate baseline models on human-verified and AI-generated annotations to assess their quality differences. The ViMRHP dataset is publicly available at https://github.com/trng28/ViMRHP

arxiv情報

著者 Truc Mai-Thanh Nguyen,Dat Minh Nguyen,Son T. Luu,Kiet Van Nguyen
発行日 2025-05-12 10:11:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation はコメントを受け付けていません