FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

要約

アクションカスタマイズには、被験者が入力制御信号によって決定されるアクションを実行するビデオを生成することが含まれます。
現在の方法では、ポーズガイドまたはグローバルモーションのカスタマイズを使用しますが、レイアウト、スケルトン、視点の一貫性などの空間構造に対する厳格な制約により制限され、多様な主題やシナリオにわたる適応性が低下します。
これらの制限を克服するために、参照ビデオから任意のターゲット画像にアクションを転送するFlexiactを提案します。
既存の方法とは異なり、Flexiactは、アイデンティティの一貫性を維持しながら、参照ビデオの主題とターゲット画像の対象との間のレイアウト、視点、および骨格構造のバリエーションを可能にします。
これを達成するには、正確なアクション制御、空間構造の適応、および一貫性の保存が必要です。
この目的のために、外観の一貫性と構造的柔軟性のバランスをとる既存の方法を上回り、空間的適応と一貫性の保存に優れた軽量の画像条件付けされたアダプターであるリファダプターを紹介します。
さらに、観察に基づいて、除去プロセスは、さまざまなタイムステップでの動き(低周波数)と外観の詳細(高頻度)にさまざまなレベルの注意レベルを示します。
したがって、FAE(周波数対応アクション抽出)を提案します。これは、個別の空間的アーキテクチャに依存する既存の方法とは異なり、除去プロセス中にアクション抽出を直接実現します。
実験は、私たちの方法が、さまざまなレイアウト、スケルトン、視点を持つ被験者にアクションを効果的に転送することを示しています。
コードとモデルの重みをリリースして、https://shiyi-zh0408.github.io/projectpages/flexiact/でさらなる調査をサポートします

要約(オリジナル)

Action customization involves generating videos where the subject performs actions dictated by input control signals. Current methods use pose-guided or global motion customization but are limited by strict constraints on spatial structure, such as layout, skeleton, and viewpoint consistency, reducing adaptability across diverse subjects and scenarios. To overcome these limitations, we propose FlexiAct, which transfers actions from a reference video to an arbitrary target image. Unlike existing methods, FlexiAct allows for variations in layout, viewpoint, and skeletal structure between the subject of the reference video and the target image, while maintaining identity consistency. Achieving this requires precise action control, spatial structure adaptation, and consistency preservation. To this end, we introduce RefAdapter, a lightweight image-conditioned adapter that excels in spatial adaptation and consistency preservation, surpassing existing methods in balancing appearance consistency and structural flexibility. Additionally, based on our observations, the denoising process exhibits varying levels of attention to motion (low frequency) and appearance details (high frequency) at different timesteps. So we propose FAE (Frequency-aware Action Extraction), which, unlike existing methods that rely on separate spatial-temporal architectures, directly achieves action extraction during the denoising process. Experiments demonstrate that our method effectively transfers actions to subjects with diverse layouts, skeletons, and viewpoints. We release our code and model weights to support further research at https://shiyi-zh0408.github.io/projectpages/FlexiAct/

arxiv情報

著者 Shiyi Zhang,Junhao Zhuang,Zhaoyang Zhang,Ying Shan,Yansong Tang
発行日 2025-05-06 17:58:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM | FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios はコメントを受け付けていません

Multi-Agent System for Comprehensive Soccer Understanding

要約

AI主導のサッカー理解における最近の進歩は急速な進歩を示していますが、既存の研究は主に孤立したまたは狭いタスクに焦点を当てています。
このギャップを埋めるために、私たちは全体的なサッカーの理解のための包括的なフレームワークを提案します。
具体的には、このペーパーで次の貢献をします。(i)最初の大規模なマルチモーダルサッカー知識ベースであるSoccerwikiを構築し、知識主導の推論を可能にするために、プレイヤー、チーム、審判、および会場に関する豊富なドメインの知識を統合します。
(ii)13の異なる理解タスクにわたって約10K標準化されたマルチモーダル(テキスト、画像、ビデオ)マルチ選択QAペアを特徴とする、最大かつ最も包括的なサッカー固有のベンチマークであるサッカーベンチを紹介します。
(iii)協力的な推論を介して複雑なサッカーの質問を分解し、サッカーウィキからのドメインの専門知識を活用し、堅牢なパフォーマンスを達成する新しいマルチエージェントシステムであるSocceragentを紹介します。
(iv)サッカーベンチに最先端のMLLMをベンチマークし、提案されたエージェントシステムの優位性を強調する広範な評価とアブレーション。
すべてのデータとコードは、https://jyrao.github.io/socceragent/で公開されています。

要約(オリジナル)

Recent advancements in AI-driven soccer understanding have demonstrated rapid progress, yet existing research predominantly focuses on isolated or narrow tasks. To bridge this gap, we propose a comprehensive framework for holistic soccer understanding. Specifically, we make the following contributions in this paper: (i) we construct SoccerWiki, the first large-scale multimodal soccer knowledge base, integrating rich domain knowledge about players, teams, referees, and venues to enable knowledge-driven reasoning; (ii) we present SoccerBench, the largest and most comprehensive soccer-specific benchmark, featuring around 10K standardized multimodal (text, image, video) multi-choice QA pairs across 13 distinct understanding tasks, curated through automated pipelines and manual verification; (iii) we introduce SoccerAgent, a novel multi-agent system that decomposes complex soccer questions via collaborative reasoning, leveraging domain expertise from SoccerWiki and achieving robust performance; (iv) extensive evaluations and ablations that benchmark state-of-the-art MLLMs on SoccerBench, highlighting the superiority of our proposed agentic system. All data and code are publicly available at: https://jyrao.github.io/SoccerAgent/.

arxiv情報

著者 Jiayuan Rao,Zifeng Li,Haoning Wu,Ya Zhang,Yanfeng Wang,Weidi Xie
発行日 2025-05-06 17:59:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Multi-Agent System for Comprehensive Soccer Understanding はコメントを受け付けていません

A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction

要約

このペーパーでは、非線形音響コンピューティングと強化学習を統合した新しいフレームワークを紹介し、複雑なノイズと反響の下で高度なヒトとロボットの相互作用を強化します。
物理的に情報に基づいた波動方程式(例:Westervelt、KZK)を活用すると、このアプローチは、高調波生成や衝撃形成などの高次現象を捉えています。
これらのモデルを補強学習駆動型制御ループに埋め込むことにより、システムは、マルチパス干渉と非定常ノイズを緩和するために、重要なパラメーター(吸収、ビームフォーミングなど)を適応的に最適化します。
遠方フィールドの局在化​​、弱い信号検出、多言語の音声認識をカバーする実験的評価は、このハイブリッド戦略が従来の線形方法と純粋にデータ駆動型のベースラインを超え、実世界のシナリオを要求する上で優れた騒音抑制、最小レイテンシー、堅牢な精度を達成することを示しています。
提案されたシステムは、AIハードウェア、ロボット、マシンオーディション、人工オーディション、および脳マシンインターフェイスの幅広いアプリケーションの見通しを示しています。

要約(オリジナル)

This paper introduces a novel framework integrating nonlinear acoustic computing and reinforcement learning to enhance advanced human-robot interaction under complex noise and reverberation. Leveraging physically informed wave equations (e.g., Westervelt, KZK), the approach captures higher-order phenomena such as harmonic generation and shock formation. By embedding these models in a reinforcement learning-driven control loop, the system adaptively optimizes key parameters (e.g., absorption, beamforming) to mitigate multipath interference and non-stationary noise. Experimental evaluations, covering far-field localization, weak signal detection, and multilingual speech recognition, demonstrate that this hybrid strategy surpasses traditional linear methods and purely data-driven baselines, achieving superior noise suppression, minimal latency, and robust accuracy in demanding real-world scenarios. The proposed system demonstrates broad application prospects in AI hardware, robot, machine audition, artificial audition, and brain-machine interfaces.

arxiv情報

著者 Xiaoliang Chen,Xin Yu,Le Chang,Yunhe Huang,Jiashuai He,Shibo Zhang,Jin Li,Likai Lin,Ziyu Zeng,Xianling Tu,Shuyu Zhang
発行日 2025-05-06 16:09:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T01, cs.AI, cs.RO, I.2.8, physics.app-ph | A Synergistic Framework of Nonlinear Acoustic Computing and Reinforcement Learning for Real-World Human-Robot Interaction はコメントを受け付けていません

MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation

要約

拡散モデルは、テキストから画像の生成において優れたパフォーマンスを示しています。
それにもかかわらず、既存の方法は、複数のオブジェクト、特性、関係を含む複雑なプロンプトを処理する際に、パフォーマンスのボトルネックに苦しむことがよくあります。
したがって、複雑なシーンのテキストから画像の生成のためのマルチエージェントコラボレーションベースの組成拡散(MCCD)を提案します。
具体的には、異なるタスクを持つ複数のエージェントを含むエージェントシステムを生成するマルチエージェントコラボレーションベースのシーン解析モジュールを設計し、MLLMを利用してさまざまなシーン要素を効果的に抽出します。
さらに、階層的な組成拡散は、ガウスマスクとフィルタリングを利用して、境界ボックス領域を改良し、領域の強化を通じてオブジェクトを強化し、複雑なシーンの正確で高忠実度の生成をもたらします。
包括的な実験は、MCCDがトレーニングなしの方法でベースラインモデルのパフォーマンスを大幅に改善し、複雑なシーン生成に大きな利点をもたらすことを示しています。

要約(オリジナル)

Diffusion models have shown excellent performance in text-to-image generation. Nevertheless, existing methods often suffer from performance bottlenecks when handling complex prompts that involve multiple objects, characteristics, and relations. Therefore, we propose a Multi-agent Collaboration-based Compositional Diffusion (MCCD) for text-to-image generation for complex scenes. Specifically, we design a multi-agent collaboration-based scene parsing module that generates an agent system comprising multiple agents with distinct tasks, utilizing MLLMs to extract various scene elements effectively. In addition, Hierarchical Compositional diffusion utilizes a Gaussian mask and filtering to refine bounding box regions and enhance objects through region enhancement, resulting in the accurate and high-fidelity generation of complex scenes. Comprehensive experiments demonstrate that our MCCD significantly improves the performance of the baseline models in a training-free manner, providing a substantial advantage in complex scene generation.

arxiv情報

著者 Mingcheng Li,Xiaolu Hou,Ziyang Liu,Dingkang Yang,Ziyun Qian,Jiawei Chen,Jinjie Wei,Yue Jiang,Qingyao Xu,Lihua Zhang
発行日 2025-05-06 15:18:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MCCD: Multi-Agent Collaboration-based Compositional Diffusion for Complex Text-to-Image Generation はコメントを受け付けていません

A Note on Statistically Accurate Tabular Data Generation Using Large Language Models

要約

大規模な言語モデル(LLM)は、合成表形式データ生成に有望を示していますが、既存の方法は、特にカテゴリ変数の間で複雑な特徴依存関係を維持するのに苦労しています。
この作業では、LLMを活用して条件付き分布を推定する確率駆動型プロンプトアプローチを導入し、より正確でスケーラブルなデータ合成を可能にします。
結果は、LLM生成された表形式データの統計的忠実度を高めるために確率分布を促す可能性を強調しています。

要約(オリジナル)

Large language models (LLMs) have shown promise in synthetic tabular data generation, yet existing methods struggle to preserve complex feature dependencies, particularly among categorical variables. This work introduces a probability-driven prompting approach that leverages LLMs to estimate conditional distributions, enabling more accurate and scalable data synthesis. The results highlight the potential of prompting probability distributions to enhance the statistical fidelity of LLM-generated tabular data.

arxiv情報

著者 Andrey Sidorenko
発行日 2025-05-06 08:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | A Note on Statistically Accurate Tabular Data Generation Using Large Language Models はコメントを受け付けていません

Robust Duality Learning for Unsupervised Visible-Infrared Person Re-Identification

要約

監視されていない可視性のある人の再識別(UVI-reid)は、費用のかかる注釈なしでさまざまなモダリティにわたって歩行者の画像を取得することを目指していますが、モダリティのギャップと監督の欠如のために課題に直面しています。
既存の方法は、しばしばクラスター化された擬似ラベルで自己トレーニングを採用しますが、これらのラベルが常に正しいと暗黙的に仮定します。
しかし、実際には、この仮定は、モデルの学習を妨げる避けられない擬似盲騒音のために失敗します。
これに対処するために、3つの重要な課題、ノイズの過剰適合、エラーの蓄積、ノイズの多いクラスター対応を特徴とする擬似ラベルノイズ(PLN)を明示的に考慮した新しい学習パラダイムを導入します。
この目的のために、UVI-reidが騒々しい擬似ラベルの効果を軽減するための新しい堅牢な二重性学習フレームワーク(Rode)を提案します。
第一に、ノイズの過剰適合と戦うために、騒々しいサンプルを動的に強調するために、堅牢な適応学習メカニズム(RAL)が提案されています。
第二に、エラーの蓄積を緩和するために、モデルがそれ自体の間違いを強化する場所では、視線の類似性を使用して交互にトレーニングされ、多様性を促進し、崩壊を防止するデュアル異なるモデルを採用しています。
ただし、このデュアルモデル戦略は、モデル間のクラスター間の不整合とモダリティをもたらし、騒々しいクラスター対応を生み出します。
これを解決するために、クロスクラスターの類似性を測定することにより、モデルとモダリティ全体のクラスターを揃えるクラスターの一貫性マッチング(CCM)を導入します。
3つのベンチマークでの広範な実験は、Rodeの有効性を示しています。

要約(オリジナル)

Unsupervised visible-infrared person re-identification (UVI-ReID) aims to retrieve pedestrian images across different modalities without costly annotations, but faces challenges due to the modality gap and lack of supervision. Existing methods often adopt self-training with clustering-generated pseudo-labels but implicitly assume these labels are always correct. In practice, however, this assumption fails due to inevitable pseudo-label noise, which hinders model learning. To address this, we introduce a new learning paradigm that explicitly considers Pseudo-Label Noise (PLN), characterized by three key challenges: noise overfitting, error accumulation, and noisy cluster correspondence. To this end, we propose a novel Robust Duality Learning framework (RoDE) for UVI-ReID to mitigate the effects of noisy pseudo-labels. First, to combat noise overfitting, a Robust Adaptive Learning mechanism (RAL) is proposed to dynamically emphasize clean samples while down-weighting noisy ones. Second, to alleviate error accumulation-where the model reinforces its own mistakes-RoDE employs dual distinct models that are alternately trained using pseudo-labels from each other, encouraging diversity and preventing collapse. However, this dual-model strategy introduces misalignment between clusters across models and modalities, creating noisy cluster correspondence. To resolve this, we introduce Cluster Consistency Matching (CCM), which aligns clusters across models and modalities by measuring cross-cluster similarity. Extensive experiments on three benchmarks demonstrate the effectiveness of RoDE.

arxiv情報

著者 Yongxiang Li,Yuan Sun,Yang Qin,Dezhong Peng,Xi Peng,Peng Hu
発行日 2025-05-06 07:22:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM | Robust Duality Learning for Unsupervised Visible-Infrared Person Re-Identification はコメントを受け付けていません

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

要約

コンピュータービジョンの方法は、生態学的および生物学的ワークフローを合理化するかなりの可能性を実証しており、研究コミュニティが利用できるデータセットとモデルの数が増えています。
ただし、これらのリソースは、機械学習メトリックを使用した評価に主に焦点を当てており、アプリケーションがダウンストリーム分析にどのように影響するかを比較的強調していません。
最終的なユースケースのコンテキストでモデルパフォーマンスを直接表すアプリケーション固有のメトリックを使用して、モデルを評価する必要があると主張します。
この引数をサポートするために、2つの異なるケーススタディを提示します。(1)ビデオベースの動作分類器を使用した場合のカメラトラップ距離サンプリングでチンパンジーの存在量と密度を推定し、(2)3D姿勢推定器を使用して鳩の頭回転を推定する。
強力な機械学習パフォーマンス(87%MAP)を持つモデルでさえ、専門家由来のデータと比較して豊富な推定値の矛盾につながるデータを生成できることを示しています。
同様に、姿勢推定のための最高のパフォーマンスモデルは、ハトの視線方向の最も正確な推論を生成しません。
これらの調査結果に動機付けられているため、研究者は生態学的/生物学的データセットにアプリケーション固有のメトリックを統合し、下流のアプリケーションのコンテキストでモデルをベンチマークし、モデルのアプリケーションワークフローへの統合を促進することを求めています。

要約(オリジナル)

Computer vision methods have demonstrated considerable potential to streamline ecological and biological workflows, with a growing number of datasets and models becoming available to the research community. However, these resources focus predominantly on evaluation using machine learning metrics, with relatively little emphasis on how their application impacts downstream analysis. We argue that models should be evaluated using application-specific metrics that directly represent model performance in the context of its final use case. To support this argument, we present two disparate case studies: (1) estimating chimpanzee abundance and density with camera trap distance sampling when using a video-based behaviour classifier and (2) estimating head rotation in pigeons using a 3D posture estimator. We show that even models with strong machine learning performance (e.g., 87% mAP) can yield data that leads to discrepancies in abundance estimates compared to expert-derived data. Similarly, the highest-performing models for posture estimation do not produce the most accurate inferences of gaze direction in pigeons. Motivated by these findings, we call for researchers to integrate application-specific metrics in ecological/biological datasets, allowing for models to be benchmarked in the context of their downstream application and to facilitate better integration of models into application workflows.

arxiv情報

著者 Alex Hoi Hang Chan,Otto Brookes,Urs Waldmann,Hemal Naik,Iain D. Couzin,Majid Mirmehdi,Noël Adiko Houa,Emmanuelle Normand,Christophe Boesch,Lukas Boesch,Mimi Arandjelovic,Hjalmar Kühl,Tilo Burghardt,Fumihiro Kano
発行日 2025-05-06 10:17:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology はコメントを受け付けていません

Spatio-Temporal Metric-Semantic Mapping for Persistent Orchard Monitoring: Method and Dataset

要約

成長期を通して個々の木または果物レベルでの果樹園の監視は、植物の表現型と園芸リソースの最適化や、化学的使用や収量の推定など、植物の表現型の最適化に不可欠です。
マルチセッション測定値を統合して果物の成長を時間の経過とともに追跡する4D時空間メトリックセマンチックマッピングシステムを紹介します。
私たちのアプローチでは、3DフルーツのローカリゼーションのためのLidar-RGB Fusionモジュールと、データ関連の精度を改善するための位置、視覚、およびトポロジー情報を活用する4Dフルーツ関連法を組み合わせています。
実際の果樹園データで評価されたこの方法では、60本の木の1,790リンゴの96.9%のフルーツカウント精度、1.1 cmの平均フルーツサイズ推定誤差、ベースライン上の4Dデータ関連の精度の23.7%の改善が得られます。
https://4d-metric-semantic-mapping.org/で、成長シーズンにわたって5つの果物種をカバーするマルチモーダルデータセットを公開しています

要約(オリジナル)

Monitoring orchards at the individual tree or fruit level throughout the growth season is crucial for plant phenotyping and horticultural resource optimization, such as chemical use and yield estimation. We present a 4D spatio-temporal metric-semantic mapping system that integrates multi-session measurements to track fruit growth over time. Our approach combines a LiDAR-RGB fusion module for 3D fruit localization with a 4D fruit association method leveraging positional, visual, and topology information for improved data association precision. Evaluated on real orchard data, our method achieves a 96.9% fruit counting accuracy for 1,790 apples across 60 trees, a mean fruit size estimation error of 1.1 cm, and a 23.7% improvement in 4D data association precision over baselines. We publicly release a multimodal dataset covering five fruit species across their growth seasons at https://4d-metric-semantic-mapping.org/

arxiv情報

著者 Jiuzhou Lei,Ankit Prabhu,Xu Liu,Fernando Cladera,Mehrad Mortazavi,Reza Ehsani,Pratik Chaudhari,Vijay Kumar
発行日 2025-05-06 02:24:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Spatio-Temporal Metric-Semantic Mapping for Persistent Orchard Monitoring: Method and Dataset はコメントを受け付けていません

EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning

要約

大規模な言語モデル(LLM)の補強学習(RL)の最近の進歩は、多目的タスクに対処する際の微調整を示していますが、複雑な客観的バランス、トレーニング効率の低さ、スケーラビリティの低さ、説明可能性など、重大な課題に直面しています。
アンサンブル学習の原則を活用すると、効率と柔軟性を向上させるためにトレーニング後に集約を最適化しながら、個々の目的で複数のモデルを微調整するアンサンブル多目的RL(emorl)フレームワークを導入します。
私たちの方法は、個々のモデルの最後の隠された状態を集約した最初の方法であり、複数の目的からコンテキスト情報を組み込んでいます。
このアプローチは、最適な加重組み合わせを識別する階層グリッド検索アルゴリズムによってサポートされています。
テキストスコアリングLLMSを使用して世代を評価し、RL微調整中に報酬を提供し、カウンセラーリフレクションの生成タスクでEmorlを評価します。
ペアとPsych8Kデータセットの包括的な実験を通じて、既存のベースラインに対するEmorlの利点を実証します。トレーニング消費量が大幅に低く、より安定したトレーニング消費(17,529 \ PM 1,650 $データポイントと6,573ドル\ PM 147.43 $秒)、鱗と類似性のパフォーマンスの説明を実証します。

要約(オリジナル)

Recent advances in reinforcement learning (RL) for large language model (LLM) fine-tuning show promise in addressing multi-objective tasks but still face significant challenges, including complex objective balancing, low training efficiency, poor scalability, and limited explainability. Leveraging ensemble learning principles, we introduce an Ensemble Multi-Objective RL (EMORL) framework that fine-tunes multiple models with individual objectives while optimizing their aggregation after the training to improve efficiency and flexibility. Our method is the first to aggregate the last hidden states of individual models, incorporating contextual information from multiple objectives. This approach is supported by a hierarchical grid search algorithm that identifies optimal weighted combinations. We evaluate EMORL on counselor reflection generation tasks, using text-scoring LLMs to evaluate the generations and provide rewards during RL fine-tuning. Through comprehensive experiments on the PAIR and Psych8k datasets, we demonstrate the advantages of EMORL against existing baselines: significantly lower and more stable training consumption ($17,529\pm 1,650$ data points and $6,573\pm 147.43$ seconds), improved scalability and explainability, and comparable performance across multiple objectives.

arxiv情報

著者 Lingxiao Kong,Cong Yang,Susanne Neufang,Oya Deniz Beyan,Zeyd Boukhers
発行日 2025-05-06 06:26:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | EMORL: Ensemble Multi-Objective Reinforcement Learning for Efficient and Flexible LLM Fine-Tuning はコメントを受け付けていません

Knowledge Graphs for Enhancing Large Language Models in Entity Disambiguation

要約

大規模な言語モデル(LLMS)の最近の進歩により、自然言語処理タスクの顕著なソリューションとして配置されています。
特に、これらの問題はゼロまたは少ないショットの方法でアプローチすることができ、それにより、トレーニングまたは微調整されたタスク固有のモデルの必要性を排除することができます。
ただし、LLMSは、幻覚や時代遅れの知識の存在やトレーニングデータの特定のドメインからの情報の欠落など、いくつかの課題に直面しています。
これらの問題は、時間のかかる高価なプロセスであるため、新しいデータを使用してモデルを再トレーニングすることで簡単に解決することはできません。
これらの問題を軽減するために、知識グラフ(KG)がLLMを濃縮するための構造化された外部情報源として提案されています。
このアイデアを使用すると、この作業ではKGSを使用して、ゼロショットエンティティディスビゲーション(ED)のLLMSを強化します。
その目的のために、KGのエンティティのクラスの階層的表現を活用して、候補スペースとエンティティの説明を徐々に剪定して、追加の事実知識で入力プロンプトを豊かにします。
人気のあるEDデータセットでの評価は、提案された方法が非強化および説明のみのLLMを上回ることを示しており、タスク固有のモデルよりも高度な適応性を持っています。
さらに、エラー分析を実施し、EDパフォーマンスに対するレバレッジされたKGのセマンティック表現の影響について説明します。

要約(オリジナル)

Recent advances in Large Language Models (LLMs) have positioned them as a prominent solution for Natural Language Processing tasks. Notably, they can approach these problems in a zero or few-shot manner, thereby eliminating the need for training or fine-tuning task-specific models. However, LLMs face some challenges, including hallucination and the presence of outdated knowledge or missing information from specific domains in the training data. These problems cannot be easily solved by retraining the models with new data as it is a time-consuming and expensive process. To mitigate these issues, Knowledge Graphs (KGs) have been proposed as a structured external source of information to enrich LLMs. With this idea, in this work we use KGs to enhance LLMs for zero-shot Entity Disambiguation (ED). For that purpose, we leverage the hierarchical representation of the entities’ classes in a KG to gradually prune the candidate space as well as the entities’ descriptions to enrich the input prompt with additional factual knowledge. Our evaluation on popular ED datasets shows that the proposed method outperforms non-enhanced and description-only enhanced LLMs, and has a higher degree of adaptability than task-specific models. Furthermore, we conduct an error analysis and discuss the impact of the leveraged KG’s semantic expressivity on the ED performance.

arxiv情報

著者 Gerard Pons,Besim Bilalli,Anna Queralt
発行日 2025-05-06 06:44:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB, cs.LG | Knowledge Graphs for Enhancing Large Language Models in Entity Disambiguation はコメントを受け付けていません