Federated Incremental Named Entity Recognition

要約

Federated Named Entity認識(FNER)は、個人データを共有せずに、分散型のローカルクライアントのモデル更新を集約することにより、各ローカルクライアント内のモデルトレーニングを強化します。
ただし、既存のFNERメソッドは、固定されたエンティティの種類とローカルクライアントを事前に仮定し、実際のアプリケーションでの効率性につながります。
より現実的なシナリオでは、ローカルクライアントは新しいエンティティタイプを継続的に受け取りますが、新しいローカルクライアントが新しいデータを収集すると、グローバルなFNERトレーニングに不規則に参加する可能性があります。
ここではフェデレーションインクリメンタルNERと呼ばれるこの挑戦的なセットアップは、グローバルモデルを、クライアント内とクライアント間の両方の視点からの古いエンティティタイプの不均一な忘却に苦しんでいます。
これらの課題を克服するために、ローカルグローバル忘却防御(LGFD)モデルを提案します。
具体的には、クライアント内の忘却に対処するために、潜在空間の特徴構造を保持するための構造的知識蒸留損失と、異なるエンティティタイプにわたって識別能力を強化するための擬似ラベル誘導性型の対照的損失を維持し、地元のクライアント内で以前に学習した知識を効果的に保存します。
クライアント間忘却に取り組むために、プライバシー保護の下で新しいエンティティタイプを自動的に識別できるタスクスイッチングモニターを提案し、知識の蒸留と擬似ラベル付けのために最新の古いグローバルモデルを保存します。
実験は、比較方法よりもLGFDモデルの有意な改善を示しています。

要約(オリジナル)

Federated Named Entity Recognition (FNER) boosts model training within each local client by aggregating the model updates of decentralized local clients, without sharing their private data. However, existing FNER methods assume fixed entity types and local clients in advance, leading to their ineffectiveness in practical applications. In a more realistic scenario, local clients receive new entity types continuously, while new local clients collecting novel data may irregularly join the global FNER training. This challenging setup, referred to here as Federated Incremental NER, renders the global model suffering from heterogeneous forgetting of old entity types from both intra-client and inter-client perspectives. To overcome these challenges, we propose a Local-Global Forgetting Defense (LGFD) model. Specifically, to address intra-client forgetting, we develop a structural knowledge distillation loss to retain the latent space’s feature structure and a pseudo-label-guided inter-type contrastive loss to enhance discriminative capability over different entity types, effectively preserving previously learned knowledge within local clients. To tackle inter-client forgetting, we propose a task switching monitor that can automatically identify new entity types under privacy protection and store the latest old global model for knowledge distillation and pseudo-labeling. Experiments demonstrate significant improvement of our LGFD model over comparison methods.

arxiv情報

著者 Duzhen Zhang,Yahan Yu,Chenxing Li,Jiahua Dong,Dong Yu
発行日 2025-03-24 15:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Federated Incremental Named Entity Recognition はコメントを受け付けていません

Synthetic Function Demonstrations Improve Generation in Low-Resource Programming Languages

要約

LLMをトレーニングする際の重要な考慮事項は、ウェールズと比較して英語であるか、Excelと比較してPythonであるかどうか、ターゲット言語が多かれ少なかれリソースがあるかどうかです。
プログラミング言語の典型的なトレーニングデータは、人間が作成したコメントと相まって、実際のプログラムデモンストレーションで構成されています。
ここでは、低リソースプログラミング言語のこのようなデータの作成に対する新しいアプローチを提示します。
教師モデルを使用して、Excelフォーミュラの例で一般的なライブラリ関数の完全に合成された質の高いデモンストレーションを生成します。
次に、パフォーマンスの低い学生モデルを微調整し、2つの質問回答データセットがExcelドメインにリキャストされることを示します。
標準の既製のぼろぼろのアプローチよりも微調整の利点を示します。これは、なじみのないターゲットドメインのために控えめな改善のみを提供できます。

要約(オリジナル)

A key consideration when training an LLM is whether the target language is more or less resourced, whether this is English compared to Welsh, or Python compared to Excel. Typical training data for programming languages consist of real program demonstrations coupled with human-written comments. Here we present novel approaches to the creation of such data for low resource programming languages. We generate fully-synthetic, textbook-quality demonstrations of common library functions in an example domain of Excel formulas, using a teacher model. We then finetune an underperforming student model, and show improvement on 2 question-answering datasets recast into the Excel domain. We show advantages of finetuning over standard, off-the-shelf RAG approaches, which can offer only modest improvement due to the unfamiliar target domain.

arxiv情報

著者 Nick McKenna,Xinnuo Xu,Jack Williams,Nick Wilson,Benjamin Van Durme,Christian Poelitz
発行日 2025-03-24 15:09:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Synthetic Function Demonstrations Improve Generation in Low-Resource Programming Languages はコメントを受け付けていません

AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning

要約

このホワイトペーパーでは、3Dデカルトスペースナビゲーションの大規模な言語モデル(LLMS)の空間推論能力を強化するために設計された新しい方法論であるAlphaspaceを紹介します。
Alphaspaceは、セマンティクスベースのトークン化戦略を採用し、特殊なセマンティックトークンを介して高さ情報をエンコードし、主にシンボリックな合成推論データを統合します。
このアプローチにより、LLMは特定の[x、y、z]座標に配置することにより、オブジェクトを正確に操作できます。
実験結果は、Alphaspaceが操作サブタスクで既存のモデルを大幅に上回り、GPT-4Oで37.5%、Claude 3.5 Sonnetで29.17%であるのに対し、66.67%の合計精度を達成することを示しています。

要約(オリジナル)

This paper presents AlphaSpace, a novel methodology designed to enhance the spatial reasoning capabilities of large language models (LLMs) for 3D Cartesian space navigation. AlphaSpace employs a semantics-based tokenization strategy, encoding height information through specialized semantic tokens, and integrates primarily symbolic synthetic reasoning data. This approach enables LLMs to accurately manipulate objects by positioning them at specific [x, y, z] coordinates. Experimental results demonstrate that AlphaSpace significantly outperforms existing models on manipulation subtasks, achieving a total accuracy of 66.67%, compared to 37.5% for GPT-4o and 29.17% for Claude 3.5 Sonnet.

arxiv情報

著者 Alan Dao,Dinh Bach Vu,Bui Quang Huy
発行日 2025-03-24 15:16:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.RO | AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning はコメントを受け付けていません

I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders

要約

大規模な言語モデル(LLM)は、自然言語処理で顕著な成功を収めています。
最近の進歩により、新しいクラスの推論LLMが発展するようになりました。
たとえば、オープンソースのdeepseek-R1は、深い思考と複雑な推論を統合することにより、最先端のパフォーマンスを達成しました。
これらの印象的な能力にもかかわらず、そのようなモデルの内部推論メカニズムは未開拓のままです。
この作業では、Sparse Autoencoders(SAE)を採用しています。これは、神経ネットワークの潜在表現のまばらな分解を解釈可能な特徴に採用し、DeepSeek-R1シリーズのモデルで推論を促進する機能を特定します。
まず、SAE表現から候補者「推論機能」を抽出するアプローチを提案します。
経験的分析と解釈可能性の方法を通じてこれらの機能を検証し、モデルの推論能力との直接的な相関を示します。
重要なことに、これらの機能をステアリングすることで、LLMSの推論に関する最初の機械的説明を提供することが推論パフォーマンスを体系的に向上させることを実証します。
https://github.com/airi-institute/sae-rasoningで入手可能なコード

要約(オリジナル)

Large Language Models (LLMs) have achieved remarkable success in natural language processing. Recent advances have led to the developing of a new class of reasoning LLMs; for example, open-source DeepSeek-R1 has achieved state-of-the-art performance by integrating deep thinking and complex reasoning. Despite these impressive capabilities, the internal reasoning mechanisms of such models remain unexplored. In this work, we employ Sparse Autoencoders (SAEs), a method to learn a sparse decomposition of latent representations of a neural network into interpretable features, to identify features that drive reasoning in the DeepSeek-R1 series of models. First, we propose an approach to extract candidate ”reasoning features” from SAE representations. We validate these features through empirical analysis and interpretability methods, demonstrating their direct correlation with the model’s reasoning abilities. Crucially, we demonstrate that steering these features systematically enhances reasoning performance, offering the first mechanistic account of reasoning in LLMs. Code available at https://github.com/AIRI-Institute/SAE-Reasoning

arxiv情報

著者 Andrey Galichin,Alexey Dontsov,Polina Druzhinina,Anton Razzhigaev,Oleg Y. Rogov,Elena Tutubalina,Ivan Oseledets
発行日 2025-03-24 16:54:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | I Have Covered All the Bases Here: Interpreting Reasoning Features in Large Language Models via Sparse Autoencoders はコメントを受け付けていません

Toward building next-generation Geocoding systems: a systematic review

要約

ジオコーディングシステムは、空間分析とロケーションベースのサービスを通じて日常生活のための科学研究の両方で広く使用されています。
ジオコードされたデータの品質は、次のプロセスとアプリケーションに大きな影響を与え、次世代システムの必要性を強調しています。
この需要に応じて、このレビューでは、これらのシステムが対処する必要があるさまざまなシナリオにわたるジオコード入力と出力の進化する要件を最初に検証します。
次に、そのようなシステムを構築する方法の詳細な分析を提供します。これらのシステムを重要な機能コンポーネントに分解し、従来のルールベースの方法から情報検索、自然言語処理、大規模な言語モデルの高度な手法まで、既存のアプローチの広範なスペクトルを確認します。
最後に、最近の技術的進歩に照らして、次世代のジオコディングシステムを改善する機会を特定します。

要約(オリジナル)

Geocoding systems are widely used in both scientific research for spatial analysis and everyday life through location-based services. The quality of geocoded data significantly impacts subsequent processes and applications, underscoring the need for next-generation systems. In response to this demand, this review first examines the evolving requirements for geocoding inputs and outputs across various scenarios these systems must address. It then provides a detailed analysis of how to construct such systems by breaking them down into key functional components and reviewing a broad spectrum of existing approaches, from traditional rule-based methods to advanced techniques in information retrieval, natural language processing, and large language models. Finally, we identify opportunities to improve next-generation geocoding systems in light of recent technological advances.

arxiv情報

著者 Zhengcong Yin,Daniel W. Goldberg,Binbin Lin,Bing Zhou,Diya Li,Andong Ma,Ziqian Ming,Heng Cai,Zhe Zhang,Shaohua Wang,Shanzhen Gao,Joey Ying Lee,Xiao Li,Da Huo
発行日 2025-03-24 17:00:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR, cs.SE | Toward building next-generation Geocoding systems: a systematic review はコメントを受け付けていません

xKV: Cross-Layer SVD for KV-Cache Compression

要約

長いコンテキストウィンドウを備えた大規模な言語モデル(LLMS)は、強力なアプリケーションを有効にしますが、キーと値の状態(KV-Cache)を保存するために高いメモリ消費量を犠牲にします。
最近の研究では、KVキャッシュを複数のレイヤーから共有表現に統合しようとしましたが、これらのアプローチは高価な前orainingを必要とするか、一般的には実際には保持されていないレイヤー間の高いトークンあたりのコサインの類似性の仮定に依存しています。
支配的な特異ベクトルは、KVキャッシュの複数の層にわたって非常によく整合されていることがわかります。
この洞察を活用して、グループ化された層のKVキャッシュに特異値分解(SVD)を適用する単純なトレーニング後の方法であるXKVを提案します。
XKVは、複数のレイヤーのKVキャッシュを共有低ランクの部分空間に統合し、KVキャッシュサイズを大幅に削減します。
XKVは、広く使用されているLLMS(例えば、Llama-3.1やQWEN2.5など)を使用したRuler Long Contextベンチマーク(例:Llama-3.1およびQwen2.5)を通じて広範囲にわたる評価を通じて、最先端のレイヤー間技術よりも最大6.8倍の圧縮率を達成し、精度を2.7%改善します。
さらに、XKVは、新たなマルチヘッド潜在的注意(MLA)(例えば、Deepseek-Coder-V2)と互換性があり、パフォーマンスの低下なしにコーディングタスクで顕著な3倍の圧縮率をもたらします。
これらの結果は、XKVの強力な能力と汎用性を強調し、長いコンテキストLLM推論のメモリボトルネックに対処します。
私たちのコードは、https://github.com/abdelfattah-lab/xkvで公開されています。

要約(オリジナル)

Large Language Models (LLMs) with long context windows enable powerful applications but come at the cost of high memory consumption to store the Key and Value states (KV-Cache). Recent studies attempted to merge KV-cache from multiple layers into shared representations, yet these approaches either require expensive pretraining or rely on assumptions of high per-token cosine similarity across layers which generally does not hold in practice. We find that the dominant singular vectors are remarkably well-aligned across multiple layers of the KV-Cache. Exploiting this insight, we propose xKV, a simple post-training method that applies Singular Value Decomposition (SVD) on the KV-Cache of grouped layers. xKV consolidates the KV-Cache of multiple layers into a shared low-rank subspace, significantly reducing KV-Cache sizes. Through extensive evaluations on the RULER long-context benchmark with widely-used LLMs (e.g., Llama-3.1 and Qwen2.5), xKV achieves up to 6.8x higher compression rates than state-of-the-art inter-layer technique while improving accuracy by 2.7%. Moreover, xKV is compatible with the emerging Multi-Head Latent Attention (MLA) (e.g., DeepSeek-Coder-V2), yielding a notable 3x compression rates on coding tasks without performance degradation. These results highlight xKV’s strong capability and versatility in addressing memory bottlenecks for long-context LLM inference. Our code is publicly available at: https://github.com/abdelfattah-lab/xKV.

arxiv情報

著者 Chi-Chih Chang,Chien-Yu Lin,Yash Akhauri,Wei-Cheng Lin,Kai-Chiang Wu,Luis Ceze,Mohamed S. Abdelfattah
発行日 2025-03-24 17:06:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | xKV: Cross-Layer SVD for KV-Cache Compression はコメントを受け付けていません

Exploring Training and Inference Scaling Laws in Generative Retrieval

要約

生成検索は、大規模な言語モデル(LLM)を活用してドキュメント識別子を自動化するように生成する新しいパラダイムとして浮上しています。
有望ですが、そのパフォーマンスとスケーラビリティを支えるメカニズムはほとんど不明のままです。
モデルサイズ、トレーニングデータスケール、および推論時間計算が共同で検索パフォーマンスにどのように影響するかを調査し、生成的検索でトレーニングと推論のスケーリング法の体系的な調査を実施します。
適切なメトリックの欠如に対処するために、対照的なエントロピーと生成の損失に触発された新しい評価尺度を提案し、多様な生成検索方法全体で堅牢な比較を可能にする連続性パフォーマンスシグナルを提供します。
私たちの実験は、N-GRAMベースの方法が、特により大きなLLMとペアになった場合、トレーニングと推論の両方のスケーリング法との強い整合性を示していることを示しています。
さらに、推論計算を増やすと大幅なパフォーマンスが得られ、生成的検索が推論での計算予算の増加から大幅に恩恵を受けることができることが明らかになります。
これらの設定全体で、llamaモデルは一貫してT5モデルを上回り、生成検索におけるより大きなデコーダーのみのモデルに特別な利点を示唆しています。
まとめると、モデルのサイズ、データの可用性、および推論計算が相互作用して生成検索の最大限のロックを解除し、将来のシステムを設計および最適化するための新しい洞察を提供することを強調しています。

要約(オリジナル)

Generative retrieval has emerged as a novel paradigm that leverages large language models (LLMs) to autoregressively generate document identifiers. Although promising, the mechanisms that underpin its performance and scalability remain largely unclear. We conduct a systematic investigation of training and inference scaling laws in generative retrieval, exploring how model size, training data scale, and inference-time compute jointly influence retrieval performance. To address the lack of suitable metrics, we propose a novel evaluation measure inspired by contrastive entropy and generation loss, providing a continuous performance signal that enables robust comparisons across diverse generative retrieval methods. Our experiments show that n-gram-based methods demonstrate strong alignment with both training and inference scaling laws, especially when paired with larger LLMs. Furthermore, increasing inference computation yields substantial performance gains, revealing that generative retrieval can significantly benefit from higher compute budgets at inference. Across these settings, LLaMA models consistently outperform T5 models, suggesting a particular advantage for larger decoder-only models in generative retrieval. Taken together, our findings underscore that model sizes, data availability, and inference computation interact to unlock the full potential of generative retrieval, offering new insights for designing and optimizing future systems.

arxiv情報

著者 Hongru Cai,Yongqi Li,Ruifeng Yuan,Wenjie Wang,Zhen Zhang,Wenjie Li,Tat-Seng Chua
発行日 2025-03-24 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | Exploring Training and Inference Scaling Laws in Generative Retrieval はコメントを受け付けていません

Believing is Seeing: Unobserved Object Detection using Generative Models

要約

画像には見えないが、カメラの近くにあるオブジェクトは検出できますか?
この研究では、画像フレームの外側に閉塞または横になっている近くのオブジェクトの位置を予測するための2D、2.5D、および3D未観測オブジェクト検出の新しいタスクを紹介します。
2Dおよび3D拡散モデルやビジョン言語モデルを含む、このタスクに対処するために、最先端の事前訓練モデルをいくつか適応させ、直接観察されないオブジェクトの存在を推測するために使用できることを示します。
このタスクをベンチマークするために、パフォーマンスのさまざまな側面をキャプチャする一連のメトリックを提案します。
Realestate10KおよびNYU深度V2データセットの屋内シーンに関する経験的評価は、観察されていないオブジェクト検出タスクの生成モデルの使用を動機付ける結果を示しています。

要約(オリジナル)

Can objects that are not visible in an image — but are in the vicinity of the camera — be detected? This study introduces the novel tasks of 2D, 2.5D and 3D unobserved object detection for predicting the location of nearby objects that are occluded or lie outside the image frame. We adapt several state-of-the-art pre-trained generative models to address this task, including 2D and 3D diffusion models and vision-language models, and show that they can be used to infer the presence of objects that are not directly observed. To benchmark this task, we propose a suite of metrics that capture different aspects of performance. Our empirical evaluation on indoor scenes from the RealEstate10k and NYU Depth v2 datasets demonstrate results that motivate the use of generative models for the unobserved object detection task.

arxiv情報

著者 Subhransu S. Bhattacharjee,Dylan Campbell,Rahul Shome
発行日 2025-03-24 13:41:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Believing is Seeing: Unobserved Object Detection using Generative Models はコメントを受け付けていません

Any6D: Model-free 6D Pose Estimation of Novel Objects

要約

6Dオブジェクトポーズ推定のモデルフリーフレームワークであるAny6Dを紹介します。これは、新しいシーンの6Dポーズと未知のオブジェクトのサイズの両方を推定するために、単一のRGB-Dアンカー画像のみを必要とします。
テクスチャの3Dモデルや複数の視点に依存する既存の方法とは異なり、any6Dはジョイントオブジェクトアラインメントプロセスをレバレッジして、ポーズ精度を改善するために2D-3Dアライメントとメートルスケール推定を強化します。
当社のアプローチは、レンダリングとコンピアの戦略を統合してポーズ仮説を生成および改良し、オクルージョン、重複しないビュー、多様な照明条件、および大規模な環境相互環境の変動を備えたシナリオの堅牢なパフォーマンスを可能にします。
5つの挑戦的なデータセットであるReal275、Toyota-Light、Ho3D、Ycbineoat、およびLM-Oでこの方法を評価し、新規オブジェクトの提案のための最先端の方法を大幅に上回る有効性を示しています。
プロジェクトページ:https://taeyeop.com/any6d

要約(オリジナル)

We introduce Any6D, a model-free framework for 6D object pose estimation that requires only a single RGB-D anchor image to estimate both the 6D pose and size of unknown objects in novel scenes. Unlike existing methods that rely on textured 3D models or multiple viewpoints, Any6D leverages a joint object alignment process to enhance 2D-3D alignment and metric scale estimation for improved pose accuracy. Our approach integrates a render-and-compare strategy to generate and refine pose hypotheses, enabling robust performance in scenarios with occlusions, non-overlapping views, diverse lighting conditions, and large cross-environment variations. We evaluate our method on five challenging datasets: REAL275, Toyota-Light, HO3D, YCBINEOAT, and LM-O, demonstrating its effectiveness in significantly outperforming state-of-the-art methods for novel object pose estimation. Project page: https://taeyeop.com/any6d

arxiv情報

著者 Taeyeop Lee,Bowen Wen,Minjun Kang,Gyuree Kang,In So Kweon,Kuk-Jin Yoon
発行日 2025-03-24 13:46:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Any6D: Model-free 6D Pose Estimation of Novel Objects はコメントを受け付けていません

Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models

要約

自然言語処理の分野(NLP)の重要な研究方向としての皮肉検出は、広範囲にわたる注目を集めています。
従来の皮肉検出タスクは通常、単一モーダルのアプローチ(テキストなど)に焦点を合わせていますが、皮肉の暗黙的で微妙な性質のため、そのような方法は満足のいく結果をもたらさないことがよくあります。
近年、研究者は皮肉検出の焦点をマルチモーダルアプローチにシフトしています。
ただし、マルチモーダル情報を効果的に活用して皮肉コンテンツを正確に識別することは、さらなる調査を保証する課題のままです。
さまざまな情報源に対して、マルチモーダル大手言語モデル(MLLMS)の強力な統合処理機能を活用すると、革新的なマルチモーダルコマンダーGPTフレームワークを提案します。
軍事戦略に触発された私たちは、最初に皮肉検出タスクを6つの異なるサブタスクに分解します。
次に、中央司令官(意思決定者)が、それぞれの特定のサブタスクに対処するために、最適な大規模な言語モデルを割り当てます。
最終的に、各モデルからの検出結果は皮肉を特定するために集約されます。
4つのマルチモーダル大手言語モデルと6つのプロンプト戦略を利用して、MMSDおよびMMSD 2.0で広範な実験を実施しました。
私たちの実験は、私たちのアプローチが最新のパフォーマンスを達成し、F1スコアが19.3%改善され、微調整や根本的な理論的根拠を必要とせずに達成することを示しています。

要約(オリジナル)

Sarcasm detection, as a crucial research direction in the field of Natural Language Processing (NLP), has attracted widespread attention. Traditional sarcasm detection tasks have typically focused on single-modal approaches (e.g., text), but due to the implicit and subtle nature of sarcasm, such methods often fail to yield satisfactory results. In recent years, researchers have shifted the focus of sarcasm detection to multi-modal approaches. However, effectively leveraging multi-modal information to accurately identify sarcastic content remains a challenge that warrants further exploration. Leveraging the powerful integrated processing capabilities of Multi-Modal Large Language Models (MLLMs) for various information sources, we propose an innovative multi-modal Commander-GPT framework. Inspired by military strategy, we first decompose the sarcasm detection task into six distinct sub-tasks. A central commander (decision-maker) then assigns the best-suited large language model to address each specific sub-task. Ultimately, the detection results from each model are aggregated to identify sarcasm. We conducted extensive experiments on MMSD and MMSD 2.0, utilizing four multi-modal large language models and six prompting strategies. Our experiments demonstrate that our approach achieves state-of-the-art performance, with a 19.3% improvement in F1 score, without necessitating fine-tuning or ground-truth rationales.

arxiv情報

著者 Yazhou Zhang,Chunwang Zou,Bo Wang,Jing Qin
発行日 2025-03-24 13:53:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models はコメントを受け付けていません