TartuNLP at SemEval-2025 Task 5: Subject Tagging as Two-Stage Information Retrieval

要約

特定のドキュメントに関連する可能性のあるタグのリストを作成することにより、図書館員がサブジェクトタグをライブラリレコードに割り当てるのを支援することを目的としたSemeval-2025のタスク5への提出を提示します。
タスクを情報検索の問題としてフレーム化します。この問題は、ドキュメントコンテンツを使用して、大規模な科目分類法からサブジェクトタグを取得するために使用されます。
2種類のエンコーダーモデルを活用して、2段階の情報検索システムを構築します。第1段階での粗粒候補の候補抽出のためのBi-Encoderと、第2段階での細粒の再ランキングのクロスエンコーダーです。
このアプローチは効果的であることが証明され、単一段階の方法と比較してリコールの大幅な改善を実証し、定性的評価に従って競争結果を示しました。

要約(オリジナル)

We present our submission to the Task 5 of SemEval-2025 that aims to aid librarians in assigning subject tags to the library records by producing a list of likely relevant tags for a given document. We frame the task as an information retrieval problem, where the document content is used to retrieve subject tags from a large subject taxonomy. We leverage two types of encoder models to build a two-stage information retrieval system — a bi-encoder for coarse-grained candidate extraction at the first stage, and a cross-encoder for fine-grained re-ranking at the second stage. This approach proved effective, demonstrating significant improvements in recall compared to single-stage methods and showing competitive results according to qualitative evaluation.

arxiv情報

著者 Aleksei Dorkin,Kairit Sirts
発行日 2025-04-30 11:44:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | TartuNLP at SemEval-2025 Task 5: Subject Tagging as Two-Stage Information Retrieval はコメントを受け付けていません

Precision Where It Matters: A Novel Spike Aware Mixed-Precision Quantization Strategy for LLaMA-based Language Models

要約

大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクで顕著な能力を示しています。
ただし、そのサイズには、展開と推論に関する重要な課題があります。
このペーパーでは、LLMMの量子化を調査し、Llamaアーキテクチャとその導関数に焦点を当てています。
LLMSの活性化外れ値に関する既存の仮定に挑戦し、Llamaのようなモデルに合わせた新しい混合前定量化アプローチを提案します。
私たちの方法は、ラマアーキテクチャの活性化スパイクが主に特定の投影層に集中しているという観察を活用しています。
これらの層に高い精度(FP16またはFP8)を適用しながら、モデルの残りの部分をビット幅の低いものに量子化することにより、既存の量子化技術と比較して優れた性能を達成します。
LLAMA2、LLAMA3、およびMISTRALモデルの実験結果は、特に8ビットあたりの量子量化の困惑とゼロショットの精度の大幅な改善を示しています。
私たちのアプローチは、すべてのアーキテクチャタイプの外れ値を処理するように設計された汎用方法を上回り、アーキテクチャ固有の量子化戦略の利点を強調しています。
この研究は、LLMSをより効率的かつ展開できるようにするための継続的な取り組みに貢献し、リソースに制約のある環境での使用を可能にする可能性があります。
私たちの調査結果は、活性化スパイクを濃縮する少数の投影を識別および標的にすることにより、最先端の言語モデルの効果的な量子化パイプラインを開発する際のモデル固有の特性を考慮することの重要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated remarkable capabilities in various natural language processing tasks. However, their size presents significant challenges for deployment and inference. This paper investigates the quantization of LLMs, focusing on the LLaMA architecture and its derivatives. We challenge existing assumptions about activation outliers in LLMs and propose a novel mixed-precision quantization approach tailored for LLaMA-like models. Our method leverages the observation that activation spikes in LLaMA architectures are predominantly concentrated in specific projection layers. By applying higher precision (FP16 or FP8) to these layers while quantizing the rest of the model to lower bit-widths, we achieve superior performance compared to existing quantization techniques. Experimental results on LLaMA2, LLaMA3, and Mistral models demonstrate significant improvements in perplexity and zero-shot accuracy, particularly for 8-bit per-tensor quantization. Our approach outperforms general-purpose methods designed to handle outliers across all architecture types, highlighting the benefits of architecture-specific quantization strategies. This research contributes to the ongoing efforts to make LLMs more efficient and deployable, potentially enabling their use in resource-constrained environments. Our findings emphasize the importance of considering model-specific characteristics in developing effective quantization pipelines for state-of-the-art language models by identifying and targeting a small number of projections that concentrate activation spikes.

arxiv情報

著者 Lucas Maisonnave,Cyril Moineau,Olivier Bichler,Fabrice Rastello
発行日 2025-04-30 11:52:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Precision Where It Matters: A Novel Spike Aware Mixed-Precision Quantization Strategy for LLaMA-based Language Models はコメントを受け付けていません

Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models

要約

大規模なビジョン言語モデル(LVLM)は、多くの場合、オブジェクトの幻覚に悩まされ、信頼性を損ないます。
驚くべきことに、画像上の視覚的な手がかり(境界ボックス、サークルなど)のオーバーレイ(例:境界ボックス、サークル)がそのような幻覚を大幅に軽減できることがわかります。
ただし、異なる視覚プロンプト(VPS)の効果は異なります。
これに対処するために、モデルの内部へのアクセスを必要とせずにLVLM応答を強化する最適なVPSを特定するフレームワークであるブラックボックスビジュアルプロンプトエンジニアリング(BBVPE)を提案します。
私たちのアプローチは、候補VPSのプールを採用し、ルーターモデルをトレーニングして、特定の入力画像に対して最も効果的なVPを動的に選択します。
このブラックボックスアプローチはモデルに依存しているため、オープンソースと独自のLVLMの両方に適用できます。
教皇や椅子などのベンチマークでの評価は、BBVPEがオブジェクトの幻覚を効果的に減らすことを示しています。

要約(オリジナル)

Large Vision Language Models (LVLMs) often suffer from object hallucination, which undermines their reliability. Surprisingly, we find that simple object-based visual prompting — overlaying visual cues (e.g., bounding box, circle) on images — can significantly mitigate such hallucination; however, different visual prompts (VPs) vary in effectiveness. To address this, we propose Black-Box Visual Prompt Engineering (BBVPE), a framework to identify optimal VPs that enhance LVLM responses without needing access to model internals. Our approach employs a pool of candidate VPs and trains a router model to dynamically select the most effective VP for a given input image. This black-box approach is model-agnostic, making it applicable to both open-source and proprietary LVLMs. Evaluations on benchmarks such as POPE and CHAIR demonstrate that BBVPE effectively reduces object hallucination.

arxiv情報

著者 Sangmin Woo,Kang Zhou,Yun Zhou,Shuai Wang,Sheng Guan,Haibo Ding,Lin Lee Cheong
発行日 2025-04-30 11:58:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Black-Box Visual Prompt Engineering for Mitigating Object Hallucination in Large Vision Language Models はコメントを受け付けていません

Retrieval, Reasoning, Re-ranking: A Context-Enriched Framework for Knowledge Graph Completion

要約

ナレッジグラフの完了〜(KGC)タスクは、不完全なトリプルから欠落しているエンティティを推測することを目的としています。
既存の埋め込みベースの方法は、KGのトリプルのみに依存しており、これは特異な関係パターンや長期尾のエンティティに対して脆弱です。
一方、テキストベースの方法は、KGトリプルと自然言語の間のセマンティックギャップと格闘しています。
トリプルとは別に、エンティティのコンテキスト(ラベル、説明、エイリアスなど)も、KGの増強に重要な役割を果たします。
これらの制限に対処するために、KGCのコンテキストが豊富なフレームワークであるKGR3を提案します。
KGR3は3つのモジュールで構成されています。
第一に、検索モジュールは、KGからのトリプルをサポートする収集し、基本埋め込みモデルからもっともらしい候補の回答を収集し、関連する各エンティティのコンテキストを取得します。
次に、推論モジュールは大きな言語モデルを採用して、各クエリトリプルの潜在的な回答を生成します。
最後に、再ランクモジュールは、上記の2つのモジュールからの候補者の回答を組み合わせ、LLMを微調整して最良の答えを提供します。
広く使用されているデータセットでの広範な実験は、KGR3がさまざまなKGCメソッドを一貫して改善することを示しています。
具体的には、KGR3の最高のバリアントは、FB15K237およびWN18RRデータセットで12.3%と5.6%の1つの改善@1の改善を達成します。

要約(オリジナル)

The Knowledge Graph Completion~(KGC) task aims to infer the missing entity from an incomplete triple. Existing embedding-based methods rely solely on triples in the KG, which is vulnerable to specious relation patterns and long-tail entities. On the other hand, text-based methods struggle with the semantic gap between KG triples and natural language. Apart from triples, entity contexts (e.g., labels, descriptions, aliases) also play a significant role in augmenting KGs. To address these limitations, we propose KGR3, a context-enriched framework for KGC. KGR3 is composed of three modules. Firstly, the Retrieval module gathers supporting triples from the KG, collects plausible candidate answers from a base embedding model, and retrieves context for each related entity. Then, the Reasoning module employs a large language model to generate potential answers for each query triple. Finally, the Re-ranking module combines candidate answers from the two modules mentioned above, and fine-tunes an LLM to provide the best answer. Extensive experiments on widely used datasets demonstrate that KGR3 consistently improves various KGC methods. Specifically, the best variant of KGR3 achieves absolute Hits@1 improvements of 12.3% and 5.6% on the FB15k237 and WN18RR datasets.

arxiv情報

著者 Muzhi Li,Cehao Yang,Chengjin Xu,Xuhui Jiang,Yiyan Qi,Jian Guo,Ho-fung Leung,Irwin King
発行日 2025-04-30 12:02:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Retrieval, Reasoning, Re-ranking: A Context-Enriched Framework for Knowledge Graph Completion はコメントを受け付けていません

Glucagon and insulin production in pancreatic cells modeled using Petri nets and Boolean networks

要約

糖尿病は、血液中のグルコースの一定の濃度の上昇を特徴とする文明慢性疾患です。
多くのプロセスがグルコース調節に関与しており、それらの相互作用は非常に複雑です。
これらのプロセスをよりよく理解するために、全身にグルコース調節のペトリネットモデルを作成するという目標を設定します。
これまでのところ、肝臓におけるグルコースの解糖と合成のモデル、および健康的で糖尿病の人におけるグルコース調節の一般的な概要モデルを作成することができました。
このペーパーでは、膵臓のベータ細胞にインスリン分泌のペトリ網モデルと膵臓アルファ細胞にグルカゴンを紹介します。
これらの2つのホルモンは相互に反対の効果を持っています:インスリンは高血糖を予防すること、および低血糖を防ぐグルカゴン。
インスリンとグルカゴン分泌のメカニズムを理解することは、糖尿病を理解するための基礎を構成します。
また、血糖値に応じて、両方のプロセスが一緒に発生するモデルも提示します。
各モデルのダイナミクスが分析されます。
さらに、標準的な変換ルールに従って、全体的なインスリンとグルカゴン分泌システムをブールネットワークに変換します。

要約(オリジナル)

Diabetes is a civilization chronic disease characterized by a constant elevated concentration of glucose in the blood. Many processes are involved in the glucose regulation, and their interactions are very complex. To better understand those processes we set ourselves a goal to create a Petri net model of the glucose regulation in the whole body. So far we have managed to create a model of glycolysis and synthesis of glucose in the liver, and the general overview models of the glucose regulation in a healthy and diabetic person. In this paper we introduce Petri nets models of insulin secretion in beta cell of the pancreas, and glucagon in the pancreas alpha cells. Those two hormones have mutually opposite effects: insulin preventing hyperglycemia, and glucagon preventing hypoglycemia. Understanding the mechanisms of insulin and glucagon secretion constitutes the basis for understanding diabetes. We also present a model in which both processes occur together, depending on the blood glucose level. The dynamics of each model is analysed. Additionally, we transform the overall insulin and glucagon secretion system to a Boolean network, following standard transformation rules.

arxiv情報

著者 Kamila Barylska,Frank Delaplace,Anna Gogolińska,Ewa Pańkowska
発行日 2025-04-30 12:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 03, cs.CL, F.2, q-bio.CB | Glucagon and insulin production in pancreatic cells modeled using Petri nets and Boolean networks はコメントを受け付けていません

DNB-AI-Project at SemEval-2025 Task 5: An LLM-Ensemble Approach for Automated Subject Indexing

要約

このホワイトペーパーでは、SEMVAL-2025のために開発されたシステムを提示します。タスク5:LLMS4Subjects:LLMベースの自動化されたサブジェクトタグ付けは、国立技術図書館のオープンアクセスカタログです。
私たちのシステムは、知的に注釈されたレコードのさまざまな例を備えたLLMの選択を促し、LLMに同様に新しいレコードのキーワードを示唆するように依頼することに依存しています。
このいくつかのショットプロンプト手法は、生成されたキーワードをターゲットの語彙にマッピングする一連の後処理ステップと組み合わされ、結果の主題用語をアンサンブル投票に集約し、最後に、レコードとの関連性についてランク付けします。
私たちのシステムは、All-Subjectsトラックの定量的ランキングで4番目ですが、被験者インデックスの専門家が実施する定性的ランキングで最良の結果を達成します。

要約(オリジナル)

This paper presents our system developed for the SemEval-2025 Task 5: LLMs4Subjects: LLM-based Automated Subject Tagging for a National Technical Library’s Open-Access Catalog. Our system relies on prompting a selection of LLMs with varying examples of intellectually annotated records and asking the LLMs to similarly suggest keywords for new records. This few-shot prompting technique is combined with a series of post-processing steps that map the generated keywords to the target vocabulary, aggregate the resulting subject terms to an ensemble vote and, finally, rank them as to their relevance to the record. Our system is fourth in the quantitative ranking in the all-subjects track, but achieves the best result in the qualitative ranking conducted by subject indexing experts.

arxiv情報

著者 Lisa Kluge,Maximilian Kähler
発行日 2025-04-30 12:47:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.DL, I.2.7 | DNB-AI-Project at SemEval-2025 Task 5: An LLM-Ensemble Approach for Automated Subject Indexing はコメントを受け付けていません

Robust Misinformation Detection by Visiting Potential Commonsense Conflict

要約

インターネットテクノロジーの開発により、誤った情報の有病率が増加し、多様なドメイン全体で深刻な悪影響を引き起こしました。
この課題を軽減するために、オンライン誤った情報を自動的に検出することを目指して、誤った情報検出(MD)は、コミュニティで急速に成長する研究トピックとして浮上しています。
この論文では、MDタスクの新しいプラグアンドプレイ増強法、つまり潜在的な常識紛争(MD-PCC)による誤った情報検出を提案します。
私たちは、偽の記事が常識的な紛争を伴う可能性が高いことを示す以前の研究からインスピレーションを得ています。
したがって、私たちは記事の常識的な表現を構築し、抽出された常識的なトリプレットと、確立された常識的な推論ツール彗星によって推測される金色のトリプレットとの違いによって推測される潜在的な常識的な紛争を表現するのに役立ちます。
これらの式は、各記事に対して増強として指定されます。
特定のMDメソッドは、これらの常識的な記事でトレーニングすることができます。
その上、私たちはまた、Comisという名前の新しいCommonsense指向のデータセットを収集します。
MD-PCCをさまざまな既存のMDバックボーンと統合し、4つのパブリックベンチマークデータセットとCOMIの両方でそれらを比較します。
経験的結果は、MD-PCCが既存のMDベースラインを一貫して上回ることができることを示しています。

要約(オリジナル)

The development of Internet technology has led to an increased prevalence of misinformation, causing severe negative effects across diverse domains. To mitigate this challenge, Misinformation Detection (MD), aiming to detect online misinformation automatically, emerges as a rapidly growing research topic in the community. In this paper, we propose a novel plug-and-play augmentation method for the MD task, namely Misinformation Detection with Potential Commonsense Conflict (MD-PCC). We take inspiration from the prior studies indicating that fake articles are more likely to involve commonsense conflict. Accordingly, we construct commonsense expressions for articles, serving to express potential commonsense conflicts inferred by the difference between extracted commonsense triplet and golden ones inferred by the well-established commonsense reasoning tool COMET. These expressions are then specified for each article as augmentation. Any specific MD methods can be then trained on those commonsense-augmented articles. Besides, we also collect a novel commonsense-oriented dataset named CoMis, whose all fake articles are caused by commonsense conflict. We integrate MD-PCC with various existing MD backbones and compare them across both 4 public benchmark datasets and CoMis. Empirical results demonstrate that MD-PCC can consistently outperform the existing MD baselines.

arxiv情報

著者 Bing Wang,Ximing Li,Changchun Li,Bingrui Zhao,Bo Fu,Renchu Guan,Shengsheng Wang
発行日 2025-04-30 13:03:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY | Robust Misinformation Detection by Visiting Potential Commonsense Conflict はコメントを受け付けていません

RDF-Based Structured Quality Assessment Representation of Multilingual LLM Evaluations

要約

大規模な言語モデル(LLM)は、知識のインターフェイスとしてますます機能していますが、矛盾する情報で信頼性を体系的に評価することは依然として困難です。
知識の対立に焦点を当てた多言語LLM品質を評価するためのRDFベースのフレームワークを提案します。
私たちのアプローチは、ドイツ語と英語で、4つの異なるコンテキスト条件(完全、不完全、矛盾、および非コンテキスト情報)にわたってモデル応答をキャプチャします。
この構造化された表現により、知識の漏れの包括的な分析が可能になります。ここで、モデルは提供されたコンテキストエラー検出と多言語の一貫性よりもトレーニングデータを好みます。
火災安全ドメイン実験を通じてフレームワークを実証し、コンテキストの優先順位付けと言語固有のパフォーマンスの重要なパターンを明らかにし、28質問の研究で遭遇したすべての評価ファセットを表現するのに十分であることを実証します。

要約(オリジナル)

Large Language Models (LLMs) increasingly serve as knowledge interfaces, yet systematically assessing their reliability with conflicting information remains difficult. We propose an RDF-based framework to assess multilingual LLM quality, focusing on knowledge conflicts. Our approach captures model responses across four distinct context conditions (complete, incomplete, conflicting, and no-context information) in German and English. This structured representation enables the comprehensive analysis of knowledge leakage-where models favor training data over provided context-error detection, and multilingual consistency. We demonstrate the framework through a fire safety domain experiment, revealing critical patterns in context prioritization and language-specific performance, and demonstrating that our vocabulary was sufficient to express every assessment facet encountered in the 28-question study.

arxiv情報

著者 Jonas Gwozdz,Andreas Both
発行日 2025-04-30 13:06:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | RDF-Based Structured Quality Assessment Representation of Multilingual LLM Evaluations はコメントを受け付けていません

How to Construct Random Unitaries

要約

擬似ランダムユニタリス(PRU)の存在 – ハールランダムユニタリーと計算的に区別できない効率的な量子回路 – は、暗号化、複雑さ理論、および基本物理学に大きな意味を持つ中心的なオープンな問題でした。
この作業では、量子セキュアな一方向関数が存在すると仮定して、PRUが存在することを証明することにより、この質問を閉じます。
(1)単一の$ u $に照会する効率的な敵に対して安全なPrusの標準概念と、(2)Prusのより強い概念である両方について、この結果を確立します。
その過程で、haar-randomユニタリのクエリを作成するアルゴリズムは、逆方向のトレース距離まで、量子コンピューターで効率的にシミュレートできることを証明します。

要約(オリジナル)

The existence of pseudorandom unitaries (PRUs) — efficient quantum circuits that are computationally indistinguishable from Haar-random unitaries — has been a central open question, with significant implications for cryptography, complexity theory, and fundamental physics. In this work, we close this question by proving that PRUs exist, assuming that any quantum-secure one-way function exists. We establish this result for both (1) the standard notion of PRUs, which are secure against any efficient adversary that makes queries to the unitary $U$, and (2) a stronger notion of PRUs, which are secure even against adversaries that can query both the unitary $U$ and its inverse $U^\dagger$. In the process, we prove that any algorithm that makes queries to a Haar-random unitary can be efficiently simulated on a quantum computer, up to inverse-exponential trace distance.

arxiv情報

著者 Fermi Ma,Hsin-Yuan Huang
発行日 2025-04-30 13:07:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.CL, math-ph, math.MP, quant-ph | How to Construct Random Unitaries はコメントを受け付けていません

PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts

要約

このペーパーでは、18の言語と4つの難易度レベルをカバーする多言語の数学的推論ベンチマークであるPolymathを紹介します。
当社のベンチマークは、困難な包括性、言語の多様性、高品質の翻訳を保証し、LLMSの推論時代における非常に差別的な多言語の数学的ベンチマークとなっています。
高度なLLMSの包括的な評価を実施し、QWEN-3-235B-A22B-A22B-A22B-THINKINGおよびGEMINI-2.5-PROでさえ、54.6および52.2のベンチマークスコアのみを達成し、言語の観点から最高レベルで約40%の精度を達成します。
LLMS;
(2)入出力言語の一貫性は、LLMSの推論では低く、パフォーマンスと相関する可能性があります。
(3)思考長は、現在のLLMの言語によって大きく異なります。
さらに、指示で出力言語を制御することは、特にいくつかの低リソース言語で推論パフォーマンスに影響を与える可能性があることを実証し、LLMSの多言語機能を改善するための有望な方向性を示唆しています。

要約(オリジナル)

In this paper, we introduce PolyMath, a multilingual mathematical reasoning benchmark covering 18 languages and 4 easy-to-hard difficulty levels. Our benchmark ensures difficulty comprehensiveness, language diversity, and high-quality translation, making it a highly discriminative multilingual mathematical benchmark in the era of reasoning LLMs. We conduct a comprehensive evaluation for advanced LLMs and find that even Qwen-3-235B-A22B-Thinking and Gemini-2.5-pro, achieve only 54.6 and 52.2 benchmark scores, with about 40% accuracy under the highest level From a language perspective, our benchmark reveals several key challenges of LLMs in multilingual reasoning: (1) Reasoning performance varies widely across languages for current LLMs; (2) Input-output language consistency is low in reasoning LLMs and may be correlated with performance; (3) The thinking length differs significantly by language for current LLMs. Additionally, we demonstrate that controlling the output language in the instructions has the potential to affect reasoning performance, especially for some low-resource languages, suggesting a promising direction for improving multilingual capabilities in LLMs.

arxiv情報

著者 Yiming Wang,Pei Zhang,Jialong Tang,Haoran Wei,Baosong Yang,Rui Wang,Chenshu Sun,Feitong Sun,Jiran Zhang,Junxuan Wu,Qiqian Cang,Yichang Zhang,Fei Huang,Junyang Lin,Fei Huang,Jingren Zhou
発行日 2025-04-30 13:10:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts はコメントを受け付けていません