QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving

要約

量子化は、大規模な言語モデル(LLM)推論を加速できます。
INT8の量子化を超えて、研究コミュニティはINT4などのさらに低い精度を積極的に調査しています。
それにもかかわらず、最先端のINT4量子化技術は、低バッチ、エッジLLM推論のみを加速し、大手バッチ、クラウドベースのLLMサービングでパフォーマンスの向上を実現できません。
重大な問題を明らかにします。GPUの重みまたは部分的合計のいずれかを非難する際に、既存のINT4量子化方法が重大なランタイムオーバーヘッド(20〜90%)に苦しんでいます。
この課題に対処するために、4ビット重量、8ビット活性化、4ビットkVキャッシュを備えたW4A8KV4量子化アルゴリズムであるQOQを導入します。
QOQは、ラテン語で4-8-4を表すQuattuor-Octo-quattuorの略です。
QOQは、測定されたスピードアップを達成するQServe Incerence Libraryによって実装されています。
QServeを推進する重要な洞察は、GPUでサービスを提供するLLMの効率が、低スループットCUDAコアの操作に重大な影響を受けていることです。
この洞察に基づいて、QOQアルゴリズムでは、W4A8 GEMMで低脱量化オーバーヘッドを可能にする進行性の量子化を導入します。
さらに、4ビットkV量子化によって発生する精度分解を効果的に軽減するために、スムージーアテンションを開発します。
QSERVEシステムでは、計算された重量の並べ替えを実行し、レジスタレベルの並列性を活用して、脱量化の遅延を減らします。
また、KV4量子化によってもたらされるパフォーマンスゲインを活用して、メモリバウンドの融合を行います。
その結果、QSERVEは、A100で1.2倍、L40Sで1.4倍で1.2倍の最大達成可能なサービングスループットを改善します。
Tensort-llmと比較して、Qwen1.5-72bはA100で2.4倍、L40で3.5倍。
驚くべきことに、L40S GPUのQServeは、A100でTensort-LLMよりもさらに高いスループットを達成できます。
したがって、QSERVEは、LLMの費用を3倍効果的に削減します。
コードはhttps://github.com/mit-han-lab/omniserveで入手できます。

要約(オリジナル)

Quantization can accelerate large language model (LLM) inference. Going beyond INT8 quantization, the research community is actively exploring even lower precision, such as INT4. Nonetheless, state-of-the-art INT4 quantization techniques only accelerate low-batch, edge LLM inference, failing to deliver performance gains in large-batch, cloud-based LLM serving. We uncover a critical issue: existing INT4 quantization methods suffer from significant runtime overhead (20-90%) when dequantizing either weights or partial sums on GPUs. To address this challenge, we introduce QoQ, a W4A8KV4 quantization algorithm with 4-bit weight, 8-bit activation, and 4-bit KV cache. QoQ stands for quattuor-octo-quattuor, which represents 4-8-4 in Latin. QoQ is implemented by the QServe inference library that achieves measured speedup. The key insight driving QServe is that the efficiency of LLM serving on GPUs is critically influenced by operations on low-throughput CUDA cores. Building upon this insight, in QoQ algorithm, we introduce progressive quantization that can allow low dequantization overhead in W4A8 GEMM. Additionally, we develop SmoothAttention to effectively mitigate the accuracy degradation incurred by 4-bit KV quantization. In the QServe system, we perform compute-aware weight reordering and take advantage of register-level parallelism to reduce dequantization latency. We also make fused attention memory-bound, harnessing the performance gain brought by KV4 quantization. As a result, QServe improves the maximum achievable serving throughput of Llama-3-8B by 1.2x on A100, 1.4x on L40S; and Qwen1.5-72B by 2.4x on A100, 3.5x on L40S, compared to TensorRT-LLM. Remarkably, QServe on L40S GPU can achieve even higher throughput than TensorRT-LLM on A100. Thus, QServe effectively reduces the dollar cost of LLM serving by 3x. Code is available at https://github.com/mit-han-lab/omniserve.

arxiv情報

著者 Yujun Lin,Haotian Tang,Shang Yang,Zhekai Zhang,Guangxuan Xiao,Chuang Gan,Song Han
発行日 2025-05-01 02:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PF | QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving はコメントを受け付けていません

BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text

要約

大規模な言語モデル(LLMS)は、医療用途に非常に有望であり、急速に進化しており、新しいモデルが加速されたペースでリリースされています。
ただし、臨床状況におけるLLMの現在の評価は限られたままです。
ほとんどの既存のベンチマークは、健康診断スタイルの質問またはPubMed由来のテキストに依存しており、実際の電子健康記録(EHR)データの複雑さをキャプチャできません。
その他は、特定のアプリケーションシナリオに狭く焦点を当てており、より広範な臨床使用にわたって一般化可能性を制限します。
このギャップに対処するために、9つの言語にわたって実際の臨床データソースから供給された87のタスクを含む包括的な多言語ベンチマークであるBridgeを提示します。
さまざまな推論戦略の下で、52の最先端のLLM(DeepSeek-R1、GPT-4O、Gemini、およびLlama 4を含む)を体系的に評価しました。
合計13,572の実験で、我々の結果は、モデルサイズ、言語、自然言語処理タスク、臨床専門分野にわたる大幅なパフォーマンスの変動を明らかにしています。
特に、オープンソースLLMが独自のモデルに匹敵するパフォーマンスを実現できる一方で、古いアーキテクチャに基づく医学的に微調整されたLLMは、しばしば更新された汎用モデルに対してパフォーマンスが低下することがよくあります。
ブリッジとその対応するリーダーボードは、実際の臨床テキスト理解における新しいLLMの開発と評価のための基礎的なリソースおよびユニークな参照として機能します。
ブリッジリーダーボード:https://huggingface.co/spaces/ylab-open/bridge-medical-leaderboard

要約(オリジナル)

Large language models (LLMs) hold great promise for medical applications and are evolving rapidly, with new models being released at an accelerated pace. However, current evaluations of LLMs in clinical contexts remain limited. Most existing benchmarks rely on medical exam-style questions or PubMed-derived text, failing to capture the complexity of real-world electronic health record (EHR) data. Others focus narrowly on specific application scenarios, limiting their generalizability across broader clinical use. To address this gap, we present BRIDGE, a comprehensive multilingual benchmark comprising 87 tasks sourced from real-world clinical data sources across nine languages. We systematically evaluated 52 state-of-the-art LLMs (including DeepSeek-R1, GPT-4o, Gemini, and Llama 4) under various inference strategies. With a total of 13,572 experiments, our results reveal substantial performance variation across model sizes, languages, natural language processing tasks, and clinical specialties. Notably, we demonstrate that open-source LLMs can achieve performance comparable to proprietary models, while medically fine-tuned LLMs based on older architectures often underperform versus updated general-purpose models. The BRIDGE and its corresponding leaderboard serve as a foundational resource and a unique reference for the development and evaluation of new LLMs in real-world clinical text understanding. The BRIDGE leaderboard: https://huggingface.co/spaces/YLab-Open/BRIDGE-Medical-Leaderboard

arxiv情報

著者 Jiageng Wu,Bowen Gu,Ren Zhou,Kevin Xie,Doug Snyder,Yixing Jiang,Valentina Carducci,Richard Wyss,Rishi J Desai,Emily Alsentzer,Leo Anthony Celi,Adam Rodman,Sebastian Schneeweiss,Jonathan H. Chen,Santiago Romero-Brufau,Kueiyu Joshua Lin,Jie Yang
発行日 2025-05-01 02:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | BRIDGE: Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text はコメントを受け付けていません

Generating Traffic Scenarios via In-Context Learning to Learn Better Motion Planner

要約

モーション計画は、自律運転における重要なコンポーネントです。
最先端のモーションプランナーは、細心の注意を払ってキュレーションされたデータセットで訓練されています。これは、注釈を付けるのに費用がかかるだけでなく、めったに見られない重要なシナリオをキャプチャするのにも不十分です。
このようなシナリオを考慮しないと、モーションプランナーに大きなリスクがあり、テスト中にインシデントにつながる可能性があります。
直感的なソリューションは、シミュレーター(Carlaなど)をプログラミングおよび実行することにより、このようなシナリオを手動で作成することです。
ただし、このアプローチにはかなりの人的費用が発生します。
これにより動機付けられて、私たちは、より堅牢なモーションプランナーを訓練するために、多様な重要なトラフィックシナリオを生成するための安価な方法を提案します。
まず、トラフィックシナリオをスクリプトとして表します。スクリプトは、シミュレータがトラフィックシナリオを生成するために使用します。
次に、ユーザー指定のテキストの説明を受け入れる方法を開発します。これは、大規模な言語モデルがコンテキスト内学習を使用してスクリプトに変換されます。
出力スクリプトは、対応するトラフィックシナリオを生成するシミュレーターに送信されます。
この方法では、豊富な安全性が批判的なトラフィックシナリオを生成できるため、モーションプランナーの合成トレーニングデータとしてそれらを使用します。
生成されたシナリオの価値を実証するために、合成データ、実際のデータセット、および両方の組み合わせで既存のモーションプランナーをトレーニングします。
私たちの実験は、データでトレーニングされたモーションプランナーは、実際のデータのみでトレーニングされたもののみを大幅に上回ることを示しており、合成データの有用性とデータ生成方法の有効性を示しています。
ソースコードは、https://ezharjan.github.io/autoscenegenで入手できます。

要約(オリジナル)

Motion planning is a crucial component in autonomous driving. State-of-the-art motion planners are trained on meticulously curated datasets, which are not only expensive to annotate but also insufficient in capturing rarely seen critical scenarios. Failing to account for such scenarios poses a significant risk to motion planners and may lead to incidents during testing. An intuitive solution is to manually compose such scenarios by programming and executing a simulator (e.g., CARLA). However, this approach incurs substantial human costs. Motivated by this, we propose an inexpensive method for generating diverse critical traffic scenarios to train more robust motion planners. First, we represent traffic scenarios as scripts, which are then used by the simulator to generate traffic scenarios. Next, we develop a method that accepts user-specified text descriptions, which a Large Language Model translates into scripts using in-context learning. The output scripts are sent to the simulator that produces the corresponding traffic scenarios. As our method can generate abundant safety-critical traffic scenarios, we use them as synthetic training data for motion planners. To demonstrate the value of generated scenarios, we train existing motion planners on our synthetic data, real-world datasets, and a combination of both. Our experiments show that motion planners trained with our data significantly outperform those trained solely on real-world data, showing the usefulness of our synthetic data and the effectiveness of our data generation method. Our source code is available at https://ezharjan.github.io/AutoSceneGen.

arxiv情報

著者 Aizierjiang Aiersilan
発行日 2025-05-01 02:31:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.GR, cs.LG, cs.RO | Generating Traffic Scenarios via In-Context Learning to Learn Better Motion Planner はコメントを受け付けていません

Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models

要約

大規模な言語モデル(LLM)のトレーニング前のデータセットの構成は、ほとんど非公開であり、モデルパフォーマンスの重要なドライバーであるデータ品質を最適化するための透明性と努力を妨げています。
自然言語の品質評価、多様性ベースのフィルター、分類器ベースのアプローチなどの現在のデータ選択方法は、単一次元の評価または冗長性に焦点を当てた戦略によって制限されます。
これらのギャップに対処するために、PRRCを提案して、プロフェッショナリズム、読みやすさ、推論、清潔さを介したデータの品質を評価します。
さらに、学習した最適な重み付けを通じて、これらのディメンションを既存の品質メトリックと統合する多次元データ選択方法であるMeta-Raterを紹介します。
Meta-Raterはプロキシモデルを採用して、検証損失を予測する回帰モデルをトレーニングし、品質スコアの最適な組み合わせの識別を可能にします。
実験は、メタレイターが1.3Bパラメーターモデルの収束速度を2倍にし、下流タスクのパフォーマンスを3.23に改善し、100Bトークンでトレーニングされた3.3Bモデルでスケーラブルな利点が観察されることを示しています。
さらに、データ中心のLLM開発の研究を進めるために、25の品質メトリック(PRRCを含む)にラベル付けされた注釈付きSlimpajama-627Bデータセットをリリースします。
私たちの研究は、全体的で多次元の品質統合が従来の単一次元アプローチを大幅に上回り、トレーニング前の効率とモデル能力を高めるためのスケーラブルなパラダイムを提供することを確立しています。

要約(オリジナル)

The composition of pre-training datasets for large language models (LLMs) remains largely undisclosed, hindering transparency and efforts to optimize data quality, a critical driver of model performance. Current data selection methods, such as natural language quality assessments, diversity-based filters, and classifier-based approaches, are limited by single-dimensional evaluation or redundancy-focused strategies. To address these gaps, we propose PRRC to evaluate data quality across Professionalism, Readability, Reasoning, and Cleanliness. We further introduce Meta-rater, a multi-dimensional data selection method that integrates these dimensions with existing quality metrics through learned optimal weightings. Meta-rater employs proxy models to train a regression model that predicts validation loss, enabling the identification of optimal combinations of quality scores. Experiments demonstrate that Meta-rater doubles convergence speed for 1.3B parameter models and improves downstream task performance by 3.23, with scalable benefits observed in 3.3B models trained on 100B tokens. Additionally, we release the annotated SlimPajama-627B dataset, labeled across 25 quality metrics (including PRRC), to advance research in data-centric LLM development. Our work establishes that holistic, multi-dimensional quality integration significantly outperforms conventional single-dimension approaches, offering a scalable paradigm for enhancing pre-training efficiency and model capability.

arxiv情報

著者 Xinlin Zhuang,Jiahui Peng,Ren Ma,Yinfan Wang,Tianyi Bai,Xingjian Wei,Jiantao Qiu,Chi Zhang,Ying Qian,Conghui He
発行日 2025-05-01 02:37:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Meta-rater: A Multi-dimensional Data Selection Method for Pre-training Language Models はコメントを受け付けていません

TaeBench: Improving Quality of Toxic Adversarial Examples

要約

毒性テキスト検出器は、敵対的な例に対して脆弱になる可能性があります – システムを誤った検出に欺くテキストを入力するための小さな摂動。
既存の攻撃アルゴリズムは時間がかかり、しばしば無効または曖昧な敵対的な例を生成し、実際の毒性含有量モデレーターの評価または改善に役立ちません。
このペーパーでは、生成された有毒敵の例(TAE)の品質管理のための注釈パイプラインを提案します。
モデルベースの自動注釈と人間ベースの品質検証を設計して、TAEの品質要件を評価しています。
成功したTAEは、標的毒性モデルをだまして、良性の予測を行い、文法的に合理的になり、人間で生成されたテキストのように自然に見えるようになり、セマンティック毒性を示す必要があります。
これらの要件を20を超える最先端の(SOTA)TAE攻撃レシピに適用すると、合計940kの生のTAE攻撃世代から多くの無効なサンプルが見つかります。
次に、提案されたパイプラインを利用して、Taebenchと呼ばれる高品質のTAEデータセット(サイズ264K)をフィルタリングおよびキュレートします。
経験的には、TaebenchがSOTA毒性コンテンツのモデレートモデルとサービスを効果的に転送できることを実証します。
また、我々の実験は、敵対的な訓練を受けたテベンチが2つの毒性検出器の堅牢性の大幅な改善を達成することを示しています。

要約(オリジナル)

Toxicity text detectors can be vulnerable to adversarial examples – small perturbations to input text that fool the systems into wrong detection. Existing attack algorithms are time-consuming and often produce invalid or ambiguous adversarial examples, making them less useful for evaluating or improving real-world toxicity content moderators. This paper proposes an annotation pipeline for quality control of generated toxic adversarial examples (TAE). We design model-based automated annotation and human-based quality verification to assess the quality requirements of TAE. Successful TAE should fool a target toxicity model into making benign predictions, be grammatically reasonable, appear natural like human-generated text, and exhibit semantic toxicity. When applying these requirements to more than 20 state-of-the-art (SOTA) TAE attack recipes, we find many invalid samples from a total of 940k raw TAE attack generations. We then utilize the proposed pipeline to filter and curate a high-quality TAE dataset we call TaeBench (of size 264k). Empirically, we demonstrate that TaeBench can effectively transfer-attack SOTA toxicity content moderation models and services. Our experiments also show that TaeBench with adversarial training achieve significant improvements of the robustness of two toxicity detectors.

arxiv情報

著者 Xuan Zhu,Dmitriy Bespalov,Liwen You,Ninad Kulkarni,Yanjun Qi
発行日 2025-05-01 02:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | TaeBench: Improving Quality of Toxic Adversarial Examples はコメントを受け付けていません

Enriching the Korean Learner Corpus with Multi-reference Annotations and Rubric-Based Scoring

要約

韓国語教育に対する世界的な関心が高まっているにもかかわらず、韓国のL2執筆に合わせた学習者のコーパスの欠如は残っています。
このギャップに対処するために、複数の文法誤差補正(GEC)参照を追加することにより、Kolla Korean Learner Corpusを強化し、それによりGECシステムのより微妙で柔軟な評価を可能にし、人間の言語の変動性を反映します。
さらに、韓国語言語研究所のガイドラインと整列したルーブリックベースのスコアでコーパスを濃縮し、文法の正確性、一貫性、語彙の多様性を獲得します。
これらの機能強化により、Kollaは韓国のL2教育における研究のための堅牢で標準化されたリソースになり、言語学習、評価、および自動エラー修正の進歩をサポートします。

要約(オリジナル)

Despite growing global interest in Korean language education, there remains a significant lack of learner corpora tailored to Korean L2 writing. To address this gap, we enhance the KoLLA Korean learner corpus by adding multiple grammatical error correction (GEC) references, thereby enabling more nuanced and flexible evaluation of GEC systems, and reflects the variability of human language. Additionally, we enrich the corpus with rubric-based scores aligned with guidelines from the Korean National Language Institute, capturing grammatical accuracy, coherence, and lexical diversity. These enhancements make KoLLA a robust and standardized resource for research in Korean L2 education, supporting advancements in language learning, assessment, and automated error correction.

arxiv情報

著者 Jayoung Song,KyungTae Lim,Jungyeul Park
発行日 2025-05-01 03:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Enriching the Korean Learner Corpus with Multi-reference Annotations and Rubric-Based Scoring はコメントを受け付けていません

EnronQA: Towards Personalized RAG over Private Documents

要約

検索拡張生成(RAG)は、微調整に関連するコストまたはデータの漏れリスクなしに推論時間にローカルコンテキストをもたらす能力により、知識集約型コンテキストを大規模な言語モデル(LLM)にもたらすための最も一般的な方法の1つになりました。
LLMトレーニングから個人情報を明確に分離することで、多くのエンタープライズLLMワークロードの基礎となり、顧客のプライベートドキュメントを使用してLLMの理解を深めることができます。
エンタープライズの展開におけるプライベートドキュメントの人気にもかかわらず、RAGパイプラインを検証および最適化するための現在のラグベンチマークは、WikipediaやGeneric Webページなどの公開データからコーパスを引き出し、個人的なコンテキストをほとんど提供しません。
より個人的およびプライベートなぼろきれを強化しようとするEnronqaベンチマークをリリースします。これは、150種類のユーザーインボックスにわたって528,304の質問回答ペアを含む103,638メールのデータセットです。
EnronQAは、プライベートデータよりもRAGパイプラインのベンチマークを改善し、現実的なデータよりもパーソナライズされた検索設定の導入に関する実験を可能にします。
最後に、Enronqaを使用して、個人文書を推論する際に、暗記と検索のトレードオフを調査します。

要約(オリジナル)

Retrieval Augmented Generation (RAG) has become one of the most popular methods for bringing knowledge-intensive context to large language models (LLM) because of its ability to bring local context at inference time without the cost or data leakage risks associated with fine-tuning. A clear separation of private information from the LLM training has made RAG the basis for many enterprise LLM workloads as it allows the company to augment LLM’s understanding using customers’ private documents. Despite its popularity for private documents in enterprise deployments, current RAG benchmarks for validating and optimizing RAG pipelines draw their corpora from public data such as Wikipedia or generic web pages and offer little to no personal context. Seeking to empower more personal and private RAG we release the EnronQA benchmark, a dataset of 103,638 emails with 528,304 question-answer pairs across 150 different user inboxes. EnronQA enables better benchmarking of RAG pipelines over private data and allows for experimentation on the introduction of personalized retrieval settings over realistic data. Finally, we use EnronQA to explore the tradeoff in memorization and retrieval when reasoning over private documents.

arxiv情報

著者 Michael J. Ryan,Danmei Xu,Chris Nivera,Daniel Campos
発行日 2025-05-01 03:07:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR | EnronQA: Towards Personalized RAG over Private Documents はコメントを受け付けていません

Consistency in Language Models: Current Landscape, Challenges, and Future Directions

要約

効果的な言語使用の特徴は一貫性にあります – 同様の文脈で同様の意味を表現し、矛盾を回避します。
人間のコミュニケーションは自然にこの原則を示していますが、最先端の言語モデルは、さまざまなシナリオにわたって信頼できる一貫性を維持するのに苦労しています。
このペーパーでは、AI言語システムにおける一貫性研究の状況を調べ、正式な一貫性(論理ルールの順守を含む)と非公式の一貫性(道徳的および事実の一貫性など)の両方を調査します。
一貫性の側面を測定するための現在のアプローチを分析し、定義の標準化、多言語評価、および一貫性を改善する方法の重要な研究ギャップを特定します。
私たちの調査結果は、ユーティリティと適応性を維持しながら、ドメイン固有のタスクでの言語モデルの適用の一貫性を確保するために、学際的なアプローチを測定して学際的なアプローチを測定するための緊急の必要性を指摘しています。

要約(オリジナル)

The hallmark of effective language use lies in consistency — expressing similar meanings in similar contexts and avoiding contradictions. While human communication naturally demonstrates this principle, state-of-the-art language models struggle to maintain reliable consistency across different scenarios. This paper examines the landscape of consistency research in AI language systems, exploring both formal consistency (including logical rule adherence) and informal consistency (such as moral and factual coherence). We analyze current approaches to measure aspects of consistency, identify critical research gaps in standardization of definitions, multilingual assessment, and methods to improve consistency. Our findings point to an urgent need for robust benchmarks to measure and interdisciplinary approaches to ensure consistency in the application of language models on domain-specific tasks while preserving the utility and adaptability.

arxiv情報

著者 Jekaterina Novikova,Carol Anderson,Borhane Blili-Hamelin,Subhabrata Majumdar
発行日 2025-05-01 03:25:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Consistency in Language Models: Current Landscape, Challenges, and Future Directions はコメントを受け付けていません

A Comprehensive Survey on Integrating Large Language Models with Knowledge-Based Methods

要約

人工知能の急速な発展は、現場で著しい進歩をもたらしました。
研究の興味深い方向の1つは、大規模な言語モデル(LLM)を構造化された知識ベースのシステムと統合できるかどうかです。
このアプローチは、LLMの生成言語理解と、それらが統合されている正確な知識表現システムを組み合わせることを目的としています。
この記事では、LLMSと知識ベースの関係を調査し、それらを実際に適用する方法を調べ、関連する技術、運用、および倫理的課題について説明します。
文献の包括的な調査を利用して、この研究は重要な問題を特定し、既存の解決策を評価します。
それは、データのコンテキスト化、モデルの精度、および知識リソースの利用に関する構造化された知識ベースシステムに生成AIを組み込むことのメリットを示しています。
調査結果は、研究の現在の状況の完全なリストを提供し、主なギャップを指摘し、役立つパスを提案します。
これらの洞察は、AIテクノロジーの前進に貢献し、さまざまなセクターでの実用的な展開をサポートしています。

要約(オリジナル)

The rapid development of artificial intelligence has led to marked progress in the field. One interesting direction for research is whether Large Language Models (LLMs) can be integrated with structured knowledge-based systems. This approach aims to combine the generative language understanding of LLMs and the precise knowledge representation systems by which they are integrated. This article surveys the relationship between LLMs and knowledge bases, looks at how they can be applied in practice, and discusses related technical, operational, and ethical challenges. Utilizing a comprehensive examination of the literature, the study both identifies important issues and assesses existing solutions. It demonstrates the merits of incorporating generative AI into structured knowledge-base systems concerning data contextualization, model accuracy, and utilization of knowledge resources. The findings give a full list of the current situation of research, point out the main gaps, and propose helpful paths to take. These insights contribute to advancing AI technologies and support their practical deployment across various sectors.

arxiv情報

著者 Wenli Yang,Lilian Some,Michael Bain,Byeong Kang
発行日 2025-05-01 03:29:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | A Comprehensive Survey on Integrating Large Language Models with Knowledge-Based Methods はコメントを受け付けていません

All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages

要約

既存の大規模なマルチモーダルモデル(LMM)は、一般に、いくつかの地域と言語のみに焦点を当てています。
LMMが改善し続けるにつれて、対応する視覚キューを効果的に統合しながら、文化的文脈を理解し、地元の感受性を尊重し、低リソース言語をサポートすることがますます重要になっています。
文化的に多様なグローバルマルチモーダルモデルを追求するために、提案されているすべての言語問題ベンチマーク(ALMベンチ)は、100の言語でLMMを評価するための最大かつ最も包括的な取り組みを表しています。
ALMベンチは、LMM研究で伝統的に過小評価されている多くの低リソース言語を含む、さまざまな言語のテキストと組み合わせた文化的に多様な画像について理解し、推論する能力をテストすることにより、既存のモデルに挑戦します。
ベンチマークは、True/False、多肢選択、オープンエンドの質問を含むさまざまな質問形式を備えた堅牢で微妙な評価フレームワークを提供します。
ALMベンチ設計により、視覚的および言語的推論において、さまざまなレベルの難易度を処理するモデルの能力の包括的な評価が保証されます。
グローバルな文化の豊かなタペストリーを捉えるために、ALMベンチは、伝統や儀式から有名な人格やお祝いに至るまで、13の異なる文化的側面からコンテンツを慎重にキュレーションします。
これを通じて、ALMベンチは、最先端のオープンおよびクローズドソースLMMの厳密なテスト場を提供するだけでなく、文化的および言語的包括性の重要性を強調し、多様な世界集団に効果的に役立つモデルの開発を促進します。
私たちのベンチマークは公開されています。

要約(オリジナル)

Existing Large Multimodal Models (LMMs) generally focus on only a few regions and languages. As LMMs continue to improve, it is increasingly important to ensure they understand cultural contexts, respect local sensitivities, and support low-resource languages, all while effectively integrating corresponding visual cues. In pursuit of culturally diverse global multimodal models, our proposed All Languages Matter Benchmark (ALM-bench) represents the largest and most comprehensive effort to date for evaluating LMMs across 100 languages. ALM-bench challenges existing models by testing their ability to understand and reason about culturally diverse images paired with text in various languages, including many low-resource languages traditionally underrepresented in LMM research. The benchmark offers a robust and nuanced evaluation framework featuring various question formats, including true/false, multiple choice, and open-ended questions, which are further divided into short and long-answer categories. ALM-bench design ensures a comprehensive assessment of a model’s ability to handle varied levels of difficulty in visual and linguistic reasoning. To capture the rich tapestry of global cultures, ALM-bench carefully curates content from 13 distinct cultural aspects, ranging from traditions and rituals to famous personalities and celebrations. Through this, ALM-bench not only provides a rigorous testing ground for state-of-the-art open and closed-source LMMs but also highlights the importance of cultural and linguistic inclusivity, encouraging the development of models that can serve diverse global populations effectively. Our benchmark is publicly available.

arxiv情報

著者 Ashmal Vayani,Dinura Dissanayake,Hasindri Watawana,Noor Ahsan,Nevasini Sasikumar,Omkar Thawakar,Henok Biadglign Ademtew,Yahya Hmaiti,Amandeep Kumar,Kartik Kuckreja,Mykola Maslych,Wafa Al Ghallabi,Mihail Mihaylov,Chao Qin,Abdelrahman M Shaker,Mike Zhang,Mahardika Krisna Ihsani,Amiel Esplana,Monil Gokani,Shachar Mirkin,Harsh Singh,Ashay Srivastava,Endre Hamerlik,Fathinah Asma Izzati,Fadillah Adamsyah Maani,Sebastian Cavada,Jenny Chim,Rohit Gupta,Sanjay Manjunath,Kamila Zhumakhanova,Feno Heriniaina Rabevohitra,Azril Amirudin,Muhammad Ridzuan,Daniya Kareem,Ketan More,Kunyang Li,Pramesh Shakya,Muhammad Saad,Amirpouya Ghasemaghaei,Amirbek Djanibekov,Dilshod Azizov,Branislava Jankovic,Naman Bhatia,Alvaro Cabrera,Johan Obando-Ceron,Olympiah Otieno,Fabian Farestam,Muztoba Rabbani,Sanoojan Baliah,Santosh Sanjeev,Abduragim Shtanchaev,Maheen Fatima,Thao Nguyen,Amrin Kareem,Toluwani Aremu,Nathan Xavier,Amit Bhatkal,Hawau Toyin,Aman Chadha,Hisham Cholakkal,Rao Muhammad Anwer,Michael Felsberg,Jorma Laaksonen,Thamar Solorio,Monojit Choudhury,Ivan Laptev,Mubarak Shah,Salman Khan,Fahad Khan
発行日 2025-05-01 03:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages はコメントを受け付けていません