Science Out of Its Ivory Tower: Improving Accessibility with Reinforcement Learning

要約

膨大な量の学術作業が毎日公開されていますが、その多くは密集した専門用語と複雑な言語のために一般の人々にはアクセスできません。
科学コミュニケーションにおけるこの課題に対処するために、学術抽象をより理解できるバージョンに書き直すために言語モデルを微調整する強化学習フレームワークを紹介します。
単語レベルと文レベルのアクセシビリティの報酬の慎重にバランスの取れた組み合わせに導かれ、私たちの言語モデルは、技術用語をよりアクセスしやすい代替品に効果的に置き換えます。
私たちの最良のモデルは、学術抽象の読みやすさレベルを約6つの米国の学年レベル、つまり大学院から高校レベルまで調整します。
これは、事実上の正確さと高品質の言語を維持しながら、監視された微調整ベースラインを約90%相対的に増加させることになります。
私たちのアプローチの詳細な分析は、バランスの取れた報酬が基本モデルの体系的な変更につながり、よりスムーズな最適化と優れたパフォーマンスに寄与する可能性が高いことを示しています。
私たちは、この仕事を、学術研究と一般の人々、特に若い読者と大学の学位のない人々との間のギャップを埋めるための一歩であると考えています。

要約(オリジナル)

A vast amount of scholarly work is published daily, yet much of it remains inaccessible to the general public due to dense jargon and complex language. To address this challenge in science communication, we introduce a reinforcement learning framework that fine-tunes a language model to rewrite scholarly abstracts into more comprehensible versions. Guided by a carefully balanced combination of word- and sentence-level accessibility rewards, our language model effectively substitutes technical terms with more accessible alternatives, a task which models supervised fine-tuned or guided by conventional readability measures struggle to accomplish. Our best model adjusts the readability level of scholarly abstracts by approximately six U.S. grade levels — in other words, from a postgraduate to a high school level. This translates to roughly a 90% relative boost over the supervised fine-tuning baseline, all while maintaining factual accuracy and high-quality language. An in-depth analysis of our approach shows that balanced rewards lead to systematic modifications in the base model, likely contributing to smoother optimization and superior performance. We envision this work as a step toward bridging the gap between scholarly research and the general public, particularly younger readers and those without a college degree.

arxiv情報

著者 Haining Wang,Jason Clark,Hannah McKelvey,Leila Sterman,Zheng Gao,Zuoyu Tian,Sandra Kübler,Xiaozhong Liu
発行日 2025-04-16 16:00:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY | Science Out of Its Ivory Tower: Improving Accessibility with Reinforcement Learning はコメントを受け付けていません

BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving

要約

LLMSは高度な推論機能を示し、自然言語の質問を数学モデルに変換する可能性を提供します。
ただし、オペレーション研究ドメインの既存のオープンソースデータセットには、補強学習アプリケーションを妨げる客観的値のみに焦点を当てた、可変定義などのモデリングプロセスの詳細な注釈がありません。
これに対処するために、完全な数学モデリングプロセスをキャプチャする包括的なラベルが注釈されている構造データセットをリリースします。
さらに、ビーム検索、プロセス報酬モデル、およびペアワイズ優先アルゴリズムを使用して、補強学習を樹木の考え構造に統合するアルゴリズムであるBPP-Searchを提案します。
このアプローチにより、樹木構造の効率的な調査が可能になり、精度を向上させながら徹底的な検索を回避できます。
Structuredor、NL4OPT、およびMamo-ComplexLpデータセットに関する広範な実験は、BPP-Searchが最新の方法を大幅に上回ることを示しています。
ツリーベースの推論では、BPP-Searchは精度と効率に優れており、正しいソリューションのより速い取得を可能にします。
構造データセットは、https://github.com/tengwang0318/structuredorで入手できます。

要約(オリジナル)

LLMs exhibit advanced reasoning capabilities, offering the potential to transform natural language questions into mathematical models. However, existing open-source datasets in operations research domain lack detailed annotations of the modeling process, such as variable definitions, focusing solely on objective values, which hinders reinforcement learning applications. To address this, we release the StructuredOR dataset, annotated with comprehensive labels that capture the complete mathematical modeling process. We further propose BPP-Search, an algorithm that integrates reinforcement learning into a tree-of-thought structure using Beam search, a Process reward model, and a pairwise Preference algorithm. This approach enables efficient exploration of tree structures, avoiding exhaustive search while improving accuracy. Extensive experiments on StructuredOR, NL4OPT, and MAMO-ComplexLP datasets show that BPP-Search significantly outperforms state-of-the-art methods. In tree-based reasoning, BPP-Search excels in accuracy and efficiency, enabling faster retrieval of correct solutions. The StructuredOR dataset is available at https://github.com/tengwang0318/StructuredOR.

arxiv情報

著者 Teng Wang,Wing-Yin Yu,Zhenqi He,Zehua Liu,Hailei Gong,Han Wu,Xiongwei Han,Wei Shi,Ruifeng She,Fangzhou Zhu,Tao Zhong
発行日 2025-04-16 16:21:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | BPP-Search: Enhancing Tree of Thought Reasoning for Mathematical Modeling Problem Solving はコメントを受け付けていません

Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine

要約

物理的、化学的、または生物学的システムの全体的な計算表現を学習するには、同じモデル内のさまざまな分布とモダリティから情報を処理する能力が必要です。
したがって、マルチモーダルの機械学習モデルの需要は、シーケンス、グラフ、時系列、表面データなど、ビジョンや言語を超えたモダリティに対して急激に増加しています。
利用可能なマルチモーダル融合とアライメントアプローチは多くありますが、それらのほとんどはエンドツーエンドトレーニングを必要とし、モダリティの数と二次的にスケーリングするか、トレーニングセットの高いモダリティの不均衡のケースを処理できないか、非常にトポロジ固有のものであり、多くの生物医学的学習タスクではあまりにも制限されています。
このペーパーでは、マルチモーダルレゴ(MMレゴ)を紹介します。これは、エンコーダーのセットを微調整なしまたは最小限の微調整を伴う競合マルチモーダルモデルに変える汎用融合フレームワークです。
これを達成し、モダリティ表現間の形状の一貫性を強制するユニモーダルエンコーダーのラッパーを導入します。
周波数ドメイン内の特徴を学習することにより、これらの表現を調和させて、信号干渉がほとんどないモデルの融合を可能にします。
MMレゴ1)は、微調整なしでエンドツーエンドの融合モデルで競争力のあるパフォーマンスを達成するモデルマージメソッドとして使用できることを示します。

要約(オリジナル)

Learning holistic computational representations in physical, chemical or biological systems requires the ability to process information from different distributions and modalities within the same model. Thus, the demand for multimodal machine learning models has sharply risen for modalities that go beyond vision and language, such as sequences, graphs, time series, or tabular data. While there are many available multimodal fusion and alignment approaches, most of them require end-to-end training, scale quadratically with the number of modalities, cannot handle cases of high modality imbalance in the training set, or are highly topology-specific, making them too restrictive for many biomedical learning tasks. This paper presents Multimodal Lego (MM-Lego), a general-purpose fusion framework to turn any set of encoders into a competitive multimodal model with no or minimal fine-tuning. We achieve this by introducing a wrapper for any unimodal encoder that enforces shape consistency between modality representations. It harmonises these representations by learning features in the frequency domain to enable model merging with little signal interference. We show that MM-Lego 1) can be used as a model merging method which achieves competitive performance with end-to-end fusion models without any fine-tuning, 2) can operate on any unimodal encoder, and 3) is a model fusion method that, with minimal fine-tuning, surpasses all benchmarks in five out of seven datasets.

arxiv情報

著者 Konstantin Hemker,Nikola Simidjievski,Mateja Jamnik
発行日 2025-04-16 16:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Multimodal Lego: Model Merging and Fine-Tuning Across Topologies and Modalities in Biomedicine はコメントを受け付けていません

BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning

要約

さまざまな生物学的領域における大規模な言語モデル(LLM)の応用が最近検討されていますが、経路などの複雑な生物学的システムでの推論能力は、生物学的現象の予測、仮説の策定、実験の設計に重要なものではありません。
この研究では、経路推論におけるLLMの可能性を探ります。
自然な動的変化、妨害、追加の介入条件、マルチスケールの研究ターゲットなどのさまざまな生物学的コンテキストをカバーする、実際の研究から派生した5.1K複合経路の問題を抱えるデータセットであるBiomazeを紹介します。
COTやグラフの高度推論などの方法の評価は、LLMが特に乱れたシステムでの経路推論と闘っていることを示しています。
これに対処するために、インタラクティブなサブグラフベースのナビゲーションを通じて推論を強化するLLMエージェントであるPathseekerを提案し、科学的に整合した方法で生物学的システムの複雑さを処理するためのより効果的なアプローチを可能にします。
データセットとコードはhttps://github.com/zhao-ht/biomazeで入手できます。

要約(オリジナル)

The applications of large language models (LLMs) in various biological domains have been explored recently, but their reasoning ability in complex biological systems, such as pathways, remains underexplored, which is crucial for predicting biological phenomena, formulating hypotheses, and designing experiments. This work explores the potential of LLMs in pathway reasoning. We introduce BioMaze, a dataset with 5.1K complex pathway problems derived from real research, covering various biological contexts including natural dynamic changes, disturbances, additional intervention conditions, and multi-scale research targets. Our evaluation of methods such as CoT and graph-augmented reasoning, shows that LLMs struggle with pathway reasoning, especially in perturbed systems. To address this, we propose PathSeeker, an LLM agent that enhances reasoning through interactive subgraph-based navigation, enabling a more effective approach to handling the complexities of biological systems in a scientifically aligned manner. The dataset and code are available at https://github.com/zhao-ht/BioMaze.

arxiv情報

著者 Haiteng Zhao,Chang Ma,Fangzhi Xu,Lingpeng Kong,Zhi-Hong Deng
発行日 2025-04-16 16:49:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.QM | BioMaze: Benchmarking and Enhancing Large Language Models for Biological Pathway Reasoning はコメントを受け付けていません

Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning

要約

自動音声認識(ASR)は、会話エージェント、産業用ロボット工学、コールセンターオートメーション、自動字幕などの多様なアプリケーションでのヒューマンマシン相互作用に不可欠です。
ただし、特にアラビア語のような低リソース言語では、大規模でラベル付けされた音声データセットが不足しているため、高性能のASRモデルを開発することは依然として困難です。
この作業では、コンフォーマーアーキテクチャを使用してアラビア語のASRモデルを訓練するために、弱く監視された学習を採用しています。
私たちのモデルは、最新の標準アラビア語(MSA)と方言アラビア語(DA)の両方をカバーする15,000時間の弱い注釈付き音声データでゼロから訓練されており、高価な手動転写の必要性を排除します。
人間が検証したラベルがないにもかかわらず、私たちのアプローチは最先端の(SOTA)パフォーマンスを達成し、標準ベンチマークでアラビアASRの分野での以前のすべての努力を超えています。
従来の監視されたアプローチに代わるスケーラブルで費用効率の高い代替品としての弱い監督の有効性を実証することにより、低リソース設定でのASRシステムの改善への道を開くことにより。

要約(オリジナル)

Automatic speech recognition (ASR) is crucial for human-machine interaction in diverse applications like conversational agents, industrial robotics, call center automation, and automated subtitling. However, developing high-performance ASR models remains challenging, particularly for low-resource languages like Arabic, due to the scarcity of large, labeled speech datasets, which are costly and labor-intensive to produce. In this work, we employ weakly supervised learning to train an Arabic ASR model using the Conformer architecture. Our model is trained from scratch on 15,000 hours of weakly annotated speech data covering both Modern Standard Arabic (MSA) and Dialectal Arabic (DA), eliminating the need for costly manual transcriptions. Despite the absence of human-verified labels, our approach attains state-of-the-art (SOTA) performance, exceeding all previous efforts in the field of Arabic ASR on the standard benchmarks. By demonstrating the effectiveness of weak supervision as a scalable, cost-efficient alternative to traditional supervised approaches, paving the way for improved ASR systems in low resource settings.

arxiv情報

著者 Mahmoud Salhab,Marwan Elghitany,Shameed Sait,Syed Sibghat Ullah,Mohammad Abusheikh,Hasan Abusheikh
発行日 2025-04-16 17:05:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Advancing Arabic Speech Recognition Through Large-Scale Weakly Supervised Learning はコメントを受け付けていません

SCENT: Robust Spatiotemporal Learning for Continuous Scientific Data via Scalable Conditioned Neural Fields

要約

空間的学習は、空間的依存性と時間的依存性、データの高次元、およびスケーラビリティの制約の間の複雑な相互作用のために困難です。
これらの課題は、データが不規則に分布していることが多い(センサー障害からの値の欠損)および大量(例えば、高忠実度シミュレーションなど)でしばしば不規則に分布している科学ドメインでさらに増幅され、追加の計算およびモデリングの困難が発生します。
この論文では、スケーラブルで連続的に情報に基づいた空間的表現学習のための新しいフレームワークである香りを紹介します。
香りは、単一のアーキテクチャ内での補間、再建、予測を統一します。
トランスベースのエンコーダープロセッサデコーダーバックボーンの上に構築されたScentは、一般化とクエリごとのクロスアテナントメカニズムを強化するための学習可能なクエリを導入し、マルチスケールの依存関係を効果的にキャプチャします。
データサイズとモデルの複雑さの両方でスケーラビリティを確保するために、まばらな注意メカニズムを組み込み、柔軟な出力表現と任意の解像度で効率的な評価を可能にします。
広範なシミュレーションと実際の実験を通じて香りを検証し、優れたスケーラビリティを達成しながら、複数の挑戦的なタスクにわたって最先端のパフォーマンスを実証します。

要約(オリジナル)

Spatiotemporal learning is challenging due to the intricate interplay between spatial and temporal dependencies, the high dimensionality of the data, and scalability constraints. These challenges are further amplified in scientific domains, where data is often irregularly distributed (e.g., missing values from sensor failures) and high-volume (e.g., high-fidelity simulations), posing additional computational and modeling difficulties. In this paper, we present SCENT, a novel framework for scalable and continuity-informed spatiotemporal representation learning. SCENT unifies interpolation, reconstruction, and forecasting within a single architecture. Built on a transformer-based encoder-processor-decoder backbone, SCENT introduces learnable queries to enhance generalization and a query-wise cross-attention mechanism to effectively capture multi-scale dependencies. To ensure scalability in both data size and model complexity, we incorporate a sparse attention mechanism, enabling flexible output representations and efficient evaluation at arbitrary resolutions. We validate SCENT through extensive simulations and real-world experiments, demonstrating state-of-the-art performance across multiple challenging tasks while achieving superior scalability.

arxiv情報

著者 David Keetae Park,Xihaier Luo,Guang Zhao,Seungjun Lee,Miruna Oprescu,Shinjae Yoo
発行日 2025-04-16 17:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | SCENT: Robust Spatiotemporal Learning for Continuous Scientific Data via Scalable Conditioned Neural Fields はコメントを受け付けていません

HLS-Eval: A Benchmark and Framework for Evaluating LLMs on High-Level Synthesis Design Tasks

要約

大規模な言語モデル(LLM)トレーニングと推論の迅速なスケーリングは、学界と産業全体の半導体設計での採用を推進しています。
ほとんどの以前の作業は、ハードウェア説明言語(HDL)タスク、特にVerilogでLLMSを評価しますが、デザイナーは高レベルの合成(HLS)を使用してドメイン固有のアクセラレータと複雑なハードウェアシステムを構築しています。
ただし、HLS設計タスクのLLMを包括的に評価するためのベンチマークとツールは依然として不足しています。
これに対処するために、LLM駆動型HLS設計の最初の完全なベンチマークと評価フレームワークであるHLS-Evalを紹介します。
HLS-Evalは、2つのコアタスクをターゲットにします。(1)自然言語の説明からHLSコードを生成し、(2)パフォーマンスとハードウェア効率を最適化するためのHLS固有のコード編集を実行します。
ベンチマークには、標準のHLSベンチマークと新しいソースから描かれた94のユニークなデザインが含まれています。
各ケースは、自然言語の説明とcシミュレーションと合成検証のためのペアのテストベンチを生成する半自動フローを介して調製され、各タスクが「LLM対応」であることを確認します。
ベンチマークを超えて、HLS-Evalは、ローカルとホストの両方のLLMの両方の自動化された並列評価のためのモジュラーPythonフレームワークを提供します。
これには、並列評価エンジン、直接HLSツール統合、およびさまざまなLLM相互作用パラダイムをサポートするための抽象化が含まれ、新しいベンチマーク、タスク、およびLLMメソッドの迅速なプロトタイピングを可能にします。
Vitis HLS上のオープンソースLLMのベースライン評価を通じてHLS -Evalを実証し、4つの主要なメトリックの出力を測定します – パーセビリティ、コンパイラビリティ、ランナビリティ、および合成化可能性 – 反復HLS設計サイクルを反映しています。
また、Pass@K Metricsを報告し、より広範なLLM-For-Hardwareコミュニティ向けに明確なベースラインと再利用可能なインフラストラクチャを確立します。
すべてのベンチマーク、フレームワークコード、および結果は、https://github.com/stefanpie/hls-evalでオープンソーリングされています。

要約(オリジナル)

The rapid scaling of large language model (LLM) training and inference has driven their adoption in semiconductor design across academia and industry. While most prior work evaluates LLMs on hardware description language (HDL) tasks, particularly Verilog, designers are increasingly using high-level synthesis (HLS) to build domain-specific accelerators and complex hardware systems. However, benchmarks and tooling to comprehensively evaluate LLMs for HLS design tasks remain scarce. To address this, we introduce HLS-Eval, the first complete benchmark and evaluation framework for LLM-driven HLS design. HLS-Eval targets two core tasks: (1) generating HLS code from natural language descriptions, and (2) performing HLS-specific code edits to optimize performance and hardware efficiency. The benchmark includes 94 unique designs drawn from standard HLS benchmarks and novel sources. Each case is prepared via a semi-automated flow that produces a natural language description and a paired testbench for C-simulation and synthesis validation, ensuring each task is ‘LLM-ready.’ Beyond the benchmark, HLS-Eval offers a modular Python framework for automated, parallel evaluation of both local and hosted LLMs. It includes a parallel evaluation engine, direct HLS tool integration, and abstractions for to support different LLM interaction paradigms, enabling rapid prototyping of new benchmarks, tasks, and LLM methods. We demonstrate HLS-Eval through baseline evaluations of open-source LLMs on Vitis HLS, measuring outputs across four key metrics – parseability, compilability, runnability, and synthesizability – reflecting the iterative HLS design cycle. We also report pass@k metrics, establishing clear baselines and reusable infrastructure for the broader LLM-for-hardware community. All benchmarks, framework code, and results are open-sourced at https://github.com/stefanpie/hls-eval.

arxiv情報

著者 Stefan Abi-Karam,Cong Hao
発行日 2025-04-16 17:30:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR | HLS-Eval: A Benchmark and Framework for Evaluating LLMs on High-Level Synthesis Design Tasks はコメントを受け付けていません

RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version)

要約

ロボット工学の急速に進歩する分野では、デュアルアーム調整と複雑なオブジェクト操作は、高度な自律システムを開発するための不可欠な機能です。
ただし、多様で高品質のデモデータと現実世界に配置された評価ベンチマークの希少性は、そのような開発を厳しく制限しています。
これに対処するために、3D生成基盤モデルと大規模な言語モデルを使用して多様な専門家データセットを作成し、デュアルアームロボットタスクに現実的な評価された評価プラットフォームを提供する生成デジタルツインフレームワークであるRobotWinを紹介します。
具体的には、RobotWinは、単一の2D画像からさまざまなデジタル双子を作成し、現実的でインタラクティブなシナリオを生成します。
また、オブジェクトアノテーションを大規模な言語モデルと組み合わせてタスクを分解し、空間的制約を決定し、正確なロボット運動コードを生成する空間的関係認識コード生成フレームワークを導入します。
私たちのフレームワークは、シミュレートされたデータと実際の両方のデータの両方を備えた包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと現実世界のパフォーマンスの間のより良いアライメントを可能にします。
オープンソースのコボットマジックロボットプラットフォームを使用して、アプローチを検証しました。
Robotwin生成データで事前に訓練され、限られた現実世界のサンプルで微調整されたポリシーは、単一登録タスクでは70%を超える成功率を改善し、実世界データのみでトレーニングされたモデルと比較して、デュアルアームタスクで40%以上を改善します。
この大幅な改善は、デュアルアームロボット操作システムの開発と評価を強化するRobotwinの可能性を示しています。
プロジェクトページ:https://robotwin-benchmark.github.io/early-version/。

要約(オリジナル)

In the rapidly advancing field of robotics, dual-arm coordination and complex object manipulation are essential capabilities for developing advanced autonomous systems. However, the scarcity of diverse, high-quality demonstration data and real-world-aligned evaluation benchmarks severely limits such development. To address this, we introduce RoboTwin, a generative digital twin framework that uses 3D generative foundation models and large language models to produce diverse expert datasets and provide a real-world-aligned evaluation platform for dual-arm robotic tasks. Specifically, RoboTwin creates varied digital twins of objects from single 2D images, generating realistic and interactive scenarios. It also introduces a spatial relation-aware code generation framework that combines object annotations with large language models to break down tasks, determine spatial constraints, and generate precise robotic movement code. Our framework offers a comprehensive benchmark with both simulated and real-world data, enabling standardized evaluation and better alignment between simulated training and real-world performance. We validated our approach using the open-source COBOT Magic Robot platform. Policies pre-trained on RoboTwin-generated data and fine-tuned with limited real-world samples improve the success rate of over 70% for single-arm tasks and over 40% for dual-arm tasks compared to models trained solely on real-world data. This significant improvement demonstrates RoboTwin’s potential to enhance the development and evaluation of dual-arm robotic manipulation systems. Project Page: https://robotwin-benchmark.github.io/early-version/.

arxiv情報

著者 Yao Mu,Tianxing Chen,Shijia Peng,Zanxin Chen,Zeyu Gao,Yude Zou,Lunkai Lin,Zhiqiang Xie,Ping Luo
発行日 2025-04-16 17:31:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO | RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins (early version) はコメントを受け付けていません

Understanding and Optimizing Multi-Stage AI Inference Pipelines

要約

大規模な言語モデル(LLMS)の急速な進化により、ますます洗練された推論パイプラインとハードウェアプラットフォームの必要性が促進されています。
最新のLLMサービングは、検索拡張生成(RAG)、キー値(KV)キャッシュ検索、動的モデルルーティング、マルチステップ推論などのマルチステージプロセスを組み込んだ、従来のPrefillデコードワークフローを超えて拡張されています。
これらの段階は、GPU、ASIC、CPU、およびメモリ中心のアーキテクチャを統合する分散システムを必要とする多様な計算需要を示します。
ただし、既存のシミュレータには、これらの不均一なマルチエンジンワークフローをモデル化する忠実度があり、建築上の決定を通知する能力を制限しています。
このギャップに対処するために、エルメス、不均一なマルチステージLLM推論実行シミュレーターを紹介します。
エルメスは多様な要求段階をモデル化します。
RAG、KV検索、推論、Prefill、および複雑なハードウェア階層全体のデコードを含む。
Hermesは、以前のフレームワークとは異なり、高度なバッチング戦略とマルチレベルのメモリ階層を組み込んでいる間、複数のモデルを同時に実行する不均一なクライアントをサポートしています。
実際のハードウェアトレースを分析モデリングと統合することにより、エルメスは、ハイブリッドCPUアクセラターの展開におけるメモリ帯域幅の競合、クラスター間通信の遅延、バッチング効率などの重要なトレードオフをキャプチャします。
ケーススタディを通じて、推論段階がエンドツーエンドのレイテンシに与える影響、ハイブリッドパイプラインの最適なバッチング戦略、およびリモートKVキャッシュ検索のアーキテクチャの意味を調査します。
ヘルメスは、システムデザイナーがLLM推論の進化する状況をナビゲートするように力を与え、次世代のAIワークロードのハードウェアソフトウェアの共同設計を最適化するための実用的な洞察を提供します。

要約(オリジナル)

The rapid evolution of Large Language Models (LLMs) has driven the need for increasingly sophisticated inference pipelines and hardware platforms. Modern LLM serving extends beyond traditional prefill-decode workflows, incorporating multi-stage processes such as Retrieval Augmented Generation (RAG), key-value (KV) cache retrieval, dynamic model routing, and multi step reasoning. These stages exhibit diverse computational demands, requiring distributed systems that integrate GPUs, ASICs, CPUs, and memory-centric architectures. However, existing simulators lack the fidelity to model these heterogeneous, multi-engine workflows, limiting their ability to inform architectural decisions. To address this gap, we introduce HERMES, a Heterogeneous Multi-stage LLM inference Execution Simulator. HERMES models diverse request stages; including RAG, KV retrieval, reasoning, prefill, and decode across complex hardware hierarchies. HERMES supports heterogeneous clients executing multiple models concurrently unlike prior frameworks while incorporating advanced batching strategies and multi-level memory hierarchies. By integrating real hardware traces with analytical modeling, HERMES captures critical trade-offs such as memory bandwidth contention, inter-cluster communication latency, and batching efficiency in hybrid CPU-accelerator deployments. Through case studies, we explore the impact of reasoning stages on end-to-end latency, optimal batching strategies for hybrid pipelines, and the architectural implications of remote KV cache retrieval. HERMES empowers system designers to navigate the evolving landscape of LLM inference, providing actionable insights into optimizing hardware-software co-design for next-generation AI workloads.

arxiv情報

著者 Abhimanyu Rajeshkumar Bambhaniya,Hanjiang Wu,Suvinay Subramanian,Sudarshan Srinivasan,Souvik Kundu,Amir Yazdanbakhsh,Midhilesh Elavazhagan,Madhu Kumar,Tushar Krishna
発行日 2025-04-16 17:34:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.AR, cs.DC, cs.LG | Understanding and Optimizing Multi-Stage AI Inference Pipelines はコメントを受け付けていません

Generalized Visual Relation Detection with Diffusion Models

要約

視覚関係検出(VRD)は、画像内のオブジェクトペア間の関係(または相互作用)を特定することを目的としています。
最近のVRDモデルは印象的なパフォーマンスを達成しましたが、それらはすべて事前に定義された関係カテゴリに制限されていますが、視覚関係の意味的な曖昧さを考慮していません。
オブジェクトとは異なり、視覚関係の外観は常に微妙であり、異なる視点からの複数の述語単語によって説明できます。
この目的のために、視覚関係を連続的な埋め込みとしてモデル化し、拡散モデルを設計して、一般化されたVRDを条件付き生成方法で実現することを提案します。
潜在空間で拡散プロセスをモデル化し、埋め込みシーケンスとして画像内のすべての可能な関係を生成します。
世代中に、主題オブジェクトのペアの視覚的およびテキストの埋め込みは条件付き信号として機能し、相互参加を介して注入されます。
世代後、私たちはその後のマッチング段階を設計して、セマンティックな類似性を考慮して、主題とオブジェクトのペアに関係単語を割り当てます。
拡散ベースの生成プロセスの恩恵を受ける当社のDIFF-VRDは、データセットの事前に定義されたカテゴリラベルを超えて視覚関係を生成することができます。
この一般化されたVRDタスクを適切に評価するために、2つの評価メトリック、つまりテキストからイメージの検索、および画像キャプションに触発されたスパイスPRカーブを導入します。
Human-Object Interaction(HOI)検出とシーングラフ生成(SGG)ベンチマークの両方における広範な実験は、diff-vrdの優位性と有効性を証明しています。

要約(オリジナル)

Visual relation detection (VRD) aims to identify relationships (or interactions) between object pairs in an image. Although recent VRD models have achieved impressive performance, they are all restricted to pre-defined relation categories, while failing to consider the semantic ambiguity characteristic of visual relations. Unlike objects, the appearance of visual relations is always subtle and can be described by multiple predicate words from different perspectives, e.g., “ride” can be depicted as “race” and “sit on”, from the sports and spatial position views, respectively. To this end, we propose to model visual relations as continuous embeddings, and design diffusion models to achieve generalized VRD in a conditional generative manner, termed Diff-VRD. We model the diffusion process in a latent space and generate all possible relations in the image as an embedding sequence. During the generation, the visual and text embeddings of subject-object pairs serve as conditional signals and are injected via cross-attention. After the generation, we design a subsequent matching stage to assign the relation words to subject-object pairs by considering their semantic similarities. Benefiting from the diffusion-based generative process, our Diff-VRD is able to generate visual relations beyond the pre-defined category labels of datasets. To properly evaluate this generalized VRD task, we introduce two evaluation metrics, i.e., text-to-image retrieval and SPICE PR Curve inspired by image captioning. Extensive experiments in both human-object interaction (HOI) detection and scene graph generation (SGG) benchmarks attest to the superiority and effectiveness of Diff-VRD.

arxiv情報

著者 Kaifeng Gao,Siqi Chen,Hanwang Zhang,Jun Xiao,Yueting Zhuang,Qianru Sun
発行日 2025-04-16 14:03:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Generalized Visual Relation Detection with Diffusion Models はコメントを受け付けていません