START: Self-taught Reasoner with Tools

要約

OpenAI-O1やDeepSeek-R1のような大きな推論モデル(LRMS)は、長い考え方(COT)の利用を通じて複雑な推論タスクに顕著な能力を示しています。
ただし、これらのモデルは、内部の推論プロセスのみに依存しているため、幻覚と非効率性に悩まされることがよくあります。
このペーパーでは、外部ツールを活用することで推論機能を大幅に強化する新しいツール統合された長いCOT推論LLMであるStart(Self-Tauged Theanser with Tools)を紹介します。
コードの実行を通じて、STARTは複雑な計算を実行し、セルフチェック、多様な方法の探索、および自己不自由を実行し、LRMSの制限に対処することができます。
Startのコアイノベーションは、2つの重要なテクニックを構成する自己学習フレームワークにあります。1)ヒント:人工的に設計されたヒント(たとえば、「待って、ここでPythonを使用すること」を挿入することを実証します。
ヒントインファーは、シンプルで効果的なシーケンシャルテスト時間スケーリング方法としても機能します。
2)ヒント拒否サンプリング微調整(Hint-RFT):ヒントRFTは、ヒント軌道をスコアリング、フィルタリング、および変更することにより、ヒントの軌跡をヒントインファーを介してLRMによって生成されたツールの呼び出しを組み合わせて、LRMを微調整することにより、ヒントとRFTを組み合わせます。
このフレームワークを通じて、QWQ-32Bモデルを微調整して開始を達成しました。
PHDレベルの科学QA(GPQA)、競争レベルの数学ベンチマーク(AMC23、AIME24、AIME25)、および競合レベルのコードベンチマーク(LiveCodebench)では、それぞれ63.6%、95.0%、66.7%、47.1%、および47.3%の精度率を達成します。
ベースQWQ-32Bを大幅に上回り、最先端のオープンウェイトモデルR1-Distill-QWEN-32Bおよび独自のモデルO1-Previewに匹敵するパフォーマンスを達成します。

要約(オリジナル)

Large reasoning models (LRMs) like OpenAI-o1 and DeepSeek-R1 have demonstrated remarkable capabilities in complex reasoning tasks through the utilization of long Chain-of-thought (CoT). However, these models often suffer from hallucinations and inefficiencies due to their reliance solely on internal reasoning processes. In this paper, we introduce START (Self-Taught Reasoner with Tools), a novel tool-integrated long CoT reasoning LLM that significantly enhances reasoning capabilities by leveraging external tools. Through code execution, START is capable of performing complex computations, self-checking, exploring diverse methods, and self-debugging, thereby addressing the limitations of LRMs. The core innovation of START lies in its self-learning framework, which comprises two key techniques: 1) Hint-infer: We demonstrate that inserting artificially designed hints (e.g., “Wait, maybe using Python here is a good idea.”) during the inference process of a LRM effectively stimulates its ability to utilize external tools without the need for any demonstration data. Hint-infer can also serve as a simple and effective sequential test-time scaling method; 2) Hint Rejection Sampling Fine-Tuning (Hint-RFT): Hint-RFT combines Hint-infer and RFT by scoring, filtering, and modifying the reasoning trajectories with tool invocation generated by a LRM via Hint-infer, followed by fine-tuning the LRM. Through this framework, we have fine-tuned the QwQ-32B model to achieve START. On PhD-level science QA (GPQA), competition-level math benchmarks (AMC23, AIME24, AIME25), and the competition-level code benchmark (LiveCodeBench), START achieves accuracy rates of 63.6%, 95.0%, 66.7%, 47.1%, and 47.3%, respectively. It significantly outperforms the base QwQ-32B and achieves performance comparable to the state-of-the-art open-weight model R1-Distill-Qwen-32B and the proprietary model o1-Preview.

arxiv情報

著者 Chengpeng Li,Mingfeng Xue,Zhenru Zhang,Jiaxi Yang,Beichen Zhang,Xiang Wang,Bowen Yu,Binyuan Hui,Junyang Lin,Dayiheng Liu
発行日 2025-03-07 18:13:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | START: Self-taught Reasoner with Tools はコメントを受け付けていません

Spatial regularisation for improved accuracy and interpretability in keypoint-based registration

要約

監視されていない登録戦略は、固定ボリュームと移動されたボリューム間の類似性メトリックを最適化することにより、グラウンドトゥルースの変換またはセグメンテーションの要件をバイパスします。
これらの方法の中で、監視されていないキーポイント検出に基づいたアプローチの最近のサブクラスは、解釈可能性を非常に有望であると際立っています。
具体的には、これらのメソッドは、固定および移動する画像の機能マップを予測するためのネットワークをトレーニングします。この画像は、説明可能な質量の中心を計算して点雲を取得し、閉じた形状で整列します。
ただし、ネットワークによって返される機能は、多くの場合、解釈が難しい空間的に拡散したパターンを生成し、キーポイントベースの登録の目的を損なうことがよくあります。
ここでは、機能の空間分布を正規化するために3倍の損失を提案します。
まず、KL Divergenceを使用して、確率的キーポイントとして解釈するポイントスプレッド関数として特徴をモデル化します。
次に、これらの機能の空間分布をシャープにして、検出されたランドマークの精度を高めます。
最後に、空間的多様性を促進するために、キーポイント全体に新しい反発的損失を導入します。
全体として、私たちの損失は、現在では正確で解剖学的に意味のあるランドマークに対応する機能の解釈可能性を大幅に改善します。
胎児の剛性モーショントラッキングと脳MRIアフィン登録タスクの3つの損失を示します。ここでは、最先端の非監視されていない戦略を上回るだけでなく、最先端の監視方法でギャップを埋めます。
当社のコードは、https://github.com/benbillot/spatial_ reguliveisationで入手できます。

要約(オリジナル)

Unsupervised registration strategies bypass requirements in ground truth transforms or segmentations by optimising similarity metrics between fixed and moved volumes. Among these methods, a recent subclass of approaches based on unsupervised keypoint detection stand out as very promising for interpretability. Specifically, these methods train a network to predict feature maps for fixed and moving images, from which explainable centres of mass are computed to obtain point clouds, that are then aligned in closed-form. However, the features returned by the network often yield spatially diffuse patterns that are hard to interpret, thus undermining the purpose of keypoint-based registration. Here, we propose a three-fold loss to regularise the spatial distribution of the features. First, we use the KL divergence to model features as point spread functions that we interpret as probabilistic keypoints. Then, we sharpen the spatial distributions of these features to increase the precision of the detected landmarks. Finally, we introduce a new repulsive loss across keypoints to encourage spatial diversity. Overall, our loss considerably improves the interpretability of the features, which now correspond to precise and anatomically meaningful landmarks. We demonstrate our three-fold loss in foetal rigid motion tracking and brain MRI affine registration tasks, where it not only outperforms state-of-the-art unsupervised strategies, but also bridges the gap with state-of-the-art supervised methods. Our code is available at https://github.com/BenBillot/spatial_regularisation.

arxiv情報

著者 Benjamin Billot,Ramya Muthukrishnan,Esra Abaci-Turk,P. Ellen Grant,Nicholas Ayache,Hervé Delingette,Polina Golland
発行日 2025-03-07 15:51:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Spatial regularisation for improved accuracy and interpretability in keypoint-based registration はコメントを受け付けていません

Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size

要約

エントロピー加重量子化(EWQ)を使用して、大規模な言語モデル(LLMS)の構造固有およびサイズ依存の圧縮法の制限を超越する選択モデル量子化に対する新しいアプローチを提示します。
変圧器ブロック全体のエントロピー分布を分析することにより、EWQは、モデルアーキテクチャやサイズとは無関係に、かなりの性能劣化を引き起こすことなく安全に量子化できるブロックを決定します。
私たちの方法は、均一な量子化アプローチよりも優れており、重要なモデルの0.5%内で大規模なマルチタスク言語理解(MMLU)精度スコアを維持しながら、メモリの使用量を最大18%削減します。
1.6bから70bパラメーターまでの複数のアーキテクチャにわたるEWQの有効性を実証し、モデルスケールやアーキテクチャの設計に関係なく、品質圧縮トレードオフの一貫した改善を示します。
EWQの驚くべき発見は、未定量のモデルと比較して困惑を軽減する能力であり、選択的精密削減による有益な正則化の存在を示唆しています。
この改善は、さまざまなモデルファミリ全体でもたらされ、レイヤーレベルのエントロピーと最適な精度要件との根本的な関係を示しています。
さらに、モデルの重みをロードする必要性を排除するエントロピー分布分析の迅速な方法であるFasteWQを紹介します。
この手法は、さまざまなアーキテクチャやスケール全体にわたって持続するエントロピー分布の普遍的な特性を活用し、完全なエントロピー分析で80%の分類精度を維持しながら、吸気型の量子化決定を可能にします。
我々の結果は、効果的な量子化戦略を特定の建築の選択またはモデルサイズとは無関係に開発し、効率的なLLM展開の新しい可能性を開始できることを示しています。

要約(オリジナル)

We present a novel approach to selective model quantization that transcends the limitations of architecture-specific and size-dependent compression methods for Large Language Models (LLMs) using Entropy-Weighted Quantization (EWQ). By analyzing the entropy distribution across transformer blocks, EWQ determines which blocks can be safely quantized without causing significant performance degradation, independent of model architecture or size. Our method outperforms uniform quantization approaches, maintaining Massive Multitask Language Understanding (MMLU) accuracy scores within 0.5% of unquantized models while reducing memory usage by up to 18%. We demonstrate the effectiveness of EWQ across multiple architectures — from 1.6B to 70B parameters — and showcase consistent improvements in the quality-compression trade-off regardless of model scale or architectural design. A surprising finding of EWQ is its ability to reduce perplexity compared to unquantized models, suggesting the presence of beneficial regularization through selective precision reduction. This improvement holds across different model families, indicating a fundamental relationship between layer-level entropy and optimal precision requirements. Additionally, we introduce FastEWQ, a rapid method for entropy distribution analysis that eliminates the need for loading model weights. This technique leverages universal characteristics of entropy distribution that persist across various architectures and scales, enabling near-instantaneous quantization decisions while maintaining 80% classification accuracy with full entropy analysis. Our results demonstrate that effective quantization strategies can be developed independently of specific architectural choices or model sizes, opening new possibilities for efficient LLM deployment.

arxiv情報

著者 Alireza Behtash,Marijan Fofonjka,Ethan Baird,Tyler Mauer,Hossein Moghimifam,David Stout,Joel Dennison
発行日 2025-03-07 15:12:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | Universality of Layer-Level Entropy-Weighted Quantization Beyond Model Architecture and Size はコメントを受け付けていません

Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models

要約

大規模な言語モデル(LLMS)および視覚言語モデル(VLM)の最近の進歩は、ロボット工学に大きな影響を与え、高レベルのセマンティックモーションプランニングアプリケーションを可能にします。
補完的なパラダイムである強化学習(RL)は、エージェントが相互作用と報酬シグナルを通じて複雑な動作を自律的に最適化することを可能にします。
ただし、RLの効果的な報酬機能の設計は、特にまばらな報酬が不十分で密集した報酬が必要な実世界のタスクでは、精巧な設計が必要です。
この作業では、自然言語のタスクの説明から直接報酬機能を生成するために、訓練を受けたLLMであるGPT-4をレバレッジする監視なしのパイプラインである複雑なヒト形成環境(Archie)の自律強化学習を提案します。
報酬は、シミュレートされた環境でRLエージェントをトレーニングするために使用されます。この環境では、実現可能性を高めるために報酬生成プロセスを形式化します。
さらに、GPT-4は、タスクの成功基準のコーディングを自動化し、人間が読みやすいテキストを展開可能なロボットスキルに変換するための完全に自動化されたワンショット手順を作成します。
私たちのアプローチは、ABBユミの共同ロボットを使用した単一腕および双方数の操作タスクに関する広範なシミュレーション実験を通じて検証され、その実用性と有効性を強調しています。
実際のロボットのセットアップでタスクが実証されています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) and Visual Language Models (VLMs) have significantly impacted robotics, enabling high-level semantic motion planning applications. Reinforcement Learning (RL), a complementary paradigm, enables agents to autonomously optimize complex behaviors through interaction and reward signals. However, designing effective reward functions for RL remains challenging, especially in real-world tasks where sparse rewards are insufficient and dense rewards require elaborate design. In this work, we propose Autonomous Reinforcement learning for Complex HumanInformed Environments (ARCHIE), an unsupervised pipeline leveraging GPT-4, a pre-trained LLM, to generate reward functions directly from natural language task descriptions. The rewards are used to train RL agents in simulated environments, where we formalize the reward generation process to enhance feasibility. Additionally, GPT-4 automates the coding of task success criteria, creating a fully automated, one-shot procedure for translating human-readable text into deployable robot skills. Our approach is validated through extensive simulated experiments on single-arm and bi-manual manipulation tasks using an ABB YuMi collaborative robot, highlighting its practicality and effectiveness. Tasks are demonstrated on the real robot setup.

arxiv情報

著者 Niccolò Turcato,Matteo Iovino,Aris Synodinos,Alberto Dalla Libera,Ruggero Carli,Pietro Falco
発行日 2025-03-07 10:06:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation with Large Language Models はコメントを受け付けていません

TACO: General Acrobatic Flight Control via Target-and-Command-Oriented Reinforcement Learning

要約

アクロバティックな飛行制御は広範囲に研究されていますが、既存の方法の重要な制限の1つは、通常、特定の操作タスクに制限されており、フライトパターンパラメーターをオンラインで変更できないことです。
この作業では、ターゲットとコマンド指向の強化学習(TACO)フレームワークを提案します。これは、異なる操作タスクを統一された方法で処理し、オンラインパラメーターの変更を可能にすることができます。
さらに、ポリシーの時間的および空間的な滑らかさ、独立性、および対称性を高めるために、入出力の再スケーリングを備えたスペクトル正規化方法を提案し、それによりSIMからリアルのギャップを克服します。
大規模なシミュレーションと現実世界の実験を通じてTACOアプローチを検証し、高速循環フライトと連続的なマルチフリップを達成する能力を実証します。

要約(オリジナル)

Although acrobatic flight control has been studied extensively, one key limitation of the existing methods is that they are usually restricted to specific maneuver tasks and cannot change flight pattern parameters online. In this work, we propose a target-and-command-oriented reinforcement learning (TACO) framework, which can handle different maneuver tasks in a unified way and allows online parameter changes. Additionally, we propose a spectral normalization method with input-output rescaling to enhance the policy’s temporal and spatial smoothness, independence, and symmetry, thereby overcoming the sim-to-real gap. We validate the TACO approach through extensive simulation and real-world experiments, demonstrating its capability to achieve high-speed circular flights and continuous multi-flips.

arxiv情報

著者 Zikang Yin,Canlun Zheng,Shiliang Guo,Zhikun Wang,Shiyu Zhao
発行日 2025-03-07 06:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | TACO: General Acrobatic Flight Control via Target-and-Command-Oriented Reinforcement Learning はコメントを受け付けていません

No Forgetting Learning: Memory-free Continual Learning

要約

継続的な学習(CL)は依然として深い学習の中心的な課題であり、モデルは以前のタスクの壊滅的な忘却(CF)を緩和しながら、新しい知識を順次獲得する必要があります。
既存のアプローチは、多くの場合、効率とスケーラビリティと格闘しており、広範なメモリまたはモデルバッファを必要とします。
この作業では、「忘れられない学習」(NFL)を紹介します。これは、可塑性を維持しながら安定性を維持するために知識の蒸留を活用するメモリフリーCLフレームワークです。
メモリフリーとは、NFLがメモリバッファーに依存しないことを意味します。
3つのベンチマークデータセットの広範な評価を通じて、NFLは最先端の方法よりも約14.75倍少ないメモリを利用しながら競争力のあるパフォーマンスを達成することを実証します。
さらに、CLの可塑性安定性トレードオフをより適切に評価するために、新しいメトリックを導入します。

要約(オリジナル)

Continual Learning (CL) remains a central challenge in deep learning, where models must sequentially acquire new knowledge while mitigating Catastrophic Forgetting (CF) of prior tasks. Existing approaches often struggle with efficiency and scalability, requiring extensive memory or model buffers. This work introduces “No Forgetting Learning’ (NFL), a memory-free CL framework that leverages knowledge distillation to maintain stability while preserving plasticity. Memory-free means the NFL does not rely on any memory buffer. Through extensive evaluations of three benchmark datasets, we demonstrate that NFL achieves competitive performance while utilizing approximately 14.75 times less memory than state-of-the-art methods. Furthermore, we introduce a new metric to better assess CL’s plasticity-stability trade-off.

arxiv情報

著者 Mohammad Ali Vahedifar,Qi Zhang
発行日 2025-03-07 09:18:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | No Forgetting Learning: Memory-free Continual Learning はコメントを受け付けていません

DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module

要約

私たちは、小学校、数学の問題を提示する短いテキストのデータセットであるGSM8Kの推論を見ていきます。
Mirzadeh et al。
(2024)、データセットの現在のLLMの進行は、より良い推論ではなく、より広範な事前トレーニングデータ分布への暴露によって説明される可能性があります。
次に、データまたは劣等なトレーニングの理由であるモデルを支援するための新しい情報ソースを紹介します:談話構造。
談話構造は、LLAMA2 13Bなどのモデルのパフォーマンスを最大160%改善することを示しています。
データセットを記憶している可能性が最も高いモデルでさえ、モデルに談話構造情報を追加すると、予測が改善され、分布の例での大きなモデルパフォーマンスが劇的に向上します。

要約(オリジナル)

We look at reasoning on GSM8k, a dataset of short texts presenting primary school, math problems. We find, with Mirzadeh et al. (2024), that current LLM progress on the data set may not be explained by better reasoning but by exposure to a broader pretraining data distribution. We then introduce a novel information source for helping models with less data or inferior training reason better: discourse structure. We show that discourse structure improves performance for models like Llama2 13b by up to 160%. Even for models that have most likely memorized the data set, adding discourse structural information to the model still improves predictions and dramatically improves large model performance on out of distribution examples.

arxiv情報

著者 Krish Sharma,Niyar R Barman,Akshay Chaturvedi,Nicholas Asher
発行日 2025-03-07 08:19:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | DIMSUM: Discourse in Mathematical Reasoning as a Supervision Module はコメントを受け付けていません

Fundamental Limits of Hierarchical Secure Aggregation with Cyclic User Association

要約

セキュアな集約は、クラウドサーバーが多数のクライアントのローカル訓練を受けたモデルの平均モデル(つまり、深いニューラルネットワークの重み)を計算することを目的としている連合学習(FL)によって動機付けられています。
階層セキュア集約(HSA)は、この概念を3層ネットワークに拡張し、クラスター化されたユーザーが中間層のリレーを介してサーバーと通信します。
HSAでは、従来のサーバーセキュリティを超えて、リレーセキュリティは、リレーがユーザーの入力(フロリダ州のローカルモデルの抽象化)を忘れないようにするために実施されています。
HSAに関する既存の調査では、各ユーザーは1つのリレーのみに関連付けられていると想定しており、クラスター間ユーザー全体でコーディングの機会を制限して、効率的なコミュニケーションとキー生成を達成しています。
このホワイトペーパーでは、各ユーザーがラップアラウンドの方法で$ b $のリレーに接続されている周期的な関連性パターンを備えたHSAを検討します。
Gradient Codingに触発された入力のメッセージデザインを含む効率的な集約スキームを提案します。非常に重要でないセキュリティキーデザインを備えた分散コンピューティングにおける効率的な通信のための有名な技術です。
また、情報の理論的議論を使用して、最小限の達成可能なコミュニケーションとキーレートに関する新しい逆境を導き出します。

要約(オリジナル)

Secure aggregation is motivated by federated learning (FL) where a cloud server aims to compute an averaged model (i.e., weights of deep neural networks) of the locally-trained models of numerous clients, while adhering to data security requirements. Hierarchical secure aggregation (HSA) extends this concept to a three-layer network, where clustered users communicate with the server through an intermediate layer of relays. In HSA, beyond conventional server security, relay security is also enforced to ensure that the relays remain oblivious to the users’ inputs (an abstraction of the local models in FL). Existing study on HSA assumes that each user is associated with only one relay, limiting opportunities for coding across inter-cluster users to achieve efficient communication and key generation. In this paper, we consider HSA with a cyclic association pattern where each user is connected to $B$ consecutive relays in a wrap-around manner. We propose an efficient aggregation scheme which includes a message design for the inputs inspired by gradient coding-a well-known technique for efficient communication in distributed computing-along with a highly nontrivial security key design. We also derive novel converse bounds on the minimum achievable communication and key rates using information-theoretic arguments.

arxiv情報

著者 Xiang Zhang,Zhou Li,Kai Wan,Hua Sun,Mingyue Ji,Giuseppe Caire
発行日 2025-03-07 10:01:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.DC, cs.IT, math.IT | Fundamental Limits of Hierarchical Secure Aggregation with Cyclic User Association はコメントを受け付けていません

LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation

要約

大規模な言語モデル(LLM)の推論能力を評価することは、評価ベンチマークのデータ露出により、過大評価の影響を受けやすくなります。
モデルのパフォーマンス推定における記憶の効果を軽減する言語的推論問題を生み出すためのフレームワークを紹介し、このフレームワークを適用して、言語的推論のための挑戦的なベンチマークであるLingoly-Tooを開発します。
正書法のテンプレートを開発することにより、実際の言語のライティングシステムを動的に難読化して、多大な違いを生み出します。
これらのバリエーションは、モデルトレーニングデータに表示される特定の問題インスタンスの可能性を減らしながら、各ソリューションに必要な推論手順を維持します。
私たちの実験は、Claud 3.7 Sonnet、O1-Preview、Deepseek R1を含むフロンティアモデルが高度な推論に苦しんでいることを示しています。
また、私たちの分析は、LLMが同じ問題の順列全体で精度の顕著な分散を示すことを示しており、元の正書法に表示される質問で平均的にパフォーマンスを発揮します。
私たちの調査結果は、LLMSにおける応答生成の不透明な性質を強調し、以前のデータ曝露がフロンティアモデルの推論能力の推定に貢献しているという証拠を提供します。

要約(オリジナル)

Assessing the reasoning capabilities of large language models (LLMs) is susceptible to overestimation due to data exposure of evaluation benchmarks. We introduce a framework for producing linguistic reasoning problems that reduces the effect of memorisation in model performance estimates and apply this framework to develop LINGOLY-TOO, a challenging benchmark for linguistic reasoning. By developing orthographic templates, we dynamically obfuscate the writing systems of real languages to generate numerousquestion variations. These variations preserve the reasoning steps required for each solution while reducing the likelihood of specific problem instances appearing in model training data. Our experiments demonstrate that frontier models, including Claud 3.7 Sonnet, o1-preview and DeepSeek R1, struggle with advanced reasoning. Our analysis also shows that LLMs exhibit noticeable variance in accuracy across permutations of the same problem, and on average perform better on questions appearing in their original orthography. Our findings highlight the opaque nature of response generation in LLMs and provide evidence that prior data exposure contributes to over estimating the reasoning capabilities of frontier models.

arxiv情報

著者 Jude Khouja,Karolina Korgul,Simi Hellsten,Lingyi Yang,Vlad Neacsu,Harry Mayne,Ryan Kearns,Andrew Bean,Adam Mahdi
発行日 2025-03-07 09:31:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | LINGOLY-TOO: Disentangling Memorisation from Reasoning with Linguistic Templatisation and Orthographic Obfuscation はコメントを受け付けていません

Question-Aware Gaussian Experts for Audio-Visual Question Answering

要約

視聴覚質問応答(AVQA)には、質問に基づいたマルチモーダル推論だけでなく、正確な予測のために微妙なダイナミクスをキャプチャするための正確な時間的接地も必要です。
ただし、既存の方法は主に質問情報を暗黙的に使用し、質問固有の詳細に焦点を当てます。
さらに、ほとんどの研究は、重要な質問関連フレームを見逃す可能性がある均一なフレームサンプリングに依存しています。
最近のTop-Kフレーム選択方法はこれに対処することを目的としていますが、それらの個別の性質は依然としてきめの細かい一時的な詳細を見落としています。
このペーパーでは、質問情報とモデルの連続時間的ダイナミクスを明示的に組み込んだ新しいフレームワークであるQA-Tigerを提案します。
私たちの重要なアイデアは、ガウスベースのモデリングを使用して、質問に基づいて連続したフレームと非継続的なフレームの両方に適応的に焦点を当て、質問情報を明示的に注入し、漸進的な改良を適用することです。
専門家(MOE)の混合物を活用して、複数のガウスモデルを柔軟に実装し、質問に特化した一時的な専門家を活性化します。
複数のAVQAベンチマークでの広範な実験は、QAタイガーが常に最先端のパフォーマンスを達成することを示しています。
コードはhttps://aim-skku.github.io/qa-tiger/で入手できます

要約(オリジナル)

Audio-Visual Question Answering (AVQA) requires not only question-based multimodal reasoning but also precise temporal grounding to capture subtle dynamics for accurate prediction. However, existing methods mainly use question information implicitly, limiting focus on question-specific details. Furthermore, most studies rely on uniform frame sampling, which can miss key question-relevant frames. Although recent Top-K frame selection methods aim to address this, their discrete nature still overlooks fine-grained temporal details. This paper proposes QA-TIGER, a novel framework that explicitly incorporates question information and models continuous temporal dynamics. Our key idea is to use Gaussian-based modeling to adaptively focus on both consecutive and non-consecutive frames based on the question, while explicitly injecting question information and applying progressive refinement. We leverage a Mixture of Experts (MoE) to flexibly implement multiple Gaussian models, activating temporal experts specifically tailored to the question. Extensive experiments on multiple AVQA benchmarks show that QA-TIGER consistently achieves state-of-the-art performance. Code is available at https://aim-skku.github.io/QA-TIGER/

arxiv情報

著者 Hongyeob Kim,Inyoung Jung,Dayoon Suh,Youjia Zhang,Sangmin Lee,Sungeun Hong
発行日 2025-03-07 09:27:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Question-Aware Gaussian Experts for Audio-Visual Question Answering はコメントを受け付けていません