A Monocular Event-Camera Motion Capture System

要約

モーションキャプチャシステムは、オブジェクトの根本的なポーズを記録するための研究における広範なツールです。
商用システムは、オブジェクトに取り付けられた反射マーカーを使用し、複数のカメラビューからオブジェクトのポーズを三角測量します。
その結果、オブジェクトは複数のカメラに表示される必要があります。これにより、このようなマルチビューモーションキャプチャシステムは、狭い閉じ込められたスペース(船のバラストタンクなど)の展開に適していません。
このテクニカルレポートでは、この制限を克服し、狭いスペースに理想的な単眼イベントカメラモーションキャプチャシステムについて説明します。
パッシブマーカーの代わりに、各マーカーを点滅周波数から一意に識別できるように、アクティブで点滅するLEDマーカーに依存します。
マーカーは、追跡オブジェクトの既知の場所に配置されます。
次に、PNP(Perspective-N-Points)問題を解決して、オブジェクトの位置と方向を取得します。
開発されたシステムには、ミリメートルの精度、ミリ秒のレイテンシがあり、その状態の推定値を使用して小さくてアジャイルな四角体を飛行できることを示しています。

要約(オリジナル)

Motion capture systems are a widespread tool in research to record ground-truth poses of objects. Commercial systems use reflective markers attached to the object and then triangulate pose of the object from multiple camera views. Consequently, the object must be visible to multiple cameras which makes such multi-view motion capture systems unsuited for deployments in narrow, confined spaces (e.g. ballast tanks of ships). In this technical report we describe a monocular event-camera motion capture system which overcomes this limitation and is ideally suited for narrow spaces. Instead of passive markers it relies on active, blinking LED markers such that each marker can be uniquely identified from the blinking frequency. The markers are placed at known locations on the tracking object. We then solve the PnP (perspective-n-points) problem to obtain the position and orientation of the object. The developed system has millimeter accuracy, millisecond latency and we demonstrate that its state estimate can be used to fly a small, agile quadrotor.

arxiv情報

著者 Leonard Bauersfeld,Davide Scaramuzza
発行日 2025-02-17 18:38:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | A Monocular Event-Camera Motion Capture System はコメントを受け付けていません

PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection

要約

ビジュアルインストラクションチューニングにより、事前に訓練されたマルチモーダル大手言語モデル(MLLM)を改良して、実際のタスクパフォ​​ーマンスを向上させます。
ただし、視覚命令データセットの急速な拡大により、重要なデータ冗長性が導入され、過度の計算コストが発生します。
既存のデータ選択方法は、主にプロキシモデルまたは損失ベースのメトリックに依存しており、どちらもモデル推論とバックプロパゲーションの必要性のためにかなりの計算オーバーヘッドを課します。
この課題に対処するために、効率的なマルチモーダルデータ選択のための新しいトレーニングなしのアプローチであるPrismを提案します。
既存の方法とは異なり、Prismはプロキシモデル、ウォームアップ前orain、勾配ベースの最適化への依存を排除​​します。
代わりに、ピアソン相関分析を活用してMLLMの固有の視覚エンコード特性を定量化し、タスク固有の相関スコアを計算して高価値インスタンスを識別します。
これは、データ効率の高い選択だけでなく、元のパフォーマンスを維持します。
複数のMLLMにわたる経験的評価は、プリズムが視覚指導の調整とデータ選択に必要な全体の時間を従来の方法の30%に短縮することを示しています。
最終的なパフォーマンスで。

要約(オリジナル)

Visual instruction tuning refines pre-trained Multimodal Large Language Models (MLLMs) to enhance their real-world task performance. However, the rapid expansion of visual instruction datasets introduces significant data redundancy, leading to excessive computational costs. Existing data selection methods predominantly rely on proxy models or loss-based metrics, both of which impose substantial computational overheads due to the necessity of model inference and backpropagation. To address this challenge, we propose PRISM, a novel training-free approach for efficient multimodal data selection. Unlike existing methods, PRISM eliminates the reliance on proxy models, warm-up pretraining, and gradient-based optimization. Instead, it leverages Pearson correlation analysis to quantify the intrinsic visual encoding properties of MLLMs, computing a task-specific correlation score to identify high-value instances. This not only enbles data-efficient selection,but maintains the original performance. Empirical evaluations across multiple MLLMs demonstrate that PRISM reduces the overall time required for visual instruction tuning and data selection to just 30% of conventional methods, while surpassing fully fine-tuned models across eight multimodal and three language understanding benchmarks, achieving a 101.7% relative improvement in final performance.

arxiv情報

著者 Jinhe Bi,Yifan Wang,Danqi Yan,Xun Xiao,Artur Hecker,Volker Tresp,Yunpu Ma
発行日 2025-02-17 18:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | PRISM: Self-Pruning Intrinsic Selection Method for Training-Free Multimodal Data Selection はコメントを受け付けていません

MagicArticulate: Make Your 3D Models Articulation-Ready

要約

3Dコンテンツ作成の爆発的な成長により、静的3Dモデルを自動的に現実的なアニメーションをサポートするARTICULATION-READYバージョンに変換するという需要が増加しています。
従来のアプローチは、時間がかかり、労働集約的な手動注釈に大きく依存しています。
さらに、大規模なベンチマークの欠如は、学習ベースのソリューションの開発を妨げています。
この作業では、静的3Dモデルをアーティキュレーション対応資産に自動的に変換する効果的なフレームワークであるMagicArticulateを提示します。
私たちの重要な貢献は3つあります。
まず、Objaverse-XLから慎重にキュレーションされた高品質のアーティキュレーション注釈を備えた33Kを超える3Dモデルを含む大規模なベンチマークであるArticulation-XLを紹介します。
第二に、タスクをシーケンスモデリングの問題として定式化する新しいスケルトン生成方法を提案し、自動回帰トランスを活用して、スケルトン内のさまざまな数の骨またはジョイントと、異なる3Dモデルにわたって固有の依存関係を自然に処理します。
第三に、頂点とジョイントの間に体積測地線距離前の距離を組み込んだ機能的拡散プロセスを使用して、スキニングウェイトを予測します。
広範な実験は、Magicarticulationが多様なオブジェクトカテゴリ全体で既存の方法を大幅に上回ることを示しており、現実的なアニメーションを可能にする高品質の明確化を実現しています。
プロジェクトページ:https://chaoyuesong.github.io/magicarticulate。

要約(オリジナル)

With the explosive growth of 3D content creation, there is an increasing demand for automatically converting static 3D models into articulation-ready versions that support realistic animation. Traditional approaches rely heavily on manual annotation, which is both time-consuming and labor-intensive. Moreover, the lack of large-scale benchmarks has hindered the development of learning-based solutions. In this work, we present MagicArticulate, an effective framework that automatically transforms static 3D models into articulation-ready assets. Our key contributions are threefold. First, we introduce Articulation-XL, a large-scale benchmark containing over 33k 3D models with high-quality articulation annotations, carefully curated from Objaverse-XL. Second, we propose a novel skeleton generation method that formulates the task as a sequence modeling problem, leveraging an auto-regressive transformer to naturally handle varying numbers of bones or joints within skeletons and their inherent dependencies across different 3D models. Third, we predict skinning weights using a functional diffusion process that incorporates volumetric geodesic distance priors between vertices and joints. Extensive experiments demonstrate that MagicArticulate significantly outperforms existing methods across diverse object categories, achieving high-quality articulation that enables realistic animation. Project page: https://chaoyuesong.github.io/MagicArticulate.

arxiv情報

著者 Chaoyue Song,Jianfeng Zhang,Xiu Li,Fan Yang,Yiwen Chen,Zhongcong Xu,Jun Hao Liew,Xiaoyang Guo,Fayao Liu,Jiashi Feng,Guosheng Lin
発行日 2025-02-17 18:53:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR | MagicArticulate: Make Your 3D Models Articulation-Ready はコメントを受け付けていません

FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views

要約

FLAREは、高品質のカメラのポーズと3Dジオメトリを推測するように設計されたフィードフォワードモデルであるFlareを提示します。

私たちのソリューションは、カメラポーズが重要なブリッジとして機能するカスケード学習パラダイムを特徴としており、3D構造を2D画像プレーンにマッピングする上でその重要な役割を認識しています。
具体的には、フレアはカメラのポーズ推定から始まり、その結果は、幾何学の再構築と新規ビュー統合の目的を通じて最適化された幾何学的構造と外観のその後の学習を条件としています。
トレーニング用の大規模なパブリックデータセットを利用して、私たちの方法は、推論効率を維持しながら、ポーズ推定、ジオメトリ再構成、新しいビュー合成のタスクで最先端のパフォーマンスを提供します(つまり、0.5秒未満)。
プロジェクトページとコードは、https://zhanghe3z.github.io/flare/にあります。

要約(オリジナル)

We present FLARE, a feed-forward model designed to infer high-quality camera poses and 3D geometry from uncalibrated sparse-view images (i.e., as few as 2-8 inputs), which is a challenging yet practical setting in real-world applications. Our solution features a cascaded learning paradigm with camera pose serving as the critical bridge, recognizing its essential role in mapping 3D structures onto 2D image planes. Concretely, FLARE starts with camera pose estimation, whose results condition the subsequent learning of geometric structure and appearance, optimized through the objectives of geometry reconstruction and novel-view synthesis. Utilizing large-scale public datasets for training, our method delivers state-of-the-art performance in the tasks of pose estimation, geometry reconstruction, and novel view synthesis, while maintaining the inference efficiency (i.e., less than 0.5 seconds). The project page and code can be found at: https://zhanghe3z.github.io/FLARE/

arxiv情報

著者 Shangzhan Zhang,Jianyuan Wang,Yinghao Xu,Nan Xue,Christian Rupprecht,Xiaowei Zhou,Yujun Shen,Gordon Wetzstein
発行日 2025-02-17 18:54:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views はコメントを受け付けていません

Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

要約

サンプリングの軌跡を最適化することにより、下流のアライメントを強化する微調整アプローチである拡散シャープニングを提案します。
既存のRLベースの微調整方法は、単一のトレーニングタイムステップに焦点を当て、軌道レベルのアラインメントを無視しますが、最近のサンプリング軌道最適化方法は、重要な推論NFEコストを受けます。
拡散シャプニングは、パス積分フレームワークを使用してトレーニング中に最適な軌跡を選択し、報酬フィードバックを活用し、推論コストを償却することにより、これを克服します。
私たちの方法は、追加のNFEを必要とせずに、収束を速くし、最良の推論効率を備えた優れたトレーニング効率を示しています。
広範な実験では、拡散シャプニングがRLベースの微調整方法(拡散-DPOなど)とサンプリング軌道最適化方法(例:推論スケーリング)が、テキストアライメント、構成機能、人間の好みを含む多様なメトリック全体にわたって優れていることが示されています。
将来の拡散モデルの微調整のための効率的なソリューション。
コード:https://github.com/gen-verse/diffusion-sharpening

要約(オリジナル)

We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening

arxiv情報

著者 Ye Tian,Ling Yang,Xinchen Zhang,Yunhai Tong,Mengdi Wang,Bin Cui
発行日 2025-02-17 18:57:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening はコメントを受け付けていません

HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

要約

自己回帰パラダイムの顕著な成功により、Multimodal大言語モデル(MLLMS)で大きな進歩が生じ、Show-O、Transfusion、EMU3などの強力なモデルが統一された画像の理解と生成の顕著な進歩を達成しています。
初めて、一般的な現象を明らかにします。MLLMの理解能力は、通常、生成能力よりも強く、2つの間に大きなギャップがあります。
この洞察に基づいて、MLLMSの理解と生成の間のギャップをシームレスに埋めるように設計されたシンプルでありながら一般的なフレームワークであるHermesflowを提案します。
具体的には、理解と生成の両方の相同選好データをキュレートするための入力として相同データを取得します。
ペア-DPOおよびセルフプレイの反復最適化により、HermesFlowは相同選好データを使用してマルチモーダルの理解と生成を効果的に整列させます。
広範な実験は、特にマルチモーダルの理解と生成の間のギャップを狭める際に、以前の方法よりもアプローチの重要な優位性を示しています。
これらの調査結果は、次世代マルチモーダルファンデーションモデルの一般的なアライメントフレームワークとしてのHermesflowの可能性を強調しています。
コード:https://github.com/gen-verse/hermesflow

要約(オリジナル)

The remarkable success of the autoregressive paradigm has made significant advancement in Multimodal Large Language Models (MLLMs), with powerful models like Show-o, Transfusion and Emu3 achieving notable progress in unified image understanding and generation. For the first time, we uncover a common phenomenon: the understanding capabilities of MLLMs are typically stronger than their generative capabilities, with a significant gap between the two. Building on this insight, we propose HermesFlow, a simple yet general framework designed to seamlessly bridge the gap between understanding and generation in MLLMs. Specifically, we take the homologous data as input to curate homologous preference data of both understanding and generation. Through Pair-DPO and self-play iterative optimization, HermesFlow effectively aligns multimodal understanding and generation using homologous preference data. Extensive experiments demonstrate the significant superiority of our approach over prior methods, particularly in narrowing the gap between multimodal understanding and generation. These findings highlight the potential of HermesFlow as a general alignment framework for next-generation multimodal foundation models. Code: https://github.com/Gen-Verse/HermesFlow

arxiv情報

著者 Ling Yang,Xinchen Zhang,Ye Tian,Chenming Shang,Minghao Xu,Wentao Zhang,Bin Cui
発行日 2025-02-17 18:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation はコメントを受け付けていません

VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution

要約

3Dボリュームビデオは、没入型の体験を提供し、デジタルメディアで牽引力を獲得しています。
人気の高まりにもかかわらず、ボリュームビデオコンテンツのストリーミングは、データ帯域幅の要件が高いため、大きな課題をもたらします。
帯域幅の問題を軽減するための自然なアプローチは、送信前にコンテンツをダウンサンプリングすることにより、体積ビデオのデータレートを下げることです。
その後、ビデオは、スーパー解像度(SR)アルゴリズムを使用してレシーバーの端でアップサンプリングして、高解像度の詳細を再構築できます。
2Dビデオコンテンツのために、超解像度の技術は広範囲に調査され、高度になっていますが、ボリュームビデオに合わせて調整されたSRアルゴリズムの作業は限られています。
このギャップと効率的なボリュームビデオストリーミングの必要性の高まりに対処するために、ボリュームコンテンツ専用に設計された新しいSRアルゴリズムを備えたVolutを開発しました。
私たちのアルゴリズムは、ルックアップテーブル(LUTS)の力を一意に活用して、低解像度の体積データの効率的かつ正確なアップスケーリングを促進します。
LUTSを使用すると、アルゴリズムが事前に計算された高解像度値を迅速に参照できるため、アップスケーリングに必要な計算の複雑さと時間を大幅に削減できます。
さらに、適応型ビデオビットレートアルゴリズム(ABR)を適用して、ネットワーク条件に応じたダウンサンプリングレートを動的に決定し、選択したビデオレートをレシーバーにストリーミングします。
関連する作業と比較して、Volutは、ラインレートでコモディティモバイルデバイスで高品質の3D SRを有効にする最初のものです。
私たちの評価によると、Volutは帯域幅の使用量を70%削減し、QOEを36.7%増加させ、ボリュームビデオストリーミングで36.7%増加し、品質の妥協なしで3D SRスピードアップを達成できます。

要約(オリジナル)

3D volumetric video provides immersive experience and is gaining traction in digital media. Despite its rising popularity, the streaming of volumetric video content poses significant challenges due to the high data bandwidth requirement. A natural approach to mitigate the bandwidth issue is to reduce the volumetric video’s data rate by downsampling the content prior to transmission. The video can then be upsampled at the receiver’s end using a super-resolution (SR) algorithm to reconstruct the high-resolution details. While super-resolution techniques have been extensively explored and advanced for 2D video content, there is limited work on SR algorithms tailored for volumetric videos. To address this gap and the growing need for efficient volumetric video streaming, we have developed VoLUT with a new SR algorithm specifically designed for volumetric content. Our algorithm uniquely harnesses the power of lookup tables (LUTs) to facilitate the efficient and accurate upscaling of low-resolution volumetric data. The use of LUTs enables our algorithm to quickly reference precomputed high-resolution values, thereby significantly reducing the computational complexity and time required for upscaling. We further apply adaptive video bit rate algorithm (ABR) to dynamically determine the downsampling rate according to the network condition and stream the selected video rate to the receiver. Compared to related work, VoLUT is the first to enable high-quality 3D SR on commodity mobile devices at line-rate. Our evaluation shows VoLUT can reduce bandwidth usage by 70% , boost QoE by 36.7% for volumetric video streaming and achieve 3D SR speed-up with no quality compromise.

arxiv情報

著者 Chendong Wang,Anlan Zhang,Yifan Yang,Lili Qiu,Yuqing Yang,Xinyang Jiang,Feng Qian,Suman Banerjee
発行日 2025-02-17 18:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY | VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution はコメントを受け付けていません

Diffusion Models without Classifier-free Guidance

要約

このホワイトペーパーでは、一般的に使用される分類器のないガイダンス(CFG)に対処および削除する拡散モデルをトレーニングするための新しい目的であるモデルガイダンス(MG)を紹介します。
当社の革新的なアプローチは、条件の事後確率を組み込むために、データ分布のみの標準モデリングを超越しています。
提案された手法はCFGのアイデアに由来し、簡単でありながら効果的であり、既存のモデルのプラグアンドプレイモジュールになります。
私たちの方法は、トレーニングプロセスを大幅に加速し、推論速度を2倍にし、CFGと同時拡散モデルを平行にし、さらには上回る例外的な品質を達成します。
広範な実験は、さまざまなモデルとデータセットでの有効性、効率、スケーラビリティを示しています。
最後に、FID 1.34のImagenet 256ベンチマークで最先端のパフォーマンスを確立します。
私たちのコードは、https://github.com/tzco/diffusion-wo-cfgで入手できます。

要約(オリジナル)

This paper presents Model-guidance (MG), a novel objective for training diffusion model that addresses and removes of the commonly used Classifier-free guidance (CFG). Our innovative approach transcends the standard modeling of solely data distribution to incorporating the posterior probability of conditions. The proposed technique originates from the idea of CFG and is easy yet effective, making it a plug-and-play module for existing models. Our method significantly accelerates the training process, doubles the inference speed, and achieve exceptional quality that parallel and even surpass concurrent diffusion models with CFG. Extensive experiments demonstrate the effectiveness, efficiency, scalability on different models and datasets. Finally, we establish state-of-the-art performance on ImageNet 256 benchmarks with an FID of 1.34. Our code is available at https://github.com/tzco/Diffusion-wo-CFG.

arxiv情報

著者 Zhicong Tang,Jianmin Bao,Dong Chen,Baining Guo
発行日 2025-02-17 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Diffusion Models without Classifier-free Guidance はコメントを受け付けていません

3D Whole-body Grasp Synthesis with Directional Controllability

要約

オブジェクトを現実的に把握する3D全体の体を合成することは、アニメーション、複合現実、ロボット工学に役立ちます。
手と体は自然なW.R.T.
互いに、把握されたオブジェクト、そしてローカルシーン(つまり、オブジェクトをサポートする容器)。
さらに、このタスクのトレーニングデータは非常に不足していますが、新しいデータをキャプチャするのは高価です。
最近の作業は、分割統治アプローチを介して有限のデータセットを超えています。
最初に「ガイド」右手の把握を生成し、次にこれに合った身体を検索します。
ただし、指針の合成には制御可能性と容器の認識が欠けているため、信じられない方向(つまり、体は容器に浸透せずにこれに一致することはできません)を持ち、主要な後処理を通じて修正を必要とします。
さらに、ボディ検索には徹底的なサンプリングが必要であり、高価です。
これらは強い制限です。
CWGRASPと呼ばれる新しい方法でこれらに取り組みます。
私たちの重要なアイデアは、「遅すぎる」ではなく、「早い段階で」「早い段階で」という幾何学ベースの推論を実行することで、推論のための豊富な「コントロール」信号を提供することです。
この目的のために、CWGRASPは、最初に、オブジェクトからのレイキャストと衝突チェックを介して構築された確率モデルから、もっともらしいリーチ方向ベクター(後に腕と手に使用される)をサンプリングします。
さらに、CWGRASPは右手と左手の両方の握りにユニークに取り組んでいます。
GrabおよびReplicAgraspデータセットで評価します。
CWGRASPは、ランタイムと予算の低下でベースラインよりも優れていますが、すべてのコンポーネントはパフォーマンスに役立ちます。
コードとモデルはhttps://gpaschalidis.github.io/cwgraspで入手できます。

要約(オリジナル)

Synthesizing 3D whole bodies that realistically grasp objects is useful for animation, mixed reality, and robotics. This is challenging, because the hands and body need to look natural w.r.t. each other, the grasped object, as well as the local scene (i.e., a receptacle supporting the object). Moreover, training data for this task is really scarce, while capturing new data is expensive. Recent work goes beyond finite datasets via a divide-and-conquer approach; it first generates a ‘guiding’ right-hand grasp, and then searches for bodies that match this. However, the guiding-hand synthesis lacks controllability and receptacle awareness, so it likely has an implausible direction (i.e., a body can’t match this without penetrating the receptacle) and needs corrections through major post-processing. Moreover, the body search needs exhaustive sampling and is expensive. These are strong limitations. We tackle these with a novel method called CWGrasp. Our key idea is that performing geometry-based reasoning ‘early on,’ instead of ‘too late,’ provides rich ‘control’ signals for inference. To this end, CWGrasp first samples a plausible reaching-direction vector (used later for both the arm and hand) from a probabilistic model built via ray-casting from the object and collision checking. Moreover, CWGrasp uniquely tackles both right and left-hand grasps. We evaluate on the GRAB and ReplicaGrasp datasets. CWGrasp outperforms baselines, at lower runtime and budget, while all components help performance. Code and models are available at https://gpaschalidis.github.io/cwgrasp.

arxiv情報

著者 Georgios Paschalidis,Romana Wilschut,Dimitrije Antić,Omid Taheri,Dimitrios Tzionas
発行日 2025-02-17 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D Whole-body Grasp Synthesis with Directional Controllability はコメントを受け付けていません

ORI: O Routing Intelligence

要約

単一の大きな言語モデル(LLM)は、成長し続ける範囲のタスクに直面したときに不足していることが多く、シングルモデルのアプローチが不十分になります。
LLMのセットを活用する動的なフレームワークであるOri(Oルーティングインテリジェンス)を提案することにより、この課題に対処します。
着信クエリを最も適切なモデルにインテリジェントにルーティングすることにより、ORIはタスク固有の精度を向上させるだけでなく、効率を維持します。
多様なベンチマーク全体の包括的な評価は、計算オーバーヘッドを制御しながら一貫した精度の向上を示しています。
Intelligly Routingクエリによって、OriはMMLUで最大2.7ポイント、MUSRで最大2.8ポイント、ARCおよびBBHで最大のパフォーマンスを結び付けます。
これらの結果は、マルチモデル戦略の利点を強調し、ORIの適応アーキテクチャがどのように多様なタスクをより効果的に処理できるかを示し、複数の大手言語モデルのシステムにスケーラブルで高性能ソリューションを提供します。

要約(オリジナル)

Single large language models (LLMs) often fall short when faced with the ever-growing range of tasks, making a single-model approach insufficient. We address this challenge by proposing ORI (O Routing Intelligence), a dynamic framework that leverages a set of LLMs. By intelligently routing incoming queries to the most suitable model, ORI not only improves task-specific accuracy, but also maintains efficiency. Comprehensive evaluations across diverse benchmarks demonstrate consistent accuracy gains while controlling computational overhead. By intelligently routing queries, ORI outperforms the strongest individual models by up to 2.7 points on MMLU and 1.8 points on MuSR, ties the top performance on ARC, and on BBH. These results underscore the benefits of a multi-model strategy and demonstrate how ORI’s adaptive architecture can more effectively handle diverse tasks, offering a scalable, high-performance solution for a system of multiple large language models.

arxiv情報

著者 Ahmad Shadid,Rahul Kumar,Mohit Mayank
発行日 2025-02-17 15:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ORI: O Routing Intelligence はコメントを受け付けていません