A tale of two goals: leveraging sequentiality in multi-goal scenarios

要約

いくつかの階層的強化学習方法は、中間目標のグラフまたはシーケンスを作成するための計画を活用し、いくつかの最終目標を達成するために、低レベルの目標条件付き(GC)ポリシーを導きます。
低レベルのポリシーは、通常、現在の目標に条件付けられており、できるだけ早く到達することを目的としています。
ただし、このアプローチは、中間目標に複数の方法で到達できる場合に失敗する可能性があり、その一部は後続の目標に向かって継続することを不可能にする可能性があります。
この問題に対処するために、最適化の目的が現在の目標に到達するだけでなく、その後の目標にも到達するポリシーを支持するマルコフ決定プロセス(MDP)の2つのインスタンスを紹介します。
1つ目は、エージェントは現在の目標と最終目標の両方に条件付けられ、2番目の目標では、シーケンスの次の2つの目標に条件付けられます。
中間目標のシーケンスが示されているナビゲーションおよびポールバランスタスクに関する一連の実験を実施します。
標準GC-MDPと提案されているMDPの両方でTD3+でトレーニングされたポリシーを評価することにより、ほとんどの場合、次の2つの目標の条件付けにより、他のアプローチよりも安定性とサンプル効率が向上することが示されます。

要約(オリジナル)

Several hierarchical reinforcement learning methods leverage planning to create a graph or sequences of intermediate goals, guiding a lower-level goal-conditioned (GC) policy to reach some final goals. The low-level policy is typically conditioned on the current goal, with the aim of reaching it as quickly as possible. However, this approach can fail when an intermediate goal can be reached in multiple ways, some of which may make it impossible to continue toward subsequent goals. To address this issue, we introduce two instances of Markov Decision Process (MDP) where the optimization objective favors policies that not only reach the current goal but also subsequent ones. In the first, the agent is conditioned on both the current and final goals, while in the second, it is conditioned on the next two goals in the sequence. We conduct a series of experiments on navigation and pole-balancing tasks in which sequences of intermediate goals are given. By evaluating policies trained with TD3+HER on both the standard GC-MDP and our proposed MDPs, we show that, in most cases, conditioning on the next two goals improves stability and sample efficiency over other approaches.

arxiv情報

著者 Olivier Serris,Stéphane Doncieux,Olivier Sigaud
発行日 2025-03-27 16:47:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.LG | A tale of two goals: leveraging sequentiality in multi-goal scenarios はコメントを受け付けていません

A Comprehensive Benchmark for RNA 3D Structure-Function Modeling

要約

RNA構造機能の関係は最近、深い学習コミュニティ内で大きな注目を集めており、核酸構造モデルが前進するにつれて重要性が高まることを約束しています。
ただし、RNA 3D構造の深い学習のための標準化されたアクセス可能なベンチマークがないため、RNA機能特性のモデルの開発が妨げられています。
この作業では、このギャップに対処するために設計されたRNA構造機能予測のための7つのベンチマークデータセットのセットを紹介します。
当社のライブラリは、確立されたPythonライブラリRnaglibの上に構築され、簡単なデータ配布とエンコード、スプリッター、評価方法を提供し、モデルを比較するための便利なオールインワンフレームワークを提供します。
データセットは、完全にモジュール式で再現可能な方法で実装され、コミュニティの貢献とカスタマイズを促進します。
最後に、グラフニューラルネットワークを使用して、すべてのタスクの初期ベースライン結果を提供します。
ソースコード:https://github.com/cgoliver/rnaglibドキュメント:https://rnaglib.org

要約(オリジナル)

The RNA structure-function relationship has recently garnered significant attention within the deep learning community, promising to grow in importance as nucleic acid structure models advance. However, the absence of standardized and accessible benchmarks for deep learning on RNA 3D structures has impeded the development of models for RNA functional characteristics. In this work, we introduce a set of seven benchmarking datasets for RNA structure-function prediction, designed to address this gap. Our library builds on the established Python library rnaglib, and offers easy data distribution and encoding, splitters and evaluation methods, providing a convenient all-in-one framework for comparing models. Datasets are implemented in a fully modular and reproducible manner, facilitating for community contributions and customization. Finally, we provide initial baseline results for all tasks using a graph neural network. Source code: https://github.com/cgoliver/rnaglib Documentation: https://rnaglib.org

arxiv情報

著者 Luis Wyss,Vincent Mallet,Wissam Karroucha,Karsten Borgwardt,Carlos Oliver
発行日 2025-03-27 16:49:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.BM, stat.ML | A Comprehensive Benchmark for RNA 3D Structure-Function Modeling はコメントを受け付けていません

Molecular Quantum Transformer

要約

強力な注意メカニズムで有名なトランスモデルは、さまざまな人工知能タスクで最先端のパフォーマンスを達成していますが、高い計算コストやメモリの使用などの課題に直面しています。
研究者は、変圧器の設計を強化するために量子コンピューティングを調査していますが、古典的なデータではまだ限られた成功を示しています。
量子化学の量子データの量子機械学習を活用することに焦点を当てているため、特に量子化学において、分子量子系の相互作用をモデル化するための分子量子変圧器(MQT)を提案します。
量子回路を利用して分子構成に注意メカニズムを実装することにより、MQTはすべての構成の基本エネルギーを効率的に計算できます。
数値的デモンストレーションは、H_2、LiH、Beh_2、およびH_4の基本エネルギーを計算する際に、MQTが古典的な変圧器を上回り、変圧器構造における量子効果の約束を強調することを示しています。
さらに、多様な分子データでのその事前抑制能力は、新しい分子の効率的な学習を促進し、最小限の追加労力で複雑な分子システムへの適用性を拡大します。
私たちの方法は、基底状態のエネルギーを推定し、量子化学と材料科学の新しい道を開くための既存の量子アルゴリズムに代わるものを提供します。

要約(オリジナル)

The Transformer model, renowned for its powerful attention mechanism, has achieved state-of-the-art performance in various artificial intelligence tasks but faces challenges such as high computational cost and memory usage. Researchers are exploring quantum computing to enhance the Transformer’s design, though it still shows limited success with classical data. With a growing focus on leveraging quantum machine learning for quantum data, particularly in quantum chemistry, we propose the Molecular Quantum Transformer (MQT) for modeling interactions in molecular quantum systems. By utilizing quantum circuits to implement the attention mechanism on the molecular configurations, MQT can efficiently calculate ground-state energies for all configurations. Numerical demonstrations show that in calculating ground-state energies for H_2, LiH, BeH_2, and H_4, MQT outperforms the classical Transformer, highlighting the promise of quantum effects in Transformer structures. Furthermore, its pretraining capability on diverse molecular data facilitates the efficient learning of new molecules, extending its applicability to complex molecular systems with minimal additional effort. Our method offers an alternative to existing quantum algorithms for estimating ground-state energies, opening new avenues in quantum chemistry and materials science.

arxiv情報

著者 Yuichi Kamata,Quoc Hoan Tran,Yasuhiro Endo,Hirotaka Oshima
発行日 2025-03-27 16:54:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph | Molecular Quantum Transformer はコメントを受け付けていません

Energy Minimization for Participatory Federated Learning in IoT Analyzed via Game Theory

要約

モノのインターネットには、多くのシナリオでインテリジェントな意思決定が必要です。
この目的のために、センシングやコンピューティングのために個々のノードで利用可能なリソース、またはその両方を活用できます。
これにより、それぞれ参加型センシングとフェデレーション学習として知られるアプローチが生じます。
ゲーム理論的な意思決定にローカルノードに力を与えることに基づいた分散アプローチを通じて、両方の同時実装を調査します。
エネルギー最小化のグローバルな目的は、複数の学習ラウンドでデータを検知および送信するためのローカル支出の個々のノードの最適化と組み合わされます。
実際のデータを使用したシミュレートされたネットワークシナリオの理論的フレームワークと実験の両方に基づいて、この手法の広範な評価を提示します。
このような分散アプローチは、データコレクターの集中監督なしで、連合学習のために望ましいレベルの精度に達する可能性があります。
ただし、単一ノードのローカルコストに起因する重量に応じて、アナーキーの価格が大幅に高くなる可能性があります(1.28以降)。
したがって、おそらく単一ノードの情報の年齢に基づいて、インセンティブメカニズムの必要性を主張します。

要約(オリジナル)

The Internet of Things requires intelligent decision making in many scenarios. To this end, resources available at the individual nodes for sensing or computing, or both, can be leveraged. This results in approaches known as participatory sensing and federated learning, respectively. We investigate the simultaneous implementation of both, through a distributed approach based on empowering local nodes with game theoretic decision making. A global objective of energy minimization is combined with the individual node’s optimization of local expenditure for sensing and transmitting data over multiple learning rounds. We present extensive evaluations of this technique, based on both a theoretical framework and experiments in a simulated network scenario with real data. Such a distributed approach can reach a desired level of accuracy for federated learning without a centralized supervision of the data collector. However, depending on the weight attributed to the local costs of the single node, it may also result in a significantly high Price of Anarchy (from 1.28 onwards). Thus, we argue for the need of incentive mechanisms, possibly based on Age of Information of the single nodes.

arxiv情報

著者 Alessandro Buratto,Elia Guerra,Marco Miozzo,Paolo Dini,Leonardo Badia
発行日 2025-03-27 17:35:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA | Energy Minimization for Participatory Federated Learning in IoT Analyzed via Game Theory はコメントを受け付けていません

A Selective Homomorphic Encryption Approach for Faster Privacy-Preserving Federated Learning

要約

Federated Learningは、分散型デバイスまたはサーバーのトレーニングモデルをサポートする機械学習方法であり、それぞれがローカルデータを保持してデータ交換の必要性を削除します。
このアプローチは、ヘルスケアで特に役立ちます。これは、共有する必要なく、機密データのトレーニングを可能にするためです。
連邦学習の性質は、コミュニケーション中のデータリークの懸念により、堅牢なセキュリティ上の注意事項を必要とします。
この問題に対処するために、優れた実行パフォーマンスを達成しながらデータの漏れを最小限に抑えるために、選択的暗号化、同型暗号化、差別的なプライバシー、およびビットごとのスクランブルを採用する新しいアプローチを提案します。
私たちの手法であるFAS(高速で安全な連邦学習)は、医療画像データに関する深い学習モデルを訓練するために使用されます。
フラワーフレームワークを使用して手法を実装し、選択的な同種暗号化も使用する最先端の連邦学習アプローチと比較しました。
私たちの実験は、11の物理マシンのクラスターで実行され、さまざまなデータセットで実際のフェデレーション学習シナリオを作成しました。
私たちのアプローチは、モデルの重みに完全に準同型の暗号化を適用するよりも最大90 \%の速さであることが観察されました。
さらに、競合他社が必要とし、総実行時間の面で最大46%節約できる前脱型ステップを回避できます。
私たちのアプローチはより速くなりましたが、競合他社と同様のセキュリティ結果が得られました。

要約(オリジナル)

Federated learning is a machine learning method that supports training models on decentralized devices or servers, where each holds its local data, removing the need for data exchange. This approach is especially useful in healthcare, as it enables training on sensitive data without needing to share them. The nature of federated learning necessitates robust security precautions due to data leakage concerns during communication. To address this issue, we propose a new approach that employs selective encryption, homomorphic encryption, differential privacy, and bit-wise scrambling to minimize data leakage while achieving good execution performance. Our technique , FAS (fast and secure federated learning) is used to train deep learning models on medical imaging data. We implemented our technique using the Flower framework and compared with a state-of-the-art federated learning approach that also uses selective homomorphic encryption. Our experiments were run in a cluster of eleven physical machines to create a real-world federated learning scenario on different datasets. We observed that our approach is up to 90\% faster than applying fully homomorphic encryption on the model weights. In addition, we can avoid the pretraining step that is required by our competitor and can save up to 46% in terms of total execution time. While our approach was faster, it obtained similar security results as the competitor.

arxiv情報

著者 Abdulkadir Korkmaz,Praveen Rao
発行日 2025-03-27 17:44:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: C.2.4, cs.CR, cs.DC, cs.LG | A Selective Homomorphic Encryption Approach for Faster Privacy-Preserving Federated Learning はコメントを受け付けていません

A Unified Framework for Diffusion Bridge Problems: Flow Matching and Schrödinger Matching into One

要約

ブリッジの問題は、与えられた分布を2つ橋渡しするSDE(または時にはオード)を見つけることです。
ブリッジ問題のアプリケーション領域は非常に大きく、その中で最近の生成モデリング(条件付きまたは無条件の画像生成など)が最も人気があります。
また、1世紀にわたって広く知られている問題である有名なSchr \ ‘{o}ディンガーブリッジの問題は、橋の問題の特別な例です。
ディープラーニング時代のブリッジ問題に取り組むための2つの最も一般的なアルゴリズムは次のとおりです。(条件付き)フローマッチングと反復フィッティングアルゴリズムは、前者がODEソリューションに限定され、後者は特にSCHR \ ‘{O}ディンガーブリッジの問題です。
この記事の主な貢献は、2つの折り目です。i)これらのアルゴリズムの簡潔なレビューを、ある程度技術的な詳細を提供します。
ii)これらの一見無関係なアルゴリズム(およびそのバリエーション)を1つに包み込む新しい統一された視点とフレームワークを提案します。
特に、統一されたフレームワークは、フローマッチング(FM)アルゴリズム、(ミニバッチ)最適なトランスポートFMアルゴリズム、(ミニバッチ)schr \ ‘{o}ディンガーブリッジFMアルゴリズム、およびディンガーブリッジマッチング(dsbm)アルゴリズムとしてのディンガーブリッジのディンガーブリッジをインスタンス化できることを示しています。
この統一されたフレームワークは、より一般的かつ柔軟な視点で橋の問題を見るのに役立つと考えており、その結果、研究者と実践者がその分野で新しい橋アルゴリズムを開発するのに役立つと考えています。

要約(オリジナル)

The bridge problem is to find an SDE (or sometimes an ODE) that bridges two given distributions. The application areas of the bridge problem are enormous, among which the recent generative modeling (e.g., conditional or unconditional image generation) is the most popular. Also the famous Schr\'{o}dinger bridge problem, a widely known problem for a century, is a special instance of the bridge problem. Two most popular algorithms to tackle the bridge problems in the deep learning era are: (conditional) flow matching and iterative fitting algorithms, where the former confined to ODE solutions, and the latter specifically for the Schr\'{o}dinger bridge problem. The main contribution of this article is in two folds: i) We provide concise reviews of these algorithms with technical details to some extent; ii) We propose a novel unified perspective and framework that subsumes these seemingly unrelated algorithms (and their variants) into one. In particular, we show that our unified framework can instantiate the Flow Matching (FM) algorithm, the (mini-batch) optimal transport FM algorithm, the (mini-batch) Schr\'{o}dinger bridge FM algorithm, and the deep Schr\'{o}dinger bridge matching (DSBM) algorithm as its special cases. We believe that this unified framework will be useful for viewing the bridge problems in a more general and flexible perspective, and in turn can help researchers and practitioners to develop new bridge algorithms in their fields.

arxiv情報

著者 Minyoung Kim
発行日 2025-03-27 17:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | A Unified Framework for Diffusion Bridge Problems: Flow Matching and Schrödinger Matching into One はコメントを受け付けていません

Partial Gromov-Wasserstein Metric

要約

Gromov-Wasserstein(GW)距離は、さまざまなメトリック空間での測定値の比較を可能にするため、近年、機械学習コミュニティへの関心が高まっています。
古典的なGW問題の平等な質量要件によって課される制限を克服するために、研究者は不均衡な設定での適用を調査し始めました。
ただし、不均衡なGW(UGW)は、2つのメトリック測定スペース(MMスペース)間の厳密なメトリック/距離ではなく、不一致とのみ見なすことができます。
この論文では、部分的なグロモフヴァッシェルスタイン(PGW)と呼ばれるUGW問題の特定のケースを提案します。
PGWはMMスペースの間の明確なメトリックであることを確立し、PGW問題のミニマイザーの存在やPGWとGWの関係など、その理論的特性について議論します。
次に、PGWの問題を解決するためのフランクウルフアルゴリズムの2つのバリエーションを提案し、それらが数学的および計算的に同等であることを示します。
さらに、PGWメトリックに基づいて、MMスペースの速度ターの類似の概念を紹介します。
最後に、既存のベースラインと比較して、形状マッチング、形状検索、形状補間などのアプリケーションでのPGWメトリックおよび関連ソルバーの有効性を検証します。
私たちのコードは、https://github.com/mint-vu/pgw_metricで入手できます。

要約(オリジナル)

The Gromov-Wasserstein (GW) distance has gained increasing interest in the machine learning community in recent years, as it allows for the comparison of measures in different metric spaces. To overcome the limitations imposed by the equal mass requirements of the classical GW problem, researchers have begun exploring its application in unbalanced settings. However, Unbalanced GW (UGW) can only be regarded as a discrepancy rather than a rigorous metric/distance between two metric measure spaces (mm-spaces). In this paper, we propose a particular case of the UGW problem, termed Partial Gromov-Wasserstein (PGW). We establish that PGW is a well-defined metric between mm-spaces and discuss its theoretical properties, including the existence of a minimizer for the PGW problem and the relationship between PGW and GW, among others. We then propose two variants of the Frank-Wolfe algorithm for solving the PGW problem and show that they are mathematically and computationally equivalent. Moreover, based on our PGW metric, we introduce the analogous concept of barycenters for mm-spaces. Finally, we validate the effectiveness of our PGW metric and related solvers in applications such as shape matching, shape retrieval, and shape interpolation, comparing them against existing baselines. Our code is available at https://github.com/mint-vu/PGW_Metric.

arxiv情報

著者 Yikun Bai,Rocio Diaz Martin,Abihith Kothapalli,Hengrong Du,Xinran Liu,Soheil Kolouri
発行日 2025-03-27 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Partial Gromov-Wasserstein Metric はコメントを受け付けていません

Generalizable Prompt Learning of CLIP: A Brief Overview

要約

クリップなどの既存のビジョン言語モデル(VLM)は、さまざまな下流タスクにわたってよく一般化する印象的な機能を示しています。
これらのモデルは、視覚情報とテキスト情報の相乗効果を活用して、画像やテキストに存在するコンテンツを統一された方法で理解し、推論できるようにします。
この記事では、実験データやいくつかの方法の技術的特性を含む、少数のショットの迅速な学習に基づいたクリップの簡単な概要を説明します。
このレビューの目的は、15のデータセットにわたって分類のための少数のショットトレーニングを通じて、一般化可能なクリップの調査を開始したばかりの研究者に参照を提供し、他の下流タスクの研究者によるこの分野の統合を促進することです。

要約(オリジナル)

Existing vision-language models (VLMs) such as CLIP have showcased an impressive capability to generalize well across various downstream tasks. These models leverage the synergy between visual and textual information, enabling them to understand and reason about the content present in images and text in a unified manner. This article provides a brief overview of CLIP based on few-shot prompt learning, including experimental data and technical characteristics of some methods. The purpose of this review is to provide a reference for researchers who have just started their research in generalizable prompting of CLIP through few-shot training for classification across 15 datasets and also to facilitate the integration of this field by researchers in other downstream tasks.

arxiv情報

著者 Fangming Cui,Yonggang Zhang,Xuan Wang,Xule Wang,Liang Xiao
発行日 2025-03-27 09:28:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Generalizable Prompt Learning of CLIP: A Brief Overview はコメントを受け付けていません

ReFeed: Multi-dimensional Summarization Refinement with Reflective Reasoning on Feedback

要約

要約の改良は、多次元に拡張する際に課題に直面します。
この論文では、フィードバックに関する反射的推論を通じて複数の次元を強化する強力な要約改良パイプラインであるRefeedを紹介します。
これを実現するために、反射的推論で軽量モデルをトレーニングするために最適化された大規模なロングコットベースのデータセットであるSumFeed-Cotをリリースします。
私たちの実験は、次元の数、フィードバックの露出、および推論ポリシーの改良性のパフォーマンスにどのように影響するか、反射的推論を強調し、複数のフィードバックに対処することが、次元間のトレードオフを緩和するために重要であることを明らかにします。
さらに、Refeedは、ノイズの多いフィードバックとフィードバックの順序に対して堅牢です。
最後に、私たちの発見は、適切な目標とガイドラインでデータを作成することは、効果的な推論の基本的な柱であることを強調しています。
データセットとモデルがリリースされます。

要約(オリジナル)

Summarization refinement faces challenges when extending to multi-dimension. In this paper, we introduce ReFeed, a powerful summarization refinement pipeline that enhances multiple dimensions through reflective reasoning on feedback. To achieve this, we release SumFeed-CoT, a large-scale Long-CoT-based dataset optimized for training a lightweight model with reflective reasoning. Our experiments reveal how the number of dimensions, feedback exposure, and reasoning policy influence refinement performance, highlighting reflective reasoning and simultaneously addressing multiple feedback is crucial to mitigate trade-off between dimensions. Furthermore, ReFeed is robust to noisy feedback and feedback order. Lastly, our finding emphasizes that creating data with a proper goal and guideline constitutes a fundamental pillar of effective reasoning. The dataset and model will be released.

arxiv情報

著者 Taewon Yun,Jihwan Oh,Hyangsuk Min,Yuho Lee,Jihwan Bang,Jason Cai,Hwanjun Song
発行日 2025-03-27 10:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | ReFeed: Multi-dimensional Summarization Refinement with Reflective Reasoning on Feedback はコメントを受け付けていません

Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding

要約

マルチモーダル大手言語モデル(MLLMS)の急速な進歩は、さまざまなマルチモーダルタスクに大きな影響を与えています。
ただし、これらのモデルは、3D環境内で空間的理解を必要とするタスクの課題に直面しています。
ポイントクラウド機能を組み込むなど、MLLMを強化する努力が行われましたが、モデルの学習表現と3Dシーンの固有の複雑さの間にかなりのギャップが残っています。
この矛盾は、主に2Dデータに対するMLLMのトレーニングに大きく掲載されており、3Dスペースの理解における有効性を制限しています。
この問題に対処するために、この論文では、3Dシーンの理解のために、新しいジェネラリストモデル、つまりVideo-3D LLMを提案します。
3Dシーンをダイナミックなビデオとして扱い、これらの表現にエンコードする3Dポジションを組み込むことにより、ビデオ3D LLMはビデオ表現を実際の空間コンテキストとより正確に調整します。
さらに、計算コストとパフォーマンスのトレードオフを最適化するために、最大のカバレッジサンプリング手法を実装しました。
広範な実験は、我々のモデルが、ScanRefer、Multi3Drefer、Scan2Cap、ScanqA、SQA3Dなど、いくつかの3Dシーン理解ベンチマークで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

The rapid advancement of Multimodal Large Language Models (MLLMs) has significantly impacted various multimodal tasks. However, these models face challenges in tasks that require spatial understanding within 3D environments. Efforts to enhance MLLMs, such as incorporating point cloud features, have been made, yet a considerable gap remains between the models’ learned representations and the inherent complexity of 3D scenes. This discrepancy largely stems from the training of MLLMs on predominantly 2D data, which restricts their effectiveness in comprehending 3D spaces. To address this issue, in this paper, we propose a novel generalist model, i.e., Video-3D LLM, for 3D scene understanding. By treating 3D scenes as dynamic videos and incorporating 3D position encoding into these representations, our Video-3D LLM aligns video representations with real-world spatial contexts more accurately. In addition, we have implemented a maximum coverage sampling technique to optimize the trade-off between computational cost and performance. Extensive experiments demonstrate that our model achieves state-of-the-art performance on several 3D scene understanding benchmarks, including ScanRefer, Multi3DRefer, Scan2Cap, ScanQA, and SQA3D.

arxiv情報

著者 Duo Zheng,Shijia Huang,Liwei Wang
発行日 2025-03-27 10:30:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding はコメントを受け付けていません