Federated Learning in Practice: Reflections and Projections

要約

Federated Learning(FL)は、複数のエンティティがローカルデータを交換することなく、共有モデルを共同で学習することを可能にする機械学習技術である。過去10年間で、FLシステムは大きな進歩を遂げ、有意義な差分プライバシー(DP)保証を提供しながら、様々な学習領域で数百万台のデバイスに拡張できるようになりました。Google、Apple、Metaのような組織によるプロダクションシステムは、FLが実世界で適用可能であることを示している。しかし、サーバー側のDP保証の検証や、異種デバイス間でのトレーニングの調整など、重要な課題が残っており、より広範な採用には限界がある。さらに、大規模な(マルチモーダル)モデルや、トレーニング、推論、パーソナライゼーションの間の曖昧な境界線といった新たなトレンドが、従来のFLフレームワークに挑戦している。これに対して我々は、厳格な定義よりもプライバシーの原則を優先する、再定義されたFLフレームワークを提案する。また、これらの課題に対処し、FLにおける将来の進歩を促進するために、信頼された実行環境とオープンソースエコシステムを活用することで、前進する道筋を描く。

要約(オリジナル)

Federated Learning (FL) is a machine learning technique that enables multiple entities to collaboratively learn a shared model without exchanging their local data. Over the past decade, FL systems have achieved substantial progress, scaling to millions of devices across various learning domains while offering meaningful differential privacy (DP) guarantees. Production systems from organizations like Google, Apple, and Meta demonstrate the real-world applicability of FL. However, key challenges remain, including verifying server-side DP guarantees and coordinating training across heterogeneous devices, limiting broader adoption. Additionally, emerging trends such as large (multi-modal) models and blurred lines between training, inference, and personalization challenge traditional FL frameworks. In response, we propose a redefined FL framework that prioritizes privacy principles rather than rigid definitions. We also chart a path forward by leveraging trusted execution environments and open-source ecosystems to address these challenges and facilitate future advancements in FL.

arxiv情報

著者 Katharine Daly,Hubert Eichner,Peter Kairouz,H. Brendan McMahan,Daniel Ramage,Zheng Xu
発行日 2025-03-03 04:14:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.LG | Federated Learning in Practice: Reflections and Projections はコメントを受け付けていません

Long-Term EEG Partitioning for Seizure Onset Detection

要約

ディープラーニング・モデルは最近、脳波記録を用いたてんかん患者の分類で大きな成功を収めている。残念なことに、分類ベースの手法には、発作イベントの発生を検出するための健全なメカニズムが欠けている。本研究では、部分的クラスタリングという新しいタスクの定式化を通じて、発作の発生を明示的にモデル化する2段階のフレームワークSODorを提案する。EEGシーケンスが与えられると、このフレームワークはまずラベル監視を伴う第2レベルの埋め込み集合を学習する。次に、EEGシーケンスにおける長期的な時間依存性を明示的に捕らえ、意味のある部分シーケンスを識別するために、モデルベースのクラスタリングを用いる。部分シーケンス内のエポックは共通のクラスタ割り当て(正常または発作)を共有し、クラスタまたは状態の遷移はオンセット検出の成功を表す。つのデータセットで広範な実験を行い、我々の手法が誤分類を修正でき、他のベースラインより5%~11%分類を改善し、発作のオンセットを正確に検出できることを実証した。

要約(オリジナル)

Deep learning models have recently shown great success in classifying epileptic patients using EEG recordings. Unfortunately, classification-based methods lack a sound mechanism to detect the onset of seizure events. In this work, we propose a two-stage framework, SODor, that explicitly models seizure onset through a novel task formulation of subsequence clustering. Given an EEG sequence, the framework first learns a set of second-level embeddings with label supervision. It then employs model-based clustering to explicitly capture long-term temporal dependencies in EEG sequences and identify meaningful subsequences. Epochs within a subsequence share a common cluster assignment (normal or seizure), with cluster or state transitions representing successful onset detections. Extensive experiments on three datasets demonstrate that our method can correct misclassifications, achieving 5\%-11\% classification improvements over other baselines and accurately detecting seizure onsets.

arxiv情報

著者 Zheng Chen,Yasuko Matsubara,Yasushi Sakurai,Jimeng Sun
発行日 2025-03-03 06:39:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, eess.SP | Long-Term EEG Partitioning for Seizure Onset Detection はコメントを受け付けていません

Understanding LLMs’ Fluid Intelligence Deficiency: An Analysis of the ARC Task

要約

LLMは様々なNLPタスクで強力なパフォーマンスを示しているが、これらのタスクのほとんどが、予備知識なしに新しい問題を解くのではなく、LLMのパラメータにエンコードされた膨大な知識を活用することに依存していることは注目に値する。認知研究では、後者の能力は流動性知能と呼ばれ、人間の知能を評価する上で重要であると考えられている。流動性知能の評価に関する最近の研究では、LLMの能力に重大な欠陥があることが浮き彫りになっている。本論文では、最も代表的なARC課題を例として、LLMが流動性知能を対照実験によって実証する際に直面する課題を分析する。我々の研究は、既存のLLMの3つの主要な限界を明らかにした:スキル構成能力の制限、抽象的な入力形式への不慣れ、左から右へのデコーディングの本質的な欠陥である。我々のデータとコードはhttps://wujunjie1998.github.io/araoc-benchmark.github.io/。

要約(オリジナル)

While LLMs have exhibited strong performance on various NLP tasks, it is noteworthy that most of these tasks rely on utilizing the vast amount of knowledge encoded in LLMs’ parameters, rather than solving new problems without prior knowledge. In cognitive research, the latter ability is referred to as fluid intelligence, which is considered to be critical for assessing human intelligence. Recent research on fluid intelligence assessments has highlighted significant deficiencies in LLMs’ abilities. In this paper, we analyze the challenges LLMs face in demonstrating fluid intelligence through controlled experiments, using the most representative ARC task as an example. Our study revealed three major limitations in existing LLMs: limited ability for skill composition, unfamiliarity with abstract input formats, and the intrinsic deficiency of left-to-right decoding. Our data and code can be found in https://wujunjie1998.github.io/araoc-benchmark.github.io/.

arxiv情報

著者 Junjie Wu,Mo Yu,Lemao Liu,Dit-Yan Yeung,Jie Zhou
発行日 2025-03-03 06:50:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI | Understanding LLMs’ Fluid Intelligence Deficiency: An Analysis of the ARC Task はコメントを受け付けていません

SheetAgent: Towards A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models

要約

スプレッドシートはWorld Wide Webの至る所で利用されており、様々な領域で作業効率を向上させる上で重要な役割を果たしている。大規模言語モデル(Large Language Model: LLM)は、最近、スプレッドシートの自動操作のために試みられているが、推論上の課題が存在する複雑で現実的なタスク(例えば、多段階推論や曖昧な要求を伴う長ホライズン操作)ではまだ研究されていない。実世界の要求とのギャップを埋めるために、我々はSheetRMを導入する。SheetRMは、現実の課題によって引き起こされる推論依存の操作を伴う、長ホライズンかつ多カテゴリのタスクを特徴とするベンチマークである。上記の課題を軽減するために、我々はさらに、LLMの力を利用した新しい自律エージェントであるSheetAgentを提案する。SheetAgentは3つの協調モジュールから構成される:Planner、Informer、Retrieverの3つの協調モジュールから構成され、反復的なタスク推論とリフレクションにより、人間のインタラクションなしに、スプレッドシート上で高度な推論と正確な操作の両方を達成する。広範な実験により、SheetAgentは複数のベンチマークでベースラインよりも20~40%の合格率向上を実現し、スプレッドシート操作の精度を高め、優れたテーブル推論能力を実証しています。詳細とビジュアライゼーションは、プロジェクトのウェブサイトhttps://sheetagent.github.io/。データセットとソースコードはhttps://anonymous.4open.science/r/SheetAgent。

要約(オリジナル)

Spreadsheets are ubiquitous across the World Wide Web, playing a critical role in enhancing work efficiency across various domains. Large language model (LLM) has been recently attempted for automatic spreadsheet manipulation but has not yet been investigated in complicated and realistic tasks where reasoning challenges exist (e.g., long horizon manipulation with multi-step reasoning and ambiguous requirements). To bridge the gap with the real-world requirements, we introduce SheetRM, a benchmark featuring long-horizon and multi-category tasks with reasoning-dependent manipulation caused by real-life challenges. To mitigate the above challenges, we further propose SheetAgent, a novel autonomous agent that utilizes the power of LLMs. SheetAgent consists of three collaborative modules: Planner, Informer, and Retriever, achieving both advanced reasoning and accurate manipulation over spreadsheets without human interaction through iterative task reasoning and reflection. Extensive experiments demonstrate that SheetAgent delivers 20–40\% pass rate improvements on multiple benchmarks over baselines, achieving enhanced precision in spreadsheet manipulation and demonstrating superior table reasoning abilities. More details and visualizations are available at the project website: https://sheetagent.github.io/. The datasets and source code are available at https://anonymous.4open.science/r/SheetAgent.

arxiv情報

著者 Yibin Chen,Yifu Yuan,Zeyu Zhang,Yan Zheng,Jinyi Liu,Fei Ni,Jianye Hao,Hangyu Mao,Fuzheng Zhang
発行日 2025-03-03 06:56:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG | SheetAgent: Towards A Generalist Agent for Spreadsheet Reasoning and Manipulation via Large Language Models はコメントを受け付けていません

Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization

要約

最近のタイムステップ拡散モデルの進歩により、非拡散マルチステップモデルに匹敵する高品質な画像生成が可能になったが、推論ステップは大幅に減少している。このようなモデルは、推論コストとレイテンシが低いため、アプリケーションにとって魅力的ですが、素朴な拡散目的で微調整を行うと、劣化したぼやけた出力になってしまいます。直感的な代替案は、微調整された教師モデルで拡散蒸留プロセスを繰り返すことであるが、これは良い結果をもたらすが、面倒で計算集約的である。本論文では、任意のタイムステップ蒸留拡散モデルの直接微調整を可能にする、ペアワイズサンプル最適化(PSO)と名付けられたアルゴリズムを紹介する。PSOは、現在のタイムステップ蒸留モデルからサンプリングした参照画像を追加導入し、学習画像と参照画像との間の相対的な尤度マージンを増加させる。これにより、モデルの数ステップ生成能力を維持しつつ、出力分布の微調整を可能にする。また、PSOは一般化された定式化であり、オフラインサンプルとオンラインサンプルのペアワイズデータの両方に柔軟に拡張でき、拡散モデルの嗜好最適化の様々な一般的な目的をカバーできることを示す。我々は、PSOを嗜好最適化と、スタイル転送やコンセプトのカスタマイズを含む他の微調整タスクの両方で評価する。我々は、PSOが、オフラインとオンライン両方で生成されたペアワイズ嗜好画像データを用いて、抽出されたモデルを直接人間の嗜好に適合させることができることを示す。PSOはまた、タイムステップ蒸留された拡散モデルを直接チューニングすることで、スタイル転送とコンセプトカスタマイズの有効性を示す。

要約(オリジナル)

Recent advancements in timestep-distilled diffusion models have enabled high-quality image generation that rivals non-distilled multi-step models, but with significantly fewer inference steps. While such models are attractive for applications due to the low inference cost and latency, fine-tuning them with a naive diffusion objective would result in degraded and blurry outputs. An intuitive alternative is to repeat the diffusion distillation process with a fine-tuned teacher model, which produces good results but is cumbersome and computationally intensive; the distillation training usually requires magnitude higher of training compute compared to fine-tuning for specific image styles. In this paper, we present an algorithm named pairwise sample optimization (PSO), which enables the direct fine-tuning of an arbitrary timestep-distilled diffusion model. PSO introduces additional reference images sampled from the current time-step distilled model, and increases the relative likelihood margin between the training images and reference images. This enables the model to retain its few-step generation ability, while allowing for fine-tuning of its output distribution. We also demonstrate that PSO is a generalized formulation which can be flexibly extended to both offline-sampled and online-sampled pairwise data, covering various popular objectives for diffusion model preference optimization. We evaluate PSO in both preference optimization and other fine-tuning tasks, including style transfer and concept customization. We show that PSO can directly adapt distilled models to human-preferred generation with both offline and online-generated pairwise preference image data. PSO also demonstrates effectiveness in style transfer and concept customization by directly tuning timestep-distilled diffusion models.

arxiv情報

著者 Zichen Miao,Zhengyuan Yang,Kevin Lin,Ze Wang,Zicheng Liu,Lijuan Wang,Qiang Qiu
発行日 2025-03-03 04:11:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization はコメントを受け付けていません

AdvLogo: Adversarial Patch Attack against Object Detectors based on Diffusion Models

要約

ディープラーニングの急速な発展に伴い、物体検出器は目覚ましい性能を発揮しているが、特定のシナリオでは脆弱性が依然として存在する。敵対的なパッチを用いて脆弱性を探索する現在の研究は、しばしば攻撃効果と視覚的品質との間のトレードオフのバランスを取るのに苦労している。この問題に対処するために、我々は意味的観点からパッチ攻撃の新しいフレームワークを提案する。あらゆる意味空間には、画像検出器が物体の認識に失敗する原因となる敵対的な部分空間が存在するという仮説に基づき、我々は拡散ノイズ除去プロセスの意味的理解を活用し、最後のタイムステップで潜在埋め込みと無条件埋め込みに摂動を与えることで、プロセスを敵対的な部分領域へと誘導する。画質への悪影響を露呈する分布シフトを緩和するために、フーリエ変換を用いた周波数領域での潜在への摂動を適用する。実験結果は、AdvLogoが高い視覚的品質を維持しながら、強力な攻撃性能を達成することを示している。

要約(オリジナル)

With the rapid development of deep learning, object detectors have demonstrated impressive performance; however, vulnerabilities still exist in certain scenarios. Current research exploring the vulnerabilities using adversarial patches often struggles to balance the trade-off between attack effectiveness and visual quality. To address this problem, we propose a novel framework of patch attack from semantic perspective, which we refer to as AdvLogo. Based on the hypothesis that every semantic space contains an adversarial subspace where images can cause detectors to fail in recognizing objects, we leverage the semantic understanding of the diffusion denoising process and drive the process to adversarial subareas by perturbing the latent and unconditional embeddings at the last timestep. To mitigate the distribution shift that exposes a negative impact on image quality, we apply perturbation to the latent in frequency domain with the Fourier Transform. Experimental results demonstrate that AdvLogo achieves strong attack performance while maintaining high visual quality.

arxiv情報

著者 Boming Miao,Chunxiao Li,Yao Zhu,Weixiang Sun,Zizhe Wang,Xiaoyi Wang,Chuanlong Xie
発行日 2025-03-03 04:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG | AdvLogo: Adversarial Patch Attack against Object Detectors based on Diffusion Models はコメントを受け付けていません

S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation

要約

自律走行シミュレーションシステムは、自動運転データを強化し、複雑で稀な交通シナリオをシミュレートし、ナビゲーションの安全性を確保する上で重要な役割を果たしている。しかし、従来のシミュレーションシステムは、手作業によるモデリングや2D画像編集に頼ることが多く、広大なシーンへの拡張やリアルなシミュレーションデータの生成に苦労していた。本研究では、神経再構築に基づく革新的な自律走行シミュレーションシステムであるS-NeRF++を紹介する。S-NeRF++は、nuScenesやWaymoなどの広く利用されている自動運転データセットで訓練され、高いレンダリング品質で多数のリアルな街路シーンや前景オブジェクトを生成できるだけでなく、操作やシミュレーションにおいてかなりの柔軟性を提供することができる。具体的には、S-NeRF++は、シーンのパラメータ化とカメラのポーズ学習を改善した、大規模なシーンと移動する車両を合成するための強化されたニューラル放射輝度場です。このシステムは、ノイズの多い疎なLiDARデータを効果的に利用して学習を洗練し、深度の異常値に対処することで、高品質な再構成とノベルビューレンダリングを保証します。さらに、照明と影の効果を巧みに統合する高度な前景-背景フュージョンパイプラインを開発し、シミュレーションのリアリズムをさらに向上させました。S-NeRF++が提供する高品質なシミュレーションデータにより、知覚手法はいくつかの自律走行タスクにおいて性能向上を享受できることがわかり、提案するシミュレータの有効性がさらに実証された。

要約(オリジナル)

Autonomous driving simulation system plays a crucial role in enhancing self-driving data and simulating complex and rare traffic scenarios, ensuring navigation safety. However, traditional simulation systems, which often heavily rely on manual modeling and 2D image editing, struggled with scaling to extensive scenes and generating realistic simulation data. In this study, we present S-NeRF++, an innovative autonomous driving simulation system based on neural reconstruction. Trained on widely-used self-driving datasets such as nuScenes and Waymo, S-NeRF++ can generate a large number of realistic street scenes and foreground objects with high rendering quality as well as offering considerable flexibility in manipulation and simulation. Specifically, S-NeRF++ is an enhanced neural radiance field for synthesizing large-scale scenes and moving vehicles, with improved scene parameterization and camera pose learning. The system effectively utilizes noisy and sparse LiDAR data to refine training and address depth outliers, ensuring high-quality reconstruction and novel-view rendering. It also provides a diverse foreground asset bank by reconstructing and generating different foreground vehicles to support comprehensive scenario creation.Moreover, we have developed an advanced foreground-background fusion pipeline that skillfully integrates illumination and shadow effects, further enhancing the realism of our simulations. With the high-quality simulated data provided by our S-NeRF++, we found the perception methods enjoy performance boosts on several autonomous driving downstream tasks, further demonstrating our proposed simulator’s effectiveness.

arxiv情報

著者 Yurui Chen,Junge Zhang,Ziyang Xie,Wenye Li,Feihu Zhang,Jiachen Lu,Li Zhang
発行日 2025-03-03 04:42:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation はコメントを受け付けていません

PATCH: a deep learning method to assess heterogeneity of artistic practice in historical paintings

要約

美術の歴史は、作品の創作方法において大きな変遷があり、創作過程を理解することが技術美術史の中心的な課題となっている。ルネサンス期から近世にかけて、絵画は主に巨匠と呼ばれる画家が弟子たちの工房を監督して制作されていた。そのため、画家と道具の組み合わせは、師匠の間でも、工房の中でも、あるいは個々のキャンバスの中でも、異なっていた。さまざまな工房がどのように管理され、どのようなプロセスで作品が制作されたのかという情報は、いまだ解明されていない。機械学習の手法は、筆致の分析をミクロのスケールまで拡張することで、画家の創作プロセスに関する新たな情報を掘り起こす可能性を秘めている。しかし、ワークショップで描かれた絵画の分析には、参加した画家や材料に関する文書が乏しく、彼らの貢献を認識するためのネットワークを訓練するための外部事例が利用できないという課題がある。ここでは、異質性を分類するためのペアワイズ割り当てトレーニング(PATCH)と呼ぶ新しい機械学習アプローチを紹介する。この方法は教師ありの方法で教師なしの結果を達成し、単純な統計的手続きと教師なしの機械学習方法の両方を凌駕する。我々はこの方法をスペイン・ルネサンスの巨匠エル・グレコの2つの歴史的絵画「キリストの洗礼」と「十字架上のキリストと風景」に適用した。さらに、我々の分析結果は、芸術的実践の異質性の尺度を作成し、時空を超えた作品の特徴づけに用いることができる。

要約(オリジナル)

The history of art has seen significant shifts in the manner in which artworks are created, making understanding of creative processes a central question in technical art history. In the Renaissance and Early Modern period, paintings were largely produced by master painters directing workshops of apprentices who often contributed to projects. The masters varied significantly in artistic and managerial styles, meaning different combinations of artists and implements might be seen both between masters and within workshops or even individual canvases. Information on how different workshops were managed and the processes by which artworks were created remains elusive. Machine learning methods have potential to unearth new information about artists’ creative processes by extending the analysis of brushwork to a microscopic scale. Analysis of workshop paintings, however, presents a challenge in that documentation of the artists and materials involved is sparse, meaning external examples are not available to train networks to recognize their contributions. Here we present a novel machine learning approach we call pairwise assignment training for classifying heterogeneity (PATCH) that is capable of identifying individual artistic practice regimes with no external training data, or ‘ground truth.’ The method achieves unsupervised results by supervised means, and outperforms both simple statistical procedures and unsupervised machine learning methods. We apply this method to two historical paintings by the Spanish Renaissance master, El Greco: The Baptism of Christ and Christ on the Cross with Landscape, and our findings regarding the former potentially challenge previous work that has assigned the painting to workshop members. Further, the results of our analyses create a measure of heterogeneity of artistic practice that can be used to characterize artworks across time and space.

arxiv情報

著者 Andrew Van Horn,Lauryn Smith,Mahamad Mahmoud,Michael McMaster,Clara Pinchbeck,Ina Martin,Andrew Lininger,Anthony Ingrisano,Adam Lowe,Carlos Bayod,Elizabeth Bolman,Kenneth Singer,Michael Hinczewski
発行日 2025-03-03 05:25:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG | PATCH: a deep learning method to assess heterogeneity of artistic practice in historical paintings はコメントを受け付けていません

OMG: Opacity Matters in Material Modeling with Gaussian Splatting

要約

一連の画像からジオメトリ、マテリアル、照明を分解すること、すなわちインバース・レンダリングは、コンピュータ・ビジョンとグラフィックスにおける長年の課題であった。最近のニューラルレンダリングの進歩により、フォトリアリスティックでもっともらしいインバースレンダリングの結果が得られるようになった。3Dガウススプラッティングの出現は、リアルタイムレンダリングの可能性を示すことで、これを次のレベルに押し上げた。直感的な発見は、逆レンダリングに使用されるモデルが、光学で示唆されるような、材料特性、すなわち断面積に対する不透明度の依存性を考慮していないことである。そこで我々は、この依存性をモデリング自体に追加する新しいアプローチを開発する。放射伝導にヒントを得て、断面積のモデリングと物理的に正しい活性化関数を提供する材料特性を入力とするニューラルネットワークを導入することにより、不透明度の項を補強する。したがって、材料特性の勾配は色だけでなく不透明度からも得られ、最適化のための制約が容易になる。従って、提案手法は、従来の作品と比較して、より正確な物理的特性を組み込んでいる。我々は、逆レンダリングにガウススプラッティングを使用する3つの異なるベースラインに本手法を実装し、斬新なビュー合成とマテリアルモデリングの観点から、普遍的に大幅な改善を達成した。

要約(オリジナル)

Decomposing geometry, materials and lighting from a set of images, namely inverse rendering, has been a long-standing problem in computer vision and graphics. Recent advances in neural rendering enable photo-realistic and plausible inverse rendering results. The emergence of 3D Gaussian Splatting has boosted it to the next level by showing real-time rendering potentials. An intuitive finding is that the models used for inverse rendering do not take into account the dependency of opacity w.r.t. material properties, namely cross section, as suggested by optics. Therefore, we develop a novel approach that adds this dependency to the modeling itself. Inspired by radiative transfer, we augment the opacity term by introducing a neural network that takes as input material properties to provide modeling of cross section and a physically correct activation function. The gradients for material properties are therefore not only from color but also from opacity, facilitating a constraint for their optimization. Therefore, the proposed method incorporates more accurate physical properties compared to previous works. We implement our method into 3 different baselines that use Gaussian Splatting for inverse rendering and achieve significant improvements universally in terms of novel view synthesis and material modeling.

arxiv情報

著者 Silong Yong,Venkata Nagarjun Pudureddiyur Manivannan,Bernhard Kerbl,Zifu Wan,Simon Stepputtis,Katia Sycara,Yaqi Xie
発行日 2025-03-03 05:26:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV | OMG: Opacity Matters in Material Modeling with Gaussian Splatting はコメントを受け付けていません

Find Everything: A General Vision Language Model Approach to Multi-Object Search

要約

多オブジェクト探索(MOS)問題は、移動コストを最小化しつつ、目標オブジェクトを発見する可能性を最大化するために、一連の場所をナビゲートすることを含む。本論文では、視覚言語モデル(VLM)を活用し、多様な環境下で複数のオブジェクトを見つける、ファインダーと呼ばれるMOS問題への新しいアプローチを紹介する。具体的には、我々のアプローチは、シーンレベルとオブジェクトレベルの意味的相関を組み合わせたスコアマップ技術とともに、ナビゲーション中に複数のオブジェクトを同時に追跡し、推論するためのマルチチャンネルスコアマップを導入する。シミュレーションと実世界設定の両方における実験により、Finderは深層強化学習とVLMを用いた既存の手法を凌駕することが示された。また、アブレーションとスケーラビリティの研究により、我々の設計の選択と、ターゲットオブジェクトの数が増加した場合の頑健性がそれぞれ検証された。ウェブサイト:https://find-all-my-things.github.io/

要約(オリジナル)

The Multi-Object Search (MOS) problem involves navigating to a sequence of locations to maximize the likelihood of finding target objects while minimizing travel costs. In this paper, we introduce a novel approach to the MOS problem, called Finder, which leverages vision language models (VLMs) to locate multiple objects across diverse environments. Specifically, our approach introduces multi-channel score maps to track and reason about multiple objects simultaneously during navigation, along with a score map technique that combines scene-level and object-level semantic correlations. Experiments in both simulated and real-world settings showed that Finder outperforms existing methods using deep reinforcement learning and VLMs. Ablation and scalability studies further validated our design choices and robustness with increasing numbers of target objects, respectively. Website: https://find-all-my-things.github.io/

arxiv情報

著者 Daniel Choi,Angus Fung,Haitong Wang,Aaron Hao Tan
発行日 2025-03-02 00:07:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO | Find Everything: A General Vision Language Model Approach to Multi-Object Search はコメントを受け付けていません