SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding

要約

Slowaffast-llava-1.5(SF-llava-1.5として省略)を紹介します。これは、長い形式のビデオ理解のためのトークン効率の高いソリューションを提供するビデオ大規模言語モデル(LLMS)ファミリー(LLMS)です。
このモデルファミリは、2ストリームのゆっくりとしたメカニズムを採用しており、長距離時間コンテキストの効率的なモデリングを可能にして、軽量でモバイルに優しいビデオLLMの需要を満たしています。
合理化されたトレーニングパイプラインと、公開されているデータセットで構成される高品質のデータ混合物を通じて最適化された1Bから7Bのパラメーターの範囲のモデルを提供します。
実験結果は、SF-llava-1.5が幅広いビデオベンチマークで競争力のあるパフォーマンスを達成し、すべてのモデルサイズにわたって堅牢な結果をもたらすことを示しています。
特に、SF-llava-1.5は、長期のビデオ理解(LongvideobenchやMLVUなど)で最新の結果を達成し、さまざまなビデオベンチマークで小さなスケール(1bおよび3b)で優れています。

要約(オリジナル)

We introduce SlowFast-LLaVA-1.5 (abbreviated as SF-LLaVA-1.5), a family of video large language models (LLMs) offering a token-efficient solution for long-form video understanding. This model family employs the two-stream SlowFast mechanism, enabling efficient modeling of long-range temporal context to meet the demand for lightweight, mobile-friendly Video LLMs. We provide models ranging from 1B to 7B parameters, optimized through a streamlined training pipeline and a high-quality data mixture composed of publicly available datasets. Experimental results demonstrate that SF-LLaVA-1.5 achieves competitive performance on a wide range of video and image benchmarks, with robust results across all model sizes. Notably, SF-LLaVA-1.5 achieves state-of-the-art results in long-form video understanding (e.g., LongVideoBench and MLVU) and excels at small scales (1B and 3B) across various video benchmarks.

arxiv情報

著者 Mingze Xu,Mingfei Gao,Shiyu Li,Jiasen Lu,Zhe Gan,Zhengfeng Lai,Meng Cao,Kai Kang,Yinfei Yang,Afshin Dehghan
発行日 2025-03-24 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding はコメントを受け付けていません

DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation

要約

大規模な画像データセットでトレーニングされたVision Foundationモデル(VFM)は、2D視覚認識が大幅に進歩した高品質の機能を提供します。
ただし、3Dポイントクラウドデータセットに沿って2D画像が一般的に利用できるにもかかわらず、3Dビジョンにおけるそれらの可能性はほとんど未開発のままです。
重要な研究は2D-3D Fusionに専念していますが、最近の最先端の3Dメソッドは主に3Dデータに焦点を当てており、VFMの3Dモデルへの統合を未吸引に残しています。
この作業では、2Dファンデーションモデルの機能を抽出し、3Dに投影し、最後に3Dポイントクラウドセグメンテーションモデルに注入するシンプルで効果的なアプローチであるDITRを導入することにより、この傾向に挑戦します。
DITRは、屋内と屋外の3Dセマンティックセグメンテーションベンチマークで最先端の結果を達成しています。
推論中に画像が利用できない場合でもVFMの使用を有効にするために、2Dファンデーションモデルを事前削除タスクとして3Dバックボーンに蒸留することをさらに提案します。
2D VFMから蒸留された知識を使用して3Dバックボーンを初期化することにより、ダウンストリーム3Dセグメンテーションタスクの強力な基盤を作成し、最終的にはさまざまなデータセット全体でパフォーマンスを向上させます。

要約(オリジナル)

Vision foundation models (VFMs) trained on large-scale image datasets provide high-quality features that have significantly advanced 2D visual recognition. However, their potential in 3D vision remains largely untapped, despite the common availability of 2D images alongside 3D point cloud datasets. While significant research has been dedicated to 2D-3D fusion, recent state-of-the-art 3D methods predominantly focus on 3D data, leaving the integration of VFMs into 3D models underexplored. In this work, we challenge this trend by introducing DITR, a simple yet effective approach that extracts 2D foundation model features, projects them to 3D, and finally injects them into a 3D point cloud segmentation model. DITR achieves state-of-the-art results on both indoor and outdoor 3D semantic segmentation benchmarks. To enable the use of VFMs even when images are unavailable during inference, we further propose to distill 2D foundation models into a 3D backbone as a pretraining task. By initializing the 3D backbone with knowledge distilled from 2D VFMs, we create a strong basis for downstream 3D segmentation tasks, ultimately boosting performance across various datasets.

arxiv情報

著者 Karim Abou Zeid,Kadir Yilmaz,Daan de Geus,Alexander Hermans,David Adrian,Timm Linder,Bastian Leibe
発行日 2025-03-24 17:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation はコメントを受け付けていません

Aether: Geometric-Aware Unified World Modeling

要約

幾何学的再構築と生成モデリングの統合は、人間のような空間的推論が可能なAIシステムを開発する上で重要な課題のままです。
このペーパーでは、3つのコア機能を共同で最適化することにより、世界モデルでジオメトリを意識する推論を可能にする統一されたフレームワークであるAotherを提案します。
タスクインターレーブ機能学習を通じて、Aetherは再構築、予測、および計画目標を通じて相乗的な知識共有を実現します。
ビデオ生成モデルに基づいて、私たちのフレームワークは、トレーニング中に実際のデータを観察しないにもかかわらず、前例のない合成からリアルへの一般化を示しています。
さらに、私たちのアプローチは、本質的な幾何学的モデリングのおかげで、アクションフォローと再構成の両方のタスクでゼロショットの一般化を達成します。
驚くべきことに、実際のデータがなくても、その再構成パフォーマンスはドメイン固有のモデルのパフォーマンスをはるかに超えています。
さらに、エーテルは、ジオメトリに情報に基づいたアクション空間を活用して、予測をアクションにシームレスに変換し、効果的な自律軌道計画を可能にします。
私たちの仕事が、身体的に季節限定の世界モデリングとそのアプリケーションで新しいフロンティアを探索するようコミュニティに促すことを願っています。

要約(オリジナル)

The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates unprecedented synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Remarkably, even without real-world data, its reconstruction performance far exceeds that of domain-specific models. Additionally, Aether leverages a geometry-informed action space to seamlessly translate predictions into actions, enabling effective autonomous trajectory planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.

arxiv情報

著者 Aether Team,Haoyi Zhu,Yifan Wang,Jianjun Zhou,Wenzheng Chang,Yang Zhou,Zizun Li,Junyi Chen,Chunhua Shen,Jiangmiao Pang,Tong He
発行日 2025-03-24 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | Aether: Geometric-Aware Unified World Modeling はコメントを受け付けていません

Tuning-Free Amodal Segmentation via the Occlusion-Free Bias of Inpainting Models

要約

Amodalセグメンテーションは、オブジェクトの可視領域と閉塞領域の両方のセグメンテーションマスクを予測することを目的としています。
ほとんどの既存の作品は、これを監視された学習問題として定式化し、手動で注釈されたアモーダルマスクまたは合成トレーニングデータを必要とします。
その結果、パフォーマンスはデータセットの品質に依存します。データセットは、多様性と規模を欠いていることがよくあります。
この作業では、アモーダルセグメンテーションのために前処理された拡散ベースのインパインティングモデルを再利用するチューニングフリーアプローチを導入します。
私たちのアプローチは、インスピングモデルの「オクルージョンのないバイアス」によって動機付けられています。つまり、塗装されたオブジェクトは、閉塞のない完全なオブジェクトである傾向があります。
具体的には、追加のトレーニングや微調整なしで、開始を介してオブジェクトの閉塞領域を再構築し、セグメンテーションを適用します。
5つのデータセットでの実験は、アプローチの一般化と堅牢性を示しています。
平均して、私たちのアプローチは、最先端の5.3%の正確なマスクを達成します。

要約(オリジナル)

Amodal segmentation aims to predict segmentation masks for both the visible and occluded regions of an object. Most existing works formulate this as a supervised learning problem, requiring manually annotated amodal masks or synthetic training data. Consequently, their performance depends on the quality of the datasets, which often lack diversity and scale. This work introduces a tuning-free approach that repurposes pretrained diffusion-based inpainting models for amodal segmentation. Our approach is motivated by the ‘occlusion-free bias’ of inpainting models, i.e., the inpainted objects tend to be complete objects without occlusions. Specifically, we reconstruct the occluded regions of an object via inpainting and then apply segmentation, all without additional training or fine-tuning. Experiments on five datasets demonstrate the generalizability and robustness of our approach. On average, our approach achieves 5.3% more accurate masks over the state-of-the-art.

arxiv情報

著者 Jae Joong Lee,Bedrich Benes,Raymond A. Yeh
発行日 2025-03-24 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Tuning-Free Amodal Segmentation via the Occlusion-Free Bias of Inpainting Models はコメントを受け付けていません

Equivariant Image Modeling

要約

自己回帰や拡散アプローチなどの現在の生成モデルは、高次元データ分布学習を一連のより単純なサブタスクに分解します。
ただし、これらのサブタスクの共同最適化中に固有の競合が発生し、既存のソリューションは、効率やスケーラビリティを犠牲にすることなく、そのような競合を解決できません。
自然な視覚信号の翻訳不変性を活用することにより、サブタスク全体で最適化ターゲットを本質的に整列させる新しい等変化画像モデリングフレームワークを提案します。
私たちの方法では、(1)水平軸に沿った翻訳の対称性を強化する列ごとのトークン化と、(2)位置間で一貫したコンテキスト関係を強制するウィンドウされた因果関係を紹介します。
256×256解像度でクラス条件のイメージネット生成で評価されたこのアプローチは、最先端のARモデルに匹敵するパフォーマンスを達成し、計算リソースを使用します。
系統的分析は、等寛容を強化するとタスク間の競合が減少し、ゼロショットの一般化が大幅に改善され、超長い画像合成が可能になることが示されています。
この作業は、生成モデリングにおけるタスクに整合した分解の最初のフレームワークを確立し、効率的なパラメーター共有と競合のない最適化に関する洞察を提供します。
コードとモデルは、https://github.com/drx-code/equivariantmodelingで公開されています。

要約(オリジナル)

Current generative models, such as autoregressive and diffusion approaches, decompose high-dimensional data distribution learning into a series of simpler subtasks. However, inherent conflicts arise during the joint optimization of these subtasks, and existing solutions fail to resolve such conflicts without sacrificing efficiency or scalability. We propose a novel equivariant image modeling framework that inherently aligns optimization targets across subtasks by leveraging the translation invariance of natural visual signals. Our method introduces (1) column-wise tokenization which enhances translational symmetry along the horizontal axis, and (2) windowed causal attention which enforces consistent contextual relationships across positions. Evaluated on class-conditioned ImageNet generation at 256×256 resolution, our approach achieves performance comparable to state-of-the-art AR models while using fewer computational resources. Systematic analysis demonstrates that enhanced equivariance reduces inter-task conflicts, significantly improving zero-shot generalization and enabling ultra-long image synthesis. This work establishes the first framework for task-aligned decomposition in generative modeling, offering insights into efficient parameter sharing and conflict-free optimization. The code and models are publicly available at https://github.com/drx-code/EquivariantModeling.

arxiv情報

著者 Ruixiao Dong,Mengde Xu,Zigang Geng,Li Li,Han Hu,Shuyang Gu
発行日 2025-03-24 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Equivariant Image Modeling はコメントを受け付けていません

Target-Aware Video Diffusion Models

要約

ターゲットが認識しているビデオ拡散モデルを提示します。これは、俳優が目的のアクションを実行しながら、アクターが指定されたターゲットと対話する入力画像からビデオを生成します。
ターゲットはセグメンテーションマスクによって定義され、目的のアクションはテキストプロンプトを介して説明されます。
既存の制御可能な画像からビデオ間拡散モデルとは異なり、俳優の動きをターゲットに導くために密な構造またはモーションの手がかりに依存することが多いとは異なり、ターゲット認識モデルでは、ターゲットを示すための単純なマスクのみが必要であり、事前に擁護されたモデルの一般化能力を活用して妥当なアクションを生成します。
これにより、私たちの方法は、正確なアクションガイダンスを提供することが困難であり、ロボットなどのアプリケーションでの高レベルのアクションプランニングにビデオ拡散モデルを使用できるようになり、ヒューマンオブジェクトインタラクション(HOI)シナリオに特に効果的になります。
ターゲットマスクを追加の入力として組み込むためにベースラインモデルを拡張することにより、ターゲット認識モデルを構築します。
ターゲットの認識を実施するために、テキストプロンプト内のターゲットの空間情報をコードする特別なトークンを導入します。
次に、このトークンに関連付けられたクロスアテンションマップを入力ターゲットマスクに合わせる新しいクロスアテンション損失を使用して、キュレーションされたデータセットでモデルを微調整します。
パフォーマンスをさらに向上させるために、この損失を最も意味的に関連する変圧器ブロックと注意領域に選択的に適用します。
実験結果は、ターゲット認識モデルが、俳優が指定されたターゲットと正確に対話するビデオを生成する際に既存のソリューションを上回ることを示しています。
さらに、ビデオコンテンツの作成とゼロショット3D HOIモーション合成という2つのダウンストリームアプリケーションでその有効性を示します。

要約(オリジナル)

We present a target-aware video diffusion model that generates videos from an input image in which an actor interacts with a specified target while performing a desired action. The target is defined by a segmentation mask and the desired action is described via a text prompt. Unlike existing controllable image-to-video diffusion models that often rely on dense structural or motion cues to guide the actor’s movements toward the target, our target-aware model requires only a simple mask to indicate the target, leveraging the generalization capabilities of pretrained models to produce plausible actions. This makes our method particularly effective for human-object interaction (HOI) scenarios, where providing precise action guidance is challenging, and further enables the use of video diffusion models for high-level action planning in applications such as robotics. We build our target-aware model by extending a baseline model to incorporate the target mask as an additional input. To enforce target awareness, we introduce a special token that encodes the target’s spatial information within the text prompt. We then fine-tune the model with our curated dataset using a novel cross-attention loss that aligns the cross-attention maps associated with this token with the input target mask. To further improve performance, we selectively apply this loss to the most semantically relevant transformer blocks and attention regions. Experimental results show that our target-aware model outperforms existing solutions in generating videos where actors interact accurately with the specified targets. We further demonstrate its efficacy in two downstream applications: video content creation and zero-shot 3D HOI motion synthesis.

arxiv情報

著者 Taeksoo Kim,Hanbyul Joo
発行日 2025-03-24 17:59:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Target-Aware Video Diffusion Models はコメントを受け付けていません

Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings

要約

評価理論は、感情が評価と呼ばれるイベントの主観的評価から生じることを示唆しています。
評価の分類法は非常に多様であり、通常、経験者アノテーターまたはリーダーアノテーターのパラダイムで注釈を付けられるリッカートスケールでの評価が与えられます。
このホワイトペーパーでは、GPT-4は、異なるプロンプト設定での21の特定の評価評価の読者アノテーターとして、ヒトのアノテーターと比較してパフォーマンスを評価および改善することを目指しています。
GPT-4は、人間のアノテーターよりも近くまたはわずかに優れている効果的なリーダーアノテーターであり、5つの完了の過半数の投票を使用することにより、その結果を大幅に改善できることがわかりました。
GPT-4はまた、単一のプロンプトを使用して評価評価と感情ラベルを効果的に予測しますが、命令の複雑さを追加するとパフォーマンスが低下します。
また、イベントの説明が長くなると、モデルとヒトのアノテーターの両方の評価に対してより正確な注釈が得られることがわかりました。
この作業は、心理学におけるLLMSの使用の増加と、評価の注釈におけるGPT-4パフォーマンスを改善するための戦略に貢献します。

要約(オリジナル)

Appraisal theories suggest that emotions arise from subjective evaluations of events, referred to as appraisals. The taxonomy of appraisals is quite diverse, and they are usually given ratings on a Likert scale to be annotated in an experiencer-annotator or reader-annotator paradigm. This paper studies GPT-4 as a reader-annotator of 21 specific appraisal ratings in different prompt settings, aiming to evaluate and improve its performance compared to human annotators. We found that GPT-4 is an effective reader-annotator that performs close to or even slightly better than human annotators, and its results can be significantly improved by using a majority voting of five completions. GPT-4 also effectively predicts appraisal ratings and emotion labels using a single prompt, but adding instruction complexity results in poorer performance. We also found that longer event descriptions lead to more accurate annotations for both model and human annotator ratings. This work contributes to the growing usage of LLMs in psychology and the strategies for improving GPT-4 performance in annotating appraisals.

arxiv情報

著者 Deniss Ruder,Andero Uusberg,Kairit Sirts
発行日 2025-03-24 14:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | Assessing the Reliability and Validity of GPT-4 in Annotating Emotion Appraisal Ratings はコメントを受け付けていません

DiTEC-WDN: A Large-Scale Dataset of Hydraulic Scenarios across Multiple Water Distribution Networks

要約

プライバシーの制限は、実際の配電式(WDN)モデルの共有を妨げ、一般的に広範な観測が必要な、新しいデータ駆動型の機械学習の適用を制限します。
この課題に対処するために、短期(24時間)または長期(1年)のいずれかでシミュレートされた36,000の一意のシナリオで構成されるデータセットDITEC-WDNを提案します。
重要なパラメーター(圧力、流量、需要パターンなど)を最適化する自動パイプラインを使用してこのデータセットを構築し、大規模なシミュレーションを容易にし、ルール検証と事後分析を介して標準条件下で個別の合成で合成が油圧的に現実的な状態を記録します。
合計2億2,800万人の生成されたグラフベースの状態により、DITEC-WDNは、グラフレベル、ノードレベル、リンクレベルの回帰、および時系列予測など、さまざまな機械学習タスクをサポートできます。
公開免許の下でリリースされたこの貢献は、重要な水セクターでのオープンな科学研究を促進し、機密データを公開するリスクを排除し、研究比較とシナリオ分析のために大規模な配水販売ネットワークベンチマークの必要性を満たします。

要約(オリジナル)

Privacy restrictions hinder the sharing of real-world Water Distribution Network (WDN) models, limiting the application of emerging data-driven machine learning, which typically requires extensive observations. To address this challenge, we propose the dataset DiTEC-WDN that comprises 36,000 unique scenarios simulated over either short-term (24 hours) or long-term (1 year) periods. We constructed this dataset using an automated pipeline that optimizes crucial parameters (e.g., pressure, flow rate, and demand patterns), facilitates large-scale simulations, and records discrete, synthetic but hydraulically realistic states under standard conditions via rule validation and post-hoc analysis. With a total of 228 million generated graph-based states, DiTEC-WDN can support a variety of machine-learning tasks, including graph-level, node-level, and link-level regression, as well as time-series forecasting. This contribution, released under a public license, encourages open scientific research in the critical water sector, eliminates the risk of exposing sensitive data, and fulfills the need for a large-scale water distribution network benchmark for study comparisons and scenario analysis.

arxiv情報

著者 Huy Truong,Andrés Tello,Alexander Lazovik,Victoria Degeler
発行日 2025-03-24 14:40:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG | DiTEC-WDN: A Large-Scale Dataset of Hydraulic Scenarios across Multiple Water Distribution Networks はコメントを受け付けていません

Glivenko-Cantelli for $f$-divergence

要約

総変動距離の標準設定からすべての$ f $ divergencesまで、統計の基本的な定理と呼ばれることもある有名なGlivenko-Cantelliの定理を拡張します。
この努力の重要な障害は、$ \ pi $ -Systemを形成する$ \ sigma $ -olgebraのサブコレクションで$ f $ divergenceを定義することです。
これは私たちの仕事の副貢献です。
レイズの$ \ pi $ -systemの$ f $ divergenceのこの概念は、標準$ f $ divergenceのほぼすべての既知の特性を保存し、コルモゴロフスミルノフ距離の新規統合表現を生成し、Glivenko-Cantelli理論を持っていることを示します。
また、$ f $ -divergenceのVapnik-Chervonenkis理論の見通しについても説明します。

要約(オリジナル)

We extend the celebrated Glivenko-Cantelli theorem, sometimes called the fundamental theorem of statistics, from its standard setting of total variation distance to all $f$-divergences. A key obstacle in this endeavor is to define $f$-divergence on a subcollection of a $\sigma$-algebra that forms a $\pi$-system but not a $\sigma$-subalgebra. This is a side contribution of our work. We will show that this notion of $f$-divergence on the $\pi$-system of rays preserves nearly all known properties of standard $f$-divergence, yields a novel integral representation of the Kolmogorov-Smirnov distance, and has a Glivenko-Cantelli theorem. We will also discuss the prospects of a Vapnik-Chervonenkis theory for $f$-divergence.

arxiv情報

著者 Haoming Wang,Lek-Heng Lim
発行日 2025-03-24 13:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60B10, 60F15, 60F25, cs.LG, math.ST, stat.TH | Glivenko-Cantelli for $f$-divergence はコメントを受け付けていません

Toward a method for LLM-enabled Indoor Navigation

要約

屋内ナビゲーションは、複雑なレイアウト、GPSシグナルの欠如、アクセシビリティの懸念による独自の課題を提示します。
既存のソリューションは、多くの場合、リアルタイムの適応性とユーザー固有のニーズに苦しんでいます。
In this work, we explore the potential of a Large Language Model (LLM), i.e., ChatGPT, to generate natural, context-aware navigation instructions from indoor map images.
We design and evaluate test cases across different real-world environments, analyzing the effectiveness of LLMs in interpreting spatial layouts, handling user constraints, and planning efficient routes.
Our findings demonstrate the potential of LLMs for supporting personalized indoor navigation, with an average of 50.54% correct indications and a maximum of 77.78%.
The results do not appear to depend on the complexity of the layout or the complexity of the expected path, but rather on the number of points of interest and the abundance of visual information, which negatively affect the performance.

要約(オリジナル)

Indoor navigation presents unique challenges due to complex layouts, lack of GPS signals, and accessibility concerns. Existing solutions often struggle with real-time adaptability and user-specific needs. In this work, we explore the potential of a Large Language Model (LLM), i.e., ChatGPT, to generate natural, context-aware navigation instructions from indoor map images. We design and evaluate test cases across different real-world environments, analyzing the effectiveness of LLMs in interpreting spatial layouts, handling user constraints, and planning efficient routes. Our findings demonstrate the potential of LLMs for supporting personalized indoor navigation, with an average of 50.54% correct indications and a maximum of 77.78%. The results do not appear to depend on the complexity of the layout or the complexity of the expected path, but rather on the number of points of interest and the abundance of visual information, which negatively affect the performance.

arxiv情報

著者 Alberto Coffrini,Mohammad Amin Zadenoori,Paolo Barsocchi,Francesco Furfari,Antonino Crivello,Alessio Ferrari
発行日 2025-03-24 11:42:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | Toward a method for LLM-enabled Indoor Navigation はコメントを受け付けていません