From Chat Logs to Collective Insights: Aggregative Question Answering

要約

大規模な言語モデル(LLM)を搭載した会話エージェントは、私たちの毎日の相互作用に急速に不可欠になり、前例のない量の会話データを生成しています。
このようなデータセットは、社会的利益、トレンドトピック、集団的懸念に強力なレンズを提供します。
しかし、既存のアプローチは、通常、これらの相互作用を、大規模な会話ログ全体で集約と推論から出てくる可能性のある独立したミスの重要な洞察として扱います。
このホワイトペーパーでは、集約的な質問回答を紹介します。これは、特定の人口統計間の新たな懸念を特定するなど、集計的なクエリに答えるために、数千のユーザーチャットボットインタラクションを明示的に推論することを必要とする新しいタスクです。
この方向での研究を可能にするために、182,330の実世界のチャットボット会話から派生した6,027の集計的な質問で構成されるベンチマークであるWildChat-Aqaを構築します。
実験は、既存の方法が効果的に推論するのに苦労するか、法外な計算コストを負担するのに苦労し、大規模な会話データから集合的な洞察を抽出できる新しいアプローチの必要性を強調していることを示しています。

要約(オリジナル)

Conversational agents powered by large language models (LLMs) are rapidly becoming integral to our daily interactions, generating unprecedented amounts of conversational data. Such datasets offer a powerful lens into societal interests, trending topics, and collective concerns. Yet, existing approaches typically treat these interactions as independent and miss critical insights that could emerge from aggregating and reasoning across large-scale conversation logs. In this paper, we introduce Aggregative Question Answering, a novel task requiring models to reason explicitly over thousands of user-chatbot interactions to answer aggregative queries, such as identifying emerging concerns among specific demographics. To enable research in this direction, we construct a benchmark, WildChat-AQA, comprising 6,027 aggregative questions derived from 182,330 real-world chatbot conversations. Experiments show that existing methods either struggle to reason effectively or incur prohibitive computational costs, underscoring the need for new approaches capable of extracting collective insights from large-scale conversational data.

arxiv情報

著者 Wentao Zhang,Woojeong Kim,Yuntian Deng
発行日 2025-05-29 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG | From Chat Logs to Collective Insights: Aggregative Question Answering はコメントを受け付けていません

Autoregressive Meta-Actions for Unified Controllable Trajectory Generation

要約

メタアクションと呼ばれる高レベルのセマンティック決定に導かれた制御可能な軌跡の生成は、自律的な駆動システムにとって重要です。
既存のフレームワークの重要な制限は、固定された将来の時間間隔で割り当てられた不変のメタアクションに依存し、実際の動作軌跡との時間的不整列を引き起こすことです。
この不整合は、規定されたメタ作用と結果として生じる軌道との間の無関係な関連性につながり、タスクの一貫性を破壊し、モデルのパフォーマンスを制限します。
この課題に対処するために、自己回帰メタアクションを導入します。これは、メタアクションコンディショニングされた軌跡予測の統一された正確な定義を提供する自己回帰軌道生成フレームワークに統合されたアプローチです。
具体的には、従来の長い間隔のメタアクションをフレームレベルのメタアクションに分解し、自己回帰メタアクション予測とメタアクション条件の軌跡生成との間の連続的な相互作用を可能にします。
この分解により、各軌道セグメントとそれに対応するメタアクションとの間の厳密なアライメントが保証され、軌道スパン全体にわたって一貫した統一されたタスク定式化が達成され、複雑さが大幅に削減されます。
さらに、柔軟性、安定性、モジュール性を提供する高レベルの意思決定制御の統合から基本的なモーションダイナミクスの学習を分離するための段階的なトレーニングプロセスを提案します。
実験結果は、フレームワークの有効性を検証し、軌道適応性の改善と動的な意思決定シナリオに対する応答性を示しています。
https://arma-traj.github.io/で入手できるビデオドキュメントとデータセットを提供します。

要約(オリジナル)

Controllable trajectory generation guided by high-level semantic decisions, termed meta-actions, is crucial for autonomous driving systems. A significant limitation of existing frameworks is their reliance on invariant meta-actions assigned over fixed future time intervals, causing temporal misalignment with the actual behavior trajectories. This misalignment leads to irrelevant associations between the prescribed meta-actions and the resulting trajectories, disrupting task coherence and limiting model performance. To address this challenge, we introduce Autoregressive Meta-Actions, an approach integrated into autoregressive trajectory generation frameworks that provides a unified and precise definition for meta-action-conditioned trajectory prediction. Specifically, We decompose traditional long-interval meta-actions into frame-level meta-actions, enabling a sequential interplay between autoregressive meta-action prediction and meta-action-conditioned trajectory generation. This decomposition ensures strict alignment between each trajectory segment and its corresponding meta-action, achieving a consistent and unified task formulation across the entire trajectory span and significantly reducing complexity. Moreover, we propose a staged pre-training process to decouple the learning of basic motion dynamics from the integration of high-level decision control, which offers flexibility, stability, and modularity. Experimental results validate our framework’s effectiveness, demonstrating improved trajectory adaptivity and responsiveness to dynamic decision-making scenarios. We provide the video document and dataset, which are available at https://arma-traj.github.io/.

arxiv情報

著者 Jianbo Zhao,Taiyu Ban,Xiyang Wang,Qibin Zhou,Hangning Zhou,Zhihao Liu,Mu Yang,Lei Liu,Bin Li
発行日 2025-05-29 16:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Autoregressive Meta-Actions for Unified Controllable Trajectory Generation はコメントを受け付けていません

One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory

要約

効果的なビデオトークン化は、長いビデオのトランスモデルをスケーリングするために重要です。
現在のアプローチは、時空パッチを使用してビデオをトークン化し、過度のトークンと計算の非効率性につながります。
最高のトークン削減戦略は、パフォーマンスを低下させ、カメラが移動するときにトークンの数をほとんど減らしません。
固定パッチではなく、パノプティックサブオブジェクトの軌跡に基づいてトークンを整理するパラダイムである接地ビデオトークン化を紹介します。
私たちの方法は、基本的な知覚原則と一致し、トークン化がビデオの期間ではなくシーンの複雑さを反映することを保証します。
オブジェクトの軌跡を抽出し、それらを意味的に意味のあるトークンに変換するビデオエンコーダーであるTrajvitを提案し、一時的なコヒーレンスを維持しながら冗長性を大幅に削減します。
対照的な学習で訓練されたTrajvitは、複数のビデオ理解ベンチマークにわたって時空VIT(VIT3D)を大幅に上回ります。たとえば、Trajvitは、10Xトークン控除のあるビデオテキスト検索タスクで平均で6%トップ5リコールの大きなマージンをvit3dよりも優れています。
また、TrajvitはVIT3Dよりも強力なモデルとして、Modern Videollmのビデオエンコーダーであるため、6つのVideoQAベンチマークで平均5.2%のパフォーマンス改善を取得しながら、トレーニング時間が4倍高く、推論フロップが18倍少ないことを示しています。
Trajvitは、多様なビデオ分析タスク全体でVIT3Dを一貫して上回る最初の効率的なエンコーダーであり、堅牢でスケーラブルなソリューションになります。

要約(オリジナル)

Effective video tokenization is critical for scaling transformer models for long videos. Current approaches tokenize videos using space-time patches, leading to excessive tokens and computational inefficiencies. The best token reduction strategies degrade performance and barely reduce the number of tokens when the camera moves. We introduce grounded video tokenization, a paradigm that organizes tokens based on panoptic sub-object trajectories rather than fixed patches. Our method aligns with fundamental perceptual principles, ensuring that tokenization reflects scene complexity rather than video duration. We propose TrajViT, a video encoder that extracts object trajectories and converts them into semantically meaningful tokens, significantly reducing redundancy while maintaining temporal coherence. Trained with contrastive learning, TrajViT significantly outperforms space-time ViT (ViT3D) across multiple video understanding benchmarks, e.g., TrajViT outperforms ViT3D by a large margin of 6% top-5 recall in average at video-text retrieval task with 10x token deduction. We also show TrajViT as a stronger model than ViT3D for being the video encoder for modern VideoLLM, obtaining an average of 5.2% performance improvement across 6 VideoQA benchmarks while having 4x faster training time and 18x less inference FLOPs. TrajViT is the first efficient encoder to consistently outperform ViT3D across diverse video analysis tasks, making it a robust and scalable solution.

arxiv情報

著者 Chenhao Zheng,Jieyu Zhang,Mohammadreza Salehi,Ziqi Gao,Vishnu Iyengar,Norimasa Kobori,Quan Kong,Ranjay Krishna
発行日 2025-05-29 16:25:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | One Trajectory, One Token: Grounded Video Tokenization via Panoptic Sub-object Trajectory はコメントを受け付けていません

ZeroSep: Separate Anything in Audio with Zero Training

要約

オーディオソースの分離は、マシンが複雑な音響環境を理解し、多数のオーディオアプリケーションを支えるための基本です。
現在の監督された深い学習アプローチは、強力ですが、広範なタスク固有のラベル付けされたデータの必要性によって制限され、現実世界の音響シーンの計り知れない変動とオープンセットの性質に一般化するのに苦労します。
生成基盤モデルの成功に触発されて、事前に訓練されたテキスト誘導オーディオ拡散モデルがこれらの制限を克服できるかどうかを調査します。
驚くべき発見をします。ゼロショットソースの分離は、適切な構成の下で事前に訓練されたテキスト誘導オーディオ拡散モデルを通じて純粋に達成できます。
Zerosepという名前の私たちの方法は、混合オーディオを拡散モデルの潜在スペースに逆転させ、テキストコンディショニングを使用して個々のソースを回復するために除去プロセスを導くことにより機能します。
タスク固有のトレーニングや微調整がなければ、Zerosepは識別的分離タスクの生成拡散モデルを再利用し、豊富なテキストプライアーを通じてオープンセットシナリオを本質的にサポートします。
Zerosepは、事前に訓練されたさまざまなテキスト誘導オーディオ拡散バックボーンと互換性があり、複数の分離ベンチマークで強力な分離パフォーマンスを提供し、監視された方法を上回ります。

要約(オリジナル)

Audio source separation is fundamental for machines to understand complex acoustic environments and underpins numerous audio applications. Current supervised deep learning approaches, while powerful, are limited by the need for extensive, task-specific labeled data and struggle to generalize to the immense variability and open-set nature of real-world acoustic scenes. Inspired by the success of generative foundation models, we investigate whether pre-trained text-guided audio diffusion models can overcome these limitations. We make a surprising discovery: zero-shot source separation can be achieved purely through a pre-trained text-guided audio diffusion model under the right configuration. Our method, named ZeroSep, works by inverting the mixed audio into the diffusion model’s latent space and then using text conditioning to guide the denoising process to recover individual sources. Without any task-specific training or fine-tuning, ZeroSep repurposes the generative diffusion model for a discriminative separation task and inherently supports open-set scenarios through its rich textual priors. ZeroSep is compatible with a variety of pre-trained text-guided audio diffusion backbones and delivers strong separation performance on multiple separation benchmarks, surpassing even supervised methods.

arxiv情報

著者 Chao Huang,Yuesheng Ma,Junxuan Huang,Susan Liang,Yunlong Tang,Jing Bi,Wenqiang Liu,Nima Mesgarani,Chenliang Xu
発行日 2025-05-29 16:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SD | ZeroSep: Separate Anything in Audio with Zero Training はコメントを受け付けていません

Color Image Set Recognition Based on Quaternionic Grassmannians

要約

Quaternicのパワーを使用して色情報をキャプチャし、各カラー画像セットをQuaternic Grassmannianのポイントとして表現するQuaternic Grassmanniansを使用して、カラー画像セットを認識するための新しい方法を提案します。
Quaternionic Grassmannianの2つのポイント間の最短距離を計算するための直接式を提供し、この距離を使用して新しい分類フレームワークを構築します。
ETH-80ベンチマークデータセットでの実験は、この方法が良好な認識結果を達成することを示しています。
また、安定性のいくつかの制限についても説明し、将来の方法を改善する方法を提案します。

要約(オリジナル)

We propose a new method for recognizing color image sets using quaternionic Grassmannians, which use the power of quaternions to capture color information and represent each color image set as a point on the quaternionic Grassmannian. We provide a direct formula to calculate the shortest distance between two points on the quaternionic Grassmannian, and use this distance to build a new classification framework. Experiments on the ETH-80 benchmark dataset show that our method achieves good recognition results. We also discuss some limitations in stability and suggest ways the method can be improved in the future.

arxiv情報

著者 Xiang Xiang Wang,Tin-Yau Tam
発行日 2025-05-29 16:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, math.AG | Color Image Set Recognition Based on Quaternionic Grassmannians はコメントを受け付けていません

Position: Interactive Generative Video as Next-Generation Game Engine

要約

現代のゲーム開発は、従来のゲームエンジンの所定のコンテンツにより、創造性とコストに大きな課題に直面しています。
現実的でインタラクティブな仮想環境を合成できるビデオ生成モデルの最近のブレークスルーは、ゲームの作成に革命をもたらす機会を提供します。
このポジションペーパーでは、インタラクティブな生成ビデオ(IGV)を生成ゲームエンジン(GGE)の基礎として提案し、次世代ゲームで無制限の新しいコンテンツ生成を可能にします。
GGEは、無制限の高品質のコンテンツ合成、物理的認識世界モデリング、ユーザー制御のインタラクティブ性、長期メモリ機能、因果推論におけるIGVの独自の強みを活用しています。
GGEのコアモジュールと階層的成熟ロードマップ(L0-L4)を詳細に詳細に説明し、その進化を導きます。
私たちの作業は、AI時代のゲーム開発のための新しいコースを示しており、AIを駆動した生成システムがゲームの作成方法と経験を根本的に再構築する未来を想定しています。

要約(オリジナル)

Modern game development faces significant challenges in creativity and cost due to predetermined content in traditional game engines. Recent breakthroughs in video generation models, capable of synthesizing realistic and interactive virtual environments, present an opportunity to revolutionize game creation. In this position paper, we propose Interactive Generative Video (IGV) as the foundation for Generative Game Engines (GGE), enabling unlimited novel content generation in next-generation gaming. GGE leverages IGV’s unique strengths in unlimited high-quality content synthesis, physics-aware world modeling, user-controlled interactivity, long-term memory capabilities, and causal reasoning. We present a comprehensive framework detailing GGE’s core modules and a hierarchical maturity roadmap (L0-L4) to guide its evolution. Our work charts a new course for game development in the AI era, envisioning a future where AI-powered generative systems fundamentally reshape how games are created and experienced.

arxiv情報

著者 Jiwen Yu,Yiran Qin,Haoxuan Che,Quande Liu,Xintao Wang,Pengfei Wan,Di Zhang,Xihui Liu
発行日 2025-05-29 16:42:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Position: Interactive Generative Video as Next-Generation Game Engine はコメントを受け付けていません

UniViTAR: Unified Vision Transformer with Native Resolution

要約

従来のビジョントランスは、入力解像度を標準化することにより視覚モデリングを簡素化し、しばしば自然な視覚データの変動性を無視し、空間的コンテキストの忠実度を損なうことができます。
予備的な調査では、本面的にネイティブ解像度のモデリングが調査されていますが、既存のアプローチには視覚的表現の観点からの系統的分析が依然として欠けています。
このギャップを埋めるために、マルチモーダルの時代に統一された視覚モダリティとネイティブ解像度のシナリオに合わせた均一なビジョンファンデーションモデルのファミリーであるUnivitarを紹介します。
当社のフレームワークは、最初に、複数の高度なコンポーネントを統合することにより、バニラパラダイムのアーキテクチャのアップグレードを実施します。
これらの改善に基づいて、2つのコアメカニズムを戦略的に組み合わせたプログレッシブトレーニングパラダイムが導入されます。(1)解像度カリキュラム学習、固定解像度の前登録からネイティブ解像度のチューニングへの移行により、VITの固有の適応性を可変長シーケンスに活用し、(2)視覚モダリティの適応を強化しました。
並行して、ハイブリッドトレーニングフレームワークは、凍結した教師モデルからの特徴蒸留とのシグモイドベースのコントラスト損失をさらに相乗的にし、それにより初期段階の収束を加速させます。
最後に、パブリックデータセットのみで訓練された、0.3Bから1Bの複数のモデルスケールにわたる外部実験は、その有効性を示しています。

要約(オリジナル)

Conventional Vision Transformer simplifies visual modeling by standardizing input resolutions, often disregarding the variability of natural visual data and compromising spatial-contextual fidelity. While preliminary explorations have superficially investigated native resolution modeling, existing approaches still lack systematic analysis from a visual representation perspective. To bridge this gap, we introduce UniViTAR, a family of homogeneous vision foundation models tailored for unified visual modality and native resolution scenario in the era of multimodal. Our framework first conducts architectural upgrades to the vanilla paradigm by integrating multiple advanced components. Building upon these improvements, a progressive training paradigm is introduced, which strategically combines two core mechanisms: (1) resolution curriculum learning, transitioning from fixed-resolution pretraining to native resolution tuning, thereby leveraging ViT’s inherent adaptability to variable-length sequences, and (2) visual modality adaptation via inter-batch image-video switching, which balances computational efficiency with enhanced temporal reasoning. In parallel, a hybrid training framework further synergizes sigmoid-based contrastive loss with feature distillation from a frozen teacher model, thereby accelerating early-stage convergence. Finally, trained exclusively on public datasets, externsive experiments across multiple model scales from 0.3B to 1B demonstrate its effectiveness.

arxiv情報

著者 Limeng Qiao,Yiyang Gan,Bairui Wang,Jie Qin,Shuang Xu,Siqi Yang,Lin Ma
発行日 2025-05-29 16:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | UniViTAR: Unified Vision Transformer with Native Resolution はコメントを受け付けていません

Comparing the Effects of Persistence Barcodes Aggregation and Feature Concatenation on Medical Imaging

要約

医療画像分析では、機能エンジニアリングは、機械学習モデルの設計とパフォーマンスにおいて重要な役割を果たします。
トポロジーデータ分析の分野(TDA)からの永続性相同性(PH)は、データの摂動に対する堅牢性と安定性を示し、入力の小さな変化が特徴表現の大きな変化をもたらす従来の特徴抽出アプローチからの制限に対処します。
pHを使用して、持続性トポロジーと幾何学的特徴を永続性バーコードの形で保存し、大きなバーがグローバルなトポロジー特徴を表し、小さなバーはデータの幾何学的情報をカプセル化します。
複数のバーコードが2Dまたは3Dの医療画像から計算される場合、2つのアプローチを使用して、各次元で最終的なトポロジー特徴ベクトルを構築できます。持続性バーコードを集約し、それに続いて各バーコードから派生したトポロジー特徴ベクトルを連結します。
この研究では、多様な医療イメージングデータセット間で包括的な分析を実施して、分類モデルのパフォーマンスに対する2つの前述のアプローチの効果を比較します。
この分析の結果は、特徴が個々のバーコードからの詳細なトポロジー情報を保持し、より良い分類パフォーマンスをもたらすため、同様の実験を実施する際に好ましいアプローチであることを示しています。

要約(オリジナル)

In medical image analysis, feature engineering plays an important role in the design and performance of machine learning models. Persistent homology (PH), from the field of topological data analysis (TDA), demonstrates robustness and stability to data perturbations and addresses the limitation from traditional feature extraction approaches where a small change in input results in a large change in feature representation. Using PH, we store persistent topological and geometrical features in the form of the persistence barcode whereby large bars represent global topological features and small bars encapsulate geometrical information of the data. When multiple barcodes are computed from 2D or 3D medical images, two approaches can be used to construct the final topological feature vector in each dimension: aggregating persistence barcodes followed by featurization or concatenating topological feature vectors derived from each barcode. In this study, we conduct a comprehensive analysis across diverse medical imaging datasets to compare the effects of the two aforementioned approaches on the performance of classification models. The results of this analysis indicate that feature concatenation preserves detailed topological information from individual barcodes, yields better classification performance and is therefore a preferred approach when conducting similar experiments.

arxiv情報

著者 Dashti A. Ali,Richard K. G. Do,William R. Jarnagin,Aras T. Asaad,Amber L. Simpson
発行日 2025-05-29 16:45:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Comparing the Effects of Persistence Barcodes Aggregation and Feature Concatenation on Medical Imaging はコメントを受け付けていません

SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes

要約

この作業では、NVIDIAのISAAC SIMレプリケーターコンポーザーを使用して構築された統合された柔軟性のあるPythonベースのデータセットジェネレーターであるSyntableを提示し、乱雑な卓上シーンの目に見えないオブジェクトアモダルインスタンスセグメンテーションのための高品質の合成データセットを生成します。
データセット生成ツールは、オブジェクトメッシュ、素材、テクスチャ、照明、背景を含む複雑な3Dシーンをレンダリングできます。
モーダルおよびアモーダルインスタンスセグメンテーションマスク、オブジェクトアモダルRGBAインスタンス、閉塞マスク、深度マップ、境界ボックス、および材料特性などのメタデータを自動的に生成して、ユーザーの要件に応じてシーンに注釈を付けることができます。
当社のツールは、データセットの品質と精度を確保しながら、データセット生成プロセスで手動ラベル付けの必要性を排除します。
この作業では、設計目標、フレームワークアーキテクチャ、およびツールのパフォーマンスについて説明します。
SynTableを使用して生成されたサンプルデータセットの使用を実証します。
当社の最先端の結果は、OSD-Amodalデータセットで評価された場合、SIMからリアルへの転送のパフォーマンスが大幅に改善されたことを示しています。
このツールは、ディープラーニングと合成データ生成の研究を進めるためのオープンソースの使いやすい光線上のデータセットジェネレーターとして提供しています。
ソースコード、デモビデオ、およびサンプルデータセットへのリンクは、補足資料に記載されています。

要約(オリジナル)

In this work, we present SynTable, a unified and flexible Python-based dataset generator built using NVIDIA’s Isaac Sim Replicator Composer for generating high-quality synthetic datasets for unseen object amodal instance segmentation of cluttered tabletop scenes. Our dataset generation tool can render complex 3D scenes containing object meshes, materials, textures, lighting, and backgrounds. Metadata, such as modal and amodal instance segmentation masks, object amodal RGBA instances, occlusion masks, depth maps, bounding boxes, and material properties can be automatically generated to annotate the scene according to the users’ requirements. Our tool eliminates the need for manual labeling in the dataset generation process while ensuring the quality and accuracy of the dataset. In this work, we discuss our design goals, framework architecture, and the performance of our tool. We demonstrate the use of a sample dataset generated using SynTable for training a state-of-the-art model, UOAIS-Net. Our state-of-the-art results show significantly improved performance in Sim-to-Real transfer when evaluated on the OSD-Amodal dataset. We offer this tool as an open-source, easy-to-use, photorealistic dataset generator for advancing research in deep learning and synthetic data generation. The links to our source code, demonstration video, and sample dataset can be found in the supplementary materials.

arxiv情報

著者 Zhili Ng,Haozhe Wang,Zhengshen Zhang,Francis Tay Eng Hock,Marcelo H. Ang Jr
発行日 2025-05-29 16:47:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes はコメントを受け付けていません

PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes

要約

自動運転車のトレーニング認識システムには、マニュアルラベルから労働集約的な2Dアノテーションが必要です。
既存のデータセットは、事前に録音されたシーケンスで豊富な注釈を提供しますが、それらはめったに遭遇しない視点にラベルを付けるのに不十分であり、知覚モデルの一般化能力を妨げる可能性があります。
この論文では、粗い3Dアノテーションと騒々しい2Dセマンティックキューを組み合わせて、あらゆる観点から高品質のパノプティックラベルと画像を生成する新しいアプローチであるPanopticnerf-360を紹介します。
私たちの重要な洞察は、3Dおよび2Dプライアーの相補性を活用して、幾何学とセマンティクスを相互に強化することにあります。
具体的には、パノプティック擬似地上真理に合わせて予測されたラベルを奨励することにより、粗い3D境界プリミティブとノイズの多い2Dセマンティブとインスタンスの予測を活用することを提案します。
同時に、改善されたジオメトリは、学習したセマンティックフィールドを介して3D空間でセマンティクスを融合することにより、3Dおよび2Dアノテーションノイズのフィルタリングを支援します。
外観をさらに強化するために、MLPとハッシュグリッドを組み合わせてハイブリッドシーンの特徴を生み出し、高周波の外観と連続的なセマンティクスのバランスを取ります。
私たちの実験では、Kitti-360データセットの挑戦的な都市シーンでのラベル転送方法をめぐるPanopticnerf-360の最先端のパフォーマンスを示しています。
さらに、Panopticnerf-360は、高忠実度、マルチビュー、空間的に一貫した外観、セマンティック、インスタンスのラベルの全方向性レンダリングを可能にします。
https://github.com/fuxiao0719/panopticnerfでコードとデータを利用できるようにします

要約(オリジナル)

Training perception systems for self-driving cars requires substantial 2D annotations that are labor-intensive to manual label. While existing datasets provide rich annotations on pre-recorded sequences, they fall short in labeling rarely encountered viewpoints, potentially hampering the generalization ability for perception models. In this paper, we present PanopticNeRF-360, a novel approach that combines coarse 3D annotations with noisy 2D semantic cues to generate high-quality panoptic labels and images from any viewpoint. Our key insight lies in exploiting the complementarity of 3D and 2D priors to mutually enhance geometry and semantics. Specifically, we propose to leverage coarse 3D bounding primitives and noisy 2D semantic and instance predictions to guide geometry optimization, by encouraging predicted labels to match panoptic pseudo ground truth. Simultaneously, the improved geometry assists in filtering 3D&2D annotation noise by fusing semantics in 3D space via a learned semantic field. To further enhance appearance, we combine MLP and hash grids to yield hybrid scene features, striking a balance between high-frequency appearance and contiguous semantics. Our experiments demonstrate PanopticNeRF-360’s state-of-the-art performance over label transfer methods on the challenging urban scenes of the KITTI-360 dataset. Moreover, PanopticNeRF-360 enables omnidirectional rendering of high-fidelity, multi-view and spatiotemporally consistent appearance, semantic and instance labels. We make our code and data available at https://github.com/fuxiao0719/PanopticNeRF

arxiv情報

著者 Xiao Fu,Shangzhan Zhang,Tianrun Chen,Yichong Lu,Xiaowei Zhou,Andreas Geiger,Yiyi Liao
発行日 2025-05-29 16:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | PanopticNeRF-360: Panoramic 3D-to-2D Label Transfer in Urban Scenes はコメントを受け付けていません