MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning

要約

構成ゼロショット学習(CZSL)は、見た構成からセマンティックプリミティブ(属性とオブジェクト)を学び、目に見えない属性とオブジェクトの構成を認識することを目的としています。
既存のCZSLデータセットは、単一の属性に焦点を当てており、オブジェクトが自然に相互に関連する属性を自然に示すという事実を無視します。
それらの狭い属性の範囲と単一の属性ラベルは、注釈バイアスを導入し、属性の学習を誤解させ、不正確な評価を引き起こします。
これらの問題に対処するために、マルチアトリブ構成(MAC)データセットを紹介し、包括的で代表的な属性注釈を備えた22,838の画像と17,627の構成を含みます。
Macは、属性とオブジェクトの複雑な関係を示し、各属性タイプは平均82.2オブジェクトタイプにリンクされ、各オブジェクトタイプは31.4属性タイプに関連付けられています。
MACに基づいて、より深いセマンティック理解と高度な属性関連を必要とする多属性構成ゼロショット学習を提案し、CZSLのより現実的で挑戦的なベンチマークを確立します。
また、マルチアトリビティティビティティックインテグレーター(MVP-Integrator)を提案します。これは、セマンティックプリミティブを解き放ち、効果的な視覚プリミティブ関連の関連を実行する多属性CZSLの堅牢なベースラインです。
実験結果は、MVP-Integratorが推論効率が改善されたMAC上の既存のCZSLメソッドを大幅に上回ることを示しています。

要約(オリジナル)

Compositional Zero-Shot Learning (CZSL) aims to learn semantic primitives (attributes and objects) from seen compositions and recognize unseen attribute-object compositions. Existing CZSL datasets focus on single attributes, neglecting the fact that objects naturally exhibit multiple interrelated attributes. Their narrow attribute scope and single attribute labeling introduce annotation biases, misleading the learning of attributes and causing inaccurate evaluation. To address these issues, we introduce the Multi-Attribute Composition (MAC) dataset, encompassing 22,838 images and 17,627 compositions with comprehensive and representative attribute annotations. MAC shows complex relationship between attributes and objects, with each attribute type linked to an average of 82.2 object types, and each object type associated with 31.4 attribute types. Based on MAC, we propose multi-attribute compositional zero-shot learning that requires deeper semantic understanding and advanced attribute associations, establishing a more realistic and challenging benchmark for CZSL. We also propose Multi-attribute Visual-Primitive Integrator (MVP-Integrator), a robust baseline for multi-attribute CZSL, which disentangles semantic primitives and performs effective visual-primitive association. Experimental results demonstrate that MVP-Integrator significantly outperforms existing CZSL methods on MAC with improved inference efficiency.

arxiv情報

著者 Shuo Xu,Sai Wang,Xinyue Hu,Yutian Lin,Sibei Yang,Yu Wu
発行日 2025-03-18 06:49:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MAC: A Benchmark for Multiple Attributes Compositional Zero-Shot Learning はコメントを受け付けていません

MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling

要約

線形の複雑さを伴うRNNモデルの進歩により、変圧器の二次複雑さの課題は克服される可能性があります。
特に、新興MAMBA-2は競争力のあるパフォーマンスを実証し、RNNモデルと変圧器の間のギャップを埋めています。
ただし、連続的な処理と消失の勾配により、RNNモデルは長距離依存関係をキャプチャするのに苦労し、コンテキストの理解を制限しています。
これにより、収束が遅くなり、リソースの需要が高く、下流の理解と複雑な推論タスクのパフォーマンスが低下します。
この作業では、トランスデコーダー層の一部をMAMBA-2層を備えた事前に訓練されたVLMに置き換えることにより、ハイブリッドモデルMATVLMを提示します。
注意とMAMBA-2の固有の関係を活用すると、MAMBA-2を初期化して、収束を加速するために対応する注意重みを初期化します。
その後、事前に訓練されたVLMを教師モデルとして使用して知識をMATVLMに転送し、収束速度とパフォーマンスをさらに向上させる単一段階の蒸留プロセスを採用します。
さらに、トレーニングフレームワーク内での蒸留損失の微分損失の影響を調査します。
複数のベンチマークでMATVLMを評価し、MAMBAベースのVLMと同等のパラメータースケールのモデルの両方を超えながら、教師モデルと既存のVLMに対する競争力のあるパフォーマンスを実証します。
驚くべきことに、MATVLMは、教師モデルよりも最大3.6倍の推論を達成し、GPUメモリ消費量を27.5%削減し、すべてパフォーマンスを損なうことなく。
コードとモデルはhttp://github.com/hustvl/matvlmでリリースされます。

要約(オリジナル)

With the advancement of RNN models with linear complexity, the quadratic complexity challenge of transformers has the potential to be overcome. Notably, the emerging Mamba-2 has demonstrated competitive performance, bridging the gap between RNN models and transformers. However, due to sequential processing and vanishing gradients, RNN models struggle to capture long-range dependencies, limiting contextual understanding. This results in slow convergence, high resource demands, and poor performance on downstream understanding and complex reasoning tasks. In this work, we present a hybrid model MaTVLM by substituting a portion of the transformer decoder layers in a pre-trained VLM with Mamba-2 layers. Leveraging the inherent relationship between attention and Mamba-2, we initialize Mamba-2 with corresponding attention weights to accelerate convergence. Subsequently, we employ a single-stage distillation process, using the pre-trained VLM as the teacher model to transfer knowledge to the MaTVLM, further enhancing convergence speed and performance. Furthermore, we investigate the impact of differential distillation loss within our training framework. We evaluate the MaTVLM on multiple benchmarks, demonstrating competitive performance against the teacher model and existing VLMs while surpassing both Mamba-based VLMs and models of comparable parameter scales. Remarkably, the MaTVLM achieves up to 3.6x faster inference than the teacher model while reducing GPU memory consumption by 27.5%, all without compromising performance. Code and models are released at http://github.com/hustvl/MaTVLM.

arxiv情報

著者 Yingyue Li,Bencheng Liao,Wenyu Liu,Xinggang Wang
発行日 2025-03-18 07:07:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling はコメントを受け付けていません

TSCMamba: Mamba Meets Multi-View Learning for Time Series Classification

要約

多変量時系列分類(TSC)は、ヘルスケアやファイナンスなどの分野のさまざまなアプリケーションにとって重要です。
TSCのさまざまなアプローチが検討されていますが、シフト等量や反転不変性などの時系列の重要な特性は、既存の作品によってほとんど露出していません。
このギャップを埋めるために、Shift等変量などのプロパティでパターンをキャプチャする新しいマルチビューアプローチを提案します。
私たちの方法は、TSCの豊富な補完的なコンテキストを取得するために、スペクトル、時間、ローカル、グローバルな機能を含む多様な機能を統合します。
連続ウェーブレット変換を使用して、入力が時間内にシフトされた場合でも一貫性のある時間周波数機能をキャプチャします。
これらの機能は、一時的な畳み込みまたは多層パーセプトロンの特徴と融合して、複雑なローカルおよびグローバルなコンテキスト情報を提供します。
Mamba State Spaceモデルを利用して、効率的でスケーラブルなシーケンスモデリングと、時系列で長距離依存関係をキャプチャします。
さらに、Tango Scanningと呼ばれるMambaの新しいスキャンスキームを導入して、シーケンス関係を効果的にモデル化し、反転不変性を活用して、モデルの一般化と堅牢性を高めます。
2セットのベンチマークデータセット(10+20データセット)の実験は、アプローチの有効性を示しており、TimesNetやTSLANETなどの主要なTSCモデルよりも、それぞれ4.01-6.45 \%および7.93 \%の平均精度の改善を達成します。

要約(オリジナル)

Multivariate time series classification (TSC) is critical for various applications in fields such as healthcare and finance. While various approaches for TSC have been explored, important properties of time series, such as shift equivariance and inversion invariance, are largely underexplored by existing works. To fill this gap, we propose a novel multi-view approach to capture patterns with properties like shift equivariance. Our method integrates diverse features, including spectral, temporal, local, and global features, to obtain rich, complementary contexts for TSC. We use continuous wavelet transform to capture time-frequency features that remain consistent even when the input is shifted in time. These features are fused with temporal convolutional or multilayer perceptron features to provide complex local and global contextual information. We utilize the Mamba state space model for efficient and scalable sequence modeling and capturing long-range dependencies in time series. Moreover, we introduce a new scanning scheme for Mamba, called tango scanning, to effectively model sequence relationships and leverage inversion invariance, thereby enhancing our model’s generalization and robustness. Experiments on two sets of benchmark datasets (10+20 datasets) demonstrate our approach’s effectiveness, achieving average accuracy improvements of 4.01-6.45\% and 7.93\% respectively, over leading TSC models such as TimesNet and TSLANet.

arxiv情報

著者 Md Atik Ahamed,Qiang Cheng
発行日 2025-03-17 17:40:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | TSCMamba: Mamba Meets Multi-View Learning for Time Series Classification はコメントを受け付けていません

Population Transformer: Learning Population-level Representations of Neural Activity

要約

大規模な神経記録の任意のアンサンブルの人口レベルのコードを学習する自己監督のフレームワークを提示します。
神経の時系列データ、すなわち、被験者とデータセット間のスパースと可変電極分布を使用したスケーリングモデルの重要な課題に対処します。
個体群(POPT)は、前提条件の時間埋め込みの上にスタックし、複数の空間的標準データチャネルの学習した集約を可能にすることにより、下流のデコードを強化します。
事前に守られたPOPTは、下流のデコード実験に必要なデータの量を低下させ、保有された被験者やタスクでも精度を向上させます。
エンドツーエンドの方法と比較して、このアプローチは計算的に軽量であり、同様のまたはより良いデコードパフォーマンスを達成します。
さらに、私たちのフレームワークが複数の時系列の埋め込みと神経データのモダリティにどのように一般化できるかを示します。
デコードを超えて、前処理された微調整されたPOPTモデルを解釈して、大量のデータから神経科学の洞察を抽出するためにどのように使用できるかを示します。
コードと、前提条件のPOPTをリリースして、マルチチャンネル内データドのデコードと解釈可能性の既製の改善を可能にします。
コードはhttps://github.com/czlwang/populationtransformerで入手できます。

要約(オリジナル)

We present a self-supervised framework that learns population-level codes for arbitrary ensembles of neural recordings at scale. We address key challenges in scaling models with neural time-series data, namely, sparse and variable electrode distribution across subjects and datasets. The Population Transformer (PopT) stacks on top of pretrained temporal embeddings and enhances downstream decoding by enabling learned aggregation of multiple spatially-sparse data channels. The pretrained PopT lowers the amount of data required for downstream decoding experiments, while increasing accuracy, even on held-out subjects and tasks. Compared to end-to-end methods, this approach is computationally lightweight, while achieving similar or better decoding performance. We further show how our framework is generalizable to multiple time-series embeddings and neural data modalities. Beyond decoding, we interpret the pretrained and fine-tuned PopT models to show how they can be used to extract neuroscience insights from large amounts of data. We release our code as well as a pretrained PopT to enable off-the-shelf improvements in multi-channel intracranial data decoding and interpretability. Code is available at https://github.com/czlwang/PopulationTransformer.

arxiv情報

著者 Geeling Chau,Christopher Wang,Sabera Talukder,Vighnesh Subramaniam,Saraswati Soedarmadji,Yisong Yue,Boris Katz,Andrei Barbu
発行日 2025-03-17 17:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.NC | Population Transformer: Learning Population-level Representations of Neural Activity はコメントを受け付けていません

Valley: Video Assistant with Large Language model Enhanced abilitY

要約

大規模な言語モデル(LLMS)は、驚くべき会話能力を備えた、視覚的およびテキストモダリティの両方を処理できるAIアシスタントとして浮上しています。
ただし、共同ビデオと言語の理解におけるそれらの有効性は、広範囲に調査されていません。
この論文では、ビデオの理解と指導に従う機能の強化を可能にするように設計されたマルチモーダルファンデーションモデルであるValleyを紹介します。
この目的のために、2つのデータセット、すなわちValley-702KとValley-Instruct-73Kを構築して、多様なビデオテキストアライメントとマルチショットキャプション、長いビデオの説明、アクション認識、原因推論などのビデオベースの指導タスクをカバーします。
ビデオ理解の強化。
さらに、Valleyの2フェーズトレーニングアプローチを実装します。第1フェーズは、視覚入力を理解するLLMの能力を促進するための投影モジュールのトレーニングのみに焦点を当てており、第2フェーズは共同で投影モジュールとLLMをトレーニングして能力を改善します。
広範な実験は、バレーが効果的なビデオアシスタントとして機能する可能性があり、複雑なビデオ理解シナリオを簡素化する可能性があることを示しています。
私たちのコードとデータは、https://github.com/valley-vl/valleyで匿名で公開されています。

要約(オリジナル)

Large Language Models (LLMs), with remarkable conversational capability, have emerged as AI assistants that can handle both visual and textual modalities. However, their effectiveness in joint video and language understanding has not been extensively explored. In the paper, we introduce Valley, a multi-modal foundation model that is designed to enable enhanced video comprehension and instruction-following capabilities. To this end, we construct two datasets, namely Valley-702k and Valley-instruct-73k, to cover a diverse range of video-text alignment and video-based instruction tasks, such as multi-shot captions, long video descriptions, action recognition, causal inference, etc. Then, we adopt ViT-L/14 as the vision encoder and explore three different temporal modeling modules to learn multifaceted features for enhanced video understanding. In addition, we implement a two-phase training approach for Valley: the first phase focuses solely on training the projection module to facilitate the LLM’s capacity to understand visual input, and the second phase jointly trains the projection module and the LLM to improve their instruction following ability. Extensive experiments demonstrate that Valley has the potential to serve as an effective video assistant, simplifying complex video-understanding scenarios. Our code and data are published anonymously at https://github.com/valley-vl/Valley.

arxiv情報

著者 Ruipu Luo,Ziwang Zhao,Min Yang,Zheming Yang,Minghui Qiu,Tao Wang,Zhongyu Wei,Yanhao Wang,Cen Chen
発行日 2025-03-17 13:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV | Valley: Video Assistant with Large Language model Enhanced abilitY はコメントを受け付けていません

Leveraging Large Language Models for Collective Decision-Making

要約

会議のスケジューリング、コラボレーション、プロジェクト計画などのさまざまな作業のコンテキストでは、集団的意思決定は不可欠ですが、多様な個人の好み、さまざまな作業の焦点、およびメンバー間のパワーダイナミクスのために挑戦することがよくあります。
これに対処するために、会話を管理し、個人間の好みのバランスをとることにより、グループの意思決定を促進するために、大規模な言語モデル(LLM)を活用するシステムを提案します。
私たちのシステムは、各メンバーのシステムとの会話から個々の好みを抽出し、メンバーの好みを満たすオプションを提案することを目指しています。
このシステムは、企業会議のスケジューリングに特に適用します。
合成従業員プロファイルを作成し、大規模な会話をシミュレートし、LLMSを活用して、ユーザー調査を実施するための新しいアプローチとしてシステムパフォーマンスを評価します。
私たちの結果は、メンバーとLLMベースのシステム間の相互作用の減少との効率的な調整を示しています。
このシステムは、提案されたオプションを経時的に改良および改善し、メンバーの個々の好みの多くが公平な方法で満たされるようにします。
最後に、私たちは、人間の参加者が関与する調査研究を実施して、システムの好みを集約し、それらについて推論する能力を評価します。
私たちの調査結果は、システムが両方の次元で強力なパフォーマンスを示すことを示しています。

要約(オリジナル)

In various work contexts, such as meeting scheduling, collaborating, and project planning, collective decision-making is essential but often challenging due to diverse individual preferences, varying work focuses, and power dynamics among members. To address this, we propose a system leveraging Large Language Models (LLMs) to facilitate group decision-making by managing conversations and balancing preferences among individuals. Our system aims to extract individual preferences from each member’s conversation with the system and suggest options that satisfy the preferences of the members. We specifically apply this system to corporate meeting scheduling. We create synthetic employee profiles and simulate conversations at scale, leveraging LLMs to evaluate the system performance as a novel approach to conducting a user study. Our results indicate efficient coordination with reduced interactions between the members and the LLM-based system. The system refines and improves its proposed options over time, ensuring that many of the members’ individual preferences are satisfied in an equitable way. Finally, we conduct a survey study involving human participants to assess our system’s ability to aggregate preferences and reasoning about them. Our findings show that the system exhibits strong performance in both dimensions.

arxiv情報

著者 Marios Papachristou,Longqi Yang,Chin-Chia Hsu
発行日 2025-03-17 15:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.SI | Leveraging Large Language Models for Collective Decision-Making はコメントを受け付けていません

A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges

要約

マルチモーダルビジョン言語モデル(VLM)は、コンピュータービジョンと自然言語処理の交差点で変革的な技術として浮上しており、視覚的およびテキストモダリティの両方を通じて、機械が世界について認識し、推論できるようになりました。
たとえば、Clip、Claude、GPT-4Vなどのモデルは、視覚データおよびテキストデータの強力な推論と理解能力を示し、ゼロショット分類で古典的な単一モダリティビジョンモデルを打ち負かします。
研究の急速な進歩とアプリケーションの人気の高まりにもかかわらず、特に特定のドメインのVLMを活用することを目的とした研究者にとって、VLMに関する既存の研究に関する包括的な調査が特に不足しています。
この目的のために、以下の側面におけるVLMの体系的な概要を提供します。過去5年間(2019-2024)に開発された主要なVLMのモデル情報。
これらのVLMの主要なアーキテクチャとトレーニング方法。
VLMの一般的なベンチマークと評価メトリックの要約と分類。
具体化されたエージェント、ロボット工学、ビデオ生成を含むVLMのアプリケーション。
幻覚、公平性、安全など、現在のVLMが直面する課題と問題。
論文やモデルリポジトリリンクを含む詳細なコレクションは、https://github.com/zli12321/vision-language-models-Overviewにリストされています。

要約(オリジナル)

Multimodal Vision Language Models (VLMs) have emerged as a transformative technology at the intersection of computer vision and natural language processing, enabling machines to perceive and reason about the world through both visual and textual modalities. For example, models such as CLIP, Claude, and GPT-4V demonstrate strong reasoning and understanding abilities on visual and textual data and beat classical single modality vision models on zero-shot classification. Despite their rapid advancements in research and growing popularity in applications, a comprehensive survey of existing studies on VLMs is notably lacking, particularly for researchers aiming to leverage VLMs in their specific domains. To this end, we provide a systematic overview of VLMs in the following aspects: model information of the major VLMs developed over the past five years (2019-2024); the main architectures and training methods of these VLMs; summary and categorization of the popular benchmarks and evaluation metrics of VLMs; the applications of VLMs including embodied agents, robotics, and video generation; the challenges and issues faced by current VLMs such as hallucination, fairness, and safety. Detailed collections including papers and model repository links are listed in https://github.com/zli12321/Vision-Language-Models-Overview.

arxiv情報

著者 Zongxia Li,Xiyang Wu,Hongyang Du,Huy Nghiem,Guangyao Shi
発行日 2025-03-17 02:24:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO | A Survey of State of the Art Large Vision Language Models: Alignment, Benchmark, Evaluations and Challenges はコメントを受け付けていません

Uni-Gaussians: Unifying Camera and Lidar Simulation with Gaussians for Dynamic Driving Scenarios

要約

自動運転車の安全性を確保するには、さまざまな動的な駆動シナリオにわたって、カメラとLIDARセンサーの両方からの入力を含むマルチセンサーデータの包括的なシミュレーションが必要です。
収集された生センサーデータを利用してこれらの動的環境をシミュレートするニューラルレンダリング技術は、主要な方法論として浮上しています。
NERFベースのアプローチは、カメラとLidarの両方からデータをレンダリングするためのシーンを均一に表すことができますが、サンプリングが密なため、速度が遅いため、妨げられます。
逆に、ガウスのスプラッティングベースの方法は、シーン表現のためにガウスプリミティブを使用し、ラスター化による迅速なレンダリングを達成します。
ただし、これらのラスター化ベースの技術は、非線形光学センサーを正確にモデル化するのに苦労しています。
この制限により、ピンホールカメラを超えたセンサーへの適用性が制限されます。
これらの課題に対処し、ガウスプリミティブを使用した動的運転シナリオの統一された表現を可能にするために、この研究は新しいハイブリッドアプローチを提案します。
私たちのメソッドは、Lidarデータレンダリング用のガウスレイトレースを使用しながら、画像データをレンダリングするためにラスター化を利用しています。
パブリックデータセットの実験結果は、私たちのアプローチが現在の最先端の方法よりも優れていることを示しています。
この作業は、ガウスプリミティブを使用した自律運転シナリオにおけるカメラとライダーデータの現実的なシミュレーションのための統一された効率的なソリューションを提供し、品質と計算効率の両方のレンダリングの両方に大きな進歩をもたらします。

要約(オリジナル)

Ensuring the safety of autonomous vehicles necessitates comprehensive simulation of multi-sensor data, encompassing inputs from both cameras and LiDAR sensors, across various dynamic driving scenarios. Neural rendering techniques, which utilize collected raw sensor data to simulate these dynamic environments, have emerged as a leading methodology. While NeRF-based approaches can uniformly represent scenes for rendering data from both camera and LiDAR, they are hindered by slow rendering speeds due to dense sampling. Conversely, Gaussian Splatting-based methods employ Gaussian primitives for scene representation and achieve rapid rendering through rasterization. However, these rasterization-based techniques struggle to accurately model non-linear optical sensors. This limitation restricts their applicability to sensors beyond pinhole cameras. To address these challenges and enable unified representation of dynamic driving scenarios using Gaussian primitives, this study proposes a novel hybrid approach. Our method utilizes rasterization for rendering image data while employing Gaussian ray-tracing for LiDAR data rendering. Experimental results on public datasets demonstrate that our approach outperforms current state-of-the-art methods. This work presents a unified and efficient solution for realistic simulation of camera and LiDAR data in autonomous driving scenarios using Gaussian primitives, offering significant advancements in both rendering quality and computational efficiency.

arxiv情報

著者 Zikang Yuan,Yuechuan Pu,Hongcheng Luo,Fengtian Lang,Cheng Chi,Teng Li,Yingying Shen,Haiyang Sun,Bing Wang,Xin Yang
発行日 2025-03-17 02:41:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.NI, cs.RO | Uni-Gaussians: Unifying Camera and Lidar Simulation with Gaussians for Dynamic Driving Scenarios はコメントを受け付けていません

MAP: Multi-user Personalization with Collaborative LLM-powered Agents

要約

マルチユーザー設定における大規模な言語モデル(LLMS)およびLLM駆動エージェントの広範な採用は、多様な好みに対応し、矛盾する指示を解決するための信頼できる使用可能な方法の必要性を強調しています。
紛争解決理論を利用して、リフレクション、分析、フィードバックの3つの段階で構成されるマルチユーザーパーソナライズのユーザー中心のワークフローを紹介します。
次に、MAP-a \ textBf {m} ulti- \ textBf {a} multi-user \ textbf {p} ersonalization用 – このワークフローを操作するためのGent Systemを提示します。
サブタスクを専門のエージェントに委任することにより、(1)関連するユーザー情報を取得および反映し、エージェントからエージェントへの相互作用を通じて信頼性を高め、(2)透明性と使いやすさの改善の詳細な分析を提供し、(3)ユーザーフィードバックを繰り返し洗練する結果を統合します。
ユーザー調査の調査結果(n = 12)は、解像度の検証と障害管理におけるユーザーの関与の重要性を強調しながら、競合解決に対するマップの有効性と使いやすさを強調しています。
この作業は、マルチエージェントシステムがユーザー中心のマルチユーザーパーソナライズワークフローを実装する可能性を強調し、マルチユーザーコンテキストでのパーソナライズのための洞察を提供することで締めくくります。

要約(オリジナル)

The widespread adoption of Large Language Models (LLMs) and LLM-powered agents in multi-user settings underscores the need for reliable, usable methods to accommodate diverse preferences and resolve conflicting directives. Drawing on conflict resolution theory, we introduce a user-centered workflow for multi-user personalization comprising three stages: Reflection, Analysis, and Feedback. We then present MAP — a \textbf{M}ulti-\textbf{A}gent system for multi-user \textbf{P}ersonalization — to operationalize this workflow. By delegating subtasks to specialized agents, MAP (1) retrieves and reflects on relevant user information, while enhancing reliability through agent-to-agent interactions, (2) provides detailed analysis for improved transparency and usability, and (3) integrates user feedback to iteratively refine results. Our user study findings (n=12) highlight MAP’s effectiveness and usability for conflict resolution while emphasizing the importance of user involvement in resolution verification and failure management. This work highlights the potential of multi-agent systems to implement user-centered, multi-user personalization workflows and concludes by offering insights for personalization in multi-user contexts.

arxiv情報

著者 Christine Lee,Jihye Choi,Bilge Mutlu
発行日 2025-03-17 02:52:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.RO, I.2.1 | MAP: Multi-user Personalization with Collaborative LLM-powered Agents はコメントを受け付けていません

Dynamic-Dark SLAM: RGB-Thermal Cooperative Robot Vision Strategy for Multi-Person Tracking in Both Well-Lit and Low-Light Scenes

要約

ロボットビジョンでは、サーマルカメラは、完全な暗闇の中でも人間を認識する重要な可能性があります。
ただし、マルチパーソントラッキング(MPT)への適用は、データ不足と個別の識別の困難により遅れています。
この研究では、RGBおよびTトラッカーをトレーニングするために、擬似解決(境界ボックス +人ID)を使用して、共同配置されたRGBおよびサーマルカメラを利用する協同組合MPTシステムを提案します。
評価実験は、Tトラッカーが明るいシーンと暗いシーンの両方で顕著なパフォーマンスを達成することを示しています。
さらに、結果は、バイナリ輝度分類器を使用したトラッカースイッチングアプローチが、情報統合のためのトラッカー融合アプローチよりも適切であることを示唆しています。
この研究は、「ダイナミックダークスラム」に向けた重要な最初のステップを示し、個人の効果的な認識、理解、再構築、オブジェクト、および明るい環境の両方のダイナミック環境での移動可能な領域を可能にします。

要約(オリジナル)

In robot vision, thermal cameras have significant potential for recognizing humans even in complete darkness. However, their application to multi-person tracking (MPT) has lagged due to data scarcity and difficulties in individual identification. In this study, we propose a cooperative MPT system that utilizes co-located RGB and thermal cameras, using pseudo-annotations (bounding boxes + person IDs) to train RGB and T trackers. Evaluation experiments demonstrate that the T tracker achieves remarkable performance in both bright and dark scenes. Furthermore, results suggest that a tracker-switching approach using a binary brightness classifier is more suitable than a tracker-fusion approach for information integration. This study marks a crucial first step toward “Dynamic-Dark SLAM,’ enabling effective recognition, understanding, and reconstruction of individuals, occluding objects, and traversable areas in dynamic environments, both bright and dark.

arxiv情報

著者 Tatsuro Sakai,Kanji Tanaka,Jonathan Tay Yu Liang,Muhammad Adil Luqman,Daiki Iwata
発行日 2025-03-17 03:05:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | Dynamic-Dark SLAM: RGB-Thermal Cooperative Robot Vision Strategy for Multi-Person Tracking in Both Well-Lit and Low-Light Scenes はコメントを受け付けていません