Humans can learn to detect AI-generated texts, or at least learn when they can’t

要約

この研究では、個人が即時のフィードバックが提供された場合、人間が作成したテキストとAIが生成したテキストを正確に区別できるかどうか、およびこのフィードバックを使用して自己認識能力を再調整できるかどうかを調査します。
また、テキストスタイルと知覚される読みやすさに焦点を当て、これらの決定を行う際に個人が依存している特定の基準を探ります。
GPT-4oを使用して、人間が作成したテキストのマルチレジスターコーパスであるKoditexに匹敵するさまざまなジャンルとテキストタイプにわたって数百のテキストを生成しました。
次に、255人のチェコ語のネイティブスピーカーにランダム化されたテキストペアを提示しました。これらのテキストは、どのテキストが人間が記述され、AIが生成されているかを特定しました。
参加者は2つの条件にランダムに割り当てられました。1つは各試行後にすぐにフィードバックを受け、もう1つは実験が完了するまでフィードバックを受けません。
識別、信頼レベル、応答時間、およびテキストの読みやすさについての判断と、人口統計データと、実験前のAIテクノロジーとの参加者の関与の精度を記録しました。
即時フィードバックを受けた参加者は、精度と信頼性のキャリブレーションの大幅な改善を示しました。
参加者は、最初に、文体的な剛性や読みやすさに関する期待を含む、AIに生成されたテキスト機能に関する誤った仮定を保持していました。
特に、フィードバックがなければ、参加者は最も自信を持っていると正確に最もエラーを犯しました。これは、フィードバックグループの間で大部分が解決されました。
人間とAIに生成されたテキストを区別する能力は、明示的なフィードバックを使用してターゲットトレーニングを通じて効果的に学習できます。これは、AIスタイルの特徴と読みやすさについての誤解を修正するのに役立ち、より正確な自己評価を促進しながら、調査されなかった潜在的な他の変数です。
この発見は、教育的文脈では特に重要かもしれません。

要約(オリジナル)

This study investigates whether individuals can learn to accurately discriminate between human-written and AI-produced texts when provided with immediate feedback, and if they can use this feedback to recalibrate their self-perceived competence. We also explore the specific criteria individuals rely upon when making these decisions, focusing on textual style and perceived readability. We used GPT-4o to generate several hundred texts across various genres and text types comparable to Koditex, a multi-register corpus of human-written texts. We then presented randomized text pairs to 255 Czech native speakers who identified which text was human-written and which was AI-generated. Participants were randomly assigned to two conditions: one receiving immediate feedback after each trial, the other receiving no feedback until experiment completion. We recorded accuracy in identification, confidence levels, response times, and judgments about text readability along with demographic data and participants’ engagement with AI technologies prior to the experiment. Participants receiving immediate feedback showed significant improvement in accuracy and confidence calibration. Participants initially held incorrect assumptions about AI-generated text features, including expectations about stylistic rigidity and readability. Notably, without feedback, participants made the most errors precisely when feeling most confident — an issue largely resolved among the feedback group. The ability to differentiate between human and AI-generated texts can be effectively learned through targeted training with explicit feedback, which helps correct misconceptions about AI stylistic features and readability, as well as potential other variables that were not explored, while facilitating more accurate self-assessment. This finding might be particularly important in educational contexts.

arxiv情報

著者 Jiří Milička,Anna Marklová,Ondřej Drobil,Eva Pospíšilová
発行日 2025-05-06 17:51:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Humans can learn to detect AI-generated texts, or at least learn when they can’t はコメントを受け付けていません

AMO: Adaptive Motion Optimization for Hyper-Dexterous Humanoid Whole-Body Control

要約

ヒューマノイドロボットは、その器用さの多くを、膨大な全身の動きから導き出し、地面からオブジェクトをピッキングするなど、大きな動作ワークスペースを必要とするタスクを可能にします。
ただし、実際のヒューマノイドでこれらの能力を達成することは、自由度が高い(DOF)と非線形のダイナミクスのために困難なままです。
Adaptive Motion Optimization(AMO)を提案します。これは、SIM-to-Real Renuferation Learning(RL)をリアルタイムの適応型全身制御の軌跡最適化と統合するフレームワークです。
動きの模倣RLの分布バイアスを緩和するために、ハイブリッドAMOデータセットを構築し、潜在的にO.O.D.
コマンド。
シミュレーションでAMOを検証し、29ドフのUnitree G1ヒューマノイドロボットで検証し、強力なベースラインと比較して優れた安定性と拡張ワークスペースを示しています。
最後に、AMOの一貫したパフォーマンスが、模倣学習を介して自律的なタスクの実行をサポートし、システムの汎用性と堅牢性を強調していることを示します。

要約(オリジナル)

Humanoid robots derive much of their dexterity from hyper-dexterous whole-body movements, enabling tasks that require a large operational workspace: such as picking objects off the ground. However, achieving these capabilities on real humanoids remains challenging due to their high degrees of freedom (DoF) and nonlinear dynamics. We propose Adaptive Motion Optimization (AMO), a framework that integrates sim-to-real reinforcement learning (RL) with trajectory optimization for real-time, adaptive whole-body control. To mitigate distribution bias in motion imitation RL, we construct a hybrid AMO dataset and train a network capable of robust, on-demand adaptation to potentially O.O.D. commands. We validate AMO in simulation and on a 29-DoF Unitree G1 humanoid robot, demonstrating superior stability and an expanded workspace compared to strong baselines. Finally, we show that AMO’s consistent performance supports autonomous task execution via imitation learning, underscoring the system’s versatility and robustness.

arxiv情報

著者 Jialong Li,Xuxin Cheng,Tianshu Huang,Shiqi Yang,Ri-Zhao Qiu,Xiaolong Wang
発行日 2025-05-06 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO | AMO: Adaptive Motion Optimization for Hyper-Dexterous Humanoid Whole-Body Control はコメントを受け付けていません

VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

要約

自然なヒューマンコンピューターの相互作用の要件が高まっているため、音声ベースのシステムは、音声が日常的なコミュニケーションの最も一般的な形態の1つであるため、注目を集めています。
ただし、既存の音声モデルは、ストリーミング中に最初のオーディオトークンを生成する際に高いレイテンシを発生させます。これは、展開に大きなボトルネックをもたらします。
この問題に対処するために、速いオーディオテキストトークン生成を備えたエンドツーエンドの大音量モデルであるVita-Audioを提案します。
具体的には、単一のモデルフォワードパス内で複数のオーディオトークンを効率的に生成する軽量の複数のクロスモーダルトークン予測(MCTP)モジュールを導入します。
さらに、4段階のプログレッシブトレーニング戦略が検討され、音声品質の最小限の喪失でモデルの加速を実現します。
私たちの知る限り、Vita-Audioは、最初のフォワードパス中にオーディオ出力を生成することができる最初のマルチモーダル大型言語モデルであり、最小限のレイテンシでリアルタイムの会話機能を可能にします。
Vita-Audioは完全に再現でき、オープンソースデータのみでトレーニングされています。
実験結果は、我々のモデルが7Bパラメータースケールで3〜5倍の推論速度を達成することを示していますが、自動音声認識(ASR)、テキストへのスピーチ(TTS)、および話された質問(SQA)タスクのための複数のベンチマークで同様のモデルサイズのオープンソースモデルを大幅に上回ることも示しています。

要約(オリジナル)

With the growing requirement for natural human-computer interaction, speech-based systems receive increasing attention as speech is one of the most common forms of daily communication. However, the existing speech models still experience high latency when generating the first audio token during streaming, which poses a significant bottleneck for deployment. To address this issue, we propose VITA-Audio, an end-to-end large speech model with fast audio-text token generation. Specifically, we introduce a lightweight Multiple Cross-modal Token Prediction (MCTP) module that efficiently generates multiple audio tokens within a single model forward pass, which not only accelerates the inference but also significantly reduces the latency for generating the first audio in streaming scenarios. In addition, a four-stage progressive training strategy is explored to achieve model acceleration with minimal loss of speech quality. To our knowledge, VITA-Audio is the first multi-modal large language model capable of generating audio output during the first forward pass, enabling real-time conversational capabilities with minimal latency. VITA-Audio is fully reproducible and is trained on open-source data only. Experimental results demonstrate that our model achieves an inference speedup of 3~5x at the 7B parameter scale, but also significantly outperforms open-source models of similar model size on multiple benchmarks for automatic speech recognition (ASR), text-to-speech (TTS), and spoken question answering (SQA) tasks.

arxiv情報

著者 Zuwei Long,Yunhang Shen,Chaoyou Fu,Heting Gao,Lijiang Li,Peixian Chen,Mengdan Zhang,Hang Shao,Jian Li,Jinlong Peng,Haoyu Cao,Ke Li,Rongrong Ji,Xing Sun
発行日 2025-05-06 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model はコメントを受け付けていません

From Neurons to Computation: Biological Reservoir Computing for Pattern Recognition

要約

この論文では、培養された生物学的ニューロンのプールを貯水池基板として活用し、生物学的貯水池コンピューティング(BRC)を作成する貯水池コンピューティング(RC)の新しいパラダイムを紹介します。
このシステムは、従来の人工計算単位でモデル化されるのではなく、神経活動が培養ニューロンのネットワークによって生成されるという重要な区別とともに、エコー状態ネットワーク(ESN)と同様に動作します。
ニューロン活動は、多電極アレイ(MEA)を使用して記録され、神経信号のハイスループット記録を可能にします。
私たちのアプローチでは、MEA電極のサブセットを介して入力がネットワークに導入され、残りの電極は結果の神経活動をキャプチャします。
これにより、入力データが高次元の生物学的特徴空間への非線形マッピングが生成され、データ間を区別することがより効率的かつ簡単になり、単純な線形分類器がパターン認識タスクを効果的に実行できるようになります。
提案されたシステムのパフォーマンスを評価するために、位置コード、異なる方向のあるバー、桁認識タスクなど、さまざまな入力パターンを含む実験的研究を提示します。
この結果は、生物学的ニューラルネットワークを使用して、人工ニューラルネットワークによって伝統的に処理されたタスクを実行し、生物学的にインスパイアされたコンピューティングシステムのさらなる調査への道を開いて、神経形成工学とバイオハイブリッドコンピューティングの潜在的なアプリケーションを備えている可能性を示しています。

要約(オリジナル)

In this paper, we introduce a novel paradigm for reservoir computing (RC) that leverages a pool of cultured biological neurons as the reservoir substrate, creating a biological reservoir computing (BRC). This system operates similarly to an echo state network (ESN), with the key distinction that the neural activity is generated by a network of cultured neurons, rather than being modeled by traditional artificial computational units. The neuronal activity is recorded using a multi-electrode array (MEA), which enables high-throughput recording of neural signals. In our approach, inputs are introduced into the network through a subset of the MEA electrodes, while the remaining electrodes capture the resulting neural activity. This generates a nonlinear mapping of the input data to a high-dimensional biological feature space, where distinguishing between data becomes more efficient and straightforward, allowing a simple linear classifier to perform pattern recognition tasks effectively. To evaluate the performance of our proposed system, we present an experimental study that includes various input patterns, such as positional codes, bars with different orientations, and a digit recognition task. The results demonstrate the feasibility of using biological neural networks to perform tasks traditionally handled by artificial neural networks, paving the way for further exploration of biologically-inspired computing systems, with potential applications in neuromorphic engineering and bio-hybrid computing.

arxiv情報

著者 Ludovico Iannello,Luca Ciampi,Gabriele Lagani,Fabrizio Tonelli,Eleonora Crocco,Lucio Maria Calcagnile,Angelo Di Garbo,Federico Cremisi,Giuseppe Amato
発行日 2025-05-06 13:20:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.NE | From Neurons to Computation: Biological Reservoir Computing for Pattern Recognition はコメントを受け付けていません

Optimization of Module Transferability in Single Image Super-Resolution: Universality Assessment and Cycle Residual Blocks

要約

ディープラーニングは、単一の画像超解像度(SISR)を大幅に進めています。
ただし、既存の研究は主に生のパフォーマンスの向上に焦点を当てており、建築コンポーネントの移動性の定量化にはほとんど注意が払われていません。
この論文では、「普遍性」の概念と、モジュールの移転性の容易さを網羅する「一般化」という従来の概念を拡張する関連定義の概念を紹介し、モジュールの普遍性とモデルの一般化可能性との関係を明らかにします。
次に、特定のモジュールをモデル間でどの程度容易に移植できるかを定量化するためのメトリックである普遍性評価方程式(UAE)を提案します。
標準残留ブロックおよびその他のプラグアンドプレイモジュールのUAE結果に導かれ、さらに2つの最適化されたモジュール、サイクル残留ブロック(CRB)と深さごとのサイクル残留ブロック(DCRB)を設計します。
自然型ベンチマーク、リモートセンシングデータセット、極端な産業画像、およびデバイス上の展開に関する包括的な実験を通じて、提案されたプラグアンドプレイモジュールが埋め込まれたネットワークがいくつかの最先端を上回り、0.83DBのPSNR拡張機能を獲得したPSNR強化に到達することを実証します。
忠実。

要約(オリジナル)

Deep learning has substantially advanced the Single Image Super-Resolution (SISR). However, existing researches have predominantly focused on raw performance gains, with little attention paid to quantifying the transferability of architectural components. In this paper, we introduce the concept of ‘Universality’ and its associated definitions which extend the traditional notion of ‘Generalization’ to encompass the modules’ ease of transferability, thus revealing the relationships between module universality and model generalizability. Then we propose the Universality Assessment Equation (UAE), a metric for quantifying how readily a given module could be transplanted across models. Guided by the UAE results of standard residual blocks and other plug-and-play modules, we further design two optimized modules, Cycle Residual Block (CRB) and Depth-Wise Cycle Residual Block (DCRB). Through comprehensive experiments on natural-scene benchmarks, remote-sensing datasets, extreme-industrial imagery and on-device deployments, we demonstrate that networks embedded with the proposed plug-and-play modules outperform several state-of-the-arts, reaching a PSNR enhancement of up to 0.83dB or enabling a 71.3% reduction in parameters with negligible loss in reconstruction fidelity.

arxiv情報

著者 Haotong Cheng,Zhiqi Zhang,Hao Li,Xinshang Zhang
発行日 2025-05-06 13:35:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Optimization of Module Transferability in Single Image Super-Resolution: Universality Assessment and Cycle Residual Blocks はコメントを受け付けていません

Coop-WD: Cooperative Perception with Weighting and Denoising for Robust V2V Communication

要約

協力的な認識、車両から車両(V2V)通信を介して複数の車両からの共有情報を活用することは、単一車両の知覚の制限を軽減するために自律運転に重要な役割を果たします。
既存の研究では、V2Vコミュニケーション障害が知覚精度に及ぼす影響を調査していますが、さまざまなレベルの障害に対する一般化がありません。
この作業では、V2Vチャネル障害の対象となる共同認識を高めるために、共同重み付けと除去フレームワークであるCOOP-WDを提案します。
このフレームワークでは、自己監視されたコントラストモデルと条件付き拡散確率モデルは、車両レベルおよびピクセルレベルの特徴の向上に階層的に採用されています。
効率的なバリアントモデルであるCOOP-WD-ECOは、除去を選択的に非アクティブ化して処理オーバーヘッドを減らすことが提案されています。
リアンのフェード、非定常性、および時変歪みが考慮されます。
シミュレーション結果は、提案されたCoop-WDがあらゆる種類のチャネルで従来のベンチマークを上回ることを示しています。
視覚的な例を使用した定性分析は、提案された方法の優位性をさらに証明します。
提案されているCoop-WD-ECOは、チャネル条件が改善するにつれて同等の精度を維持しながら、重度の歪みの下での計算コストの最大50%の削減を達成します。

要約(オリジナル)

Cooperative perception, leveraging shared information from multiple vehicles via vehicle-to-vehicle (V2V) communication, plays a vital role in autonomous driving to alleviate the limitation of single-vehicle perception. Existing works have explored the effects of V2V communication impairments on perception precision, but they lack generalization to different levels of impairments. In this work, we propose a joint weighting and denoising framework, Coop-WD, to enhance cooperative perception subject to V2V channel impairments. In this framework, the self-supervised contrastive model and the conditional diffusion probabilistic model are adopted hierarchically for vehicle-level and pixel-level feature enhancement. An efficient variant model, Coop-WD-eco, is proposed to selectively deactivate denoising to reduce processing overhead. Rician fading, non-stationarity, and time-varying distortion are considered. Simulation results demonstrate that the proposed Coop-WD outperforms conventional benchmarks in all types of channels. Qualitative analysis with visual examples further proves the superiority of our proposed method. The proposed Coop-WD-eco achieves up to 50% reduction in computational cost under severe distortion while maintaining comparable accuracy as channel conditions improve.

arxiv情報

著者 Chenguang Liu,Jianjun Chen,Yunfei Chen,Yubei He,Zhuangkun Wei,Hongjian Sun,Haiyan Lu,Qi Hao
発行日 2025-05-06 13:38:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Coop-WD: Cooperative Perception with Weighting and Denoising for Robust V2V Communication はコメントを受け付けていません

OSMamba: Omnidirectional Spectral Mamba with Dual-Domain Prior Generator for Exposure Correction

要約

露出補正は、コンピュータービジョンと画像処理の根本的な問題です。
最近、周波数ドメインベースの方法は印象的な改善を達成しましたが、極端な曝露条件下での複雑な現実世界のシナリオとまだ苦労しています。
これは、スペクトルの長距離依存関係をモデル化できない局所畳み込み受容フィールドと、重度の低下地域から失われた詳細を取得するには不十分である非生成学習パラダイムが原因であるためです。
この論文では、これらの制限に対処するために状態空間モデルと生成拡散モデルの利点を組み込んだ新規露出補正ネットワークである、全方向性スペクトルマンバ(オスマンバ)を提案します。
具体的には、オスマンバは、マンバを周波数領域に適応させる全指示スペクトルスキャンメカニズムを導入し、深い画像特徴の振幅と位相スペクトルの両方で包括的な長距離依存性をキャプチャし、照明の修正と構造の回復を強化します。
さらに、露出した画像から学習するデュアルドメインの事前ジェネレーターを開発し、より良い詳細回復のために、厳しく過剰および過剰に露出されている領域に関する正しい情報を含む劣化のない拡散を生成します。
多重暴露と混合曝露データセットに関する広範な実験は、提案されているオスマンバが定量的および定性的に最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Exposure correction is a fundamental problem in computer vision and image processing. Recently, frequency domain-based methods have achieved impressive improvement, yet they still struggle with complex real-world scenarios under extreme exposure conditions. This is due to the local convolutional receptive fields failing to model long-range dependencies in the spectrum, and the non-generative learning paradigm being inadequate for retrieving lost details from severely degraded regions. In this paper, we propose Omnidirectional Spectral Mamba (OSMamba), a novel exposure correction network that incorporates the advantages of state space models and generative diffusion models to address these limitations. Specifically, OSMamba introduces an omnidirectional spectral scanning mechanism that adapts Mamba to the frequency domain to capture comprehensive long-range dependencies in both the amplitude and phase spectra of deep image features, hence enhancing illumination correction and structure recovery. Furthermore, we develop a dual-domain prior generator that learns from well-exposed images to generate a degradation-free diffusion prior containing correct information about severely under- and over-exposed regions for better detail restoration. Extensive experiments on multiple-exposure and mixed-exposure datasets demonstrate that the proposed OSMamba achieves state-of-the-art performance both quantitatively and qualitatively.

arxiv情報

著者 Gehui Li,Bin Chen,Chen Zhao,Lei Zhang,Jian Zhang
発行日 2025-05-06 13:41:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, eess.IV | OSMamba: Omnidirectional Spectral Mamba with Dual-Domain Prior Generator for Exposure Correction はコメントを受け付けていません

RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT

要約

半教師の学習は、ラベル付きデータが最小限であるCBCTスキャンからの3D歯のセグメンテーションの説得力のあるアプローチとなっています。
ただし、既存の方法は依然として2つの永続的な課題に直面しています。監督されたトレーニング中の構造的に曖昧なまたは誤ったラベル付けされた地域における限られた矯正監督と、無効なデータの信頼できない擬似ラベルによって引き起こされるパフォーマンスの劣化です。
これらの問題に対処するために、デュアルグループのデュアル学生の半学生のフレームワークである地域認識の有益な学習(Rail)を提案します。
各グループには、共有教師ネットワークに導かれた2つの学生モデルが含まれています。
2つのグループ間でトレーニングを交互に行うことにより、Railはグループ間の知識移転と共同の地域認識指導を促進しながら、単一モデルの特性に過剰適合を減らします。
具体的には、Railは2つの有益なメカニズムを導入します。
不一致に焦点を当てた監督(DFS)コントローラーは、学生の出力がグラウンドトゥルースと最高の学生の両方から分かれている領域内でのみ予測を指示することにより、監督された学習を改善し、それによって構造的に曖昧または誤った領域に監督を集中します。
監視されていない段階では、信頼認識学習(CAL)変調器は、モデルの確実性が高い地域での一致を強化し、トレーニング中の低自信の予測の効果を減らします。
これにより、モデルが不安定なパターンを学習するのを防ぎ、擬似ラベルの全体的な信頼性を向上させるのに役立ちます。
4つのCBCT歯のセグメンテーションデータセットに関する広範な実験は、鉄道が限られた注釈の下で最先端の方法を上回ることを示しています。
私たちのコードは、https://github.com/tournesol-saturday/railで入手できます。

要約(オリジナル)

Semi-supervised learning has become a compelling approach for 3D tooth segmentation from CBCT scans, where labeled data is minimal. However, existing methods still face two persistent challenges: limited corrective supervision in structurally ambiguous or mislabeled regions during supervised training and performance degradation caused by unreliable pseudo-labels on unlabeled data. To address these problems, we propose Region-Aware Instructive Learning (RAIL), a dual-group dual-student, semi-supervised framework. Each group contains two student models guided by a shared teacher network. By alternating training between the two groups, RAIL promotes intergroup knowledge transfer and collaborative region-aware instruction while reducing overfitting to the characteristics of any single model. Specifically, RAIL introduces two instructive mechanisms. Disagreement-Focused Supervision (DFS) Controller improves supervised learning by instructing predictions only within areas where student outputs diverge from both ground truth and the best student, thereby concentrating supervision on structurally ambiguous or mislabeled areas. In the unsupervised phase, Confidence-Aware Learning (CAL) Modulator reinforces agreement in regions with high model certainty while reducing the effect of low-confidence predictions during training. This helps prevent our model from learning unstable patterns and improves the overall reliability of pseudo-labels. Extensive experiments on four CBCT tooth segmentation datasets show that RAIL surpasses state-of-the-art methods under limited annotation. Our code will be available at https://github.com/Tournesol-Saturday/RAIL.

arxiv情報

著者 Chuyu Zhao,Hao Huang,Jiashuo Guo,Ziyu Shen,Zhongwei Zhou,Jie Liu,Zekuan Yu
発行日 2025-05-06 13:50:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | RAIL: Region-Aware Instructive Learning for Semi-Supervised Tooth Segmentation in CBCT はコメントを受け付けていません

Panoramic Out-of-Distribution Segmentation

要約

パノラマイメージングにより、密度の高い全方向性知覚のために、超幅の視野フィールド(FOV)で360 {\ deg}画像をキャプチャできます。
ただし、現在のパノラマセマンティックセグメンテーション方法は外れ値を特定できず、ピンホールの分散分布セグメンテーション(OOS)モデルは、バックグラウンドクラッターとピクセルの歪みのためにパノラマドメインで不十分に機能します。
これらの問題に対処するために、パノラマのOOSを達成する新しいタスクであるパノラマの分散分布セグメンテーション(パヌー)を紹介します。
さらに、テキスト誘導迅速な分布学習を通じてパノラマ画像の特性に適応する最初のソリューションであるPOSを提案します。
具体的には、POSは、クリップのクロスドメイン一般化能力を具体化するために設計された解き込み戦略を統合します。
提案されたプロンプトベースの修復注意(PRA)は、迅速なガイダンスと自己適応補正によりセマンティックデコードを最適化し、Bilevel Prompt Distribution Learning(BPDL)は、セマンティックプロトタイプの監督を介してピクセルあたりのマスク埋め込みのマニホールドを改良します。
その上、パノーデータセットの希少性を補うために、複雑な環境で多様な外れ値を特徴とする濃度を備えた2つのベンチマークと、パノラマ環状レンズシステムを備えた四角いロボットによって捕獲されたクワドゥーの2つのベンチマークを確立します。
広範な実験はPOSの優れた性能を示し、AUPRCは34.25%改善し、FPR95は密な輪車で21.42%減少し、最先端のピンホールOOSメソッドを上回ります。
さらに、POSは、クローズドセットの主要なセグメンテーション機能を達成しています。
コードとデータセットはhttps://github.com/mengfeid/panoosで入手できます。

要約(オリジナル)

Panoramic imaging enables capturing 360{\deg} images with an ultra-wide Field-of-View (FoV) for dense omnidirectional perception. However, current panoramic semantic segmentation methods fail to identify outliers, and pinhole Out-of-distribution Segmentation (OoS) models perform unsatisfactorily in the panoramic domain due to background clutter and pixel distortions. To address these issues, we introduce a new task, Panoramic Out-of-distribution Segmentation (PanOoS), achieving OoS for panoramas. Furthermore, we propose the first solution, POS, which adapts to the characteristics of panoramic images through text-guided prompt distribution learning. Specifically, POS integrates a disentanglement strategy designed to materialize the cross-domain generalization capability of CLIP. The proposed Prompt-based Restoration Attention (PRA) optimizes semantic decoding by prompt guidance and self-adaptive correction, while Bilevel Prompt Distribution Learning (BPDL) refines the manifold of per-pixel mask embeddings via semantic prototype supervision. Besides, to compensate for the scarcity of PanOoS datasets, we establish two benchmarks: DenseOoS, which features diverse outliers in complex environments, and QuadOoS, captured by a quadruped robot with a panoramic annular lens system. Extensive experiments demonstrate superior performance of POS, with AuPRC improving by 34.25% and FPR95 decreasing by 21.42% on DenseOoS, outperforming state-of-the-art pinhole-OoS methods. Moreover, POS achieves leading closed-set segmentation capabilities. Code and datasets will be available at https://github.com/MengfeiD/PanOoS.

arxiv情報

著者 Mengfei Duan,Kailun Yang,Yuheng Zhang,Yihong Cao,Fei Teng,Kai Luo,Jiaming Zhang,Zhiyong Li,Shutao Li
発行日 2025-05-06 13:51:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV | Panoramic Out-of-Distribution Segmentation はコメントを受け付けていません

A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs

要約

人工知能の基本的な課題は、ビジョン言語モデル(VLM)などの洗練されたモデルの視覚的推論の根底にある認知メカニズムを理解することです。
これらのモデルは、特に複数の画像を推論したり、きめ細かい構成的理解を必要としたりする場合、視覚的知覚と抽象的な思考をどのように統合しますか?
認知科学からインスピレーションを得て、このペーパーでは、多様な視覚的推論タスクボンガードの問題(BPS)とウィノグラウンドを使用して、VLMSの知覚合理的なインターフェイスを分析するための構造化された評価フレームワークを紹介します。
3つの異なる評価パラダイムを提案し、人間の問題解決戦略を反映しています:直接的な視覚ルール学習(DVRL;総合処理)、演ductive的なルール学習(DRL;ルール抽出とアプリケーション)、およびコンポーネンシャル分析(CA;タスク存在テキストの記述による分析的分解)。
これらのパラダイムは、認知負荷とプローブ処理段階を体系的に変化させます。
特に、CAは、単一イメージのアーキテクチャや、テキストの説明を操作することにより、知覚から推論を分離している場合でも、マルチイメージの推論評価を可能にします。
このフレームワークを適用して、CAは、豊かで独立して生成された説明を推論するための強力な言語モデルを活用し、Bongard-Openworld、Bongard-Hoi、Winogroundなどの挑戦的なベンチマークで新しい最先端の(SOTA)パフォーマンスを達成することを実証します。
アブレーション研究は、知覚的な課題が軽減されると、推論が大幅に改善されることを確認し、重要な知覚ボトルネックを明らかにします。
私たちのフレームワークは貴重な診断ツールを提供し、推論からの(豊富なタスクと存在する説明を介して)分離の認識が堅牢で一般的な視覚知能の有望な方向であることを示唆しています。

要約(オリジナル)

A fundamental challenge in artificial intelligence involves understanding the cognitive mechanisms underlying visual reasoning in sophisticated models like Vision-Language Models (VLMs). How do these models integrate visual perception with abstract thought, especially when reasoning across multiple images or requiring fine-grained compositional understanding? Drawing inspiration from cognitive science, this paper introduces a structured evaluation framework using diverse visual reasoning tasks-Bongard Problems (BPs) and Winoground-to dissect the perception-reasoning interface in VLMs. We propose three distinct evaluation paradigms, mirroring human problem-solving strategies: Direct Visual Rule Learning (DVRL; holistic processing), Deductive Rule Learning (DRL; rule extraction and application), and Componential Analysis (CA; analytical decomposition via task-agnostic textual descriptions). These paradigms systematically vary cognitive load and probe processing stages. Notably, CA enables multi-image reasoning evaluation even for single-image architectures and isolates reasoning from perception by operating on textual descriptions. Applying this framework, we demonstrate that CA, leveraging powerful language models for reasoning over rich, independently generated descriptions, achieves new state-of-the-art (SOTA) performance on challenging benchmarks including Bongard-OpenWorld, Bongard-HOI, and Winoground. Ablation studies confirm reasoning improves significantly when perceptual challenges are mitigated, revealing a critical perception bottleneck. Our framework provides a valuable diagnostic tool and suggests that decoupling perception (via rich, task-agnostic description) from reasoning is a promising direction for robust and general visual intelligence.

arxiv情報

著者 Mohit Vaishnav,Tanel Tammet
発行日 2025-05-06 13:59:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | A Cognitive Paradigm Approach to Probe the Perception-Reasoning Interface in VLMs はコメントを受け付けていません