Towards AI-Driven Policing: Interdisciplinary Knowledge Discovery from Police Body-Worn Camera Footage

要約

このペーパーでは、高度な人工知能(AI)および統計機械学習(ML)テクニックを使用して、ロチェスター警察署(RPD)から警察の身体装飾カメラ(BWC)映像を分析するための新しい学際的な枠組みを提案します。
私たちの目標は、警察官と民間人の間の相互作用のパターンを検出、分類、分析して、尊敬、無礼、エスカレーション、脱エスカレーションなどの重要な行動ダイナミクスを特定することです。
ビデオ、オーディオ、および自然言語処理(NLP)手法を統合して、BWC映像から意味のある洞察を抽出することにより、マルチモーダルデータ分析を適用します。
私たちは方法論、計算技術、および調査結果を提示し、警察BWCデータから知識発見のフロンティアを前進させながら、法執行機関の実用的なアプローチを概説します。

要約(オリジナル)

This paper proposes a novel interdisciplinary framework for analyzing police body-worn camera (BWC) footage from the Rochester Police Department (RPD) using advanced artificial intelligence (AI) and statistical machine learning (ML) techniques. Our goal is to detect, classify, and analyze patterns of interaction between police officers and civilians to identify key behavioral dynamics, such as respect, disrespect, escalation, and de-escalation. We apply multimodal data analysis by integrating video, audio, and natural language processing (NLP) techniques to extract meaningful insights from BWC footage. We present our methodology, computational techniques, and findings, outlining a practical approach for law enforcement while advancing the frontiers of knowledge discovery from police BWC data.

arxiv情報

著者 Anita Srbinovska,Angela Srbinovska,Vivek Senthil,Adrian Martin,John McCluskey,Ernest Fokoué
発行日 2025-04-28 17:25:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Towards AI-Driven Policing: Interdisciplinary Knowledge Discovery from Police Body-Worn Camera Footage はコメントを受け付けていません

SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning

要約

3D空間推論の最近の研究では、データ駆動型のアプローチを探求し、強化学習(RL)を使用した空間推論パフォーマンスを強化します。
ただし、これらの方法は通常、暗黙的な方法で空間的推論を実行し、取得した3D知識がトレーニングのどの段階でも目に見えない質問タイプに一般化するかどうかは不足しているままです。
この作業では、3Dの知覚、計算、推論の間で共有される明示的な3D表現を使用して、3D空間的推論に対処する新しい大型ビジョン言語モデル(LVLM)であるSpatialReasonerを紹介します。
明示的な3D表現は、高度な3D空間的推論をサポートし、LVLMSによって行われた事実上のエラーを研究できるようにする一貫したインターフェイスを提供します。
結果は、私たちの空間的合格者が、さまざまな空間推論ベンチマークでパフォーマンスを向上させ、新しい3D空間推論の質問を評価する際により良い一般化を達成することを示しています。
私たちの研究は、大規模な言語モデルの強力な推論能力を備えた、以前の視覚基盤モデルの3D解析機能を橋渡しし、3D空間的推論の新しい方向性を開きます。

要約(オリジナル)

Recent studies in 3D spatial reasoning explore data-driven approaches and achieve enhanced spatial reasoning performance with reinforcement learning (RL). However, these methods typically perform spatial reasoning in an implicit manner, and it remains underexplored whether the acquired 3D knowledge generalizes to unseen question types at any stage of the training. In this work we introduce SpatialReasoner, a novel large vision-language model (LVLM) that address 3D spatial reasoning with explicit 3D representations shared between stages — 3D perception, computation, and reasoning. Explicit 3D representations provide a coherent interface that supports advanced 3D spatial reasoning and enable us to study the factual errors made by LVLMs. Results show that our SpatialReasoner achieve improved performance on a variety of spatial reasoning benchmarks and generalizes better when evaluating on novel 3D spatial reasoning questions. Our study bridges the 3D parsing capabilities of prior visual foundation models with the powerful reasoning abilities of large language models, opening new directions for 3D spatial reasoning.

arxiv情報

著者 Wufei Ma,Yu-Cheng Chou,Qihao Liu,Xingrui Wang,Celso de Melo,Jieneng Chen,Jianwen Xie,Alan Yuille
発行日 2025-04-28 17:48:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | SpatialReasoner: Towards Explicit and Generalizable 3D Spatial Reasoning はコメントを受け付けていません

LIRM: Large Inverse Rendering Model for Progressive Reconstruction of Shape, Materials and View-dependent Radiance Fields

要約

大規模な逆レンダリングモデル(LIRM)を提示します。これは、高品質の形状、材料、および放射磁場を1秒未満で共同で再構築する変圧器アーキテクチャを提示します。
私たちのモデルは、最先端のスパースビュー再構成品質を達成する最近の大規模な再構成モデ​​ル(LRMS)に基づいています。
ただし、既存のLRMは、目に見えない部品を正確に再構築するのに苦労しており、光沢のある外観を回復したり、標準のグラフィックスエンジンで消費できる信頼できる3Dコンテンツを生成することはできません。
これらの制限に対処するために、3つの重要な技術的貢献を行い、より実用的なマルチビュー3D再構成フレームワークを構築します。
最初に、再構成を改善するために入力ビューを徐々に追加できるようにする更新モデルを導入します。
第二に、詳細なテクスチャ、ジオメトリ、および材料パラメーターをよりよく回復するために、ヘキサプレーンニューラルSDF表現を提案します。
第三に、視界依存効果を処理するための新しい神経方向の埋め込みメカニズムを開発します。
カスタマイズされた粗からファイントレーニングスキームを使用して、大規模な形状と材料データセットでトレーニングされたこのモデルは、説得力のある結果を達成します。
これは、推論時間のほんの一部のみを必要とする一方で、ジオメトリと再生精度の観点から、最適化ベースの密度の逆レンダリング方法と比較して比較します。

要約(オリジナル)

We present Large Inverse Rendering Model (LIRM), a transformer architecture that jointly reconstructs high-quality shape, materials, and radiance fields with view-dependent effects in less than a second. Our model builds upon the recent Large Reconstruction Models (LRMs) that achieve state-of-the-art sparse-view reconstruction quality. However, existing LRMs struggle to reconstruct unseen parts accurately and cannot recover glossy appearance or generate relightable 3D contents that can be consumed by standard Graphics engines. To address these limitations, we make three key technical contributions to build a more practical multi-view 3D reconstruction framework. First, we introduce an update model that allows us to progressively add more input views to improve our reconstruction. Second, we propose a hexa-plane neural SDF representation to better recover detailed textures, geometry and material parameters. Third, we develop a novel neural directional-embedding mechanism to handle view-dependent effects. Trained on a large-scale shape and material dataset with a tailored coarse-to-fine training scheme, our model achieves compelling results. It compares favorably to optimization-based dense-view inverse rendering methods in terms of geometry and relighting accuracy, while requiring only a fraction of the inference time.

arxiv情報

著者 Zhengqin Li,Dilin Wang,Ka Chen,Zhaoyang Lv,Thu Nguyen-Phuoc,Milim Lee,Jia-Bin Huang,Lei Xiao,Cheng Zhang,Yufeng Zhu,Carl S. Marshall,Yufeng Ren,Richard Newcombe,Zhao Dong
発行日 2025-04-28 17:48:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | LIRM: Large Inverse Rendering Model for Progressive Reconstruction of Shape, Materials and View-dependent Radiance Fields はコメントを受け付けていません

More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV

要約

ロジスティクス、農業自動化、都市管理、および緊急対応における無人航空機(UAV)の応用は、視覚的知覚を高めるための指向性オブジェクト検出(OOD)に大きく依存しています。
UAVのOODの既存のデータセットは貴重なリソースを提供しますが、特定のダウンストリームタスクのために設計されていることがよくあります。
このクリティカルギャップを埋めるために、実際の条件を正確に反映するUAVの包括的な指向オブジェクト検出データセットであるCodroneを導入します。
また、ダウンストリームタスク要件に合わせてUAVベースのOODの適用性と堅牢性を高めるように設計された新しいベンチマークとしても機能します。アプリケーション要件に基づいて、現在のUAV OODデータセット-Low画像解像度、限られたオブジェクトカテゴリ、シングルビューイメージング、および抑制された飛行標識と抑制された改良性を高めることを提案します。
さまざまな照明条件下で複数の都市から収集された注釈付き画像のスペクトルは、ベンチマークのリアリズムを強化します。
Codroneを新しいベンチマークとして厳密に評価し、それが提示する新しい課題についてより深い洞察を得るために、22のクラシックまたはSOTAメソッドに基づいて一連の実験を実施します。私たちの評価は、実際のシナリオでのCodroneの有効性を評価するだけでなく、UAVアプリケーションでのoodの前アドバリタルでのavのne uavのfillのfillの前アドバイスに至るまでの重要なボトルネックと機会を提供する重要なボトルネックと機会を強調します。
一般化機能が強化されたベンチマーク、実用的なアプリケーションと将来のアルゴリズム開発とのより良い整合。

要約(オリジナル)

Applications of unmanned aerial vehicle (UAV) in logistics, agricultural automation, urban management, and emergency response are highly dependent on oriented object detection (OOD) to enhance visual perception. Although existing datasets for OOD in UAV provide valuable resources, they are often designed for specific downstream tasks.Consequently, they exhibit limited generalization performance in real flight scenarios and fail to thoroughly demonstrate algorithm effectiveness in practical environments. To bridge this critical gap, we introduce CODrone, a comprehensive oriented object detection dataset for UAVs that accurately reflects real-world conditions. It also serves as a new benchmark designed to align with downstream task requirements, ensuring greater applicability and robustness in UAV-based OOD.Based on application requirements, we identify four key limitations in current UAV OOD datasets-low image resolution, limited object categories, single-view imaging, and restricted flight altitudes-and propose corresponding improvements to enhance their applicability and robustness.Furthermore, CODrone contains a broad spectrum of annotated images collected from multiple cities under various lighting conditions, enhancing the realism of the benchmark. To rigorously evaluate CODrone as a new benchmark and gain deeper insights into the novel challenges it presents, we conduct a series of experiments based on 22 classical or SOTA methods.Our evaluation not only assesses the effectiveness of CODrone in real-world scenarios but also highlights key bottlenecks and opportunities to advance OOD in UAV applications.Overall, CODrone fills the data gap in OOD from UAV perspective and provides a benchmark with enhanced generalization capability, better aligning with practical applications and future algorithm development.

arxiv情報

著者 Kai Ye,Haidi Tang,Bowen Liu,Pingyang Dai,Liujuan Cao,Rongrong Ji
発行日 2025-04-28 17:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | More Clear, More Flexible, More Precise: A Comprehensive Oriented Object Detection benchmark for UAV はコメントを受け付けていません

Mitigating Catastrophic Forgetting in the Incremental Learning of Medical Images

要約

このホワイトペーパーでは、PI-CAIデータセットを使用してT2強調(T2W)MRI医療画像前立腺がん検出を分析する際の深い学習モデルの精度と効率を高めるための増分学習(IL)アプローチを提案します。
MRI(PI-CAI)を使用した前立腺がん検出を検討するさまざまなタスクに焦点を当てた、複数のヘルスセンターの人工知能と放射線データを使用しました。
過去のタスクから生成された画像を使用して、後続のタスクのモデルのトレーニングを導くため、知識蒸留(KD)を利用しました。
このアプローチにより、パフォーマンスが向上し、モデルの収束が速くなりました。
アプローチの汎用性と堅牢性を実証するために、Pi-Caiデータセット、OCTやPathmnistを含む医療イメージングモダリティの多様なセット、およびベンチマーク継続的な学習データセットCIFAR-10で評価しました。
我々の結果は、KDが個々の保健センターからデータが供給され、大規模なデータセットの保存が実現できない医療画像分析におけるILの有望な手法になる可能性があることを示しています。
以前のタスクから生成された画像を使用することにより、この方法により、元のデータに直接アクセスすることなく、モデルが以前に獲得した知識を保持および適用できます。

要約(オリジナル)

This paper proposes an Incremental Learning (IL) approach to enhance the accuracy and efficiency of deep learning models in analyzing T2-weighted (T2w) MRI medical images prostate cancer detection using the PI-CAI dataset. We used multiple health centers’ artificial intelligence and radiology data, focused on different tasks that looked at prostate cancer detection using MRI (PI-CAI). We utilized Knowledge Distillation (KD), as it employs generated images from past tasks to guide the training of models for subsequent tasks. The approach yielded improved performance and faster convergence of the models. To demonstrate the versatility and robustness of our approach, we evaluated it on the PI-CAI dataset, a diverse set of medical imaging modalities including OCT and PathMNIST, and the benchmark continual learning dataset CIFAR-10. Our results indicate that KD can be a promising technique for IL in medical image analysis in which data is sourced from individual health centers and the storage of large datasets is not feasible. By using generated images from prior tasks, our method enables the model to retain and apply previously acquired knowledge without direct access to the original data.

arxiv情報

著者 Sara Yavari,Jacob Furst
発行日 2025-04-28 17:56:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, I.2.10 | Mitigating Catastrophic Forgetting in the Incremental Learning of Medical Images はコメントを受け付けていません

MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion

要約

構造からのモーション(SFM)は長年にわたって大きな進歩を遂げてきましたが、最先端のシステムは、低オーバーラップ、低パラックス、または高対称性のシナリオの極端な視点の変化に直面すると、故障する傾向があります。
これらの落とし穴を回避する画像をキャプチャすることは困難であるため、これにより、特に非専門家のユーザーによるSFMのより広い使用が厳しく制限されます。
古典的なSFMパラダイムを単眼の深さと、深いニューラルネットワークによって推測される正常な事前層で増強することにより、これらの制限を克服します。
単眼とマルチビューの制約の緊密な統合のおかげで、私たちのアプローチは、標準的な条件で強力なパフォーマンスを維持しながら、極端な視点の変化の下で既存の制約を大幅に上回ります。
また、SFMの長年の問題である対称性により、単眼前かの障害を拒否するのに役立つことも示しています。
これにより、私たちのアプローチは、少数の画像から挑戦的な屋内環境を確実に再構築できるようにすることができます。
原則的な不確実性の伝播により、それはプライアーのエラーに対して堅牢であり、チューニングがほとんどない異なるモデルによって推測される事前に処理することができ、したがって、単眼の深さと通常の推定における将来の進歩から容易に恩恵を受けるでしょう。
私たちのコードは、https://github.com/cvg/mpsfmで公開されています。

要約(オリジナル)

While Structure-from-Motion (SfM) has seen much progress over the years, state-of-the-art systems are prone to failure when facing extreme viewpoint changes in low-overlap, low-parallax or high-symmetry scenarios. Because capturing images that avoid these pitfalls is challenging, this severely limits the wider use of SfM, especially by non-expert users. We overcome these limitations by augmenting the classical SfM paradigm with monocular depth and normal priors inferred by deep neural networks. Thanks to a tight integration of monocular and multi-view constraints, our approach significantly outperforms existing ones under extreme viewpoint changes, while maintaining strong performance in standard conditions. We also show that monocular priors can help reject faulty associations due to symmetries, which is a long-standing problem for SfM. This makes our approach the first capable of reliably reconstructing challenging indoor environments from few images. Through principled uncertainty propagation, it is robust to errors in the priors, can handle priors inferred by different models with little tuning, and will thus easily benefit from future progress in monocular depth and normal estimation. Our code is publicly available at https://github.com/cvg/mpsfm.

arxiv情報

著者 Zador Pataki,Paul-Edouard Sarlin,Johannes L. Schönberger,Marc Pollefeys
発行日 2025-04-28 17:59:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | MP-SfM: Monocular Surface Priors for Robust Structure-from-Motion はコメントを受け付けていません

Learning Streaming Video Representation via Multitask Training

要約

継続的なビデオストリームを理解することは、具体化されたAIや自律運転など、リアルタイムアプリケーションで基本的な役割を果たします。
オフラインのビデオ理解とは異なり、ストリーミングビデオの理解には、フレームごとにビデオストリームフレームを処理し、履歴情報を保存し、低遅延の決定を下す機能が必要です。これらの課題に対処するために、主な貢献は3つあります。
(i)因果的な時間的注意を事前に訓練した視覚変圧器に組み込むことにより、ストリームフォーマーと呼ばれる新しいストリーミングビデオバックボーンを開発します。
これにより、画像表現の機能を維持しながら効率的なストリーミングビデオ処理が可能になります。(ii)ストリームフォーマーを訓練するには、マルチタスク視覚言語アライメントフレームワーク内の多様な空間的ビデオ理解タスクを統合することを提案します。
したがって、Streamformerは、グローバルなセマンティクス、時間的ダイナミクス、および細粒の空間的関係を同時に学習します。
(iii)オンラインアクション検出、オンラインビデオインスタンスセグメンテーション、およびビデオ質問応答に関する広範な実験を実施します。
Streamformerは、効率を維持しながら競争結果を達成し、リアルタイムアプリケーションの可能性を示しています。

要約(オリジナル)

Understanding continuous video streams plays a fundamental role in real-time applications including embodied AI and autonomous driving. Unlike offline video understanding, streaming video understanding requires the ability to process video streams frame by frame, preserve historical information, and make low-latency decisions.To address these challenges, our main contributions are three-fold. (i) We develop a novel streaming video backbone, termed as StreamFormer, by incorporating causal temporal attention into a pre-trained vision transformer. This enables efficient streaming video processing while maintaining image representation capability.(ii) To train StreamFormer, we propose to unify diverse spatial-temporal video understanding tasks within a multitask visual-language alignment framework. Hence, StreamFormer learns global semantics, temporal dynamics, and fine-grained spatial relationships simultaneously. (iii) We conduct extensive experiments on online action detection, online video instance segmentation, and video question answering. StreamFormer achieves competitive results while maintaining efficiency, demonstrating its potential for real-time applications.

arxiv情報

著者 Yibin Yan,Jilan Xu,Shangzhe Di,Yikun Liu,Yudi Shi,Qirui Chen,Zeqian Li,Yifei Huang,Weidi Xie
発行日 2025-04-28 17:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Learning Streaming Video Representation via Multitask Training はコメントを受け付けていません

CompleteMe: Reference-based Human Image Completion

要約

人間の画像の完成のための最近の方法は、もっともらしい体の形を再構築することができますが、明示的な参照画像なしでは、特定の衣類パターンや独特のアクセサリーなどの独自の詳細を保持できないことがよくあります。
最先端のリファレンスベースのインピンティングアプローチでさえ、参照画像からきめの細かい詳細を正確にキャプチャして統合するのに苦労しています。
この制限に対処するために、斬新な参照ベースの人間の画像完了フレームワークであるCompletemeを提案します。
Completemeは、参照画像の関連する領域に対するモデルの注意を明示的に導く、地域中心の注意(RFA)ブロックと組み合わせたデュアルU-Netアーキテクチャを採用しています。
このアプローチは、細かい詳細を効果的にキャプチャし、正確なセマンティック対応を保証し、完成した画像の忠実度と一貫性を大幅に改善します。
さらに、参照ベースのヒューマン画像完了タスクを評価するために特別に設計された挑戦的なベンチマークを紹介します。
広範な実験は、提案された方法が既存の手法と比較して優れた視覚品質と意味的一貫性を達成することを示しています。
プロジェクトページ:https://liagm.github.io/completeme/

要約(オリジナル)

Recent methods for human image completion can reconstruct plausible body shapes but often fail to preserve unique details, such as specific clothing patterns or distinctive accessories, without explicit reference images. Even state-of-the-art reference-based inpainting approaches struggle to accurately capture and integrate fine-grained details from reference images. To address this limitation, we propose CompleteMe, a novel reference-based human image completion framework. CompleteMe employs a dual U-Net architecture combined with a Region-focused Attention (RFA) Block, which explicitly guides the model’s attention toward relevant regions in reference images. This approach effectively captures fine details and ensures accurate semantic correspondence, significantly improving the fidelity and consistency of completed images. Additionally, we introduce a challenging benchmark specifically designed for evaluating reference-based human image completion tasks. Extensive experiments demonstrate that our proposed method achieves superior visual quality and semantic consistency compared to existing techniques. Project page: https://liagm.github.io/CompleteMe/

arxiv情報

著者 Yu-Ju Tsai,Brian Price,Qing Liu,Luis Figueroa,Daniil Pakhomov,Zhihong Ding,Scott Cohen,Ming-Hsuan Yang
発行日 2025-04-28 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | CompleteMe: Reference-based Human Image Completion はコメントを受け付けていません

Quaternion Domain Super MDS for 3D Localization

要約

Quaternion-Domain Super Multidimensional Scaling(QD-SMDS)と呼ばれるワイヤレスセンサーネットワークのための新しい低複数の3次元(3D)ローカリゼーションアルゴリズムを提案します。
このアルゴリズムは、元々実際のドメインで開発された従来のSMDをQuaternionドメインに再定式化します。
3D座標をQuaternionsとして表現することにより、この方法により、ノード間の相対距離と角度(位相)情報の両方を統合するランク1グラムエッジカーネル(GEK)マトリックスの構築を可能にし、特異値分解(SVD)を介した低ランクの切り捨てを介して達成されるノイズ削減効果を最大化します。
シミュレーション結果は、提案された方法が、特に実質的な測定誤差を特徴とするシナリオで、従来のSMDSアルゴリズムと比較して、ローカリゼーション精度の顕著な強化を示していることを示しています。

要約(オリジナル)

We propose a novel low-complexity three-dimensional (3D) localization algorithm for wireless sensor networks, termed quaternion-domain super multidimensional scaling (QD-SMDS). This algorithm reformulates the conventional SMDS, which was originally developed in the real domain, into the quaternion domain. By representing 3D coordinates as quaternions, the method enables the construction of a rank-1 Gram edge kernel (GEK) matrix that integrates both relative distance and angular (phase) information between nodes, maximizing the noise reduction effect achieved through low-rank truncation via singular value decomposition (SVD). The simulation results indicate that the proposed method demonstrates a notable enhancement in localization accuracy relative to the conventional SMDS algorithm, particularly in scenarios characterized by substantial measurement errors.

arxiv情報

著者 Keigo Masuoka,Takumi Takahashi,Giuseppe Thadeu Freitas de Abreu,Hideki Ochiai
発行日 2025-04-28 11:44:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, eess.SP, math.MG | Quaternion Domain Super MDS for 3D Localization はコメントを受け付けていません

Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations

要約

このペーパーでは、実際の知識の中で、時間的文脈の変動に対する言語モデル(LMS)の堅牢性を探ります。
LMSが、正しいコンテキストと正しいと区別するように依頼することにより、定義された期間にわたって有効な過去の事実と一時的なコンテキストを正しく関連付けることができるかどうかを調べます。
LMSの精度は、有効期間からの誤ったコンテキストの距離とコンテキストの粒度という2つの次元に沿って分析されます。
この目的のために、TimeStressと呼ばれるデータセットが導入され、18の多様なLMSの評価が可能になります。
結果は、最高のLMが、人間が犯さない重要なエラーを伴う、研究された事実の6%のみに対して完全な精度を達成することを明らかにしています。
この作業は、時間表現における現在のLMSの制限を強調しています。
さらなる調査のためにすべてのデータとコードを提供します。

要約(オリジナル)

This paper explores the robustness of language models (LMs) to variations in the temporal context within factual knowledge. It examines whether LMs can correctly associate a temporal context with a past fact valid over a defined period, by asking them to differentiate correct from incorrect contexts. The accuracy of LMs is analyzed along two dimensions: the distance of the incorrect context from the validity period and the granularity of the context. To this end, a dataset called TimeStress is introduced, enabling the evaluation of 18 diverse LMs. Results reveal that the best LM achieves perfect accuracy for only 6% of the studied facts, with critical errors that humans would not make. This work highlights the limitations of current LMs in temporal representation. We provide all data and code for further research.

arxiv情報

著者 Hichem Ammar Khodja,Frédéric Béchet,Quentin Brabant,Alexis Nasr,Gwénolé Lecorvé
発行日 2025-04-28 09:54:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG | Factual Knowledge in Language Models: Robustness and Anomalies under Simple Temporal Context Variations はコメントを受け付けていません