Lost in Sequence: Do Large Language Models Understand Sequential Recommendation?

要約

最近、大規模な言語モデル(LLMS)は、高度なテキスト理解能力とコンテキスト認識のおかげで、推奨の有望なツールとして浮上しています。
順次推奨シナリオの下で、LLMベースの推奨事項(LLM4REC)モデルのトレーニングと評価の現在の慣行にもかかわらず、これらのモデルがユーザーのアイテムインタラクションシーケンスに固有のシーケンシャル情報を理解しているかどうかは、ほとんど見落とされていることがわかりました。
この論文では、最初に一連の実験を通して、既存のLLM4RECモデルがトレーニングと推論中に連続した情報を完全にキャプチャしないことを示します。
次に、LLM-SRECと呼ばれるシンプルで効果的なLLMベースのシーケンシャル推奨を提案します。これは、事前に訓練されたCF-SRECモデルから抽出されたユーザー表現をLLMSに抽出することにより、LLMSへのシーケンシャル情報の統合を強化する方法です。
当社の広範な実験は、LLM-SRECがユーザーのアイテムの相互作用シーケンスを理解するLLMSの能力を高め、最終的に推奨パフォーマンスの向上につながることを示しています。
さらに、LLMの微調整を必要とする既存のLLM4RECモデルとは異なり、LLM-SRECは、いくつかの軽量MLPのみをトレーニングすることで最先端のパフォーマンスを実現し、実際のアプリケーションでの実用性を強調します。
私たちのコードは、https://github.com/sein-kim/llm-srecで入手できます。

要約(オリジナル)

Large Language Models (LLMs) have recently emerged as promising tools for recommendation thanks to their advanced textual understanding ability and context-awareness. Despite the current practice of training and evaluating LLM-based recommendation (LLM4Rec) models under a sequential recommendation scenario, we found that whether these models understand the sequential information inherent in users’ item interaction sequences has been largely overlooked. In this paper, we first demonstrate through a series of experiments that existing LLM4Rec models do not fully capture sequential information both during training and inference. Then, we propose a simple yet effective LLM-based sequential recommender, called LLM-SRec, a method that enhances the integration of sequential information into LLMs by distilling the user representations extracted from a pre-trained CF-SRec model into LLMs. Our extensive experiments show that LLM-SRec enhances LLMs’ ability to understand users’ item interaction sequences, ultimately leading to improved recommendation performance. Furthermore, unlike existing LLM4Rec models that require fine-tuning of LLMs, LLM-SRec achieves state-of-the-art performance by training only a few lightweight MLPs, highlighting its practicality in real-world applications. Our code is available at https://github.com/Sein-Kim/LLM-SRec.

arxiv情報

著者 Sein Kim,Hongseok Kang,Kibum Kim,Jiwan Kim,Donghyun Kim,Minchul Yang,Kwangjin Oh,Julian McAuley,Chanyoung Park
発行日 2025-06-11 17:41:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR | Lost in Sequence: Do Large Language Models Understand Sequential Recommendation? はコメントを受け付けていません

Trustworthy AI: Safety, Bias, and Privacy — A Survey

要約

人工知能システムの能力は大幅に進歩していますが、これらのシステムは依然として故障モード、脆弱性、バイアスに苦労しています。
この論文では、現場の現在の状態を研究し、AIモデルの信頼性に挑戦する懸念に関する有望な洞察と視点を提示します。
特に、このペーパーでは、モデルの信頼性を損なう安全性、プライバシー、バイアスという3つの推力に関する問題を調査します。
安全のために、大規模な言語モデルのコンテキストでの安全性の調整について説明し、それらが有毒または有害なコンテンツを生成するのを防ぎます。
バイアスについては、ネットワークを誤解させる可能性のある偽のバイアスに焦点を当てます。
最後に、プライバシーのために、深いニューラルネットワークでのメンバーシップ推論攻撃をカバーしています。
この論文で扱われている議論は、私たち自身の実験と観察を反映しています。

要約(オリジナル)

The capabilities of artificial intelligence systems have been advancing to a great extent, but these systems still struggle with failure modes, vulnerabilities, and biases. In this paper, we study the current state of the field, and present promising insights and perspectives regarding concerns that challenge the trustworthiness of AI models. In particular, this paper investigates the issues regarding three thrusts: safety, privacy, and bias, which hurt models’ trustworthiness. For safety, we discuss safety alignment in the context of large language models, preventing them from generating toxic or harmful content. For bias, we focus on spurious biases that can mislead a network. Lastly, for privacy, we cover membership inference attacks in deep neural networks. The discussions addressed in this paper reflect our own experiments and observations.

arxiv情報

著者 Xingli Fang,Jianwei Li,Varun Mulchandani,Jung-Eun Kim
発行日 2025-06-11 17:44:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.LG | Trustworthy AI: Safety, Bias, and Privacy — A Survey はコメントを受け付けていません

Is Long Context All You Need? Leveraging LLM’s Extended Context for NL2SQL

要約

大規模な言語モデル(LLM)は、さまざまな自然言語処理タスクにわたって印象的な機能を実証しています。
特に、推論能力の改善とコンテキストウィンドウの拡張により、これらの強力なモデルを活用するための新しい手段が開かれました。
NL2SQLは、自然言語の質問が本質的に曖昧であるという点で挑戦的ですが、SQL生成は複雑なデータスキーマとセマンティクスを正確に理解する必要があります。
このセマンティックな曖昧な問題に対するアプローチの1つは、より多くの十分なコンテキスト情報を提供することです。
この作業では、Googleの最先端のLLM(\ TextIT {gemini-1.5-pro})が提供する拡張コンテキストウィンドウ(別名、長いコンテキスト)のパフォーマンスとレイテンシトレードオフを調査します。
列の例の値、質問とSQLクエリのペア、ユーザーが提供するヒント、SQLドキュメント、スキーマなど、さまざまなコンテキスト情報の影響を調査します。
私たちの知る限り、これは、拡張されたコンテキストウィンドウと追加のコンテキスト情報が、精度と潜時コストの両方に関してNL2SQLの生成をどのように役立つかを研究するための最初の作業です。
長いコンテキストLLMが堅牢であり、拡張されたコンテキスト情報で迷子にならないことを示します。
さらに、Googleの\ textit {gemini-pro-1.5}に基づく長いコンテキストNL2SQLパイプラインは、微調整と高価な自己整合に基づくテクニックなしで、さまざまなベンチマークデータセットで強力なパフォーマンスを実現します。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated impressive capabilities across a range of natural language processing tasks. In particular, improvements in reasoning abilities and the expansion of context windows have opened new avenues for leveraging these powerful models. NL2SQL is challenging in that the natural language question is inherently ambiguous, while the SQL generation requires a precise understanding of complex data schema and semantics. One approach to this semantic ambiguous problem is to provide more and sufficient contextual information. In this work, we explore the performance and the latency trade-offs of the extended context window (a.k.a., long context) offered by Google’s state-of-the-art LLM (\textit{gemini-1.5-pro}). We study the impact of various contextual information, including column example values, question and SQL query pairs, user-provided hints, SQL documentation, and schema. To the best of our knowledge, this is the first work to study how the extended context window and extra contextual information can help NL2SQL generation with respect to both accuracy and latency cost. We show that long context LLMs are robust and do not get lost in the extended contextual information. Additionally, our long-context NL2SQL pipeline based on Google’s \textit{gemini-pro-1.5} achieve strong performances on various benchmark datasets without finetuning and expensive self-consistency based techniques.

arxiv情報

著者 Yeounoh Chung,Gaurav T. Kakkar,Yu Gan,Brenton Milne,Fatma Ozcan
発行日 2025-06-11 17:49:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB | Is Long Context All You Need? Leveraging LLM’s Extended Context for NL2SQL はコメントを受け付けていません

How Do People Revise Inconsistent Beliefs? Examining Belief Revision in Humans with User Studies

要約

人間が新しい情報に照らして自分の信念をどのように修正するかを理解することは、人間の推論を効果的にモデル化し、したがって一致させることができるAIシステムを開発するために重要です。
理論的信念の改訂フレームワークは、これらの操作がどのように実行されるかを確立する一連の原則に依存していますが、認知心理学からの経験的証拠は、矛盾する情報を提示すると、人々が異なるパターンに従うことができることを示唆しています。
このホワイトペーパーでは、人々が一貫して説明に基づいた改訂を好むことを示す3つの包括的なユーザー研究、すなわち、説明によって導かれたものが、古典的な信念の変化理論によって必ずしも捉えられない信念体系の変更をもたらすことを示しています。
私たちの実験は、人々が自分の信念をどのように修正するか、矛盾を説明して、自分自身を策定するために任されているかどうかを体系的に調査し、さまざまなタイプのシナリオにわたって非最小の改訂と思われるものに対する堅牢な好みを示しています。
これらの発見は、人間の推論をモデル化したり、人間との相互作用をするように設計されたAIシステムに影響を与え、そのようなシステムは、人間の認知プロセスとより適切に整合するために、説明に基づいた、潜在的に非最小の信念改訂演算子に対応すべきであることを示唆しています。

要約(オリジナル)

Understanding how humans revise their beliefs in light of new information is crucial for developing AI systems which can effectively model, and thus align with, human reasoning. While theoretical belief revision frameworks rely on a set of principles that establish how these operations are performed, empirical evidence from cognitive psychology suggests that people may follow different patterns when presented with conflicting information. In this paper, we present three comprehensive user studies showing that people consistently prefer explanation-based revisions, i.e., those which are guided by explanations, that result in changes to their belief systems that are not necessarily captured by classical belief change theory. Our experiments systematically investigate how people revise their beliefs with explanations for inconsistencies, whether they are provided with them or left to formulate them themselves, demonstrating a robust preference for what may seem non-minimal revisions across different types of scenarios. These findings have implications for AI systems designed to model human reasoning or interact with humans, suggesting that such systems should accommodate explanation-based, potentially non-minimal belief revision operators to better align with human cognitive processes.

arxiv情報

著者 Stylianos Loukas Vasileiou,Antonio Rago,Maria Vanina Martinez,William Yeoh
発行日 2025-06-11 17:52:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | How Do People Revise Inconsistent Beliefs? Examining Belief Revision in Humans with User Studies はコメントを受け付けていません

eFlesh: Highly customizable Magnetic Touch Sensing using Cut-Cell Microstructures

要約

人間の経験がガイドである場合、家やオフィスなどの非構造化された環境で効果的に動作するには、物理​​的な相互作用中に力を感知するためにロボットが必要です。
しかし、汎用性が高く、アクセスしやすく、簡単にカスタマイズ可能な触覚センサーがないため、ロボット操作における断片化されたセンサー固有のソリューション、および多くの場合、力を持たないセンサーレスアプローチにつながりました。
Efleshを使用すると、低コストで、製造しやすく、高度にカスタマイズ可能な磁気触覚センサーを導入することにより、このギャップを埋めます。
Efleshセンサーの構築には、4つのコンポーネントのみが必要です。趣味の3Dプリンター、既製の磁石(<$ 5)、目的の形状のCADモデル、磁力計回路基板のみです。 センサーは、センサーのジオメトリとその機械的応答を調整できるタイル張りのパラメーター化された微細構造から構成されています。 凸型OBJ/STLファイルを製造のために3Dプリント可能なSTLに変換するオープンソース設計ツールを提供します。 このモジュラー設計フレームワークにより、ユーザーはアプリケーション固有のセンサーを作成し、タスクに応じて感度を調整できます。 センサーの特性評価実験は、Efleshの能力を示しています:0.5 mmの局在RMSEと接触し、通常の力では0.27 Nの力予測RMSE、せん断力で0.12 Nの力予測RMSEを示します。 また、95%の精度で目に見えないオブジェクトに一般化する学習スリップ検出モデル、および視覚のみのベースラインよりも操作パフォーマンスを40%改善するVisuotactile制御ポリシーを提示します。 すべての設計ファイル、コード、およびCADからエフレシュへのSTL変換ツールはオープンソースで、https://e-flesh.comで入手できます。

要約(オリジナル)

If human experience is any guide, operating effectively in unstructured environments — like homes and offices — requires robots to sense the forces during physical interaction. Yet, the lack of a versatile, accessible, and easily customizable tactile sensor has led to fragmented, sensor-specific solutions in robotic manipulation — and in many cases, to force-unaware, sensorless approaches. With eFlesh, we bridge this gap by introducing a magnetic tactile sensor that is low-cost, easy to fabricate, and highly customizable. Building an eFlesh sensor requires only four components: a hobbyist 3D printer, off-the-shelf magnets (<$5), a CAD model of the desired shape, and a magnetometer circuit board. The sensor is constructed from tiled, parameterized microstructures, which allow for tuning the sensor's geometry and its mechanical response. We provide an open-source design tool that converts convex OBJ/STL files into 3D-printable STLs for fabrication. This modular design framework enables users to create application-specific sensors, and to adjust sensitivity depending on the task. Our sensor characterization experiments demonstrate the capabilities of eFlesh: contact localization RMSE of 0.5 mm, and force prediction RMSE of 0.27 N for normal force and 0.12 N for shear force. We also present a learned slip detection model that generalizes to unseen objects with 95% accuracy, and visuotactile control policies that improve manipulation performance by 40% over vision-only baselines -- achieving 91% average success rate for four precise tasks that require sub-mm accuracy for successful completion. All design files, code and the CAD-to-eFlesh STL conversion tool are open-sourced and available on https://e-flesh.com.

arxiv情報

著者 Venkatesh Pattabiraman,Zizhou Huang,Daniele Panozzo,Denis Zorin,Lerrel Pinto,Raunaq Bhirangi
発行日 2025-06-11 17:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | eFlesh: Highly customizable Magnetic Touch Sensing using Cut-Cell Microstructures はコメントを受け付けていません

MMME: A Spontaneous Multi-Modal Micro-Expression Dataset Enabling Visual-Physiological Fusion

要約

微小発現(ME)は、個人の真の感情的状態を明らかにする微妙でつかの間の非言語的手がかりです。
彼らの分析は、ヘルスケア、犯罪捜査、人間のコンピューターの相互作用などの分野での有望なアプリケーションのために、かなりの関心を集めています。
しかし、既存のME研究は単一の視覚的モダリティに限定されており、他の生理学的モダリティによって伝えられた豊かな感情情報を見落とし、MEの認識と実用的なアプリケーションのニーズをはるかに下回るパフォーマンスを発見します。
したがって、MEの視覚的特徴と生理学的シグナル(PS)の間のクロスモーダル関連メカニズムを調査し、マルチモーダル融合フレームワークの開発は、ME分析を進めるための極めて重要なステップを表しています。
この研究では、新しいMEデータセットであるMMMEを紹介します。これは、初めて、顔の行動信号(MES)、中枢神経系シグナル(EEG)、および末梢PS(PPG、RSP、SKT、EDA、およびECG)の同期コレクションを可能にします。
既存のMEコーパスの制約を克服することにより、MMMEは634 MES、2,841マクロ発現(MAES)、および同期されたマルチモーダルPSの2,890回の試験で構成され、MEニューラルメカニズムを調査し、マルチモーダル融合ベースの分析を実施するための堅牢な基盤を確立します。
広範な実験では、データセットの信頼性を検証し、ME分析にベンチマークを提供し、MESとPSを統合することで認識とスポッティングのパフォーマンスが大幅に向上することを示しています。
私たちの知る限り、MMMEは、モダリティの多様性の観点から、これまでで最も包括的なMEデータセットです。
MESの神経メカニズムを調査し、視覚生理学的相乗効果を明らかにするための重要なデータサポートを提供し、ME研究のパラダイムシフトを単一モダリティの視覚分析からマルチモーダル融合に駆り立てます。
データセットは、このペーパーを受け入れると公開されます。

要約(オリジナル)

Micro-expressions (MEs) are subtle, fleeting nonverbal cues that reveal an individual’s genuine emotional state. Their analysis has attracted considerable interest due to its promising applications in fields such as healthcare, criminal investigation, and human-computer interaction. However, existing ME research is limited to single visual modality, overlooking the rich emotional information conveyed by other physiological modalities, resulting in ME recognition and spotting performance far below practical application needs. Therefore, exploring the cross-modal association mechanism between ME visual features and physiological signals (PS), and developing a multimodal fusion framework, represents a pivotal step toward advancing ME analysis. This study introduces a novel ME dataset, MMME, which, for the first time, enables synchronized collection of facial action signals (MEs), central nervous system signals (EEG), and peripheral PS (PPG, RSP, SKT, EDA, and ECG). By overcoming the constraints of existing ME corpora, MMME comprises 634 MEs, 2,841 macro-expressions (MaEs), and 2,890 trials of synchronized multimodal PS, establishing a robust foundation for investigating ME neural mechanisms and conducting multimodal fusion-based analyses. Extensive experiments validate the dataset’s reliability and provide benchmarks for ME analysis, demonstrating that integrating MEs with PS significantly enhances recognition and spotting performance. To the best of our knowledge, MMME is the most comprehensive ME dataset to date in terms of modality diversity. It provides critical data support for exploring the neural mechanisms of MEs and uncovering the visual-physiological synergistic effects, driving a paradigm shift in ME research from single-modality visual analysis to multimodal fusion. The dataset will be publicly available upon acceptance of this paper.

arxiv情報

著者 Chuang Maa,Yu Peia,Jianhang Zhanga,Shaokai Zhaoa,Bowen Jib,Liang Xiea,Ye Yana,Erwei Yin
発行日 2025-06-11 15:13:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | MMME: A Spontaneous Multi-Modal Micro-Expression Dataset Enabling Visual-Physiological Fusion はコメントを受け付けていません

DynaSplat: Dynamic-Static Gaussian Splatting with Hierarchical Motion Decomposition for Scene Reconstruction

要約

複雑で絶えず変化する環境を再構築することは、コンピュータービジョンの中心的な野望のままですが、実際のダイナミクスの複雑さの前に既存のソリューションがしばしば崩れることがよくあります。
ダイナスプラートは、動的な静的分離と階層モーションモデリングを統合することにより、ガウスのスプラッティングを動的なシーンに拡張するアプローチを提示します。
まず、変形オフセット統計と2Dモーションフローの一貫性の新規融合を通じて、シーン要素を静的または動的に分類し、空間表現を改良して、モーションが重要な場所に正確に焦点を合わせます。
次に、粗いグローバルな変換ときめ細かい局所的な動きの両方をキャプチャする階層モーションモデリング戦略を導入し、複雑で非剛性の動きの正確な取り扱いを可能にします。
最後に、物理的にベースの不透明度の推定を統合して、困難な閉塞や視点のシフトの下でも、視覚的に一貫した再構成を確保します。
挑戦的なデータセットに関する広範な実験により、Dynasplatは正確さとリアリズムの最先端の代替案を上回るだけでなく、ダイナミックシーンの再構築へのより直感的でコンパクトで効率的なルートを提供することが明らかになりました。

要約(オリジナル)

Reconstructing intricate, ever-changing environments remains a central ambition in computer vision, yet existing solutions often crumble before the complexity of real-world dynamics. We present DynaSplat, an approach that extends Gaussian Splatting to dynamic scenes by integrating dynamic-static separation and hierarchical motion modeling. First, we classify scene elements as static or dynamic through a novel fusion of deformation offset statistics and 2D motion flow consistency, refining our spatial representation to focus precisely where motion matters. We then introduce a hierarchical motion modeling strategy that captures both coarse global transformations and fine-grained local movements, enabling accurate handling of intricate, non-rigid motions. Finally, we integrate physically-based opacity estimation to ensure visually coherent reconstructions, even under challenging occlusions and perspective shifts. Extensive experiments on challenging datasets reveal that DynaSplat not only surpasses state-of-the-art alternatives in accuracy and realism but also provides a more intuitive, compact, and efficient route to dynamic scene reconstruction.

arxiv情報

著者 Junli Deng,Ping Shi,Qipei Li,Jinyang Guo
発行日 2025-06-11 15:13:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | DynaSplat: Dynamic-Static Gaussian Splatting with Hierarchical Motion Decomposition for Scene Reconstruction はコメントを受け付けていません

OctoNav: Towards Generalist Embodied Navigation

要約

具体化されたナビゲーションは、具体化されたAIのより広範な追求内の基礎柱として立っています。
ただし、以前のナビゲーション調査は、さまざまなタスク/機能、たとえばObjnav、Imgnav、VLNに分割されており、タスクの目標とモダリティが異なるため、データセットとメソッドは個別に設計されています。
この作業では、マルチモーダルとマルチ容量の任意の化合物を含む自由形式の指示に従うことができるジェネラリストナビゲーションエージェントへの措置を講じます。
これを達成するために、Octonav-BenchとOctonav-R1と呼ばれる大規模なベンチマークと対応する方法を提案します。
具体的には、Octonav-Benchは連続環境を備えており、設計された注釈パイプラインを介して構築されています。
私たちは、任意のモダリティと能力を備えたフリーフォームで命令が多様である、指導指導のペアを徹底的に作成します。
また、アクションの背後にある思考プロセスを提供するために、Octonav-Bench内に思考前(TBA-COT)データセットを構築します。
Octonav-R1の場合、MLLMSに基づいて構築し、2D視覚観測のみに基づいて低レベルのアクションを生成できるVLAタイプモデルに適応します。
さらに、3つの段階、つまりアクション/TBA-SFT、NAV-GPRO、およびオンラインRLステージで構成されるハイブリッドトレーニングパラダイム(HTP)を設計します。
各段階には、特別に設計された学習ポリシーと報酬が含まれています。
重要なことに、TBA-SFTおよびNAV-GRPOのデザインでは、Openai-O1とDeepSeek-R1に触発されています。
したがって、私たちは、具体化されたナビゲーション分野での思考前の行動を達成する方法を調査し、ジェネラリストに対するモデルの推論能力を向上させることを目指しています。
具体的には、TBA-SFTを提案して、TBA-COTデータセットを利用してモデルをコールドスタートフレーズとして微調整し、NAV-GPROを活用して思考能力を向上させます。
最後に、Octonav-R1は、以前の方法と比較して優れた性能を示します。

要約(オリジナル)

Embodied navigation stands as a foundation pillar within the broader pursuit of embodied AI. However, previous navigation research is divided into different tasks/capabilities, e.g., ObjNav, ImgNav and VLN, where they differ in task objectives and modalities, making datasets and methods are designed individually. In this work, we take steps toward generalist navigation agents, which can follow free-form instructions that include arbitrary compounds of multi-modal and multi-capability. To achieve this, we propose a large-scale benchmark and corresponding method, termed OctoNav-Bench and OctoNav-R1. Specifically, OctoNav-Bench features continuous environments and is constructed via a designed annotation pipeline. We thoroughly craft instruction-trajectory pairs, where instructions are diverse in free-form with arbitrary modality and capability. Also, we construct a Think-Before-Action (TBA-CoT) dataset within OctoNav-Bench to provide the thinking process behind actions. For OctoNav-R1, we build it upon MLLMs and adapt it to a VLA-type model, which can produce low-level actions solely based on 2D visual observations. Moreover, we design a Hybrid Training Paradigm (HTP) that consists of three stages, i.e., Action-/TBA-SFT, Nav-GPRO, and Online RL stages. Each stage contains specifically designed learning policies and rewards. Importantly, for TBA-SFT and Nav-GRPO designs, we are inspired by the OpenAI-o1 and DeepSeek-R1, which show impressive reasoning ability via thinking-before-answer. Thus, we aim to investigate how to achieve thinking-before-action in the embodied navigation field, to improve model’s reasoning ability toward generalists. Specifically, we propose TBA-SFT to utilize the TBA-CoT dataset to fine-tune the model as a cold-start phrase and then leverage Nav-GPRO to improve its thinking ability. Finally, OctoNav-R1 shows superior performance compared with previous methods.

arxiv情報

著者 Chen Gao,Liankai Jin,Xingyu Peng,Jiazhao Zhang,Yue Deng,Annan Li,He Wang,Si Liu
発行日 2025-06-11 15:15:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | OctoNav: Towards Generalist Embodied Navigation はコメントを受け付けていません

Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition

要約

手書きのテキスト認識は、視覚入力を機械可読テキストに変換することを目的としており、手書きの進化とコンテキスト依存性の性質のために困難なままです。
キャラクターセットは時間とともに変化し、文字頻度分布は歴史的期間または地域にシフトし、多くの場合、広範で不均一なコーパスで訓練されたモデルが特定のサブセットでパフォーマンスを低下させます。
これに取り組むために、予測されたテキストの文字頻度分布とトレーニングデータから経験的に導出されたターゲット分布との間にwasserstein距離を組み込んだ新しい損失関数を提案します。
予想される分布からの相違を罰することにより、私たちのアプローチは、時間的および文脈上のダタセット内シフトの下での精度と堅牢性の両方を強化します。
さらに、誘導デコードスキームでスコアリング関数として統合することにより、再訓練を必要とせずに、文字分布のアライメントが推論時間に既存のモデルを改善できることを実証します。
複数のデータセットとアーキテクチャにわたる実験結果は、一般化とパフォーマンスの向上における方法の有効性を確認します。
https://github.com/pkaliosis/fadaでコードをオープンします。

要約(オリジナル)

Handwritten text recognition aims to convert visual input into machine-readable text, and it remains challenging due to the evolving and context-dependent nature of handwriting. Character sets change over time, and character frequency distributions shift across historical periods or regions, often causing models trained on broad, heterogeneous corpora to underperform on specific subsets. To tackle this, we propose a novel loss function that incorporates the Wasserstein distance between the character frequency distribution of the predicted text and a target distribution empirically derived from training data. By penalizing divergence from expected distributions, our approach enhances both accuracy and robustness under temporal and contextual intra-dataset shifts. Furthermore, we demonstrate that character distribution alignment can also improve existing models at inference time without requiring retraining by integrating it as a scoring function in a guided decoding scheme. Experimental results across multiple datasets and architectures confirm the effectiveness of our method in boosting generalization and performance. We open source our code at https://github.com/pkaliosis/fada.

arxiv情報

著者 Panagiotis Kaliosis,John Pavlopoulos
発行日 2025-06-11 15:20:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Learning to Align: Addressing Character Frequency Distribution Shifts in Handwritten Text Recognition はコメントを受け付けていません

Dataset of News Articles with Provenance Metadata for Media Relevance Assessment

要約

コンテキスト外および誤った画像は、今日の誤った情報と偽情報の状況におけるメディア操作の主要な形態です。
このプラクティスを検出しようとする既存の方法は、多くの場合、画像のセマンティクスがテキストの物語に対応しているかどうかを検討し、描かれたオブジェクトやシーンが手元の物語に多少対応する限り、操作が欠けています。
これに取り組むために、出所タグ付き画像を含むニュース記事のデータセットであるニュースメディア出力データセットを紹介します。
このデータセットに2つのタスク、原点関連の位置(LOR)と原産地関連の日時(DTOR)を策定し、6つの大手言語モデル(LLM)でベースライン結果を提示します。
LORでのゼロショットパフォーマンスは有望である一方で、DTORのパフォーマンスが妨げられ、専門のアーキテクチャと将来の仕事の余地があることを特定します。

要約(オリジナル)

Out-of-context and misattributed imagery is the leading form of media manipulation in today’s misinformation and disinformation landscape. The existing methods attempting to detect this practice often only consider whether the semantics of the imagery corresponds to the text narrative, missing manipulation so long as the depicted objects or scenes somewhat correspond to the narrative at hand. To tackle this, we introduce News Media Provenance Dataset, a dataset of news articles with provenance-tagged images. We formulate two tasks on this dataset, location of origin relevance (LOR) and date and time of origin relevance (DTOR), and present baseline results on six large language models (LLMs). We identify that, while the zero-shot performance on LOR is promising, the performance on DTOR hinders, leaving room for specialized architectures and future work.

arxiv情報

著者 Tomas Peterka,Matyas Bohacek
発行日 2025-06-11 15:21:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY | Dataset of News Articles with Provenance Metadata for Media Relevance Assessment はコメントを受け付けていません