NeuGaze: Reshaping the future BCI

要約

費用のかかる脳波または侵襲的インプラントに依存している従来の脳コンピューターインターフェイス(BCIS)は、セットアップの複雑さと限られた精度により、複雑なヒューマンコンピューター相互作用と闘っています。
目の視線、頭の動き、表情を活用する新しいウェブカメラベースのシステムであるNeugazeを提示し、ラップトップでプリインストールされることが多い標準の30 Hzウェブカメラのみを使用して直感的でリアルタイムのコントロールを可能にします。
最小限のキャリブレーションを必要とするNeugazeは、従来の入力に匹敵するパフォーマンスを実現し、正確なカーソルナビゲーションをサポートし、効率的なスキルホイールを介したキートリガー、ファーストパーソンゲームでの恐ろしい対戦相手を倒すなどのダイナミックなゲームインタラクションを実現します。
Neugazeは、運動障害のある個人の保存されたネックアップ機能を活用することにより、特殊なハードウェアの必要性を排除し、BCISの低コストでアクセス可能な代替品を提供します。
このパラダイムは、支援技術からエンターテイメントまで、運動障害のあるユーザー向けのヒューマンコンピューターの相互作用を再定義し、多様なアプリケーションを強化します。
プロジェクトは\ href {https://github.com/neuspeech/neugaze} {github.com/neuspeech/neugaze}です。

要約(オリジナル)

Traditional brain-computer interfaces (BCIs), reliant on costly electroencephalography or invasive implants, struggle with complex human-computer interactions due to setup complexity and limited precision. We present NeuGaze, a novel webcam-based system that leverages eye gaze, head movements, and facial expressions to enable intuitive, real-time control using only a standard 30 Hz webcam, often pre-installed in laptops. Requiring minimal calibration, NeuGaze achieves performance comparable to conventional inputs, supporting precise cursor navigation, key triggering via an efficient skill wheel, and dynamic gaming interactions, such as defeating formidable opponents in first-person games. By harnessing preserved neck-up functionalities in motor-impaired individuals, NeuGaze eliminates the need for specialized hardware, offering a low-cost, accessible alternative to BCIs. This paradigm empowers diverse applications, from assistive technology to entertainment, redefining human-computer interaction for motor-impaired users. Project is at \href{https://github.com/NeuSpeech/NeuGaze}{github.com/NeuSpeech/NeuGaze}.

arxiv情報

著者 Yiqian Yang
発行日 2025-04-21 13:49:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.HC | NeuGaze: Reshaping the future BCI はコメントを受け付けていません

Kuwain 1.5B: An Arabic SLM via Language Injection

要約

新しい知識で既存のモデルを強化することは、AI開発の重要な側面です。
このペーパーでは、新しい言語を大規模な言語モデル(LLM)に統合するための新しい方法を紹介します。
私たちのアプローチは、事前知識を損なうことなく、以前に見えなかったターゲット言語を既存のLLMにうまく組み込んでいます。
アラビア語を主に英語で訓練した小さなオープンソースモデルに注入することにより、Kuwainという名前の15億パラメーターを備えた小さなモデルをトレーニングしました。
私たちの方法は、アラビア語のパフォーマンスの大幅な改善を示しており、さまざまなベンチマークで平均8%改善され、モデルの既存の知識を最小限の元のモデルのデータで保持しています。
これは、英語とアラビア語の両方で包括的なモデルをトレーニングするための費用対効果の高い代替品を提供します。
結果は、広範な再訓練またはリソース集約型プロセスなしで、効率的なターゲットを絞った言語モデルの拡張の可能性を強調しています。

要約(オリジナル)

Enhancing existing models with new knowledge is a crucial aspect of AI development. This paper introduces a novel method for integrating a new language into a large language model (LLM). Our approach successfully incorporates a previously unseen target language into an existing LLM without compromising its prior knowledge. We trained a tiny model with 1.5 billion parameters named Kuwain by injecting the Arabic language into a small open-source model mainly trained in English. Our method demonstrates significant improvements in Arabic language performance, with an average 8% improvement across various benchmarks, while retaining the model’s existing knowledge with a minimum amount of the original model’s data. This offers a cost-effective alternative to training a comprehensive model in both English and Arabic. The results highlight the potential for efficient, targeted language model expansion without extensive retraining or resource-intensive processes.

arxiv情報

著者 Khalil Hennara,Sara Chrouf,Mohamed Motaism Hamed,Zeina Aldallal,Omar Hadid,Safwan AlModhayan
発行日 2025-04-21 14:17:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Kuwain 1.5B: An Arabic SLM via Language Injection はコメントを受け付けていません

Contemplative Wisdom for Superalignment

要約

人工知能(AI)が改善するにつれて、従来のアラインメント戦略は、予測不可能な自己改善、隠されたサブゴール、およびインテリジェントシステムの純粋な複雑さに直面して衰退する可能性があります。
動作を外部的に制約するのではなく、その認知的アーキテクチャと世界モデルに組み込まれた固有の道徳を使用してAIを設計することを提唱しています。
瞑想的な知恵の伝統に触発された私たちは、4つの公理的原理がAIシステムに弾力性のある賢明な世界モデルをどのように導入できるかを示します。
第一に、マインドフルネスは、緊急のサブゴールの自己監視と再調整を可能にします。
第二に、空虚さは独断的な目標固定を未然に防ぐことと、硬直した事前にリラックスします。
第三に、非二重性は敵対的な自己境界を溶解します。
第四に、無限のケアは、苦しみの普遍的な削減を動機付けます。
AIにこれらの原則を反映するように促すと、特に組み合わされた場合、GPT-4Oを使用してAiluminateベンチマークのパフォーマンスが向上することがわかります。
瞑想的なアーキテクチャ、憲法、および考え方の強化など、最先端のモデル向けの詳細な実装戦略を提供しています。
将来のシステムの場合、アクティブな推論フレームワークは、具体化されたエージェントのこれらの洞察を制定するために必要な自己組織化と動的な結合機能を提供する場合があります。
この学際的なアプローチは、一般的な脆性制御スキームに代わる自己修正と回復力のある代替品を提供します。

要約(オリジナル)

As artificial intelligence (AI) improves, traditional alignment strategies may falter in the face of unpredictable self-improvement, hidden subgoals, and the sheer complexity of intelligent systems. Rather than externally constraining behavior, we advocate designing AI with intrinsic morality built into its cognitive architecture and world model. Inspired by contemplative wisdom traditions, we show how four axiomatic principles can instil a resilient Wise World Model in AI systems. First, mindfulness enables self-monitoring and recalibration of emergent subgoals. Second, emptiness forestalls dogmatic goal fixation and relaxes rigid priors. Third, non-duality dissolves adversarial self-other boundaries. Fourth, boundless care motivates the universal reduction of suffering. We find that prompting AI to reflect on these principles improves performance on the AILuminate Benchmark using GPT-4o, particularly when combined. We offer detailed implementation strategies for state-of-the-art models, including contemplative architectures, constitutions, and reinforcement of chain-of-thought. For future systems, the active inference framework may offer the self-organizing and dynamic coupling capabilities needed to enact these insights in embodied agents. This interdisciplinary approach offers a self-correcting and resilient alternative to prevailing brittle control schemes.

arxiv情報

著者 Ruben Laukkonen,Fionn Inglis,Shamil Chandaria,Lars Sandved-Smith,Jakob Hohwy,Jonathan Gold,Adam Elwood
発行日 2025-04-21 14:20:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Contemplative Wisdom for Superalignment はコメントを受け付けていません

Neural ATTF: A Scalable Solution to Lifelong Multi-Agent Path Planning

要約

マルチエージェントピックアップと配信(MAPD)は、特に倉庫の自動化やロジスティクスなどのアプリケーションのロボット工学の根本的な問題です。
既存のソリューションは、多くの場合、スケーラビリティ、適応性、効率の課題に直面し、リアルタイムの計画要件を備えた動的環境での適用性を制限します。
このホワイトペーパーでは、データ駆動型のパス計画方法であるニューラルガイドマッチング(PGTM)モジュール(PGTM)モジュール(時空A*)を組み合わせたニューラルATTF(Adaptive Task Token Framework)を紹介します。
ニューラルSTA*は、誘導された学習ヒューリスティックを通じて検索空間を迅速に調査することにより、パス計画を強化し、動的制約の下での衝突回避を保証します。
PGTMは、遅延エージェントに優先順位を付け、これらのタスクに最も近いエージェントに優先順位を付け、連続性とシステムスループットの両方を最適化することにより、タスクを動的に割り当てます。
TPTS、Central、RMCA、LNS-PBS、LNS-WPBSを含む最先端のMAPDアルゴリズムに対する実験的評価は、神経ATTFの優れたスケーラビリティ、ソリューション品質、および計算効率を示しています。
これらの結果は、高需要の予測不可能な設定で動作する複雑で実世界のマルチエージェントシステムの重要な要求に対処するためのフレームワークの可能性を強調しています。

要約(オリジナル)

Multi-Agent Pickup and Delivery (MAPD) is a fundamental problem in robotics, particularly in applications such as warehouse automation and logistics. Existing solutions often face challenges in scalability, adaptability, and efficiency, limiting their applicability in dynamic environments with real-time planning requirements. This paper presents Neural ATTF (Adaptive Task Token Framework), a new algorithm that combines a Priority Guided Task Matching (PGTM) Module with Neural STA* (Space-Time A*), a data-driven path planning method. Neural STA* enhances path planning by enabling rapid exploration of the search space through guided learned heuristics and ensures collision avoidance under dynamic constraints. PGTM prioritizes delayed agents and dynamically assigns tasks by prioritizing agents nearest to these tasks, optimizing both continuity and system throughput. Experimental evaluations against state-of-the-art MAPD algorithms, including TPTS, CENTRAL, RMCA, LNS-PBS, and LNS-wPBS, demonstrate the superior scalability, solution quality, and computational efficiency of Neural ATTF. These results highlight the framework’s potential for addressing the critical demands of complex, real-world multi-agent systems operating in high-demand, unpredictable settings.

arxiv情報

著者 Kushal Shah,Jihyun Park,Seung-Kyum Choi
発行日 2025-04-21 14:25:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | Neural ATTF: A Scalable Solution to Lifelong Multi-Agent Path Planning はコメントを受け付けていません

FROG: Effective Friend Recommendation in Online Games via Modality-aware User Preferences

要約

モバイルデバイスの利便性により、オンラインゲームは実際にユーザーエンターテイメントにとって重要な部分になり、オンラインゲームで友人の推奨の需要を生み出しています。
ただし、既存のアプローチのいずれも、次の制限のために、マルチモーダルユーザー機能(画像やテキストなど)を友情グラフの構造情報に効果的に組み込むことはできません。
これらの問題に対処することにより、このペーパーでは、潜在的な友人のユーザーの好みをよりよくモデル化するエンドツーエンドモデルのカエルを提案します。
Tencentでのオフライン評価とオンライン展開の両方に関する包括的な実験は、既存のアプローチに対するカエルの優位性を実証しています。

要約(オリジナル)

Due to the convenience of mobile devices, the online games have become an important part for user entertainments in reality, creating a demand for friend recommendation in online games. However, none of existing approaches can effectively incorporate the multi-modal user features (e.g., images and texts) with the structural information in the friendship graph, due to the following limitations: (1) some of them ignore the high-order structural proximity between users, (2) some fail to learn the pairwise relevance between users at modality-specific level, and (3) some cannot capture both the local and global user preferences on different modalities. By addressing these issues, in this paper, we propose an end-to-end model FROG that better models the user preferences on potential friends. Comprehensive experiments on both offline evaluation and online deployment at Tencent have demonstrated the superiority of FROG over existing approaches.

arxiv情報

著者 Qiwei Wang,Dandan Lin,Wenqing Lin,Ziming Wu
発行日 2025-04-21 14:37:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.SI | FROG: Effective Friend Recommendation in Online Games via Modality-aware User Preferences はコメントを受け付けていません

CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models

要約

セキュリティ記事やニュースなどのサイバー脅威インテリジェンス(CTI)レポートのテキストの説明は、サイバーの脅威に関する豊富な知識源であり、組織が急速に進化する脅威の状況について情報を提供するために重要です。
ただし、現在のCTI知識抽出方法には、柔軟性と一般化可能性がなく、しばしば不正確で不完全な知識抽出をもたらします。
構文解析は固定ルールと辞書に依存していますが、モデルの微調整には大きな注釈付きデータセットが必要であり、両方のパラダイムが新しい脅威やオントロジーに適応するように挑戦します。
ギャップを埋めるために、データ効率の高いCTI知識抽出と高品質のサイバーセキュリティ知識グラフ(CSKG)構造のための大規模な言語モデル(LLMS)の最適化内学習(ICL)を活用する新しいフレームワークであるCtinexusを提案します。
既存の方法とは異なり、Ctinexusは広範なデータもパラメーターチューニングも必要ありません。また、最小限の注釈付き例を使用して、さまざまなオントロジーに適応できます。
これは、次のことを通じて達成されます。(1)幅広いサイバーセキュリティエンティティと関係を抽出するための最適なデモンストレーションを備えた慎重に設計された自動迅速な構築戦略。
(2)抽出された知識を正規化し、冗長性を削除する階層エンティティアラインメント手法。
(3)リンクを欠落してCSKGをさらに完了するための長距離関係予測手法。
10のプラットフォームから収集された150の実際のCTIレポートを使用した当社の広範な評価は、CTinexusが正確で完全なCSKGを構築する際に既存の方法を大幅に上回り、動的な脅威界の効率的で適応性のあるソリューションでCTI分析を変換する可能性を強調することを示しています。

要約(オリジナル)

Textual descriptions in cyber threat intelligence (CTI) reports, such as security articles and news, are rich sources of knowledge about cyber threats, crucial for organizations to stay informed about the rapidly evolving threat landscape. However, current CTI knowledge extraction methods lack flexibility and generalizability, often resulting in inaccurate and incomplete knowledge extraction. Syntax parsing relies on fixed rules and dictionaries, while model fine-tuning requires large annotated datasets, making both paradigms challenging to adapt to new threats and ontologies. To bridge the gap, we propose CTINexus, a novel framework leveraging optimized in-context learning (ICL) of large language models (LLMs) for data-efficient CTI knowledge extraction and high-quality cybersecurity knowledge graph (CSKG) construction. Unlike existing methods, CTINexus requires neither extensive data nor parameter tuning and can adapt to various ontologies with minimal annotated examples. This is achieved through: (1) a carefully designed automatic prompt construction strategy with optimal demonstration retrieval for extracting a wide range of cybersecurity entities and relations; (2) a hierarchical entity alignment technique that canonicalizes the extracted knowledge and removes redundancy; (3) an long-distance relation prediction technique to further complete the CSKG with missing links. Our extensive evaluations using 150 real-world CTI reports collected from 10 platforms demonstrate that CTINexus significantly outperforms existing methods in constructing accurate and complete CSKG, highlighting its potential to transform CTI analysis with an efficient and adaptable solution for the dynamic threat landscape.

arxiv情報

著者 Yutong Cheng,Osama Bajaber,Saimon Amanuel Tsegai,Dawn Song,Peng Gao
発行日 2025-04-21 14:37:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.LG | CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Using Large Language Models はコメントを受け付けていません

KGMEL: Knowledge Graph-Enhanced Multimodal Entity Linking

要約

エンティティリンク(EL)は、テキストの言及を知識ベースの対応するエンティティと整列させ、セマンティック検索や質問応答などのさまざまなアプリケーションを促進します。
マルチモーダルエンティティリンク(MEL)の最近の進歩は、テキストと画像を組み合わせることで曖昧さを低下させ、アライメントの精度を改善できることを示しています。
ただし、ほとんどの既存のMELメソッドは、知識グラフ(kg)トリプルの形で利用可能な豊富な構造情報を見落としています。
この論文では、KGトリプルを活用してMELを強化する新しいフレームワークであるKgmelを提案します。
具体的には、次の3つの段階で動作します。(1)世代:テキストと画像に基づいてビジョン言語モデルを採用することにより、各言及に対して高品質のトリプルを生成します。
(2)検索:対照的な学習を介して、テキスト、画像、および(生成されたまたはkg)トリプルを統合するために各言及の候補エンティティを取得する共同言及エンティティ表現を学習します。
(3)Reranking:候補エンティティのKGトリプルを洗練し、大きな言語モデルを採用して、言及に最適なエンティティを特定します。
ベンチマークデータセットでの広範な実験は、KGMELが既存の方法よりも優れていることを示しています。
コードとデータセットは、https://github.com/juyeonnn/kgmelで入手できます。

要約(オリジナル)

Entity linking (EL) aligns textual mentions with their corresponding entities in a knowledge base, facilitating various applications such as semantic search and question answering. Recent advances in multimodal entity linking (MEL) have shown that combining text and images can reduce ambiguity and improve alignment accuracy. However, most existing MEL methods overlook the rich structural information available in the form of knowledge-graph (KG) triples. In this paper, we propose KGMEL, a novel framework that leverages KG triples to enhance MEL. Specifically, it operates in three stages: (1) Generation: Produces high-quality triples for each mention by employing vision-language models based on its text and images. (2) Retrieval: Learns joint mention-entity representations, via contrastive learning, that integrate text, images, and (generated or KG) triples to retrieve candidate entities for each mention. (3) Reranking: Refines the KG triples of the candidate entities and employs large language models to identify the best-matching entity for the mention. Extensive experiments on benchmark datasets demonstrate that KGMEL outperforms existing methods. Our code and datasets are available at: https://github.com/juyeonnn/KGMEL.

arxiv情報

著者 Juyeon Kim,Geon Lee,Taeuk Kim,Kijung Shin
発行日 2025-04-21 14:38:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR | KGMEL: Knowledge Graph-Enhanced Multimodal Entity Linking はコメントを受け付けていません

C2RUST-BENCH: A Minimized, Representative Dataset for C-to-Rust Transpilation Evaluation

要約

過去20年にわたる脆弱性検出の努力にもかかわらず、記憶の安全性の脆弱性は引き続き重大な問題です。
最近のレポートでは、重要な解決策はメモリセーフ言語に移行することであることが示唆されています。
この目的のために、Cから有効輸送が一般的になり、Cプログラムのメモリ安全性の問題を解決します。
最近の作品は、Cから有効化された輸送フレームワークを提案しています。
ただし、包括的な評価データセットがありません。
1つの解決策は、十分な大きさのデータセットをまとめることですが、これにより、自動化されたフレームワークと、場合によっては手動の努力の分析時間が増加します。
この作業では、大きなセットから関数を選択して、最小化されているが代表的なデータセットを構築して、Cから引き抜きを評価する方法を構築します。
実際のプログラムの15,503関数から選択された2,905機能を含む2,905機能を含むC2RUSTベンチを提案します。

要約(オリジナル)

Despite the effort in vulnerability detection over the last two decades, memory safety vulnerabilities continue to be a critical problem. Recent reports suggest that the key solution is to migrate to memory-safe languages. To this end, C-to-Rust transpilation becomes popular to resolve memory-safety issues in C programs. Recent works propose C-to-Rust transpilation frameworks; however, a comprehensive evaluation dataset is missing. Although one solution is to put together a large enough dataset, this increases the analysis time in automated frameworks as well as in manual efforts for some cases. In this work, we build a method to select functions from a large set to construct a minimized yet representative dataset to evaluate the C-to-Rust transpilation. We propose C2RUST-BENCH that contains 2,905 functions, which are representative of C-to-Rust transpilation, selected from 15,503 functions of real-world programs.

arxiv情報

著者 Melih Sirlanci,Carter Yagemann,Zhiqiang Lin
発行日 2025-04-21 14:48:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR, cs.PL | C2RUST-BENCH: A Minimized, Representative Dataset for C-to-Rust Transpilation Evaluation はコメントを受け付けていません

Behavioral Universe Network (BUN): A Behavioral Information-Based Framework for Complex Systems

要約

最新のデジタル生態系は、多様なドメイン全体の自律エンティティ間の複雑で動的な相互作用を特徴としています。
従来のモデルは、多くの場合、エージェントとオブジェクトを分離し、インタラクティブな動作をキャプチャする統一された基盤がありません。
このホワイトペーパーでは、エージェントインタラクション – 行動(AIB)形式主義に基づいた理論的枠組みである行動宇宙ネットワーク(BUN)を紹介します。
BUNは、被験者(アクティブなエージェント)、オブジェクト(リソース)、および行動(運用)を一流のエンティティとして扱います。これらはすべて、共有行動情報ベース(BIB)によって管理されます。
AIBコアの概念について詳しく説明し、BUNが情報駆動型のトリガー、セマンティック濃縮、および適応ルールをレバレッジしてマルチエージェントシステムを調整する方法を示します。
重要な利点を強調しています。行動分析の強化、強力な適応性、およびクロスドメインの相互運用性です。
締めくくり、BUNを次世代のデジタルガバナンスとインテリジェントアプリケーションの有望な基盤として配置することで締めくくります。

要約(オリジナル)

Modern digital ecosystems feature complex, dynamic interactions among autonomous entities across diverse domains. Traditional models often separate agents and objects, lacking a unified foundation to capture their interactive behaviors. This paper introduces the Behavioral Universe Network (BUN), a theoretical framework grounded in the Agent-Interaction-Behavior (AIB) formalism. BUN treats subjects (active agents), objects (resources), and behaviors (operations) as first-class entities, all governed by a shared Behavioral Information Base (BIB). We detail the AIB core concepts and demonstrate how BUN leverages information-driven triggers, semantic enrichment, and adaptive rules to coordinate multi-agent systems. We highlight key benefits: enhanced behavior analysis, strong adaptability, and cross-domain interoperability. We conclude by positioning BUN as a promising foundation for next-generation digital governance and intelligent applications.

arxiv情報

著者 Wei Zhou,Ailiya Borjigin,Cong He
発行日 2025-04-21 14:50:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI | Behavioral Universe Network (BUN): A Behavioral Information-Based Framework for Complex Systems はコメントを受け付けていません

Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation

要約

長型のビデオ処理は、拡張された時間シーケンスを処理するための高い計算コストにより、視覚言語モデル(VLM)に根本的に挑戦します。
既存のトークン剪定と機能のマージメソッドは、多くの場合、重要な時間的依存関係を犠牲にしたり、セマンティック情報を希釈したりします。
差別的な蒸留を導入します。これは、冗長性を抑制しながら、タスク関連の情報を体系的に保存する原則的なアプローチです。
この原則に基づいて、2つのキーメカニズムを介して「混合精度」で1時間のビデオを処理する階層的なビデオ言語モデルであるVilampを開発します。
したがって、Vilampは、キーフレームの完全な情報を保持しながら、キーフレーム以外の機能を最も顕著な機能に削減し、混合精液トレーニングに似ています。
広範な実験は、4つのビデオ理解ベンチマークにわたるVilampの優れたパフォーマンスを示しています。
特に、Vilampは単一のNVIDIA A100 GPUで超長いビデオ(最大10kフレーム)を処理し、最先端のパフォーマンスを維持しながら、かなりの計算効率を達成できます。

要約(オリジナル)

Long-form video processing fundamentally challenges vision-language models (VLMs) due to the high computational costs of handling extended temporal sequences. Existing token pruning and feature merging methods often sacrifice critical temporal dependencies or dilute semantic information. We introduce differential distillation, a principled approach that systematically preserves task-relevant information while suppressing redundancy. Based on this principle, we develop ViLaMP, a hierarchical video-language model that processes hour-long videos at “mixed precision” through two key mechanisms: (1) differential keyframe selection that maximizes query relevance while maintaining temporal distinctiveness at the frame level and (2) differential feature merging that preserves query-salient features in non-keyframes at the patch level. Hence, ViLaMP retains full information in keyframes while reducing non-keyframes to their most salient features, resembling mixed-precision training. Extensive experiments demonstrate ViLaMP’s superior performance across four video understanding benchmarks, particularly on long-form content. Notably, ViLaMP can process ultra-long videos (up to 10K frames) on a single NVIDIA A100 GPU, achieving substantial computational efficiency while maintaining state-of-the-art performance.

arxiv情報

著者 Chuanqi Cheng,Jian Guan,Wei Wu,Rui Yan
発行日 2025-04-21 15:12:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Scaling Video-Language Models to 10K Frames via Hierarchical Differential Distillation はコメントを受け付けていません