HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation

要約

自己回帰パラダイムの顕著な成功により、Multimodal大言語モデル(MLLMS)で大きな進歩が生じ、Show-O、Transfusion、EMU3などの強力なモデルが統一された画像の理解と生成の顕著な進歩を達成しています。
初めて、一般的な現象を明らかにします。MLLMの理解能力は、通常、生成能力よりも強く、2つの間に大きなギャップがあります。
この洞察に基づいて、MLLMSの理解と生成の間のギャップをシームレスに埋めるように設計されたシンプルでありながら一般的なフレームワークであるHermesflowを提案します。
具体的には、理解と生成の両方の相同選好データをキュレートするための入力として相同データを取得します。
ペア-DPOおよびセルフプレイの反復最適化により、HermesFlowは相同選好データを使用してマルチモーダルの理解と生成を効果的に整列させます。
広範な実験は、特にマルチモーダルの理解と生成の間のギャップを狭める際に、以前の方法よりもアプローチの重要な優位性を示しています。
これらの調査結果は、次世代マルチモーダルファンデーションモデルの一般的なアライメントフレームワークとしてのHermesflowの可能性を強調しています。
コード:https://github.com/gen-verse/hermesflow

要約(オリジナル)

The remarkable success of the autoregressive paradigm has made significant advancement in Multimodal Large Language Models (MLLMs), with powerful models like Show-o, Transfusion and Emu3 achieving notable progress in unified image understanding and generation. For the first time, we uncover a common phenomenon: the understanding capabilities of MLLMs are typically stronger than their generative capabilities, with a significant gap between the two. Building on this insight, we propose HermesFlow, a simple yet general framework designed to seamlessly bridge the gap between understanding and generation in MLLMs. Specifically, we take the homologous data as input to curate homologous preference data of both understanding and generation. Through Pair-DPO and self-play iterative optimization, HermesFlow effectively aligns multimodal understanding and generation using homologous preference data. Extensive experiments demonstrate the significant superiority of our approach over prior methods, particularly in narrowing the gap between multimodal understanding and generation. These findings highlight the potential of HermesFlow as a general alignment framework for next-generation multimodal foundation models. Code: https://github.com/Gen-Verse/HermesFlow

arxiv情報

著者 Ling Yang,Xinchen Zhang,Ye Tian,Chenming Shang,Minghao Xu,Wentao Zhang,Bin Cui
発行日 2025-02-17 18:57:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation はコメントを受け付けていません

VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution

要約

3Dボリュームビデオは、没入型の体験を提供し、デジタルメディアで牽引力を獲得しています。
人気の高まりにもかかわらず、ボリュームビデオコンテンツのストリーミングは、データ帯域幅の要件が高いため、大きな課題をもたらします。
帯域幅の問題を軽減するための自然なアプローチは、送信前にコンテンツをダウンサンプリングすることにより、体積ビデオのデータレートを下げることです。
その後、ビデオは、スーパー解像度(SR)アルゴリズムを使用してレシーバーの端でアップサンプリングして、高解像度の詳細を再構築できます。
2Dビデオコンテンツのために、超解像度の技術は広範囲に調査され、高度になっていますが、ボリュームビデオに合わせて調整されたSRアルゴリズムの作業は限られています。
このギャップと効率的なボリュームビデオストリーミングの必要性の高まりに対処するために、ボリュームコンテンツ専用に設計された新しいSRアルゴリズムを備えたVolutを開発しました。
私たちのアルゴリズムは、ルックアップテーブル(LUTS)の力を一意に活用して、低解像度の体積データの効率的かつ正確なアップスケーリングを促進します。
LUTSを使用すると、アルゴリズムが事前に計算された高解像度値を迅速に参照できるため、アップスケーリングに必要な計算の複雑さと時間を大幅に削減できます。
さらに、適応型ビデオビットレートアルゴリズム(ABR)を適用して、ネットワーク条件に応じたダウンサンプリングレートを動的に決定し、選択したビデオレートをレシーバーにストリーミングします。
関連する作業と比較して、Volutは、ラインレートでコモディティモバイルデバイスで高品質の3D SRを有効にする最初のものです。
私たちの評価によると、Volutは帯域幅の使用量を70%削減し、QOEを36.7%増加させ、ボリュームビデオストリーミングで36.7%増加し、品質の妥協なしで3D SRスピードアップを達成できます。

要約(オリジナル)

3D volumetric video provides immersive experience and is gaining traction in digital media. Despite its rising popularity, the streaming of volumetric video content poses significant challenges due to the high data bandwidth requirement. A natural approach to mitigate the bandwidth issue is to reduce the volumetric video’s data rate by downsampling the content prior to transmission. The video can then be upsampled at the receiver’s end using a super-resolution (SR) algorithm to reconstruct the high-resolution details. While super-resolution techniques have been extensively explored and advanced for 2D video content, there is limited work on SR algorithms tailored for volumetric videos. To address this gap and the growing need for efficient volumetric video streaming, we have developed VoLUT with a new SR algorithm specifically designed for volumetric content. Our algorithm uniquely harnesses the power of lookup tables (LUTs) to facilitate the efficient and accurate upscaling of low-resolution volumetric data. The use of LUTs enables our algorithm to quickly reference precomputed high-resolution values, thereby significantly reducing the computational complexity and time required for upscaling. We further apply adaptive video bit rate algorithm (ABR) to dynamically determine the downsampling rate according to the network condition and stream the selected video rate to the receiver. Compared to related work, VoLUT is the first to enable high-quality 3D SR on commodity mobile devices at line-rate. Our evaluation shows VoLUT can reduce bandwidth usage by 70% , boost QoE by 36.7% for volumetric video streaming and achieve 3D SR speed-up with no quality compromise.

arxiv情報

著者 Chendong Wang,Anlan Zhang,Yifan Yang,Lili Qiu,Yuqing Yang,Xinyang Jiang,Feng Qian,Suman Banerjee
発行日 2025-02-17 18:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.SY, eess.SY | VoLUT: Efficient Volumetric streaming enhanced by LUT-based super-resolution はコメントを受け付けていません

Diffusion Models without Classifier-free Guidance

要約

このホワイトペーパーでは、一般的に使用される分類器のないガイダンス(CFG)に対処および削除する拡散モデルをトレーニングするための新しい目的であるモデルガイダンス(MG)を紹介します。
当社の革新的なアプローチは、条件の事後確率を組み込むために、データ分布のみの標準モデリングを超越しています。
提案された手法はCFGのアイデアに由来し、簡単でありながら効果的であり、既存のモデルのプラグアンドプレイモジュールになります。
私たちの方法は、トレーニングプロセスを大幅に加速し、推論速度を2倍にし、CFGと同時拡散モデルを平行にし、さらには上回る例外的な品質を達成します。
広範な実験は、さまざまなモデルとデータセットでの有効性、効率、スケーラビリティを示しています。
最後に、FID 1.34のImagenet 256ベンチマークで最先端のパフォーマンスを確立します。
私たちのコードは、https://github.com/tzco/diffusion-wo-cfgで入手できます。

要約(オリジナル)

This paper presents Model-guidance (MG), a novel objective for training diffusion model that addresses and removes of the commonly used Classifier-free guidance (CFG). Our innovative approach transcends the standard modeling of solely data distribution to incorporating the posterior probability of conditions. The proposed technique originates from the idea of CFG and is easy yet effective, making it a plug-and-play module for existing models. Our method significantly accelerates the training process, doubles the inference speed, and achieve exceptional quality that parallel and even surpass concurrent diffusion models with CFG. Extensive experiments demonstrate the effectiveness, efficiency, scalability on different models and datasets. Finally, we establish state-of-the-art performance on ImageNet 256 benchmarks with an FID of 1.34. Our code is available at https://github.com/tzco/Diffusion-wo-CFG.

arxiv情報

著者 Zhicong Tang,Jianmin Bao,Dong Chen,Baining Guo
発行日 2025-02-17 18:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG | Diffusion Models without Classifier-free Guidance はコメントを受け付けていません

3D Whole-body Grasp Synthesis with Directional Controllability

要約

オブジェクトを現実的に把握する3D全体の体を合成することは、アニメーション、複合現実、ロボット工学に役立ちます。
手と体は自然なW.R.T.
互いに、把握されたオブジェクト、そしてローカルシーン(つまり、オブジェクトをサポートする容器)。
さらに、このタスクのトレーニングデータは非常に不足していますが、新しいデータをキャプチャするのは高価です。
最近の作業は、分割統治アプローチを介して有限のデータセットを超えています。
最初に「ガイド」右手の把握を生成し、次にこれに合った身体を検索します。
ただし、指針の合成には制御可能性と容器の認識が欠けているため、信じられない方向(つまり、体は容器に浸透せずにこれに一致することはできません)を持ち、主要な後処理を通じて修正を必要とします。
さらに、ボディ検索には徹底的なサンプリングが必要であり、高価です。
これらは強い制限です。
CWGRASPと呼ばれる新しい方法でこれらに取り組みます。
私たちの重要なアイデアは、「遅すぎる」ではなく、「早い段階で」「早い段階で」という幾何学ベースの推論を実行することで、推論のための豊富な「コントロール」信号を提供することです。
この目的のために、CWGRASPは、最初に、オブジェクトからのレイキャストと衝突チェックを介して構築された確率モデルから、もっともらしいリーチ方向ベクター(後に腕と手に使用される)をサンプリングします。
さらに、CWGRASPは右手と左手の両方の握りにユニークに取り組んでいます。
GrabおよびReplicAgraspデータセットで評価します。
CWGRASPは、ランタイムと予算の低下でベースラインよりも優れていますが、すべてのコンポーネントはパフォーマンスに役立ちます。
コードとモデルはhttps://gpaschalidis.github.io/cwgraspで入手できます。

要約(オリジナル)

Synthesizing 3D whole bodies that realistically grasp objects is useful for animation, mixed reality, and robotics. This is challenging, because the hands and body need to look natural w.r.t. each other, the grasped object, as well as the local scene (i.e., a receptacle supporting the object). Moreover, training data for this task is really scarce, while capturing new data is expensive. Recent work goes beyond finite datasets via a divide-and-conquer approach; it first generates a ‘guiding’ right-hand grasp, and then searches for bodies that match this. However, the guiding-hand synthesis lacks controllability and receptacle awareness, so it likely has an implausible direction (i.e., a body can’t match this without penetrating the receptacle) and needs corrections through major post-processing. Moreover, the body search needs exhaustive sampling and is expensive. These are strong limitations. We tackle these with a novel method called CWGrasp. Our key idea is that performing geometry-based reasoning ‘early on,’ instead of ‘too late,’ provides rich ‘control’ signals for inference. To this end, CWGrasp first samples a plausible reaching-direction vector (used later for both the arm and hand) from a probabilistic model built via ray-casting from the object and collision checking. Moreover, CWGrasp uniquely tackles both right and left-hand grasps. We evaluate on the GRAB and ReplicaGrasp datasets. CWGrasp outperforms baselines, at lower runtime and budget, while all components help performance. Code and models are available at https://gpaschalidis.github.io/cwgrasp.

arxiv情報

著者 Georgios Paschalidis,Romana Wilschut,Dimitrije Antić,Omid Taheri,Dimitrios Tzionas
発行日 2025-02-17 18:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO | 3D Whole-body Grasp Synthesis with Directional Controllability はコメントを受け付けていません

ORI: O Routing Intelligence

要約

単一の大きな言語モデル(LLM)は、成長し続ける範囲のタスクに直面したときに不足していることが多く、シングルモデルのアプローチが不十分になります。
LLMのセットを活用する動的なフレームワークであるOri(Oルーティングインテリジェンス)を提案することにより、この課題に対処します。
着信クエリを最も適切なモデルにインテリジェントにルーティングすることにより、ORIはタスク固有の精度を向上させるだけでなく、効率を維持します。
多様なベンチマーク全体の包括的な評価は、計算オーバーヘッドを制御しながら一貫した精度の向上を示しています。
Intelligly Routingクエリによって、OriはMMLUで最大2.7ポイント、MUSRで最大2.8ポイント、ARCおよびBBHで最大のパフォーマンスを結び付けます。
これらの結果は、マルチモデル戦略の利点を強調し、ORIの適応アーキテクチャがどのように多様なタスクをより効果的に処理できるかを示し、複数の大手言語モデルのシステムにスケーラブルで高性能ソリューションを提供します。

要約(オリジナル)

Single large language models (LLMs) often fall short when faced with the ever-growing range of tasks, making a single-model approach insufficient. We address this challenge by proposing ORI (O Routing Intelligence), a dynamic framework that leverages a set of LLMs. By intelligently routing incoming queries to the most suitable model, ORI not only improves task-specific accuracy, but also maintains efficiency. Comprehensive evaluations across diverse benchmarks demonstrate consistent accuracy gains while controlling computational overhead. By intelligently routing queries, ORI outperforms the strongest individual models by up to 2.7 points on MMLU and 1.8 points on MuSR, ties the top performance on ARC, and on BBH. These results underscore the benefits of a multi-model strategy and demonstrate how ORI’s adaptive architecture can more effectively handle diverse tasks, offering a scalable, high-performance solution for a system of multiple large language models.

arxiv情報

著者 Ahmad Shadid,Rahul Kumar,Mohit Mayank
発行日 2025-02-17 15:30:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | ORI: O Routing Intelligence はコメントを受け付けていません

S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation

要約

スキル学習の最近の進歩により、ロボット操作は、実際の数のデモンストレーションから複雑な操作タスクを学習できるようにすることで、新たな高みへの操作を推進しています。
ただし、これらのスキルは、トレーニングデータに表示されている特定のアクション、オブジェクト、および環境\ TextIT {インスタンス}に限定され、同じカテゴリの他のインスタンスへの移行に問題があることがよくあります。
この作業では、インスタンスレベルのトレーニングデータからカテゴリレベルのインスタンスレベルへの一般化を可能にするオープンボキャブラリー空間セマンティック拡散ポリシー(S $^2 $ -diffusion)を提示します。
スキルの機能的側面は、空間表現と組み合わせた迅速なセマンティックモジュールを介してキャプチャできることを示します。
さらに、深度推定ネットワークを活用して、単一のRGBカメラのみを使用できるようにすることを提案します。
私たちのアプローチは、シミュレーションと現実世界の両方で、さまざまな数のロボット操作タスクで評価され、比較されます。
我々の結果は、S $^2 $ -diffusionが、カテゴリに照明された要因の変化に不変であり、特定の例で訓練されていなくても、同じカテゴリ内の他のインスタンスでパフォーマンスを満たすことができることを示しています。
すべての現実世界の実験の完全なビデオは、補足資料で入手できます。

要約(オリジナル)

Recent advances in skill learning has propelled robot manipulation to new heights by enabling it to learn complex manipulation tasks from a practical number of demonstrations. However, these skills are often limited to the particular action, object, and environment \textit{instances} that are shown in the training data, and have trouble transferring to other instances of the same category. In this work we present an open-vocabulary Spatial-Semantic Diffusion policy (S$^2$-Diffusion) which enables generalization from instance-level training data to category-level, enabling skills to be transferable between instances of the same category. We show that functional aspects of skills can be captured via a promptable semantic module combined with a spatial representation. We further propose leveraging depth estimation networks to allow the use of only a single RGB camera. Our approach is evaluated and compared on a diverse number of robot manipulation tasks, both in simulation and in the real world. Our results show that S$^2$-Diffusion is invariant to changes in category-irrelevant factors as well as enables satisfying performance on other instances within the same category, even if it was not trained on that specific instance. Full videos of all real-world experiments are available in the supplementary material.

arxiv情報

著者 Quantao Yang,Michael C. Welle,Danica Kragic,Olov Andersson
発行日 2025-02-17 08:38:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO | S$^2$-Diffusion: Generalizing from Instance-level to Category-level Skills in Robot Manipulation はコメントを受け付けていません

AffinityFlow: Guided Flows for Antibody Affinity Maturation

要約

抗体は治療薬として広く使用されていますが、その発達には、結合親和性を高めるための反復変異を含むコストのかかる親和性成熟が必要です。この論文では、抗体と抗原配列を使用して、アフィニティ成熟のシーケンスのみのシナリオを探ります。
最近、アルファフローはフローマッチング内でアルファフォルドをラップして、多様なタンパク質構造を生成し、構造のシーケンス条件付き生成モデルを可能にします。
これに基づいて、(1)構造ベースのアフィニティ予測子を使用して、(1)構造生成を高結合親和性に向けてガイドするシーケンスを修正する交互の最適化フレームワークを提案します。
ポスト選択のためのアフィニティ予測因子に基づいています。
重要な課題は、両方の予測因子をトレーニングするためのラベル付きデータがないことです。
これに対処するために、騒々しい生物物理学的エネルギーから予測因子の洗練に貴重な情報を組み込んだ共同科学モジュールを開発します。
シーケンスベースの予測子は、構造ベースの予測因子を教えるためにコンセンサスサンプルを選択し、その逆も同様です。
私たちの方法であるAffinityFlowは、アフィニティ成熟実験で最先端のパフォーマンスを実現します。
受け入れた後、コードをオープンソースする予定です。

要約(オリジナル)

Antibodies are widely used as therapeutics, but their development requires costly affinity maturation, involving iterative mutations to enhance binding affinity.This paper explores a sequence-only scenario for affinity maturation, using solely antibody and antigen sequences. Recently AlphaFlow wraps AlphaFold within flow matching to generate diverse protein structures, enabling a sequence-conditioned generative model of structure. Building on this, we propose an alternating optimization framework that (1) fixes the sequence to guide structure generation toward high binding affinity using a structure-based affinity predictor, then (2) applies inverse folding to create sequence mutations, refined by a sequence-based affinity predictor for post selection. A key challenge is the lack of labeled data for training both predictors. To address this, we develop a co-teaching module that incorporates valuable information from noisy biophysical energies into predictor refinement. The sequence-based predictor selects consensus samples to teach the structure-based predictor, and vice versa. Our method, AffinityFlow, achieves state-of-the-art performance in affinity maturation experiments. We plan to open-source our code after acceptance.

arxiv情報

著者 Can Chen,Karla-Luise Herpoldt,Chenchao Zhao,Zichen Wang,Marcus Collins,Shang Shang,Ron Benson
発行日 2025-02-17 11:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AffinityFlow: Guided Flows for Antibody Affinity Maturation はコメントを受け付けていません

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

要約

30Bパラメーターと最大204フレームの長さまでのビデオを生成する機能を備えた最先端のテキストからビデオへの最先端の訓練モデルであるStep-Video-T2Vを提示します。
ディープ圧縮変動自動エンコーダーであるVideo-Vaeは、ビデオ生成タスク向けに設計されており、16×16の空間と8倍の時間的圧縮比を達成し、例外的なビデオ再構成品質を維持します。
ユーザープロンプトは、2つのバイリンガルテキストエンコーダーを使用してエンコードされ、英語と中国語の両方を処理します。
3Dの完全な注意を払ったDITは、フローマッチングを使用してトレーニングされ、潜在フレームへの入力ノイズを除去するために使用されます。
ビデオベースのDPOアプローチであるVideo-DPOが適用され、アーティファクトを削減し、生成されたビデオの視覚品質を向上させます。
また、トレーニング戦略について詳しく説明し、重要な観察と洞察を共有します。
Step-Video-T2Vのパフォーマンスは、新しいビデオ生成ベンチマークであるStep-Video-T2V-Evalで評価され、オープンソースと商業エンジンの両方と比較した場合、最先端のテキストからビデオへの品質を実証します。
さらに、現在の拡散ベースのモデルパラダイムの制限について説明し、ビデオファンデーションモデルの将来の方向性を概説します。
https://github.com/stepfun-ai/step-video-t2vでStep-Video-T2VとStep-Video-T2V-Evalの両方を入手できます。
オンラインバージョンには、https://yuewen.cn/videosからもアクセスできます。
私たちの目標は、Video Foundationモデルの革新を加速し、ビデオコンテンツの作成者に力を与えることです。

要約(オリジナル)

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16×16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V’s performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

arxiv情報

著者 Guoqing Ma,Haoyang Huang,Kun Yan,Liangyu Chen,Nan Duan,Shengming Yin,Changyi Wan,Ranchen Ming,Xiaoniu Song,Xing Chen,Yu Zhou,Deshan Sun,Deyu Zhou,Jian Zhou,Kaijun Tan,Kang An,Mei Chen,Wei Ji,Qiling Wu,Wen Sun,Xin Han,Yanan Wei,Zheng Ge,Aojie Li,Bin Wang,Bizhu Huang,Bo Wang,Brian Li,Changxing Miao,Chen Xu,Chenfei Wu,Chenguang Yu,Dapeng Shi,Dingyuan Hu,Enle Liu,Gang Yu,Ge Yang,Guanzhe Huang,Gulin Yan,Haiyang Feng,Hao Nie,Haonan Jia,Hanpeng Hu,Hanqi Chen,Haolong Yan,Heng Wang,Hongcheng Guo,Huilin Xiong,Huixin Xiong,Jiahao Gong,Jianchang Wu,Jiaoren Wu,Jie Wu,Jie Yang,Jiashuai Liu,Jiashuo Li,Jingyang Zhang,Junjing Guo,Junzhe Lin,Kaixiang Li,Lei Liu,Lei Xia,Liang Zhao,Liguo Tan,Liwen Huang,Liying Shi,Ming Li,Mingliang Li,Muhua Cheng,Na Wang,Qiaohui Chen,Qinglin He,Qiuyan Liang,Quan Sun,Ran Sun,Rui Wang,Shaoliang Pang,Shiliang Yang,Sitong Liu,Siqi Liu,Shuli Gao,Tiancheng Cao,Tianyu Wang,Weipeng Ming,Wenqing He,Xu Zhao,Xuelin Zhang,Xianfang Zeng,Xiaojia Liu,Xuan Yang,Yaqi Dai,Yanbo Yu,Yang Li,Yineng Deng,Yingming Wang,Yilei Wang,Yuanwei Lu,Yu Chen,Yu Luo,Yuchu Luo,Yuhe Yin,Yuheng Feng,Yuxiang Yang,Zecheng Tang,Zekai Zhang,Zidong Yang,Binxing Jiao,Jiansheng Chen,Jing Li,Shuchang Zhou,Xiangyu Zhang,Xinhao Zhang,Yibo Zhu,Heung-Yeung Shum,Daxin Jiang
発行日 2025-02-17 08:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model はコメントを受け付けていません

Graph Foundation Models for Recommendation: A Comprehensive Survey

要約

推奨システム(RS)は、オンライン情報の広大な広がりをナビゲートするための基本的なツールとして機能し、ランキングの精度を向上させる上でますます重要な役割を果たしている深い学習の進歩を果たします。
これらの中で、グラフニューラルネットワーク(GNN)は高次の構造情報の抽出に優れていますが、大規模な言語モデル(LLM)は自然言語を処理して理解するように設計されており、両方のアプローチが非常に効果的で広く採用されています。
最近の研究では、GNNとLLMの強度を統合して、テキストの理解とともにユーザーとアイテムの関係のグラフベースの構造を活用することにより、複雑なRSの問題をより効率的にモデル化するグラフ基礎モデル(GFM)に焦点を当てています。
この調査では、現在のアプローチの明確な分類法を導入し、方法論の詳細に飛び込み、重要な課題と将来の方向性を強調することにより、GFMベースのRSテクノロジーの包括的な概要を提供します。
最近の進歩を統合することにより、GFMベースの推奨システムの進化する景観に関する貴重な洞察を提供することを目指しています。

要約(オリジナル)

Recommender systems (RS) serve as a fundamental tool for navigating the vast expanse of online information, with deep learning advancements playing an increasingly important role in improving ranking accuracy. Among these, graph neural networks (GNNs) excel at extracting higher-order structural information, while large language models (LLMs) are designed to process and comprehend natural language, making both approaches highly effective and widely adopted. Recent research has focused on graph foundation models (GFMs), which integrate the strengths of GNNs and LLMs to model complex RS problems more efficiently by leveraging the graph-based structure of user-item relationships alongside textual understanding. In this survey, we provide a comprehensive overview of GFM-based RS technologies by introducing a clear taxonomy of current approaches, diving into methodological details, and highlighting key challenges and future directions. By synthesizing recent advancements, we aim to offer valuable insights into the evolving landscape of GFM-based recommender systems.

arxiv情報

著者 Bin Wu,Yihang Wang,Yuanhao Zeng,Jiawei Liu,Jiashu Zhao,Cheng Yang,Yawen Li,Long Xia,Dawei Yin,Chuan Shi
発行日 2025-02-17 02:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR, cs.LG | Graph Foundation Models for Recommendation: A Comprehensive Survey はコメントを受け付けていません

Compress image to patches for Vision Transformer

要約

ビジョントランス(VIT)は、コンピュータービジョンの分野で大きな進歩を遂げました。
ただし、モデルの深さと入力画像の解像度が増加するにつれて、トレーニングとランニングVITモデルに関連する計算コストは​​劇的に急増しています。
このペーパーでは、CI2P-Vitという名前のCNNとVision Transformerに基づくハイブリッドモデルを提案しています。
このモデルには、CI2Pと呼ばれるモジュールが組み込まれています。CI2Pは、Compressaiエンコーダーを使用して画像を圧縮し、その後、一連の畳み込みを介して一連のパッチを生成します。
CI2Pは、VITモデルにパッチ埋め込みコンポーネントを置き換えることができ、既存のVITモデルへのシームレスな統合を可能にします。
VIT-B/16と比較して、CI2P-vitには、自己触媒層に入力されたパッチの数がオリジナルの4分の1に縮小されています。
この設計は、VITモデルの計算コストを大幅に削減するだけでなく、CNNの誘導バイアス特性を導入することにより、モデルの精度を効果的に向上させます。
VITモデルの精度は著しく強化されています。
Animals-10データセットでゼロから訓練された場合、CI2P-vitは92.37%の精度率を達成し、VIT-B/16ベースラインで3.3%の改善を表します。
さらに、1秒あたりの浮動小数点操作(FLOPS)で測定されたモデルの計算操作は63.35%減少し、同一のハードウェア構成でトレーニング速度が2倍増加しました。

要約(オリジナル)

The Vision Transformer (ViT) has made significant strides in the field of computer vision. However, as the depth of the model and the resolution of the input images increase, the computational cost associated with training and running ViT models has surged dramatically. This paper proposes a hybrid model based on CNN and Vision Transformer, named CI2P-ViT. The model incorporates a module called CI2P, which utilizes the CompressAI encoder to compress images and subsequently generates a sequence of patches through a series of convolutions. CI2P can replace the Patch Embedding component in the ViT model, enabling seamless integration into existing ViT models. Compared to ViT-B/16, CI2P-ViT has the number of patches input to the self-attention layer reduced to a quarter of the original. This design not only significantly reduces the computational cost of the ViT model but also effectively enhances the model’s accuracy by introducing the inductive bias properties of CNN. The ViT model’s precision is markedly enhanced. When trained from the ground up on the Animals-10 dataset, CI2P-ViT achieved an accuracy rate of 92.37%, representing a 3.3% improvement over the ViT-B/16 baseline. Additionally, the model’s computational operations, measured in floating-point operations per second (FLOPs), were diminished by 63.35%, and it exhibited a 2-fold increase in training velocity on identical hardware configurations.

arxiv情報

著者 Xinfeng Zhao,Yaoru Sun
発行日 2025-02-17 07:35:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | Compress image to patches for Vision Transformer はコメントを受け付けていません