-
最近の投稿
- Dynamics of Spontaneous Topic Changes in Next Token Prediction with Self-Attention
- Attack and defense techniques in large language models: A survey and new perspectives
- A Character-based Diffusion Embedding Algorithm for Enhancing the Generation Quality of Generative Linguistic Steganographic Texts
- Synthesize-on-Graph: Knowledgeable Synthetic Data Generation for Continue Pre-training of Large Language Models
- Position: Enough of Scaling LLMs! Lets Focus on Downscaling
-
最近のコメント
表示できるコメントはありません。 cs.AI (37526) cs.CL (28379) cs.CV (43186) cs.HC (2868) cs.LG (42435) cs.RO (22240) cs.SY (3407) eess.IV (5019) eess.SY (3399) stat.ML (5538)
投稿者「jarxiv」のアーカイブ
Why Compress What You Can Generate? When GPT-4o Generation Ushers in Image Compression Fields
要約 AIGC Foundationモデルの急速な発展は、画像圧縮のパラダイムに … 続きを読む
Early Exit and Multi Stage Knowledge Distillation in VLMs for Video Summarization
要約 Deevisum(要約のための蒸留早期出口ビジョン言語モデル)を紹介します … 続きを読む
ObjectFinder: An Open-Vocabulary Assistive System for Interactive Object Search by Blind People
要約 なじみのないシナリオでオブジェクトを検索することは、盲人にとって挑戦的な作 … 続きを読む
Visual Encoders for Data-Efficient Imitation Learning in Modern Video Games
要約 ビデオゲームは意思決定コミュニティにとって有用なベンチマークとして機能しま … 続きを読む
3D Stylization via Large Reconstruction Model
要約 テキストまたはイメージガイド付き3Dジェネレーターの成功が高まっているため … 続きを読む
Active Light Modulation to Counter Manipulation of Speech Visual Content
要約 有名なスピーチビデオは、そのアクセシビリティと影響力のために、偽造の主要な … 続きを読む
Differentiable Room Acoustic Rendering with Multi-View Vision Priors
要約 空間オーディオによって可能になった没入型の音響体験は、現実的な仮想環境を作 … 続きを読む
COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning
要約 マルチモーダル大手言語モデル(MLLM)は、単純なビジョン言語タスクに優れ … 続きを読む
A Survey of Interactive Generative Video
要約 インタラクティブな生成ビデオ(IGV)は、さまざまなドメインにわたる高品質 … 続きを読む
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction
要約 近年、ビデオ生成は大きな進歩を遂げています。 ただし、複雑な動きと相互作用 … 続きを読む