月別アーカイブ: 2024年6月

ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation

投稿日: 2024年6月7日作成者: jarxiv

要約マルチシェイプ表現（複数のオブジェクトを「パッキング」する単一モデル）のた … 続きを読む →

カテゴリー: cs.CV, cs.GR, cs.LG, cs.MM | コメントを受け付けていません

ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

投稿日: 2024年6月7日作成者: jarxiv

要約 Text-to-Image (T2I) モデルは近年大幅に進歩しましたが、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Improving Alignment and Robustness with Short Circuiting

投稿日: 2024年6月7日作成者: jarxiv

要約 AI システムは有害な動作を行う可能性があり、敵対的な攻撃に対して非常に脆 … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV, cs.CY, cs.LG | コメントを受け付けていません

Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

投稿日: 2024年6月7日作成者: jarxiv

要約最近、Direct Preference Optimization (DP … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking

投稿日: 2024年6月7日作成者: jarxiv

要約 6D オブジェクトの姿勢推定は、大規模なデータセットが大幅に不足しているた … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Adaptive Sampling of k-Space in Magnetic Resonance for Rapid Pathology Prediction

投稿日: 2024年6月7日作成者: jarxiv

要約磁気共鳴（MR）イメージングは、その診断上の有用性が証明されているにも … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

投稿日: 2024年6月7日作成者: jarxiv

要約この研究では、ビデオのみを条件とした音楽生成を体系的に研究します。まず、 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.MM, cs.SD | コメントを受け付けていません

ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories

投稿日: 2024年6月7日作成者: jarxiv

要約まばらな報酬で自律エージェントをトレーニングすることは、データ効率が低いた … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data

投稿日: 2024年6月7日作成者: jarxiv

要約テキストプロンプトから高品質の 3D アセット (Neural Radi … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

SF-V: Single Forward Video Generation Model

投稿日: 2024年6月7日作成者: jarxiv

要約拡散ベースのビデオ生成モデルは、反復的なノイズ除去プロセスを通じて忠実度の … 続きを読む →

カテゴリー: cs.CV, eess.IV | コメントを受け付けていません

月別アーカイブ: 2024年6月

ReFiNe: Recursive Field Networks for Cross-modal Multi-scene Representation

ReNO: Enhancing One-step Text-to-Image Models through Reward-based Noise Optimization

Improving Alignment and Robustness with Short Circuiting

Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

Omni6DPose: A Benchmark and Model for Universal 6D Object Pose Estimation and Tracking

Adaptive Sampling of k-Space in Magnetic Resonance for Rapid Pathology Prediction

VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling

ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories

DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data

SF-V: Single Forward Video Generation Model

最近の投稿

最近のコメント

アーカイブ

カテゴリー