投稿者「jarxiv」のアーカイブ

How Animals Dance (When You’re Not Looking)

要約 音楽を同期し、振り付け認識アニマルダンスビデオを生成するためのキーフレーム … 続きを読む

カテゴリー: cs.CV, cs.GR | How Animals Dance (When You’re Not Looking) はコメントを受け付けていません

Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis

要約 基礎モデルと大規模な言語モデル(LLMS)の急速な進歩は、ミトリモーダル入 … 続きを読む

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS | Visatronic: A Multimodal Decoder-Only Model for Speech Synthesis はコメントを受け付けていません

LayerPeeler: Autoregressive Peeling for Layer-wise Image Vectorization

要約 画像ベクトル化は、ラスター画像をベクターグラフィックスに変換する強力な手法 … 続きを読む

カテゴリー: cs.CV, cs.GR | LayerPeeler: Autoregressive Peeling for Layer-wise Image Vectorization はコメントを受け付けていません

MAGREF: Masked Guidance for Any-Reference Video Generation

要約 ビデオ生成は、深い生成モデル、特に拡散ベースのアプローチの出現に大きな進歩 … 続きを読む

カテゴリー: cs.AI, cs.CV | MAGREF: Masked Guidance for Any-Reference Video Generation はコメントを受け付けていません

DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP

要約 極端な低光環境での高品質の写真は挑戦的ですが、デジタルカメラには影響力があ … 続きを読む

カテゴリー: cs.CV | DarkDiff: Advancing Low-Light Raw Enhancement by Retasking Diffusion Models for Camera ISP はコメントを受け付けていません

Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need

要約 深いニューラルネットワーク(DNN)は、データ分布が時間とともに変化する現 … 続きを読む

カテゴリー: cs.AI, cs.CV | Boosting Domain Incremental Learning: Selecting the Optimal Parameters is All You Need はコメントを受け付けていません

To Trust Or Not To Trust Your Vision-Language Model’s Prediction

要約 ビジョン言語モデル(VLM)は、視覚的およびテキストのモダリティを調整する … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | To Trust Or Not To Trust Your Vision-Language Model’s Prediction はコメントを受け付けていません

Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

要約 マルチモーダル大手言語モデル(MLLM)の最近の進歩により、2Dビジュアル … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, I.2 | Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence はコメントを受け付けていません

REOrdering Patches Improves Vision Models

要約 トランスなどのシーケンスモデルでは、入力を1次元シーケンスとして表す必要が … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | REOrdering Patches Improves Vision Models はコメントを受け付けていません

ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks

要約 大規模な言語モデル(LLMS)の最近の進歩により、段階的な推論を通じて複雑 … 続きを読む

カテゴリー: cs.CV | ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks はコメントを受け付けていません