cs.LG」カテゴリーアーカイブ

AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation

要約 ニューラル ネットワーク アーキテクチャの設計では、多くの重要な決定を行う … 続きを読む

カテゴリー: cs.CV, cs.LG | AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation はコメントを受け付けていません

SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation

要約 画像からビデオへの生成方法は、印象的で写真のようにリアルな品質を実現しまし … 続きを読む

カテゴリー: cs.CV, cs.LG | SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation はコメントを受け付けていません

LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation

要約 ニューラル フィールドまたは暗黙的ニューラル表現 (INR) は、画像と … 続きを読む

カテゴリー: cs.CV, cs.LG | LoFi: Scalable Local Image Reconstruction with Implicit Neural Representation はコメントを受け付けていません

HourVideo: 1-Hour Video-Language Understanding

要約 1 時間のビデオ言語理解のためのベンチマーク データセットである Hour … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG | HourVideo: 1-Hour Video-Language Understanding はコメントを受け付けていません

Analyzing The Language of Visual Tokens

要約 LLaVA や Chameleon など、視覚および言語タスク用のトランス … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Analyzing The Language of Visual Tokens はコメントを受け付けていません

ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

要約 最近、ビデオ モデリングの進歩により、生成されたビデオ内でカメラの軌道を制 … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG | ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning はコメントを受け付けていません

Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models

要約 高忠実度の画像合成を超えて、拡散モデルは最近、密な視覚認識タスクにおいて有 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.RO | Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models はコメントを受け付けていません

SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models

要約 拡散モデルは、高品質の画像を生成するのに非常に効果的であることが証明されて … 続きを読む

カテゴリー: cs.CV, cs.LG | SVDQunat: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models はコメントを受け付けていません

MEG: Medical Knowledge-Augmented Large Language Models for Question Answering

要約 質問応答は、明示的なコンテキストと、明言されていない関連分野の知識の両方に … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | MEG: Medical Knowledge-Augmented Large Language Models for Question Answering はコメントを受け付けていません

TableGPT2: A Large Multimodal Model with Tabular Data Integration

要約 GPT、Claude、LLaMA、Qwen などのモデルの出現により、AI … 続きを読む

カテゴリー: cs.AI, cs.DB, cs.LG | TableGPT2: A Large Multimodal Model with Tabular Data Integration はコメントを受け付けていません