cs.AI」カテゴリーアーカイブ

WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization

要約 言語は、トレーニング領域での経験的な発見なしに、ビジョン エンコーダーをさ … 続きを読む

カテゴリー: cs.AI, cs.CV | WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization はコメントを受け付けていません

RACCooN: Remove, Add, and Change Video Content with Auto-Generated Narratives

要約 最近のビデオ生成モデルは主に、修復やスタイル編集などの特定のタスクについて … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | RACCooN: Remove, Add, and Change Video Content with Auto-Generated Narratives はコメントを受け付けていません

Why are Visually-Grounded Language Models Bad at Image Classification?

要約 画像分類は、マシン ビジョン インテリジェンスの最も基本的な機能の 1 つ … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | Why are Visually-Grounded Language Models Bad at Image Classification? はコメントを受け付けていません

ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention

要約 最近、線形複雑性シーケンス モデリング ネットワークは、FLOP とメモリ … 続きを読む

カテゴリー: cs.AI, cs.CV | ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention はコメントを受け付けていません

GFlow: Recovering 4D World from Monocular Video

要約 ビデオ入力から 4D シーンを再構築することは、重要かつ困難な作業です。 … 続きを読む

カテゴリー: cs.AI, cs.CV | GFlow: Recovering 4D World from Monocular Video はコメントを受け付けていません

DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention

要約 大規模な事前トレーニングを備えた拡散モデルは、特に拡散トランスフォーマー … 続きを読む

カテゴリー: cs.AI, cs.CV | DiG: Scalable and Efficient Diffusion Models with Gated Linear Attention はコメントを受け付けていません

Selecting Large Language Model to Fine-tune via Rectified Scaling Law

要約 成長を続ける LLM のエコシステムにより、膨大なオプションの中で微調整す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG | Selecting Large Language Model to Fine-tune via Rectified Scaling Law はコメントを受け付けていません

Structured Graph Network for Constrained Robot Crowd Navigation with Low Fidelity Simulation

要約 低忠実度シミュレータを使用して、制約付き群衆ナビゲーションのための強化学習 … 続きを読む

カテゴリー: cs.AI, cs.LG, cs.RO | Structured Graph Network for Constrained Robot Crowd Navigation with Low Fidelity Simulation はコメントを受け付けていません

LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding

要約 視覚的なグラウンディングは、ユーザーが指定したテキスト クエリを画像内のク … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV | LLM-Optic: Unveiling the Capabilities of Large Language Models for Universal Visual Grounding はコメントを受け付けていません

Double Correction Framework for Denoising Recommendation

要約 オンライン サービスでの可用性と汎用性により、暗黙的なフィードバックはレコ … 続きを読む

カテゴリー: cs.AI, cs.IR | Double Correction Framework for Denoising Recommendation はコメントを受け付けていません