cs.CV」カテゴリーアーカイブ

TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

要約 マルチモーダルビデオの理解と生成には、きめの細かい時間ダイナミクスを理解す … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG | TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models はコメントを受け付けていません

When Does Perceptual Alignment Benefit Vision Representations?

要約 人間は、シーンのレイアウト、被写体の位置、カメラのポーズなどのさまざまな視 … 続きを読む

カテゴリー: cs.CV, cs.LG | When Does Perceptual Alignment Benefit Vision Representations? はコメントを受け付けていません

Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models

要約 3D メッシュは、アニメーションの効率性とメモリ使用量を最小限に抑えるため … 続きを読む

カテゴリー: cs.CV | Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models はコメントを受け付けていません

LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection

要約 強調の性質、つまり対になったグラウンドトゥルース情報が存在しないため、最近 … 続きを読む

カテゴリー: cs.CV | LIME-Eval: Rethinking Low-light Image Enhancement Evaluation via Object Detection はコメントを受け付けていません

MetaUrban: An Embodied AI Simulation Platform for Urban Micromobility

要約 街並みや広場などの公共の都市空間は、住民にサービスを提供し、あらゆる活気に … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | MetaUrban: An Embodied AI Simulation Platform for Urban Micromobility はコメントを受け付けていません

SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction

要約 自動運転車 (AV) が動的で人間とロボットが混在する環境で安全に動作する … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.RO | SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction はコメントを受け付けていません

ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections

要約 パラメーター効率の良い微調整 (PEFT) は、一般化機能を維持しながら基 … 続きを読む

カテゴリー: cs.CL, cs.CV, cs.LG | ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections はコメントを受け付けていません

KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models

要約 拡散モデルの最近の進歩により、テキストから画像への (T2I) 生成が大幅 … 続きを読む

カテゴリー: cs.AI, cs.CV | KnobGen: Controlling the Sophistication of Artwork in Sketch-Based Diffusion Models はコメントを受け付けていません

HpEIS: Learning Hand Pose Embeddings for Multimedia Interactive Systems

要約 我々は、仮想センサーとして新しいハンドポーズエンベディングインタラクティブ … 続きを読む

カテゴリー: cs.CV, cs.HC | HpEIS: Learning Hand Pose Embeddings for Multimedia Interactive Systems はコメントを受け付けていません

VideoSAM: Open-World Video Segmentation

要約 ビデオ セグメンテーションは、ロボット工学と自動運転の進歩に不可欠であり、 … 続きを読む

カテゴリー: cs.CV | VideoSAM: Open-World Video Segmentation はコメントを受け付けていません