月別アーカイブ: 2024年7月

Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images

要約 Visual Question Answering for Remote … 続きを読む

カテゴリー: cs.CV | Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images はコメントを受け付けていません

High-resolution open-vocabulary object 6D pose estimation

要約 6D 姿勢推定タスクにおける目に見えないオブジェクトへの一般化は非常に困難 … 続きを読む

カテゴリー: cs.CV | High-resolution open-vocabulary object 6D pose estimation はコメントを受け付けていません

NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning

要約 本稿ではプロトタイプベースの視覚言語推論問題について考察する。 既存の手法 … 続きを読む

カテゴリー: cs.CV | NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning はコメントを受け付けていません

Still-Moving: Customized Video Generation without Customized Video Data

要約 Text-to-Image (T2I) モデルのカスタマイズは、最近、特に … 続きを読む

カテゴリー: cs.CV | Still-Moving: Customized Video Generation without Customized Video Data はコメントを受け付けていません

Generalizable Implicit Motion Modeling for Video Frame Interpolation

要約 モーション モデリングは、フローベースのビデオ フレーム補間 (VFI) … 続きを読む

カテゴリー: cs.CV | Generalizable Implicit Motion Modeling for Video Frame Interpolation はコメントを受け付けていません

SEED-Story: Multimodal Long Story Generation with Large Language Model

要約 画像生成とオープンフォームテキスト生成の目覚ましい進歩により、インターリー … 続きを読む

カテゴリー: cs.CV | SEED-Story: Multimodal Long Story Generation with Large Language Model はコメントを受け付けていません

SLEDGE: Synthesizing Driving Environments with Generative Models and Rule-Based Traffic

要約 SLEDGE は、現実世界の運転ログでトレーニングされた、車両動作計画のた … 続きを読む

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO | SLEDGE: Synthesizing Driving Environments with Generative Models and Rule-Based Traffic はコメントを受け付けていません

Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models

要約 大規模言語モデルは、現在のトークンと以前のトークンの間の相関関係をモデル化 … 続きを読む

カテゴリー: cs.CV | Live2Diff: Live Stream Translation via Uni-directional Attention in Video Diffusion Models はコメントを受け付けていません

Towards Efficient Deployment of Hybrid SNNs on Neuromorphic and Edge AI Hardware

要約 この論文では、ダイナミック ビジョン センサーによってキャプチャされたデー … 続きを読む

カテゴリー: cs.AI, cs.AR, cs.CV, cs.LG, cs.NE | Towards Efficient Deployment of Hybrid SNNs on Neuromorphic and Edge AI Hardware はコメントを受け付けていません

HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models

要約 高解像度入力により、Large Vision-Language Model … 続きを読む

カテゴリー: cs.CV | HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models はコメントを受け付けていません