月別アーカイブ: 2024年1月

PixArt-$α$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

要約 最先端の Text-to-Image (T2I) モデルには多額のトレーニ … 続きを読む

カテゴリー: cs.CV | PixArt-$α$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis はコメントを受け付けていません

FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis

要約 拡散モデルは画像間 (I2I) 合成を変革し、現在ではビデオに浸透していま … 続きを読む

カテゴリー: cs.CV, cs.MM | FlowVid: Taming Imperfect Optical Flows for Consistent Video-to-Video Synthesis はコメントを受け付けていません

Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization

要約 アクションの位置特定は、検出タスクと認識タスクを組み合わせた難しい問題であ … 続きを読む

カテゴリー: cs.CV | Multiscale Vision Transformers meet Bipartite Matching for efficient single-stage Action Localization はコメントを受け付けていません

Comparing the robustness of modern no-reference image- and video-quality metrics to adversarial attacks

要約 現在、ニューラル ネットワーク ベースの画像およびビデオ品質メトリクスは、 … 続きを読む

カテゴリー: cs.CV, cs.LG, cs.MM, eess.IV | Comparing the robustness of modern no-reference image- and video-quality metrics to adversarial attacks はコメントを受け付けていません

Toward Spatial Temporal Consistency of Joint Visual Tactile Perception in VR Applications

要約 VR テクノロジーの発展、特にメタバース概念の出現により、視覚と触覚の統合 … 続きを読む

カテゴリー: cs.RO | Toward Spatial Temporal Consistency of Joint Visual Tactile Perception in VR Applications はコメントを受け付けていません

Difficulties in Dynamic Analysis of Drone Firmware and Its Solutions

要約 モノのインターネット (IoT) テクノロジーの進歩により、その応用は公共 … 続きを読む

カテゴリー: cs.CR, cs.RO | Difficulties in Dynamic Analysis of Drone Firmware and Its Solutions はコメントを受け付けていません

Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding

要約 Transformer は、シーケンス内の複雑な依存関係をモデル化する優れ … 続きを読む

カテゴリー: cs.CL | Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding はコメントを受け付けていません

Experiential Co-Learning of Software-Developing Agents

要約 大規模言語モデル (LLM) の最近の進歩により、特に LLM 駆動の自律 … 続きを読む

カテゴリー: cs.AI, cs.CL, cs.LG, cs.SE | Experiential Co-Learning of Software-Developing Agents はコメントを受け付けていません

AccidentGPT: Accident Analysis and Prevention from V2X Environmental Perception with Multi-modal Large Model

要約 交通事故は人的被害と物的損害の両方に大きく寄与しており、交通安全分野の多く … 続きを読む

カテゴリー: cs.AI, cs.CE | AccidentGPT: Accident Analysis and Prevention from V2X Environmental Perception with Multi-modal Large Model はコメントを受け付けていません

DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation

要約 言語の指示に従って目に見えない環境をナビゲートすることは、自律的に身体化さ … 続きを読む

カテゴリー: cs.CV | DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation はコメントを受け付けていません