-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CV」カテゴリーアーカイブ
Towards Interpreting Visual Information Processing in Vision-Language Models
要約 視覚言語モデル (VLM) は、テキストと画像を処理および理解するための強 … 続きを読む
CHASE: Learning Convex Hull Adaptive Shift for Skeleton-based Multi-Entity Action Recognition
要約 スケルトンベースのマルチエンティティのアクション認識は、複数の多様なエンテ … 続きを読む
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis
要約 拡散モデルの最近の進歩により、画像とビデオの生成において優れた機能が実証さ … 続きを読む
カテゴリー: cs.CV
Trans4D: Realistic Geometry-Aware Transition for Compositional Text-to-4D Synthesis はコメントを受け付けていません
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs
要約 この論文では、見落とされているが重要なタスク Graph2Image、つま … 続きを読む
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation
要約 拡散モデルの最近の進歩により、4D 全身ヒューマン オブジェクト インタラ … 続きを読む
カテゴリー: cs.CV
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation はコメントを受け付けていません
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate
要約 ラージ ビジョン言語モデル (LVLM) のマルチモーダル事前トレーニング … 続きを読む
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation
要約 RPG、Stable Diffusion 3、FLUX などの高度な拡散モ … 続きを読む
カテゴリー: cs.CV
IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation はコメントを受け付けていません
Do better language models have crisper vision?
要約 テキストのみの大規模言語モデル (LLM) は、視覚的な世界をどの程度理解 … 続きを読む
MM-Ego: Towards Building Egocentric Multimodal LLMs
要約 この研究は、自己中心的なビデオ理解のためのマルチモーダル基盤モデルの構築を … 続きを読む
Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training
要約 複数のタスクを完了できるジェネラリストの身体化エージェントを学習するには、 … 続きを読む