月別アーカイブ: 2025年5月

Interpretable Dynamic Graph Neural Networks for Small Occluded Object Detection and Tracking

投稿日: 2025年5月6日作成者: jarxiv

要約歩行者、自転車、バイクのような小さくて見えない物体の検出と追跡は、不規則な … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

Database-Agnostic Gait Enrollment using SetTransformers

投稿日: 2025年5月6日作成者: jarxiv

要約歩行認識は、監視やモニタリングの用途で関連性が高まっている、控えめで長距離 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

投稿日: 2025年5月6日作成者: jarxiv

要約現在の多被験者カスタマイズアプローチには、2つの重大な課題がある。それは、 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models

投稿日: 2025年5月6日作成者: jarxiv

要約テキストから画像への拡散（T2I）モデルは急速に進歩し、テキストによるプロ … 続きを読む →

カテゴリー: cs.AI, cs.CR, cs.CV | コメントを受け付けていません

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

投稿日: 2025年5月6日作成者: jarxiv

要約コンピュータ・ビジョンの手法は、生態学的・生物学的ワークフローを合理化する … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation

投稿日: 2025年5月6日作成者: jarxiv

要約胸部 X 線（CXR）は臨床現場で最も頻繁に行われる画像検査である。最近の … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

投稿日: 2025年5月6日作成者: jarxiv

要約最近の研究では、意味のある内部表現を学習することで、生成学習を高速化し、拡 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

TWIST: Teleoperated Whole-Body Imitation System

投稿日: 2025年5月6日作成者: jarxiv

要約ヒューマノイドロボットを全身で遠隔操作することは、汎用的なロボット知能を開 … 続きを読む →

カテゴリー: cs.CV, cs.LG, cs.RO | コメントを受け付けていません

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

投稿日: 2025年5月6日作成者: jarxiv

要約マルチモーダル報酬モデル(MRM)は、マルチモーダル大規模言語モデル(ML … 続きを読む →

カテゴリー: cs.CL, cs.CV | コメントを受け付けていません

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

投稿日: 2025年5月6日作成者: jarxiv

要約テキストからインタラクティブな3Dシーンを合成することは、ゲーム、バーチャ … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

月別アーカイブ: 2025年5月

Interpretable Dynamic Graph Neural Networks for Small Occluded Object Detection and Tracking

Database-Agnostic Gait Enrollment using SetTransformers

MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing

Towards Dataset Copyright Evasion Attack against Personalized Text-to-Image Diffusion Models

Towards Application-Specific Evaluation of Vision Models: Case Studies in Ecology and Biology

AOR: Anatomical Ontology-Guided Reasoning for Medical Large Multimodal Model in Chest X-Ray Interpretation

No Other Representation Component Is Needed: Diffusion Transformers Can Provide Representation Guidance by Themselves

TWIST: Teleoperated Whole-Body Imitation System

R1-Reward: Training Multimodal Reward Model Through Stable Reinforcement Learning

Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

最近の投稿

最近のコメント

アーカイブ

カテゴリー