-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.AI」カテゴリーアーカイブ
Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video
要約 堅牢なツールと公開されている事前に訓練されたモデルは、言語モデルの機械的解 … 続きを読む
A Survey on Event-driven 3D Reconstruction: Development under Different Categories
要約 イベントカメラは、時間分解能が高い、遅延が低く、ダイナミックレンジが高いた … 続きを読む
RePaViT: Scalable Vision Transformer Acceleration via Structural Reparameterization on Feedforward Network Layers
要約 注意層ではなく、Feedforwardネットワーク(FFN)レイヤーがVi … 続きを読む
ARFlow: Human Action-Reaction Flow Matching with Physical Guidance
要約 因果的な人間の相互作用をモデル化する際の基本的な課題である人間の行動反応統 … 続きを読む
Jigsaw-R1: A Study of Rule-based Visual Reinforcement Learning with Jigsaw Puzzles
要約 ルールベースの強化学習(RL)をマルチモーダル大手言語モデル(MLLMS) … 続きを読む
DIS-CO: Discovering Copyrighted Content in VLMs Training Data
要約 トレーニングデータに直接アクセスすることなく、著作権で保護されたコンテンツ … 続きを読む
Improving Medical Large Vision-Language Models with Abnormal-Aware Feedback
要約 既存の医療大規模視覚言語モデル(MED-LVLMS)は、広範な医療知識をカ … 続きを読む
MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping
要約 少数のセマンティックセグメンテーションでは、クエリ画像のオブジェクトをセグ … 続きを読む
A Conformal Risk Control Framework for Granular Word Assessment and Uncertainty Calibration of CLIPScore Quality Estimates
要約 この研究では、学習された画像キャプション評価メトリックの現在の制限、特にキ … 続きを読む
TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images
要約 この論文では、事前に訓練された拡散モデルを使用したシーンテキスト破壊のため … 続きを読む