-
最近の投稿
- Agent-Based Emulation for Deploying Robot Swarm Behaviors
- Automated Planning Domain Inference for Task and Motion Planning
- Tactile Displays Driven by Projected Light
- Caging in Time: A Framework for Robust Object Manipulation under Uncertainties and Limited Robot Perception
- Implicit Contact Diffuser: Sequential Contact Reasoning with Latent Point Cloud Diffusion
-
最近のコメント
表示できるコメントはありません。 cs.AI (28464) cs.CL (21516) cs.CR (2224) cs.CV (35088) cs.LG (33220) cs.RO (16420) cs.SY (2528) eess.IV (4274) eess.SY (2522) stat.ML (4457)
「cs.IR」カテゴリーアーカイブ
Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval
要約 マルチメディア情報検索でますます一般的なタスクとして、ビデオ モーメント検 … 続きを読む
On Analyzing the Role of Image for Visual-enhanced Relation Extraction
要約 マルチモーダルな関係抽出は、ナレッジ グラフの構築に不可欠なタスクです。 … 続きを読む
Tables to LaTeX: structure and content extraction from scientific tables
要約 科学文書には、重要な情報を簡潔にまとめた表が含まれています。 PDF 研究 … 続きを読む
FedVMR: A New Federated Learning method for Video Moment Retrieval
要約 大きな成功を収めたにもかかわらず、既存のビデオ モーメント検索 (VMR) … 続きを読む
Structuring User-Generated Content on Social Media with Multimodal Aspect-Based Sentiment Analysis
要約 人々は自分の意見や経験をソーシャル メディアに投稿し、エンド ユーザーの感 … 続きを読む
Multimodal Transformer Distillation for Audio-Visual Synchronization
要約 視聴覚同期は、ビデオ内の口の動きと音声が同期しているかどうかを判断すること … 続きを読む
Graph Neural Networks for Nomination and Representation Learning of Web Elements
要約 このホワイト ペーパーでは、DOM 要素の指名と表現学習の未調査の問題に取 … 続きを読む
Boosting vision transformers for image retrieval
要約 ビジョン トランスフォーマーは、画像の分類や検出などの視覚タスクにおいて目 … 続きを読む
DUET: A Tuning-Free Device-Cloud Collaborative Parameters Generation Framework for Efficient Device Model Generalization
要約 デバイス モデルの一般化 (DMG) は、オンデバイスの機械学習アプリケー … 続きを読む
LSEH: Semantically Enhanced Hard Negatives for Cross-modal Information Retrieval
要約 Visual Semantic Embedding (VSE) は、画像の … 続きを読む