-
最近の投稿
- Lasso Gripper: A String Shooting-Retracting Mechanism for Shape-Adaptive Grasping
- TACS-Graphs: Traversability-Aware Consistent Scene Graphs for Ground Robot Indoor Localization and Mapping
- Non-Overlap-Aware Egocentric Pose Estimation for Collaborative Perception in Connected Autonomy
- Hard Contacts with Soft Gradients: Refining Differentiable Simulators for Learning and Control
- AMPLIFY: Actionless Motion Priors for Robot Learning from Videos
-
最近のコメント
表示できるコメントはありません。 cs.AI (39812) cs.CL (30135) cs.CV (45122) cs.HC (3045) cs.LG (44743) cs.RO (23829) cs.SY (3627) eess.IV (5166) eess.SY (3619) stat.ML (5821)
「cs.MM」カテゴリーアーカイブ
Face Consistency Benchmark for GenAI Video
要約 人工知能によって駆動されるビデオ生成は、動的で現実的なコンテンツの作成を可 … 続きを読む
Machine Learning-Based Prediction of Quality Shifts on Video Streaming Over 5G
要約 Quality of Experience(QOE)は、YouTubeのよ … 続きを読む
Detecting Multimedia Generated by Large AI Models: A Survey
要約 大規模なAIモデル(LAIMS)、特に拡散モデルと大規模な言語モデルの急速 … 続きを読む
WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
要約 GPT-4O-Audioなどのエンドツーエンドの音声対話モデルは、最近、音 … 続きを読む
HybridMQA: Exploring Geometry-Texture Interactions for Colored Mesh Quality Assessment
要約 メッシュ品質評価(MQA)モデルは、さまざまなアプリケーションでのメッシュ … 続きを読む
FMNV: A Dataset of Media-Published News Videos for Fake News Detection
要約 ニュースメディア、特にビデオベースのプラットフォームは、日常生活に深く埋め … 続きを読む
Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge
要約 DCASE 2025チャレンジのタスク5を紹介します。音響質問(AQA)ベ … 続きを読む
Differentiating Emigration from Return Migration of Scholars Using Name-Based Nationality Detection Models
要約 ほとんどのWebおよびデジタルトレースデータには、プライバシーの懸念による … 続きを読む
Can Prompting LLMs Unlock Hate Speech Detection across Languages? A Zero-shot and Few-shot Study
要約 自動化されたヘイトスピーチ検出への関心が高まっているにもかかわらず、既存の … 続きを読む
TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis
要約 マルチモーダル感情分析(MSA)は、言語、視覚、音響のモダリティを活用する … 続きを読む