-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
月別アーカイブ: 2025年4月
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models
要約 既存のMLLMベンチマークは、Unified MLLM(U-MLLM)の評 … 続きを読む
カテゴリー: cs.CV
MME-Unify: A Comprehensive Benchmark for Unified Multimodal Understanding and Generation Models はコメントを受け付けていません
Overcoming Deceptiveness in Fitness Optimization with Unsupervised Quality-Diversity
要約 政策最適化は、目的関数または適合度関数に従って制御問題の最適解を求めるもの … 続きを読む
GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration
要約 GPTQv2は、大規模変換器アーキテクチャを圧縮するための新しい微調整不要 … 続きを読む
カテゴリー: cs.LG
GPTQv2: Efficient Finetuning-Free Quantization for Asymmetric Calibration はコメントを受け付けていません
Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant
要約 大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、音声とテキス … 続きを読む
Why do LLMs attend to the first token?
要約 大規模言語モデル(LLM)は、シーケンスの最初のトークンに集中する傾向があ … 続きを読む
カテゴリー: cs.CL
Why do LLMs attend to the first token? はコメントを受け付けていません
A Survey of Large Language Models in Mental Health Disorder Detection on Social Media
要約 メンタルヘルス問題の検出と介入は、世界的に重要な研究テーマであり、ソーシャ … 続きを読む
RBT4DNN: Requirements-based Testing of Neural Networks
要約 ディープニューラルネットワーク(DNN)のテストは、障害が重大な結果をもた … 続きを読む
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation
要約 トーキングヘッド合成は、バーチャルアバターや人間とコンピュータのインタラク … 続きを読む
カテゴリー: cs.CV
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation はコメントを受け付けていません
Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis
要約 非言語的コミュニケーションは、発話の意味を伝えるのに役立つ意味豊かなジェス … 続きを読む
カテゴリー: cs.CV
Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis はコメントを受け付けていません
Quattro: Transformer-Accelerated Iterative Linear Quadratic Regulator Framework for Fast Trajectory Optimization
要約 リアルタイム最適制御は、ロボット工学の基本的な課題である。代表的な軌道最適 … 続きを読む