-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
Can we Retrieve Everything All at Once? ARM: An Alignment-Oriented LLM-based Retrieval Method
要約 実際のオープンドメインの質問は、特にそれらに答えるには複数の情報源からの情 … 続きを読む
More Expressive Attention with Negative Weights
要約 COG Attencesという名前の新しい注意メカニズムを提案します。これ … 続きを読む
R.I.P.: Better Models by Survival of the Fittest Prompts
要約 トレーニングデータ品質は、最終的なモデル品質の最も重要なドライバーの1つで … 続きを読む
A Video-grounded Dialogue Dataset and Metric for Event-driven Activities
要約 このペーパーでは、タスク用に特別に設計されたセッションベースのコンテキスト … 続きを読む
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding
要約 専門家レベルの医療知識と高度な推論を評価するために、非常に挑戦的で包括的な … 続きを読む
DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter
要約 Imagenや安定した拡散モデルなどの最先端のテキストからイメージからイメ … 続きを読む
Return of the Encoder: Maximizing Parameter Efficiency for SLMs
要約 大規模なデコーダーのみの言語モデルの優位性は、シーケンス処理における基本的 … 続きを読む
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy
要約 ビジョン言語モデル(VLM)は最近、ロボットアクションを生成するために活用 … 続きを読む
Temporal Preference Optimization for Long-Form Video Understanding
要約 ビデオの大規模なマルチモーダルモデル(ビデオLMMS)の大幅な進歩にもかか … 続きを読む
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models
要約 大規模なビジョン言語モデル(VLM)は、幅広いタスクで顕著なパフォーマンス … 続きを読む