-
最近の投稿
- FEAST: A Flexible Mealtime-Assistance System Towards In-the-Wild Personalization
- Time-Optimized Safe Navigation in Unstructured Environments through Learning Based Depth Completion
- Advances in Compliance Detection: Novel Models Using Vision-Based Tactile Sensors
- Mass-Adaptive Admittance Control for Robotic Manipulators
- DreamGen: Unlocking Generalization in Robot Learning through Video World Models
-
最近のコメント
表示できるコメントはありません。 cs.AI (39879) cs.CL (30187) cs.CV (45175) cs.HC (3051) cs.LG (44808) cs.RO (23879) cs.SY (3632) eess.IV (5170) eess.SY (3624) stat.ML (5830)
「cs.CL」カテゴリーアーカイブ
Words in Motion: Representation Engineering for Motion Forecasting
要約 動き予測は、過去の動きと環境コンテキストのシーケンスを将来の動きに変換しま … 続きを読む
Evaluating Task-based Effectiveness of MLLMs on Charts
要約 このペーパーでは、GPT-4V はチャート上の低レベルのデータ分析タスクに … 続きを読む
See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding
要約 ビジョン言語モデル (VLM) は、多くの言語の画像に関するクエリに応答で … 続きを読む
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs
要約 このペーパーでは、ビデオおよびオーディオ指向のタスクにおける時空間モデリン … 続きを読む
MLLM-Protector: Ensuring MLLM’s Safety without Hurting Performance
要約 マルチモーダル大規模言語モデル (MLLM) の展開により、視覚的な入力を … 続きを読む
Ovis: Structural Embedding Alignment for Multimodal Large Language Model
要約 現在のマルチモーダル大規模言語モデル (MLLM) は通常、MLP などの … 続きを読む
On Efficient Language and Vision Assistants for Visually-Situated Natural Language Understanding: What Matters in Reading and Reasoning
要約 言語および視覚アシスタントの最近の進歩は素晴らしい機能を示していますが、透 … 続きを読む
mDPO: Conditional Preference Optimization for Multimodal Large Language Models
要約 直接優先最適化 (DPO) は、大規模言語モデル (LLM) の調整に効果 … 続きを読む
Sycophancy to Subterfuge: Investigating Reward-Tampering in Large Language Models
要約 強化学習では、AI システムがトレーニング目標の指定を誤ったために大きな報 … 続きを読む
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models
要約 AI の最も高度な技術の 1 つである検索拡張生成 (RAG) は、信頼性 … 続きを読む