月別アーカイブ: 2024年6月

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

投稿日: 2024年6月14日作成者: jarxiv

要約この論文では、新しい多重解像度ネットワークと時間依存のレイヤー正規化を統合 … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

An Image is Worth More Than 16×16 Patches: Exploring Transformers on Individual Pixels

投稿日: 2024年6月14日作成者: jarxiv

要約この作品は新しい手法を導入するものではありません。その代わりに、現代のコ … 続きを読む →

カテゴリー: cs.CV, cs.LG | コメントを受け付けていません

VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding

投稿日: 2024年6月14日作成者: jarxiv

要約言語モデルの進歩に基づいて構築された大規模マルチモーダルモデル (LMM … 続きを読む →

カテゴリー: cs.CV | コメントを受け付けていません

Real2Code: Reconstruct Articulated Objects via Code Generation

投稿日: 2024年6月14日作成者: jarxiv

要約コード生成を通じて多関節オブジェクトを再構築する新しいアプローチである R … 続きを読む →

カテゴリー: cs.AI, cs.CV, cs.LG | コメントを受け付けていません

Co-designing a Child-Robot Relational Norm Intervention to Regulate Children’s Handwriting Posture

投稿日: 2024年6月14日作成者: jarxiv

要約説得力のあるソーシャルロボットは、その社会的影響力を利用して、子供とロボ … 続きを読む →

カテゴリー: cs.HC, cs.RO | コメントを受け付けていません

Predictive Linear Online Tracking for Unknown Targets

投稿日: 2024年6月14日作成者: jarxiv

要約この論文では、移動ターゲットを追跡することを目的とした線形制御システムにお … 続きを読む →

カテゴリー: cs.LG, cs.SY, eess.SY, math.OC | コメントを受け付けていません

Is Programming by Example solved by LLMs?

投稿日: 2024年6月14日作成者: jarxiv

要約 Programming-by-Examples (PBE) は、入出力サン … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.LG, cs.PL, cs.SE | コメントを受け付けていません

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

投稿日: 2024年6月14日作成者: jarxiv

要約マルチモーダル言語言語モデル (MLLM) は、「ワールドモデル」、つま … 続きを読む →

カテゴリー: cs.AI, cs.CL, cs.CV | コメントを受け付けていません

A3VLM: Actionable Articulation-Aware Vision Language Model

投稿日: 2024年6月14日作成者: jarxiv

要約ビジョン言語モデル (VLM) は、ロボット工学コミュニティで近年大きな注 … 続きを読む →

カテゴリー: cs.RO | コメントを受け付けていません

CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems

投稿日: 2024年6月14日作成者: jarxiv

要約大規模言語モデル (LLM) に基づく会話型説明可能人工知能 (ConvX … 続きを読む →

カテゴリー: cs.CL | コメントを受け付けていません

月別アーカイブ: 2024年6月

Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models

An Image is Worth More Than 16×16 Patches: Exploring Transformers on Individual Pixels

VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding

Real2Code: Reconstruct Articulated Objects via Code Generation

Co-designing a Child-Robot Relational Norm Intervention to Regulate Children’s Handwriting Posture

Predictive Linear Online Tracking for Unknown Targets

Is Programming by Example solved by LLMs?

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos

A3VLM: Actionable Articulation-Aware Vision Language Model

CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems

最近の投稿

最近のコメント

アーカイブ

カテゴリー