LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL

要約

スキーマリンクは、テキスト間タスク、特に実際の大規模なマルチデータベースシナリオで人間レベルのパフォーマンスを達成する上で重要なボトルネックです。
スキーマのリンクに対処することは、2つの主要な課題に直面しています。(1)データベースの取得:無関係なものを除外しながら、マルチデータベース設定の大きなスキーマプールから正しいデータベースを選択します。
(2)スキーマアイテムの接地:SQL生成の大規模で冗長なスキーマ内から関連するテーブルと列を正確に識別します。
これに対処するために、スキーマリンクに体系的に対処することにより、既存のベースラインを実際の環境に効果的に適応できる新しいフレームワークであるLinkalignを紹介します。
私たちのフレームワークは、3つの重要なステップで構成されています。マルチラウンドセマンティック強化された検索と課題1の分離、およびチャレンジ2のスキーマ抽出強化。クモと鳥のベンチマークにリンクするスキーマの方法のパフォーマンスを評価し、既存のテキストからSQLモデルを実際の環境に適応させる能力を評価します。
実験では、リンキラインがマルチデータベース設定の既存のベースラインを上回り、その有効性と堅牢性を示していることが示されています。
一方、私たちの方法は、長い考え方の推論LLMSを使用しているモデルを除くモデルの中で最も高くランク付けされています。
この作業は、現在の研究と現実世界のシナリオの間のギャップを埋め、堅牢でスケーラブルなスキーマリンクの実用的なソリューションを提供します。
コードはhttps://github.com/satissss/linkalignで入手できます。

要約(オリジナル)

Schema linking is a critical bottleneck in achieving human-level performance in Text-to-SQL tasks, particularly in real-world large-scale multi-database scenarios. Addressing schema linking faces two major challenges: (1) Database Retrieval: selecting the correct database from a large schema pool in multi-database settings, while filtering out irrelevant ones. (2) Schema Item Grounding: accurately identifying the relevant tables and columns from within a large and redundant schema for SQL generation. To address this, we introduce LinkAlign, a novel framework that can effectively adapt existing baselines to real-world environments by systematically addressing schema linking. Our framework comprises three key steps: multi-round semantic enhanced retrieval and irrelevant information isolation for Challenge 1, and schema extraction enhancement for Challenge 2. We evaluate our method performance of schema linking on the SPIDER and BIRD benchmarks, and the ability to adapt existing Text-to-SQL models to real-world environments on the SPIDER 2.0-lite benchmark. Experiments show that LinkAlign outperforms existing baselines in multi-database settings, demonstrating its effectiveness and robustness. On the other hand, our method ranks highest among models excluding those using long chain-of-thought reasoning LLMs. This work bridges the gap between current research and real-world scenarios, providing a practical solution for robust and scalable schema linking. The codes are available at https://github.com/Satissss/LinkAlign.

arxiv情報

著者 Yihan Wang,Peiyu Liu
発行日 2025-03-25 11:04:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL | LinkAlign: Scalable Schema Linking for Real-World Large-Scale Multi-Database Text-to-SQL はコメントを受け付けていません

Learning to segment anatomy and lesions from disparately labeled sources in brain MRI

要約

脳磁気共鳴画像(MRI)の病変とともに健康な組織構造のセグメント化は、病変が解剖学の破壊と共同ラベル付けされたトレーニングデータセットの欠如により、今日のアルゴリズムの課題のままです。
このホワイトペーパーでは、病変に起因する混乱に対して堅牢になり、誤ってラベル付けされたトレーニングセット、つまり共同ラベル付きサンプルを必要とせずに、両方を自動的にセグメント化する方法からトレーニングできる方法を提案します。
以前の研究とは対照的に、マルチシーケンスの獲得を活用し、情報を注意メカニズムと統合するために、2つのパスで健康な組織と病変のセグメンテーションを分離します。
推論中、画像固有の適応は、健康な組織予測に対する病変領域の悪影響を減らします。
トレーニング中、メタ学習を通じて適応を考慮し、共同トレーニングを使用して、散らばったトレーニング画像から学習します。
私たちのモデルは、最先端のセグメンテーション方法と比較して、公開されている脳膠芽腫データセットのいくつかの解剖学的構造と病変のパフォーマンスの向上を示しています。

要約(オリジナル)

Segmenting healthy tissue structures alongside lesions in brain Magnetic Resonance Images (MRI) remains a challenge for today’s algorithms due to lesion-caused disruption of the anatomy and lack of jointly labeled training datasets, where both healthy tissues and lesions are labeled on the same images. In this paper, we propose a method that is robust to lesion-caused disruptions and can be trained from disparately labeled training sets, i.e., without requiring jointly labeled samples, to automatically segment both. In contrast to prior work, we decouple healthy tissue and lesion segmentation in two paths to leverage multi-sequence acquisitions and merge information with an attention mechanism. During inference, an image-specific adaptation reduces adverse influences of lesion regions on healthy tissue predictions. During training, the adaptation is taken into account through meta-learning and co-training is used to learn from disparately labeled training images. Our model shows an improved performance on several anatomical structures and lesions on a publicly available brain glioblastoma dataset compared to the state-of-the-art segmentation methods.

arxiv情報

著者 Meva Himmetoglu,Ilja Ciernik,Ender Konukoglu
発行日 2025-03-25 10:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV | Learning to segment anatomy and lesions from disparately labeled sources in brain MRI はコメントを受け付けていません

HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation

要約

Hunyuanportraitを紹介します。これは、非常に制御可能でリアルなポートレートアニメーションに暗黙の表現を使用する拡散ベースの条件制御方法です。
外観の参照としての単一のポートレート画像とドライビングテンプレートとしてのビデオクリップを考えると、Hunyuanportraitは、運転ビデオの表情とヘッドポーズによって参照画像のキャラクターをアニメーション化できます。
私たちのフレームワークでは、事前に訓練されたエンコーダーを利用して、ビデオでポートレートモーション情報とアイデンティティのデカップリングを実現します。
そのためには、暗黙の表現がモーション情報をエンコードするために採用され、アニメーションフェーズの制御信号として採用されます。
主要なビルディングブロックとして安定したビデオ拡散の力を活用することにより、注意メカニズムを介して除去UNETに制御信号を注入するようにアダプターレイヤーを慎重に設計します。
これらは、詳細の空間的豊かさと時間的一貫性をもたらします。
Hunyuanportraitは、強力な一般化パフォーマンスも示しており、異なる画像スタイルの下で外観と動きを効果的に解き放つことができます。
私たちのフレームワークは、既存の方法を上回り、優れた時間的一貫性と制御可能性を示しています。
当社のプロジェクトは、https://kkkkkka.github.io/hunyuanportraitで入手できます。

要約(オリジナル)

We introduce HunyuanPortrait, a diffusion-based condition control method that employs implicit representations for highly controllable and lifelike portrait animation. Given a single portrait image as an appearance reference and video clips as driving templates, HunyuanPortrait can animate the character in the reference image by the facial expression and head pose of the driving videos. In our framework, we utilize pre-trained encoders to achieve the decoupling of portrait motion information and identity in videos. To do so, implicit representation is adopted to encode motion information and is employed as control signals in the animation phase. By leveraging the power of stable video diffusion as the main building block, we carefully design adapter layers to inject control signals into the denoising unet through attention mechanisms. These bring spatial richness of details and temporal consistency. HunyuanPortrait also exhibits strong generalization performance, which can effectively disentangle appearance and motion under different image styles. Our framework outperforms existing methods, demonstrating superior temporal consistency and controllability. Our project is available at https://kkakkkka.github.io/HunyuanPortrait.

arxiv情報

著者 Zunnan Xu,Zhentao Yu,Zixiang Zhou,Jun Zhou,Xiaoyu Jin,Fa-Ting Hong,Xiaozhong Ji,Junwei Zhu,Chengfei Cai,Shiyu Tang,Qin Lin,Xiu Li,Qinglin Lu
発行日 2025-03-25 10:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV | HunyuanPortrait: Implicit Condition Control for Enhanced Portrait Animation はコメントを受け付けていません

Any6D: Model-free 6D Pose Estimation of Novel Objects

要約

6Dオブジェクトポーズ推定のモデルフリーフレームワークであるAny6Dを紹介します。これは、新しいシーンの6Dポーズと未知のオブジェクトのサイズの両方を推定するために、単一のRGB-Dアンカー画像のみを必要とします。
テクスチャの3Dモデルや複数の視点に依存する既存の方法とは異なり、any6Dはジョイントオブジェクトアラインメントプロセスをレバレッジして、ポーズ精度を改善するために2D-3Dアライメントとメートルスケール推定を強化します。
当社のアプローチは、レンダリングとコンピアの戦略を統合してポーズ仮説を生成および改良し、オクルージョン、重複しないビュー、多様な照明条件、および大規模な環境相互環境の変動を備えたシナリオの堅牢なパフォーマンスを可能にします。
5つの挑戦的なデータセットであるReal275、Toyota-Light、Ho3D、Ycbineoat、およびLM-Oでこの方法を評価し、新規オブジェクトの提案のための最先端の方法を大幅に上回る有効性を示しています。
プロジェクトページ:https://taeyeop.com/any6d

要約(オリジナル)

We introduce Any6D, a model-free framework for 6D object pose estimation that requires only a single RGB-D anchor image to estimate both the 6D pose and size of unknown objects in novel scenes. Unlike existing methods that rely on textured 3D models or multiple viewpoints, Any6D leverages a joint object alignment process to enhance 2D-3D alignment and metric scale estimation for improved pose accuracy. Our approach integrates a render-and-compare strategy to generate and refine pose hypotheses, enabling robust performance in scenarios with occlusions, non-overlapping views, diverse lighting conditions, and large cross-environment variations. We evaluate our method on five challenging datasets: REAL275, Toyota-Light, HO3D, YCBINEOAT, and LM-O, demonstrating its effectiveness in significantly outperforming state-of-the-art methods for novel object pose estimation. Project page: https://taeyeop.com/any6d

arxiv情報

著者 Taeyeop Lee,Bowen Wen,Minjun Kang,Gyuree Kang,In So Kweon,Kuk-Jin Yoon
発行日 2025-03-25 06:18:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO | Any6D: Model-free 6D Pose Estimation of Novel Objects はコメントを受け付けていません

Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization

要約

学習可能な画像圧縮(LIC)は、RD効率で標準化されたビデオコーデックを上回る可能性を示しており、ハードウェアに優しい実装の研究を促しています。
ほとんどの既存のLICハードウェアの実装は、RD効率へのレイテンシを優先し、ハードウェア設計スペースの広範な調査を通じて優先します。
特定のハードウェアプラットフォームの設計を調整する負担がモデルの寸法にシフトし、RD効率を損なうことなく、新しいデザインパラダイムを提示します。
まず、リファレンスティーチャーからよりleanせた生徒のLICモデルを蒸留するためのフレームワークを設計します。単一のモデルハイパーパラメーターを調整することにより、複雑なハードウェア設計の探索なしで異なるハードウェアプラットフォームの制約を満たすことができます。
第二に、一般化された分裂正規化 – ポストパラメーターの量子化さえもRD効率を維持するGDNアクティベーションのハードウェアに優しい実装を提案します。
第三に、並列処理を活用してリソース割り当てを最適化することにより、利用可能なFPGAリソースを最大限に活用するPipelined FPGA構成を設計します。
最先端のLICモデルを使用した実験は、元のモデルに非常に近いことを実行しながら、既存のすべてのFPGA実装を上回ることを示しています。

要約(オリジナル)

Learnable Image Compression (LIC) has shown the potential to outperform standardized video codecs in RD efficiency, prompting the research for hardware-friendly implementations. Most existing LIC hardware implementations prioritize latency to RD-efficiency and through an extensive exploration of the hardware design space. We present a novel design paradigm where the burden of tuning the design for a specific hardware platform is shifted towards model dimensioning and without compromising on RD-efficiency. First, we design a framework for distilling a leaner student LIC model from a reference teacher: by tuning a single model hyperparameters, we can meet the constraints of different hardware platforms without a complex hardware design exploration. Second, we propose a hardware-friendly implementation of the Generalized Divisive Normalization – GDN activation that preserves RD efficiency even post parameter quantization. Third, we design a pipelined FPGA configuration which takes full advantage of available FPGA resources by leveraging parallel processing and optimizing resource allocation. Our experiments with a state of the art LIC model show that we outperform all existing FPGA implementations while performing very close to the original model.

arxiv情報

著者 Alaa Mazouz,Sumanta Chaudhuri,Marco Cagnanzzo,Mihai Mitrea,Enzo Tartaglione,Attilio Fiandrotti
発行日 2025-03-25 09:08:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Lightweight Embedded FPGA Deployment of Learned Image Compression with Knowledge Distillation and Hybrid Quantization はコメントを受け付けていません

Global-Local Tree Search in VLMs for 3D Indoor Scene Generation

要約

GPT-4などの大きなビジョン言語モデル(VLM)は、さまざまな分野で顕著な成功を収めています。
ただし、VLMSを使用した3D屋内シーン生成に関する研究はほとんどありません。
この論文は、このタスクを空間的およびレイアウト常識の制約の対象とする計画問題と見なしています。
VLMで問題を解決するために、新しいグローバルローカルツリー検索アルゴリズムを提案します。
グローバルに、このメソッドは各オブジェクトを順番に配置し、各配置プロセス中に複数の配置を調査します。ここでは、問題スペースがツリーとして表されます。
ツリーの深さを減らすために、シーン構造を階層的に分解します。つまり、部屋レベル、領域レベル、床オブジェクトレベル、サポートされているオブジェクトレベルを分解します。
このアルゴリズムは、異なる領域のフロアオブジェクトを個別に生成し、異なる床オブジェクトに配置されたサポートされているオブジェクトを生成します。
地元では、各オブジェクトの配置であるサブタスクを複数のステップに分解します。
アルゴリズムは、問題のあるツリーを検索します。
VLMモデルを活用してオブジェクトの位置を生成するために、トップダウンビュースペースを密なグリッドとして離散化し、各セルを多様な絵文字で満たして細胞に違います。
絵文字グリッドでVLMを促し、VLMは絵文字の名前で位置を記述することにより、オブジェクトの合理的な場所を生成します。
定量的および定性的な実験結果は、私たちのアプローチが最先端のアプローチよりももっともらしい3Dシーンを生成することを示しています。
ソースコードは、https://github.com/dw-dengwei/treesearchgenで入手できます。

要約(オリジナル)

Large Vision-Language Models (VLMs), such as GPT-4, have achieved remarkable success across various fields. However, there are few studies on 3D indoor scene generation with VLMs. This paper considers this task as a planning problem subject to spatial and layout common sense constraints. To solve the problem with a VLM, we propose a new global-local tree search algorithm. Globally, the method places each object sequentially and explores multiple placements during each placement process, where the problem space is represented as a tree. To reduce the depth of the tree, we decompose the scene structure hierarchically, i.e. room level, region level, floor object level, and supported object level. The algorithm independently generates the floor objects in different regions and supported objects placed on different floor objects. Locally, we also decompose the sub-task, the placement of each object, into multiple steps. The algorithm searches the tree of problem space. To leverage the VLM model to produce positions of objects, we discretize the top-down view space as a dense grid and fill each cell with diverse emojis to make to cells distinct. We prompt the VLM with the emoji grid and the VLM produces a reasonable location for the object by describing the position with the name of emojis. The quantitative and qualitative experimental results illustrate our approach generates more plausible 3D scenes than state-of-the-art approaches. Our source code is available at https://github.com/dw-dengwei/TreeSearchGen .

arxiv情報

著者 Wei Deng,Mengshi Qi,Huadong Ma
発行日 2025-03-25 02:21:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV | Global-Local Tree Search in VLMs for 3D Indoor Scene Generation はコメントを受け付けていません

Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models

要約

自然言語処理の分野(NLP)の重要な研究方向としての皮肉検出は、広範囲にわたる注目を集めています。
従来の皮肉検出タスクは通常、単一モーダルのアプローチ(テキストなど)に焦点を合わせていますが、皮肉の暗黙的で微妙な性質のため、そのような方法は満足のいく結果をもたらさないことがよくあります。
近年、研究者は皮肉検出の焦点をマルチモーダルアプローチにシフトしています。
ただし、マルチモーダル情報を効果的に活用して皮肉コンテンツを正確に識別することは、さらなる調査を保証する課題のままです。
さまざまな情報源に対して、マルチモーダル大手言語モデル(MLLMS)の強力な統合処理機能を活用すると、革新的なマルチモーダルコマンダーGPTフレームワークを提案します。
軍事戦略に触発された私たちは、最初に皮肉検出タスクを6つの異なるサブタスクに分解します。
次に、中央司令官(意思決定者)が、それぞれの特定のサブタスクに対処するために、最適な大規模な言語モデルを割り当てます。
最終的に、各モデルからの検出結果は皮肉を特定するために集約されます。
4つのマルチモーダル大手言語モデルと6つのプロンプト戦略を利用して、MMSDおよびMMSD 2.0で広範な実験を実施しました。
私たちの実験は、私たちのアプローチが最新のパフォーマンスを達成し、F1スコアが19.3%改善され、微調整や根本的な理論的根拠を必要とせずに達成することを示しています。

要約(オリジナル)

Sarcasm detection, as a crucial research direction in the field of Natural Language Processing (NLP), has attracted widespread attention. Traditional sarcasm detection tasks have typically focused on single-modal approaches (e.g., text), but due to the implicit and subtle nature of sarcasm, such methods often fail to yield satisfactory results. In recent years, researchers have shifted the focus of sarcasm detection to multi-modal approaches. However, effectively leveraging multi-modal information to accurately identify sarcastic content remains a challenge that warrants further exploration. Leveraging the powerful integrated processing capabilities of Multi-Modal Large Language Models (MLLMs) for various information sources, we propose an innovative multi-modal Commander-GPT framework. Inspired by military strategy, we first decompose the sarcasm detection task into six distinct sub-tasks. A central commander (decision-maker) then assigns the best-suited large language model to address each specific sub-task. Ultimately, the detection results from each model are aggregated to identify sarcasm. We conducted extensive experiments on MMSD and MMSD 2.0, utilizing four multi-modal large language models and six prompting strategies. Our experiments demonstrate that our approach achieves state-of-the-art performance, with a 19.3% improvement in F1 score, without necessitating fine-tuning or ground-truth rationales.

arxiv情報

著者 Yazhou Zhang,Chunwang Zou,Bo Wang,Jing Qin
発行日 2025-03-25 04:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL | Commander-GPT: Fully Unleashing the Sarcasm Detection Capability of Multi-Modal Large Language Models はコメントを受け付けていません

Frequency Dynamic Convolution for Dense Image Prediction

要約

動的畳み込み(DY-CONV)は、注意メカニズムと組み合わせた複数の並列重量を介して適応体重選択を可能にすることにより有望なパフォーマンスを示していますが、これらの重量の周波数応答は高い類似性を示し、高いパラメーターコストをもたらしますが、適応性は限られています。
この作業では、Frequency Dynamic Convolution(FDCONV)を導入します。これは、Forierドメインで固定パラメーター予算を学習することでこれらの制限を軽減する新しいアプローチです。
FDCONVは、この予算を分離フーリエインデックスで周波数ベースのグループに分割し、パラメーターコストを増やすことなく周波数ダイバーウェイトの構築を可能にします。
適応性をさらに向上させるために、カーネル空間変調(KSM)と周波数帯域変調(FBM)を提案します。
KSMは、各フィルターの周波数応答を空間レベルで動的に調整し、FBMは周波数ドメインの異なる周波数帯域に重みを分解し、ローカルコンテンツに基づいて動的に変調します。
オブジェクトの検出、セグメンテーション、および分類に関する広範な実験により、FDCONVの有効性が検証されます。
ResNet-50に適用されると、FDCONVは +3.6mパラメーターの適度な増加で優れたパフォーマンスを達成し、パラメーター予算の大幅な増加を必要とする以前の方法(Condconv +90m、kw +76.5mなど)を上回ることを実証します。
さらに、FDCONVは、Convnext、Swin-Transformerなど、さまざまなアーキテクチャにシームレスに統合され、最新のビジョンタスクに柔軟で効率的なソリューションを提供します。
このコードは、https://github.com/linwei-chen/fdconvで公開されています。

要約(オリジナル)

While Dynamic Convolution (DY-Conv) has shown promising performance by enabling adaptive weight selection through multiple parallel weights combined with an attention mechanism, the frequency response of these weights tends to exhibit high similarity, resulting in high parameter costs but limited adaptability. In this work, we introduce Frequency Dynamic Convolution (FDConv), a novel approach that mitigates these limitations by learning a fixed parameter budget in the Fourier domain. FDConv divides this budget into frequency-based groups with disjoint Fourier indices, enabling the construction of frequency-diverse weights without increasing the parameter cost. To further enhance adaptability, we propose Kernel Spatial Modulation (KSM) and Frequency Band Modulation (FBM). KSM dynamically adjusts the frequency response of each filter at the spatial level, while FBM decomposes weights into distinct frequency bands in the frequency domain and modulates them dynamically based on local content. Extensive experiments on object detection, segmentation, and classification validate the effectiveness of FDConv. We demonstrate that when applied to ResNet-50, FDConv achieves superior performance with a modest increase of +3.6M parameters, outperforming previous methods that require substantial increases in parameter budgets (e.g., CondConv +90M, KW +76.5M). Moreover, FDConv seamlessly integrates into a variety of architectures, including ConvNeXt, Swin-Transformer, offering a flexible and efficient solution for modern vision tasks. The code is made publicly available at https://github.com/Linwei-Chen/FDConv.

arxiv情報

著者 Linwei Chen,Lin Gu,Liang Li,Chenggang Yan,Ying Fu
発行日 2025-03-25 03:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV | Frequency Dynamic Convolution for Dense Image Prediction はコメントを受け付けていません

Socially-Aware Robot Navigation Enhanced by Bidirectional Natural Language Conversations Using Large Language Models

要約

ロボットナビゲーションはさまざまなドメインで重要ですが、従来の方法は効率と障害物の回避に焦点を当てており、多くの場合、共有空間で人間の行動を見落としています。
サービスロボットの台頭により、社会的に認識しているナビゲーションが顕著になりました。
ただし、既存のアプローチは、主に歩行者の動きまたは発行アラートを予測し、真の人間とロボットの相互作用を欠いています。
社会的に認識されたナビゲーションのための新しいフレームワークである大規模な言語モデル(HSAC-LLM)を使用して、ハイブリッドソフトアクタークライティックを紹介します。
深い補強学習を大規模な言語モデルと統合することにより、HSAC-LLMは双方向の自然言語相互作用を可能にし、連続的および離散ナビゲーションアクションの両方を予測します。
潜在的な衝突が発生すると、ロボットは歩行者と積極的に通信して回避戦略を決定します。
2Dシミュレーション、ガゼボ、および実際の環境での実験は、HSAC-LLMが相互作用、ナビゲーション、および障害物回避において最先端のDRLメソッドを上回ることを示しています。
このパラダイムは、動的な設定で効果的な人間とロボットの相互作用を進めます。
ビデオはhttps://hsacllm.github.io/で入手できます。

要約(オリジナル)

Robot navigation is crucial across various domains, yet traditional methods focus on efficiency and obstacle avoidance, often overlooking human behavior in shared spaces. With the rise of service robots, socially aware navigation has gained prominence. However, existing approaches primarily predict pedestrian movements or issue alerts, lacking true human-robot interaction. We introduce Hybrid Soft Actor-Critic with Large Language Model (HSAC-LLM), a novel framework for socially aware navigation. By integrating deep reinforcement learning with large language models, HSAC-LLM enables bidirectional natural language interactions, predicting both continuous and discrete navigation actions. When potential collisions arise, the robot proactively communicates with pedestrians to determine avoidance strategies. Experiments in 2D simulation, Gazebo, and real-world environments demonstrate that HSAC-LLM outperforms state-of-the-art DRL methods in interaction, navigation, and obstacle avoidance. This paradigm advances effective human-robot interactions in dynamic settings. Videos are available at https://hsacllm.github.io/.

arxiv情報

著者 Congcong Wen,Yifan Liu,Geeta Chandra Raju Bethala,Shuaihang Yuan,Hao Huang,Yu Hao,Mengyu Wang,Yu-Shen Liu,Anthony Tzes,Yi Fang
発行日 2025-03-23 19:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO | Socially-Aware Robot Navigation Enhanced by Bidirectional Natural Language Conversations Using Large Language Models はコメントを受け付けていません

Joint State-Parameter Observer-Based Robust Control of a UAV for Heavy Load Transportation

要約

このペーパーでは、オクトコプター無人航空機(OUAV)の軌跡追跡のためのジョイントステートパラメーターオブザーバーベースのコントローラーを提案し、重い荷重を不明な質量とサイズの輸送のために提案します。
システムのダイナミクスへの負荷パラメーターの効果を効果的に考慮して、硬く接続された負荷を備えたOUAVの多体動的モデルが取得されます。
堅牢な非線形Wインフェンツ制御戦略は、OUAVの最適な軌道追跡のために設計されており、共同推定されていないカルマンフィルターによって提供される状態および負荷パラメーターを使用して、
提案された戦略の有効性は、数値結果によって裏付けられています。

要約(オリジナル)

This paper proposes a joint state-parameter observer-based controller for trajectory tracking of an octocopter unmanned aerial vehicle (OUAV), for transportation of a heavy load with unknown mass and size. The multi-body dynamic model of the OUAV with a rigidly attached load is obtained, effectively considering the effects of the load parameters into the dynamics of the system. A robust nonlinear W-infinity control strategy is designed for optimal trajectory tracking of the OUAV, with information of the states and load parameters provided by a joint estimation unscented Kalman filter. The effectiveness of the proposed strategy is corroborated by numerical results.

arxiv情報

著者 Brenner S. Rego,Daniel N. Cardoso,Marco. H. Terra,Guilherme V. Raffo
発行日 2025-03-23 19:54:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY | Joint State-Parameter Observer-Based Robust Control of a UAV for Heavy Load Transportation はコメントを受け付けていません