کنترل ربات با روشی ساده
1 min read

کنترل ربات با روشی ساده

محققان یک تکنیک یادگیری ماشینی را توسعه می دهند که می تواند به طور موثر کنترل یک ربات را یاد بگیرد و منجر به عملکرد بهتر با داده های کمتر شود.

محققان MIT و دانشگاه استنفورد یک رویکرد یادگیری ماشینی جدید ابداع کرده‌اند که می‌تواند برای کنترل یک ربات، مانند یک پهپاد یا وسیله نقلیه خودران، به طور موثرتر و کارآمدتر در محیط‌های پویا که شرایط می‌تواند به سرعت تغییر کند، استفاده شود.

این تکنیک می تواند به یک وسیله نقلیه خودران کمک کند تا شرایط جاده لغزنده را جبران کند تا از لغزش جلوگیری کند، به یک پرواز آزاد روباتیک اجازه دهد اشیاء مختلف را در فضا بکسل کند، یا به پهپاد این امکان را بدهد که علیرغم اصابت باد شدید، اسکی باز را از نزدیک دنبال کند. .

رویکرد محققین ساختار خاصی را از نظریه کنترل در فرآیند یادگیری یک مدل گنجانده است، به گونه‌ای که منجر به یک روش موثر برای کنترل دینامیک پیچیده، مانند مواردی که در اثر ضربه باد بر مسیر یک وسیله نقلیه پرنده ایجاد می‌شود، شود. یکی از راه های فکر کردن در مورد این ساختار به عنوان یک اشاره است که می تواند به راهنمایی در مورد نحوه کنترل یک سیستم کمک کند.

نوید عزیزان، استادیار استر و هارولد ای. ادگرتون در دپارتمان مهندسی مکانیک MIT می‌گوید: تمرکز کار ما یادگیری ساختار ذاتی در دینامیک سیستم است که می‌توان از آن برای طراحی کنترل‌کننده‌های موثرتر و پایدارکننده استفاده کرد. و موسسه داده‌ها، سیستم‌ها و جامعه (IDSS)، و یکی از اعضای آزمایشگاه اطلاعات و سیستم‌های تصمیم‌گیری (LIDS). “با یادگیری مشترک دینامیک سیستم و این ساختارهای کنترل محور منحصر به فرد از داده ها، می توانیم به طور طبیعی کنترل کننده هایی ایجاد کنیم که در دنیای واقعی بسیار موثرتر عمل کنند.”

با استفاده از این ساختار در یک مدل آموخته‌شده، تکنیک محققین بلافاصله یک کنترل‌کننده مؤثر را از مدل استخراج می‌کند، برخلاف سایر روش‌های یادگیری ماشینی که نیاز به استخراج یا یادگیری جداگانه کنترل‌کننده با مراحل اضافی دارند. با این ساختار، رویکرد آنها همچنین قادر به یادگیری یک کنترل کننده موثر با استفاده از داده های کمتر نسبت به سایر رویکردها است. این می تواند به سیستم کنترل مبتنی بر یادگیری آنها کمک کند تا در محیط هایی که به سرعت در حال تغییر هستند، عملکرد بهتری را سریعتر به دست آورند.

اسپنسر ام. ریچاردز، نویسنده اصلی، دانشجوی کارشناسی ارشد در دانشگاه استنفورد، می‌گوید: «این کار سعی می‌کند بین شناسایی ساختار در سیستم شما و یادگیری یک مدل از داده‌ها تعادل ایجاد کند. «رویکرد ما از نحوه استفاده رباتیک‌ها از فیزیک برای استخراج مدل‌های ساده‌تر برای روبات‌ها الهام گرفته شده است. تجزیه و تحلیل فیزیکی این مدل‌ها اغلب ساختار مفیدی را برای اهداف کنترل به دست می‌دهد – ساختاری که اگر سعی کنید ساده‌لوحانه یک مدل را با داده‌ها تطبیق دهید، ممکن است از دست بدهید. در عوض، ما سعی می‌کنیم ساختار مفید مشابهی را از داده‌هایی که نحوه اجرای منطق کنترل شما را نشان می‌دهند، شناسایی کنیم.”

نویسندگان دیگر مقاله عبارتند از ژان ژاک اسلوتین، استاد مهندسی مکانیک و علوم مغز و شناختی در MIT، و مارکو پاوون، استادیار هوانوردی و فضانوردی در استنفورد. این تحقیق در کنفرانس بین المللی یادگیری ماشین (ICML) ارائه خواهد شد.

یادگیری کنترلر

تعیین بهترین راه برای کنترل یک ربات برای انجام یک کار معین می تواند یک مشکل دشوار باشد، حتی زمانی که محققان بدانند چگونه همه چیز را در مورد سیستم مدل کنند.

کنترلر منطقی است که به عنوان مثال یک پهپاد را قادر می سازد یک مسیر دلخواه را دنبال کند. این کنترل‌کننده به پهپاد می‌گوید که چگونه نیروهای روتور خود را تنظیم کند تا اثر بادهایی را که می‌تواند آن را از مسیری پایدار برای رسیدن به هدفش منحرف کند، جبران کند.

این پهپاد یک سیستم دینامیکی است – یک سیستم فیزیکی که در طول زمان تکامل می یابد. در این حالت موقعیت و سرعت آن با پرواز در محیط تغییر می کند. اگر چنین سیستمی به اندازه کافی ساده باشد، مهندسان می توانند یک کنترلر را با دست تهیه کنند.

مدلسازی یک سیستم با دست به طور ذاتی ساختار خاصی را بر اساس فیزیک سیستم ثبت می کند. به عنوان مثال، اگر یک ربات به صورت دستی با استفاده از معادلات دیفرانسیل مدل سازی شود، این معادلات رابطه بین سرعت، شتاب و نیرو را نشان می دهد. شتاب نرخ تغییر سرعت در طول زمان است که با جرم و نیروهای اعمال شده به ربات تعیین می شود.

اما اغلب سیستم بسیار پیچیده‌تر از آن است که دقیقاً با دست مدل‌سازی شود. ریچاردز توضیح می‌دهد که تأثیرات آیرودینامیکی، مانند روشی که باد چرخشی یک وسیله نقلیه پرنده را هل می‌دهد، به‌طور دستی دشوار است. محققان در عوض موقعیت، سرعت و سرعت روتور پهپاد را در طول زمان اندازه‌گیری می‌کنند و از یادگیری ماشینی برای تطبیق مدلی از این سیستم دینامیکی با داده‌ها استفاده می‌کنند. اما این رویکردها معمولاً ساختار مبتنی بر کنترل را نمی آموزند. این ساختار در تعیین نحوه تنظیم بهترین سرعت روتور برای هدایت حرکت هواپیمای بدون سرنشین در طول زمان مفید است.

هنگامی که آنها سیستم دینامیکی را مدلسازی کردند، بسیاری از رویکردهای موجود نیز از داده ها برای یادگیری یک کنترل کننده جداگانه برای سیستم استفاده می کنند.

«رویکردهای دیگری که سعی می‌کنند دینامیک و کنترل‌کننده را از داده‌ها به‌عنوان موجودیت‌های مجزا بیاموزند، از نظر فلسفی کمی با روشی که ما معمولاً برای سیستم‌های ساده‌تر انجام می‌دهیم، جدا هستند. ریچاردز می‌گوید: رویکرد ما بیشتر یادآور مدل‌هایی است که به صورت دستی از فیزیک بدست می‌آیند و آن را به کنترل مرتبط می‌کنیم.

شناسایی ساختار

تیم MIT و استنفورد تکنیکی را توسعه دادند که از یادگیری ماشین برای یادگیری مدل دینامیک استفاده می‌کند، اما به گونه‌ای که این مدل دارای ساختار تجویز شده‌ای است که برای کنترل سیستم مفید است.

با این ساختار، آنها می توانند یک کنترلر را مستقیماً از مدل دینامیک استخراج کنند، نه اینکه از داده ها برای یادگیری یک مدل کاملاً مجزا برای کنترلر استفاده کنند.

ما دریافتیم که فراتر از یادگیری دینامیک، یادگیری ساختار کنترل گرا که از طراحی کنترل کننده موثر پشتیبانی می کند نیز ضروری است. به گفته عزیزان، رویکرد ما در یادگیری فاکتورسازی‌های ضرایب وابسته به حالت دینامیک، از نظر کارایی داده و قابلیت ردیابی از خطوط پایه بهتر عمل کرده است، و ثابت کرده است که در کنترل مؤثر و مؤثر مسیر سیستم موفق است.

هنگامی که آنها این رویکرد را آزمایش کردند، کنترل کننده آنها از نزدیک مسیرهای مورد نظر را دنبال کرد و از همه روش های پایه پیشی گرفت. کنترل کننده استخراج شده از مدل آموخته شده آنها تقریباً با عملکرد یک کنترل کننده حقیقت زمینی مطابقت داشت که با استفاده از دینامیک دقیق سیستم ساخته شده است.

ریچاردز می‌افزاید: «با فرضیات ساده‌تر، به چیزی رسیدیم که در واقع بهتر از سایر رویکردهای پایه پیچیده عمل می‌کرد.

محققان همچنین دریافتند که روش آنها از نظر داده کارآمد است، به این معنی که حتی با داده های کمی هم به عملکرد بالایی دست یافته است. به عنوان مثال، می تواند به طور موثر یک وسیله نقلیه روتور محور بسیار پویا را با استفاده از تنها 100 نقطه داده مدل کند. روش‌هایی که از چندین مؤلفه آموخته شده استفاده می‌کردند، با مجموعه داده‌های کوچک‌تر، عملکرد خود را بسیار سریع‌تر کاهش دادند.

این کارایی می تواند تکنیک آنها را به ویژه در شرایطی که یک پهپاد یا ربات نیاز به یادگیری سریع در شرایط به سرعت در حال تغییر دارد، مفید کند.

بعلاوه، رویکرد آنها کلی است و می‌تواند در بسیاری از انواع سیستم‌های دینامیکی، از بازوهای رباتیک گرفته تا فضاپیماهای آزاد پرواز که در محیط‌های با جاذبه کم کار می‌کنند، اعمال شود.

ریچاردز می گوید در آینده، محققان علاقه مند به توسعه مدل هایی هستند که از نظر فیزیکی قابل تفسیرتر باشند و بتوانند اطلاعات بسیار خاصی را در مورد یک سیستم دینامیکی شناسایی کنند. این می تواند منجر به عملکرد بهتر کنترلرها شود.

علیرغم فراگیر بودن و اهمیت آن، کنترل بازخورد غیرخطی یک هنر باقی مانده است و آن را به ویژه برای روش های مبتنی بر داده و مبتنی بر یادگیری مناسب می کند. نیکولای ماتنی، استادیار دپارتمان مهندسی برق و سیستم‌ها در دانشگاه پنسیلوانیا، می‌گوید: این مقاله با پیشنهاد روشی که به طور مشترک دینامیک سیستم، کنترل‌کننده و ساختار کنترل‌گرا را می‌آموزد، کمک قابل توجهی به این حوزه می‌کند. که درگیر این کار نبود. «آنچه که من به‌ویژه هیجان‌انگیز و متقاعدکننده یافتم، ادغام این مؤلفه‌ها در یک الگوریتم یادگیری مشترک بود، به طوری که ساختار کنترل‌محور به عنوان یک سوگیری استقرایی در فرآیند یادگیری عمل می‌کند. نتیجه یک فرآیند یادگیری کارآمد از نظر داده است که مدل‌های پویا را خروجی می‌دهد که از ساختار ذاتی برخوردار هستند که کنترل مؤثر، پایدار و قوی را ممکن می‌سازد. در حالی که مشارکت‌های فنی مقاله به خودی خود عالی هستند، این سهم مفهومی است که به نظر من هیجان‌انگیزترین و مهم‌ترین آن است.»

این تحقیق تا حدی توسط ابتکار رهبری دانشگاه ناسا و شورای تحقیقات علوم طبیعی و مهندسی کانادا پشتیبانی می شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

code