کنترل ربات با روشی ساده
محققان یک تکنیک یادگیری ماشینی را توسعه می دهند که می تواند به طور موثر کنترل یک ربات را یاد بگیرد و منجر به عملکرد بهتر با داده های کمتر شود.
محققان MIT و دانشگاه استنفورد یک رویکرد یادگیری ماشینی جدید ابداع کردهاند که میتواند برای کنترل یک ربات، مانند یک پهپاد یا وسیله نقلیه خودران، به طور موثرتر و کارآمدتر در محیطهای پویا که شرایط میتواند به سرعت تغییر کند، استفاده شود.
این تکنیک می تواند به یک وسیله نقلیه خودران کمک کند تا شرایط جاده لغزنده را جبران کند تا از لغزش جلوگیری کند، به یک پرواز آزاد روباتیک اجازه دهد اشیاء مختلف را در فضا بکسل کند، یا به پهپاد این امکان را بدهد که علیرغم اصابت باد شدید، اسکی باز را از نزدیک دنبال کند. .
رویکرد محققین ساختار خاصی را از نظریه کنترل در فرآیند یادگیری یک مدل گنجانده است، به گونهای که منجر به یک روش موثر برای کنترل دینامیک پیچیده، مانند مواردی که در اثر ضربه باد بر مسیر یک وسیله نقلیه پرنده ایجاد میشود، شود. یکی از راه های فکر کردن در مورد این ساختار به عنوان یک اشاره است که می تواند به راهنمایی در مورد نحوه کنترل یک سیستم کمک کند.
نوید عزیزان، استادیار استر و هارولد ای. ادگرتون در دپارتمان مهندسی مکانیک MIT میگوید: تمرکز کار ما یادگیری ساختار ذاتی در دینامیک سیستم است که میتوان از آن برای طراحی کنترلکنندههای موثرتر و پایدارکننده استفاده کرد. و موسسه دادهها، سیستمها و جامعه (IDSS)، و یکی از اعضای آزمایشگاه اطلاعات و سیستمهای تصمیمگیری (LIDS). “با یادگیری مشترک دینامیک سیستم و این ساختارهای کنترل محور منحصر به فرد از داده ها، می توانیم به طور طبیعی کنترل کننده هایی ایجاد کنیم که در دنیای واقعی بسیار موثرتر عمل کنند.”
با استفاده از این ساختار در یک مدل آموختهشده، تکنیک محققین بلافاصله یک کنترلکننده مؤثر را از مدل استخراج میکند، برخلاف سایر روشهای یادگیری ماشینی که نیاز به استخراج یا یادگیری جداگانه کنترلکننده با مراحل اضافی دارند. با این ساختار، رویکرد آنها همچنین قادر به یادگیری یک کنترل کننده موثر با استفاده از داده های کمتر نسبت به سایر رویکردها است. این می تواند به سیستم کنترل مبتنی بر یادگیری آنها کمک کند تا در محیط هایی که به سرعت در حال تغییر هستند، عملکرد بهتری را سریعتر به دست آورند.
اسپنسر ام. ریچاردز، نویسنده اصلی، دانشجوی کارشناسی ارشد در دانشگاه استنفورد، میگوید: «این کار سعی میکند بین شناسایی ساختار در سیستم شما و یادگیری یک مدل از دادهها تعادل ایجاد کند. «رویکرد ما از نحوه استفاده رباتیکها از فیزیک برای استخراج مدلهای سادهتر برای روباتها الهام گرفته شده است. تجزیه و تحلیل فیزیکی این مدلها اغلب ساختار مفیدی را برای اهداف کنترل به دست میدهد – ساختاری که اگر سعی کنید سادهلوحانه یک مدل را با دادهها تطبیق دهید، ممکن است از دست بدهید. در عوض، ما سعی میکنیم ساختار مفید مشابهی را از دادههایی که نحوه اجرای منطق کنترل شما را نشان میدهند، شناسایی کنیم.”
نویسندگان دیگر مقاله عبارتند از ژان ژاک اسلوتین، استاد مهندسی مکانیک و علوم مغز و شناختی در MIT، و مارکو پاوون، استادیار هوانوردی و فضانوردی در استنفورد. این تحقیق در کنفرانس بین المللی یادگیری ماشین (ICML) ارائه خواهد شد.
یادگیری کنترلر
تعیین بهترین راه برای کنترل یک ربات برای انجام یک کار معین می تواند یک مشکل دشوار باشد، حتی زمانی که محققان بدانند چگونه همه چیز را در مورد سیستم مدل کنند.
کنترلر منطقی است که به عنوان مثال یک پهپاد را قادر می سازد یک مسیر دلخواه را دنبال کند. این کنترلکننده به پهپاد میگوید که چگونه نیروهای روتور خود را تنظیم کند تا اثر بادهایی را که میتواند آن را از مسیری پایدار برای رسیدن به هدفش منحرف کند، جبران کند.
این پهپاد یک سیستم دینامیکی است – یک سیستم فیزیکی که در طول زمان تکامل می یابد. در این حالت موقعیت و سرعت آن با پرواز در محیط تغییر می کند. اگر چنین سیستمی به اندازه کافی ساده باشد، مهندسان می توانند یک کنترلر را با دست تهیه کنند.
مدلسازی یک سیستم با دست به طور ذاتی ساختار خاصی را بر اساس فیزیک سیستم ثبت می کند. به عنوان مثال، اگر یک ربات به صورت دستی با استفاده از معادلات دیفرانسیل مدل سازی شود، این معادلات رابطه بین سرعت، شتاب و نیرو را نشان می دهد. شتاب نرخ تغییر سرعت در طول زمان است که با جرم و نیروهای اعمال شده به ربات تعیین می شود.
اما اغلب سیستم بسیار پیچیدهتر از آن است که دقیقاً با دست مدلسازی شود. ریچاردز توضیح میدهد که تأثیرات آیرودینامیکی، مانند روشی که باد چرخشی یک وسیله نقلیه پرنده را هل میدهد، بهطور دستی دشوار است. محققان در عوض موقعیت، سرعت و سرعت روتور پهپاد را در طول زمان اندازهگیری میکنند و از یادگیری ماشینی برای تطبیق مدلی از این سیستم دینامیکی با دادهها استفاده میکنند. اما این رویکردها معمولاً ساختار مبتنی بر کنترل را نمی آموزند. این ساختار در تعیین نحوه تنظیم بهترین سرعت روتور برای هدایت حرکت هواپیمای بدون سرنشین در طول زمان مفید است.
هنگامی که آنها سیستم دینامیکی را مدلسازی کردند، بسیاری از رویکردهای موجود نیز از داده ها برای یادگیری یک کنترل کننده جداگانه برای سیستم استفاده می کنند.
«رویکردهای دیگری که سعی میکنند دینامیک و کنترلکننده را از دادهها بهعنوان موجودیتهای مجزا بیاموزند، از نظر فلسفی کمی با روشی که ما معمولاً برای سیستمهای سادهتر انجام میدهیم، جدا هستند. ریچاردز میگوید: رویکرد ما بیشتر یادآور مدلهایی است که به صورت دستی از فیزیک بدست میآیند و آن را به کنترل مرتبط میکنیم.
شناسایی ساختار
تیم MIT و استنفورد تکنیکی را توسعه دادند که از یادگیری ماشین برای یادگیری مدل دینامیک استفاده میکند، اما به گونهای که این مدل دارای ساختار تجویز شدهای است که برای کنترل سیستم مفید است.
با این ساختار، آنها می توانند یک کنترلر را مستقیماً از مدل دینامیک استخراج کنند، نه اینکه از داده ها برای یادگیری یک مدل کاملاً مجزا برای کنترلر استفاده کنند.
ما دریافتیم که فراتر از یادگیری دینامیک، یادگیری ساختار کنترل گرا که از طراحی کنترل کننده موثر پشتیبانی می کند نیز ضروری است. به گفته عزیزان، رویکرد ما در یادگیری فاکتورسازیهای ضرایب وابسته به حالت دینامیک، از نظر کارایی داده و قابلیت ردیابی از خطوط پایه بهتر عمل کرده است، و ثابت کرده است که در کنترل مؤثر و مؤثر مسیر سیستم موفق است.
هنگامی که آنها این رویکرد را آزمایش کردند، کنترل کننده آنها از نزدیک مسیرهای مورد نظر را دنبال کرد و از همه روش های پایه پیشی گرفت. کنترل کننده استخراج شده از مدل آموخته شده آنها تقریباً با عملکرد یک کنترل کننده حقیقت زمینی مطابقت داشت که با استفاده از دینامیک دقیق سیستم ساخته شده است.
ریچاردز میافزاید: «با فرضیات سادهتر، به چیزی رسیدیم که در واقع بهتر از سایر رویکردهای پایه پیچیده عمل میکرد.
محققان همچنین دریافتند که روش آنها از نظر داده کارآمد است، به این معنی که حتی با داده های کمی هم به عملکرد بالایی دست یافته است. به عنوان مثال، می تواند به طور موثر یک وسیله نقلیه روتور محور بسیار پویا را با استفاده از تنها 100 نقطه داده مدل کند. روشهایی که از چندین مؤلفه آموخته شده استفاده میکردند، با مجموعه دادههای کوچکتر، عملکرد خود را بسیار سریعتر کاهش دادند.
این کارایی می تواند تکنیک آنها را به ویژه در شرایطی که یک پهپاد یا ربات نیاز به یادگیری سریع در شرایط به سرعت در حال تغییر دارد، مفید کند.
بعلاوه، رویکرد آنها کلی است و میتواند در بسیاری از انواع سیستمهای دینامیکی، از بازوهای رباتیک گرفته تا فضاپیماهای آزاد پرواز که در محیطهای با جاذبه کم کار میکنند، اعمال شود.
ریچاردز می گوید در آینده، محققان علاقه مند به توسعه مدل هایی هستند که از نظر فیزیکی قابل تفسیرتر باشند و بتوانند اطلاعات بسیار خاصی را در مورد یک سیستم دینامیکی شناسایی کنند. این می تواند منجر به عملکرد بهتر کنترلرها شود.
علیرغم فراگیر بودن و اهمیت آن، کنترل بازخورد غیرخطی یک هنر باقی مانده است و آن را به ویژه برای روش های مبتنی بر داده و مبتنی بر یادگیری مناسب می کند. نیکولای ماتنی، استادیار دپارتمان مهندسی برق و سیستمها در دانشگاه پنسیلوانیا، میگوید: این مقاله با پیشنهاد روشی که به طور مشترک دینامیک سیستم، کنترلکننده و ساختار کنترلگرا را میآموزد، کمک قابل توجهی به این حوزه میکند. که درگیر این کار نبود. «آنچه که من بهویژه هیجانانگیز و متقاعدکننده یافتم، ادغام این مؤلفهها در یک الگوریتم یادگیری مشترک بود، به طوری که ساختار کنترلمحور به عنوان یک سوگیری استقرایی در فرآیند یادگیری عمل میکند. نتیجه یک فرآیند یادگیری کارآمد از نظر داده است که مدلهای پویا را خروجی میدهد که از ساختار ذاتی برخوردار هستند که کنترل مؤثر، پایدار و قوی را ممکن میسازد. در حالی که مشارکتهای فنی مقاله به خودی خود عالی هستند، این سهم مفهومی است که به نظر من هیجانانگیزترین و مهمترین آن است.»
این تحقیق تا حدی توسط ابتکار رهبری دانشگاه ناسا و شورای تحقیقات علوم طبیعی و مهندسی کانادا پشتیبانی می شود.