کمک هوش مصنوعی به رباتها در دستکاری اشیا
با یک تکنیک جدید، یک ربات می تواند به طور موثر در مورد اجسام متحرک با استفاده از چیزی بیش از نوک انگشتان خود استدلال کند.
تصور کنید که می خواهید یک جعبه بزرگ و سنگین را از یک پله بالا ببرید. ممکن است انگشتان خود را به سمت بیرون باز کنید و آن جعبه را با دو دست بلند کنید، سپس آن را بالای ساعد خود نگه دارید و آن را در برابر قفسه سینه خود متعادل کنید و از تمام بدن خود برای دستکاری جعبه استفاده کنید.
انسان ها به طور کلی در دستکاری کل بدن خوب هستند، اما روبات ها با چنین وظایفی دست و پنجه نرم می کنند. برای ربات، هر نقطه ای که جعبه می تواند هر نقطه ای از انگشتان، بازوها و تنه حامل را لمس کند، نشان دهنده یک رویداد تماسی است که باید درباره آن استدلال کند. با میلیاردها رویداد تماس بالقوه، برنامه ریزی برای این کار به سرعت غیرقابل حل می شود.
اکنون محققان MIT راهی برای سادهسازی این فرآیند پیدا کردند که به برنامهریزی دستکاری غنی از تماس معروف است. آنها از یک تکنیک هوش مصنوعی به نام صاف کردن استفاده می کنند که بسیاری از رویدادهای تماس را در تعداد کمتری از تصمیمات خلاصه می کند تا حتی یک الگوریتم ساده را قادر می سازد تا به سرعت یک برنامه دستکاری موثر برای ربات را شناسایی کند.
در حالی که این روش هنوز در روزهای اولیه خود است، به طور بالقوه میتواند کارخانهها را قادر به استفاده از رباتهای کوچکتر و متحرکی کند که میتوانند اشیاء را با تمام بازوها یا بدن خود دستکاری کنند، به جای بازوهای رباتیک بزرگ که فقط با نوک انگشتان میتوانند آنها را بگیرند. این ممکن است به کاهش مصرف انرژی و کاهش هزینه ها کمک کند. علاوه بر این، این تکنیک میتواند در رباتهایی که برای مأموریتهای اکتشافی به مریخ یا دیگر اجرام منظومه شمسی فرستاده میشوند، مفید باشد، زیرا آنها میتوانند به سرعت با محیط تنها با استفاده از یک رایانه داخلی سازگار شوند.
به جای اینکه به این موضوع به عنوان یک سیستم جعبه سیاه فکر کنیم، اگر بتوانیم از ساختار این نوع سیستمهای روباتیک با استفاده از مدلها استفاده کنیم، فرصتی برای تسریع در تلاش برای گرفتن این تصمیمها و دستیابی به ابزارهای غنی از تماس وجود دارد. H.J. Terry Suh، دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) و نویسنده ارشد مقاله در مورد این تکنیک می گوید.
به Suh در این مقاله میپیوندند، نویسنده ارشد تائو پانگ PhD ’23، یک روباتیک در موسسه هوش مصنوعی Boston Dynamics. لوجی یانگ، دانشجوی کارشناسی ارشد EECS. و نویسنده ارشد راس تدراک، پروفسور تویوتا EECS، هوانوردی و فضانوردی، و مهندسی مکانیک، و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL). این تحقیق این هفته در IEEE Transactions on Robotics ظاهر می شود.
یادگیری در مورد یادگیری
یادگیری تقویتی یک تکنیک یادگیری ماشینی است که در آن یک عامل، مانند یک ربات، می آموزد که یک کار را از طریق آزمون و خطا با پاداش برای نزدیک شدن به یک هدف تکمیل کند. محققان می گویند این نوع یادگیری رویکرد جعبه سیاه دارد زیرا سیستم باید همه چیز را در مورد جهان از طریق آزمون و خطا یاد بگیرد.
این به طور موثر برای برنامه ریزی دستکاری غنی از تماس مورد استفاده قرار گرفته است، جایی که ربات به دنبال یادگیری بهترین راه برای حرکت دادن یک شی به شیوه ای مشخص است.
اما از آنجایی که ممکن است میلیاردها نقطه تماس بالقوه وجود داشته باشد که یک ربات باید در مورد نحوه استفاده از انگشتان، دستها، بازوها و بدن خود برای تعامل با یک جسم استدلال کند، این رویکرد آزمون و خطا به مقدار زیادی محاسبات نیاز دارد.
Suh می افزاید: «یادگیری تقویتی ممکن است نیاز به طی میلیون ها سال در زمان شبیه سازی داشته باشد تا بتواند واقعاً یک خط مشی را یاد بگیرد.
از سوی دیگر، اگر محققان به طور خاص یک مدل مبتنی بر فیزیک را با استفاده از دانش خود از سیستم و وظیفه ای که می خواهند ربات انجام دهد طراحی کنند، آن مدل ساختاری را در مورد این جهان ترکیب می کند که آن را کارآمدتر می کند.
با این حال، رویکردهای مبتنی بر فیزیک به اندازه یادگیری تقویتی در مورد برنامه ریزی دستکاری غنی از تماس موثر نیستند – سو و پانگ تعجب کردند که چرا.
آنها تجزیه و تحلیل دقیقی انجام دادند و دریافتند که تکنیکی به نام صاف کردن، یادگیری تقویتی را قادر می سازد تا به خوبی عمل کند.
بسیاری از تصمیماتی که یک ربات می تواند هنگام تعیین نحوه دستکاری یک شی بگیرد، در طرح بزرگ چیزها مهم نیستند. به عنوان مثال، هر تنظیم بینهایت کوچک یک انگشت، خواه منجر به تماس با جسم شود یا نه، خیلی مهم نیست. هموارسازی بسیاری از آن تصمیمات بی اهمیت و میانی را از بین می برد و چند مورد مهم باقی می ماند.
یادگیری تقویتی با آزمایش بسیاری از نقاط تماس و سپس محاسبه میانگین وزنی نتایج، هموارسازی را بطور ضمنی انجام می دهد. با تکیه بر این بینش، محققان MIT یک مدل ساده طراحی کردند که نوع مشابهی از هموارسازی را انجام میدهد و آن را قادر میسازد بر تعاملات هستهای ربات و شی تمرکز کند و رفتار بلندمدت را پیشبینی کند. آنها نشان دادند که این رویکرد می تواند به اندازه یادگیری تقویتی در ایجاد طرح های پیچیده موثر باشد.
Pang می گوید: «اگر کمی بیشتر در مورد مشکل خود بدانید، می توانید الگوریتم های کارآمدتری طراحی کنید.
یک ترکیب برنده
حتی اگر هموارسازی تصمیمات را تا حد زیادی ساده می کند، جستجو در میان تصمیمات باقی مانده همچنان می تواند مشکلی دشوار باشد. بنابراین، محققان مدل خود را با الگوریتمی ترکیب کردند که می تواند به سرعت و به طور موثر تمام تصمیمات ممکن را که ربات می تواند بگیرد، جستجو کند.
با این ترکیب، زمان محاسبات در یک لپ تاپ استاندارد به حدود یک دقیقه کاهش یافت.
آنها ابتدا رویکرد خود را در شبیهسازیهایی آزمایش کردند که در آن به دستهای رباتیک وظایفی مانند حرکت دادن خودکار به پیکربندی دلخواه، باز کردن در یا برداشتن یک بشقاب داده میشد. در هر نمونه، رویکرد مبتنی بر مدل آنها عملکردی مشابه با یادگیری تقویتی داشت، اما در کسری از زمان. آنها نتایج مشابهی را هنگام آزمایش مدل خود در سخت افزار روی بازوهای روباتیک واقعی مشاهده کردند.
همان ایدههایی که دستکاری کل بدن را امکانپذیر میکنند، برای برنامهریزی با دستهای ماهر و انسانمانند نیز کار میکنند. پیش از این، بیشتر محققان میگفتند که یادگیری تقویتی تنها رویکردی است که برای دستهای ماهر مقیاس میشود، اما تری و تائو نشان دادند که با استفاده از این ایده کلیدی هموارسازی (تصادفیشده) از یادگیری تقویتی، میتوانند روشهای برنامهریزی سنتیتر را نیز بسیار خوب عمل کنند. تدراک می گوید.
با این حال، مدلی که آنها توسعه دادند بر تقریب سادهتری از دنیای واقعی متکی است، بنابراین نمیتواند حرکات بسیار پویا، مانند سقوط اجسام را مدیریت کند. در حالی که برای کارهای دستکاری کندتر مؤثر است، رویکرد آنها نمی تواند طرحی ایجاد کند که به عنوان مثال، ربات را قادر می سازد سطل زباله را به سطل زباله پرتاب کند. در آینده، محققان قصد دارند تکنیک خود را تقویت کنند تا بتواند با این حرکات بسیار پویا مقابله کند.
«اگر مدلهای خود را به دقت مطالعه کنید و واقعاً مشکلی را که میخواهید حل کنید درک کنید، قطعاً میتوانید به دستاوردهایی دست یابید. سو می گوید: انجام کارهایی که فراتر از جعبه سیاه هستند، مزایایی دارد.
این کار تا حدی توسط آمازون، آزمایشگاه MIT لینکلن، بنیاد ملی علوم و گروه Ocado تامین می شود.