کمک و همکاری چندگانه هوش مصنوعی به استدلال و دقت واقعی در مدل های زبان
محققان از چندین مدل هوش مصنوعی برای همکاری، بحث، و بهبود تواناییهای استدلالی خود برای پیشبرد عملکرد LLM و در عین حال افزایش پاسخگویی و دقت واقعی استفاده میکنند.
یک ضرب المثل قدیمی، که اغلب در سال های شکل گیری به ما معرفی می شود، طراحی شده است تا ما را فراتر از ذهن خود محور و نوپا سوق دهد: “دو سر بهتر از یک سر است.” این ضرب المثل تفکر مشارکتی را تشویق می کند و قدرت عقل مشترک را برجسته می کند.
به سرعت به سال 2023 برسید و متوجه می شویم که این حکمت حتی در حوزه هوش مصنوعی نیز صادق است: مدل های چند زبانه که هماهنگ کار می کنند، بهتر از یک مدل هستند.
اخیراً تیمی از آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) این حکمت باستانی را در مرزهای فناوری مدرن تجسم داده است. آنها راهبردی را معرفی کردند که از چندین سیستم هوش مصنوعی برای بحث و گفتگو با یکدیگر استفاده می کند تا به بهترین پاسخ ممکن برای یک سؤال داده شده همگرا شوند. این روش به این مدلهای زبانی گسترده قدرت میدهد تا پایبندی خود را به دادههای واقعی افزایش دهند و تصمیمگیری خود را اصلاح کنند.
اصل مشکل با مدلهای زبان بزرگ (LLM) در ناهماهنگی پاسخهای تولید شده آنها نهفته است که منجر به عدم دقت بالقوه و استدلال ناقص میشود. این رویکرد جدید به هر عامل اجازه میدهد تا پاسخهای هر عامل دیگری را به طور فعال ارزیابی کند و از این بازخورد جمعی برای اصلاح پاسخ خود استفاده کند. از نظر فنی، این فرآیند شامل چندین دور تولید پاسخ و نقد است. هر مدل زبانی پاسخی برای سوال داده شده ایجاد می کند و سپس بازخورد همه عوامل دیگر را برای به روز رسانی پاسخ خود ترکیب می کند. این چرخه تکراری در خروجی نهایی از رای اکثریت در سراسر راه حل های مدل ها به اوج خود می رسد. این تا حدودی منعکس کننده پویایی یک بحث گروهی است – جایی که افراد برای رسیدن به یک نتیجه یکپارچه و مستدل مشارکت می کنند.
یکی از نقاط قوت این رویکرد در کاربرد یکپارچه آن برای مدلهای جعبه سیاه موجود است. از آنجایی که این روش حول محور تولید متن میچرخد، میتوان آن را در LLMهای مختلف بدون نیاز به دسترسی به کارهای داخلی آنها پیادهسازی کرد. این تیم میگوید این سادگی میتواند به محققان و توسعهدهندگان کمک کند تا از این ابزار برای بهبود ثبات و دقت واقعی خروجیهای مدل زبان در سراسر صفحه استفاده کنند.
«با استفاده از یک رویکرد جدید، ما به سادگی به یک مدل هوش مصنوعی برای پاسخ تکیه نمی کنیم. در عوض، فرآیند ما از مدلهای هوش مصنوعی زیادی استفاده میکند که هر کدام بینشهای منحصربهفردی را برای مقابله با یک سؤال به ارمغان میآورند. ییلون دو، دانشجوی دکترای MIT در مهندسی برق و علوم کامپیوتر، وابسته به MIT CSAIL، میگوید: اگرچه پاسخهای اولیه آنها ممکن است کوتاهشده یا حاوی خطا به نظر برسد، اما این مدلها میتوانند پاسخهای خود را با بررسی دقیق پاسخهای ارائهشده توسط همتایان خود تیز کنند و بهبود بخشند. و نویسنده اصلی مقاله جدیدی در مورد این کار است. «از آنجایی که این مدلهای هوش مصنوعی درگیر گفتمان و بحث میشوند، برای تشخیص و اصلاح مسائل، افزایش تواناییهای حل مسئله و بررسی بهتر دقت پاسخهایشان، مجهزتر هستند. اساساً، ما در حال پرورش محیطی هستیم که آنها را وادار می کند تا عمیق تر در اصل یک مشکل کاوش کنند. این در تضاد با یک مدل هوش مصنوعی منفرد است که اغلب محتوای موجود در اینترنت را طوطی وار نشان می دهد. با این حال، روش ما به طور فعال مدلهای هوش مصنوعی را برای ایجاد راهحلهای دقیقتر و جامعتر تحریک میکند.”
این تحقیق به حل مسئله ریاضی، از جمله مسائل ریاضی دبیرستان و راهنمایی/ دبیرستان پرداخت و شاهد افزایش قابل توجهی در عملکرد از طریق فرآیند بحث چند عاملی بود. علاوه بر این، مدلهای زبان تواناییهای پیشرفتهتری را برای ایجاد ارزیابیهای دقیق حسابی نشان دادند که پتانسیل را در حوزههای مختلف نشان میداد.
این روش همچنین می تواند به حل مسئله “توهمات” که اغلب مدل های زبانی را آزار می دهد کمک کند. با طراحی محیطی که در آن عوامل پاسخهای یکدیگر را نقد میکنند، انگیزه بیشتری برای اجتناب از تفکیک اطلاعات تصادفی و اولویت دادن به دقت واقعی داشتند.
فراتر از کاربرد آن در مدلهای زبان، این رویکرد همچنین میتواند برای ادغام مدلهای متنوع با قابلیتهای تخصصی استفاده شود. با ایجاد یک سیستم غیرمتمرکز که در آن چندین عامل تعامل و بحث می کنند، آنها به طور بالقوه می توانند از این توانایی های جامع و کارآمد حل مسئله در روش های مختلف مانند گفتار، ویدئو یا متن استفاده کنند.
در حالی که روش شناسی نتایج دلگرم کننده ای به همراه داشت، محققان می گویند که مدل های زبان موجود ممکن است در پردازش زمینه های بسیار طولانی با چالش هایی مواجه شوند و توانایی های نقد ممکن است به اندازه دلخواه اصلاح نشده باشند. علاوه بر این، این تیم میگوید که قالب بحث چند عاملی، الهامگرفته از تعامل گروهی انسانی، هنوز اشکال پیچیدهتری از بحث را که به تصمیمگیری هوشمند جمعی کمک میکنند، در بر نگرفته است. پیشرفت این تکنیک میتواند شامل درک عمیقتر مبانی محاسباتی پشت بحثها و بحثهای انسانی و استفاده از آن مدلها برای تقویت یا تکمیل LLMهای موجود باشد.
این رویکرد نه تنها راهی برای ارتقای عملکرد مدلهای زبانی موجود ارائه میکند، بلکه ابزاری خودکار برای بهبود خود نیز ارائه میکند. با استفاده از فرآیند بحث به عنوان دادههای نظارت شده، مدلهای زبانی میتوانند واقعیت و استدلال خود را به طور مستقل افزایش دهند و کاهش دهند. اتکا به بازخورد انسانی و ارائه رویکردی مقیاسپذیر برای بهبود خود.» همانطور که محققان به اصلاح و کاوش این رویکرد ادامه میدهند، میتوانیم به آیندهای نزدیک شویم که در آن مدلهای زبان نه تنها زبان انسانمانند را تقلید میکنند، بلکه تفکر سیستماتیکتر و قابل اعتمادتری را نشان میدهند و دوره جدیدی از درک و کاربرد زبان را ایجاد میکنند.»
آنکا دراگان، دانشیار دانشگاه کالیفرنیا در دپارتمان مهندسی برق برکلی میگوید: «استفاده از یک فرآیند مشورتی برای بهبود خروجی کلی مدل بسیار منطقی است، و این یک گام بزرگ رو به جلو از تحریک زنجیرهای از فکر است. و علوم کامپیوتر که در کار نبودند. “من در مورد اینکه این موضوع می تواند بعد به کجا برسد هیجان زده هستم. آیا مردم وقتی می بینند که بحث LLM می آید بهتر قضاوت کنند، آیا همگرا می شود یا نه؟ آیا افراد می توانند خودشان با مشورت با یک LLM به پاسخ های بهتری برسند؟ آیا پاسخ های مشابهی می تواند باشد. این ایده برای کمک به کاربر برای بررسی پاسخ LLM به منظور رسیدن به پاسخ بهتر استفاده شود؟”
دو مقاله را با سه شرکت وابسته به CSAIL نوشت: Shuang Li SM ’20, PhD ’23; آنتونیو تورالبا، استاد مهندسی برق و علوم کامپیوتر MIT؛ و جاشوا تننبام، استاد علوم شناختی محاسباتی MIT و عضو مرکز مغزها، ذهنها و ماشینها. ایگور موردچ، محقق DeepMind گوگل نیز یکی از نویسندگان آن بود.