یک مدل هوش مصنوعی برای تولید الگوی پیشرفته
با الهام از فیزیک، یک مدل مولد جدید PFGM++ در تولید تصویر از مدلهای انتشار بهتر عمل میکند.
هوش مصنوعی مولد که در حال حاضر بر تاج گفتمان مردمی سوار است، نوید جهانی را می دهد که در آن ساده به پیچیده تبدیل می شود – جایی که توزیع ساده به الگوهای پیچیده ای از تصاویر، صداها یا متن تبدیل می شود و مصنوعی را به طرز شگفت انگیزی واقعی می کند.
قلمروهای تخیل دیگر به عنوان یک انتزاع صرف باقی نمی مانند، زیرا محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) یک مدل هوش مصنوعی خلاقانه را زنده کرده اند. فناوری جدید آنها دو قانون فیزیکی ظاهرا نامرتبط را که زیربنای بهترین مدلهای مولد تا به امروز هستند، ادغام میکند: انتشار، که معمولاً حرکت تصادفی عناصر را نشان میدهد، مانند گرما در اتاق نفوذ میکند یا گازی که به فضا منبسط میشود، و جریان پواسون، که از آن استفاده میکند. اصول حاکم بر فعالیت بارهای الکتریکی
این ترکیب هماهنگ منجر به عملکرد برتر در تولید تصاویر جدید شده است که از مدل های پیشرفته موجود پیشی گرفته است. از زمان آغاز به کار، “مدل مولد جریان پواسون ++” (PFGM++) کاربردهای بالقوه ای در زمینه های مختلف پیدا کرده است، از تولید توالی آنتی بادی و RNA تا تولید صدا و تولید نمودار.
این مدل می تواند الگوهای پیچیده ای مانند ایجاد تصاویر واقعی یا تقلید از فرآیندهای دنیای واقعی ایجاد کند. PFGM++ برگرفته از PFGM، کار تیم در سال قبل است. PFGM از ابزار معادله ریاضی معروف به معادله پواسون الهام می گیرد و سپس آن را در داده هایی که مدل سعی می کند از آنها بیاموزد اعمال می کند. برای انجام این کار، تیم از یک ترفند هوشمندانه استفاده کرد: آنها یک بعد اضافی به “فضای” مدل خود اضافه کردند، مانند رفتن از یک طرح دو بعدی به یک مدل سه بعدی. این بعد اضافی فضای بیشتری برای مانور می دهد، داده ها را در یک زمینه بزرگتر قرار می دهد و به فرد کمک می کند هنگام تولید نمونه های جدید از همه جهت به داده ها نزدیک شود.
جسی تالر، فیزیکدان نظری ذرات در آزمایشگاه علوم هستهای مرکز فیزیک نظری MIT و مدیر بنیاد ملی علوم AI میگوید: «PFGM++ نمونهای از انواع پیشرفتهای هوش مصنوعی است که میتواند از طریق همکاریهای میان رشتهای بین فیزیکدانان و دانشمندان رایانه انجام شود. مؤسسه هوش مصنوعی و تعاملات بنیادی (NSF AI IAIFI)، که در این کار دخالتی نداشت. در سالهای اخیر، مدلهای مولد مبتنی بر هوش مصنوعی، نتایج چشمگیر متعددی از تصاویر واقعی گرفته تا جریانهای شفاف متن به دست آوردهاند. به طور قابل توجهی، برخی از قدرتمندترین مدلهای مولد مبتنی بر مفاهیم آزمایش شده با زمان از فیزیک، مانند تقارن و ترمودینامیک هستند. PFGM++ یک ایده قرن قدمت از فیزیک بنیادی – که ممکن است ابعاد اضافی فضا-زمان وجود داشته باشد – گرفته و آن را به ابزاری قدرتمند و قوی برای تولید مجموعه داده های مصنوعی اما واقعی تبدیل می کند. من از دیدن روشهای بیشماری که «هوش فیزیک» حوزه هوش مصنوعی را متحول میکند، هیجانزده هستم.»
مکانیسم اساسی PFGM آنقدرها که به نظر می رسد پیچیده نیست. محققان این دادهها را با بارهای الکتریکی کوچکی که در یک صفحه مسطح در یک دنیای منبسطشده به ابعاد قرار میگیرند مقایسه کردند. این بارها یک “میدان الکتریکی” تولید می کنند که بارها به دنبال حرکت به سمت بالا در امتداد خطوط میدان به یک بعد اضافی هستند و در نتیجه توزیع یکنواختی را در یک نیمکره خیالی وسیع تشکیل می دهند. فرآیند تولید مانند چرخاندن یک نوار ویدئویی به عقب است: با مجموعه ای از بارها که به طور یکنواخت توزیع شده روی نیمکره شروع می شود و سفر آنها به صفحه صاف در امتداد خطوط الکتریکی را ردیابی می کنند، آنها برای مطابقت با توزیع داده های اصلی تراز می شوند. این فرآیند جذاب به مدل عصبی اجازه می دهد تا میدان الکتریکی را بیاموزد و داده های جدیدی تولید کند که منعکس کننده اصل است.
مدل PFGM++ میدان الکتریکی در PFGM را به یک چارچوب پیچیده و با ابعاد بالاتر گسترش میدهد. وقتی به گسترش این ابعاد ادامه می دهید، اتفاق غیرمنتظره ای رخ می دهد – مدل شروع به شبیه شدن به کلاس مهم دیگری از مدل ها، مدل های انتشار می کند. این کار تماماً در مورد یافتن تعادل مناسب است. مدلهای PFGM و دیفیوژن در دو انتهای یک طیف قرار دارند: یکی از آنها قوی اما پیچیده است و دیگری سادهتر اما کمتر استحکام دارد. مدل PFGM++ نقطه ای شیرین را ارائه می دهد و تعادلی بین استحکام و سهولت استفاده ایجاد می کند. این نوآوری راه را برای تولید تصویر و الگوی کارآمدتر هموار می کند و گامی مهم به جلو در فناوری را نشان می دهد. محققان همراه با ابعاد قابل تنظیم، روش آموزشی جدیدی را پیشنهاد کردند که یادگیری کارآمدتر میدان الکتریکی را ممکن میسازد.
برای تحقق بخشیدن به این نظریه، تیم یک جفت معادله دیفرانسیل را حل کرد که حرکت این بارها را در میدان الکتریکی با جزئیات شرح میداد. آنها عملکرد را با استفاده از امتیاز فاصله اولیه Frechet (FID) ارزیابی کردند، معیاری که به طور گسترده پذیرفته شده است که کیفیت تصاویر تولید شده توسط مدل را در مقایسه با تصاویر واقعی ارزیابی می کند. PFGM++ همچنین مقاومت بالاتری در برابر خطاها و استحکام نسبت به اندازه پله در معادلات دیفرانسیل را نشان می دهد.
با نگاهی به آینده، آنها قصد دارند جنبه های خاصی از مدل را اصلاح کنند، به ویژه به روش های سیستماتیک برای شناسایی مقدار “نقطه شیرین” D که برای داده ها، معماری ها و وظایف خاص با تجزیه و تحلیل رفتار خطاهای تخمین شبکه های عصبی طراحی شده است. آنها همچنین قصد دارند PFGM++ را برای تولید متن به تصویر/متن به ویدئو در مقیاس بزرگ مدرن اعمال کنند.
یانگ سونگ، دانشمند تحقیقاتی در OpenAI میگوید: «مدلهای انتشار به یک نیروی محرکه مهم در پشت انقلاب در هوش مصنوعی مولد تبدیل شدهاند. PFGM++ تعمیم قدرتمندی از مدلهای انتشار را ارائه میکند و به کاربران اجازه میدهد تا با بهبود استحکام تولید تصویر در برابر آشفتگیها و خطاهای یادگیری، تصاویری با کیفیت بالاتر تولید کنند. علاوه بر این، PFGM++ یک ارتباط شگفتانگیز بین مدلهای الکترواستاتیک و انتشار را آشکار میکند و بینش نظری جدیدی را در مورد تحقیقات مدل انتشار ارائه میکند.
مدل PFGM++ میدان الکتریکی در PFGM را به یک چارچوب پیچیده و با ابعاد بالاتر گسترش میدهد. وقتی به گسترش این ابعاد ادامه می دهید، اتفاق غیرمنتظره ای رخ می دهد – مدل شروع به شبیه شدن به کلاس مهم دیگری از مدل ها، مدل های انتشار می کند. این کار تماماً در مورد یافتن تعادل مناسب است. مدلهای PFGM و دیفیوژن در دو انتهای یک طیف قرار دارند: یکی از آنها قوی اما پیچیده است و دیگری سادهتر اما کمتر استحکام دارد. مدل PFGM++ نقطه ای شیرین را ارائه می دهد و تعادلی بین استحکام و سهولت استفاده ایجاد می کند. این نوآوری راه را برای تولید تصویر و الگوی کارآمدتر هموار می کند و گامی مهم به جلو در فناوری را نشان می دهد. محققان همراه با ابعاد قابل تنظیم، روش آموزشی جدیدی را پیشنهاد کردند که یادگیری کارآمدتر میدان الکتریکی را ممکن میسازد.
برای تحقق بخشیدن به این نظریه، تیم یک جفت معادله دیفرانسیل را حل کرد که حرکت این بارها را در میدان الکتریکی با جزئیات شرح میداد. آنها عملکرد را با استفاده از امتیاز فاصله اولیه Frechet (FID) ارزیابی کردند، معیاری که به طور گسترده پذیرفته شده است که کیفیت تصاویر تولید شده توسط مدل را در مقایسه با تصاویر واقعی ارزیابی می کند. PFGM++ همچنین مقاومت بالاتری در برابر خطاها و استحکام نسبت به اندازه پله در معادلات دیفرانسیل را نشان می دهد.
با نگاهی به آینده، آنها قصد دارند جنبه های خاصی از مدل را اصلاح کنند، به ویژه به روش های سیستماتیک برای شناسایی مقدار “نقطه شیرین” D که برای داده ها، معماری ها و وظایف خاص با تجزیه و تحلیل رفتار خطاهای تخمین شبکه های عصبی طراحی شده است. آنها همچنین قصد دارند PFGM++ را برای تولید متن به تصویر/متن به ویدئو در مقیاس بزرگ مدرن اعمال کنند.
یانگ سونگ، دانشمند تحقیقاتی در OpenAI میگوید: «مدلهای انتشار به یک نیروی محرکه مهم در پشت انقلاب در هوش مصنوعی مولد تبدیل شدهاند. PFGM++ تعمیم قدرتمندی از مدلهای انتشار را ارائه میکند و به کاربران اجازه میدهد تا با بهبود استحکام تولید تصویر در برابر آشفتگیها و خطاهای یادگیری، تصاویری با کیفیت بالاتر تولید کنند. علاوه بر این، PFGM++ یک ارتباط شگفتانگیز بین مدلهای الکترواستاتیک و انتشار را آشکار میکند و بینش نظری جدیدی را در مورد تحقیقات مدل انتشار ارائه میکند.
کارستن کریس، محقق ارشد NVIDIA، می گوید: «مدل های مولد جریان پواسون نه تنها بر یک فرمول زیبا الهام گرفته از فیزیک مبتنی بر الکترواستاتیک متکی هستند، بلکه در عمل نیز عملکرد مدل سازی مولد پیشرفته ای را ارائه می دهند. در کار. آنها حتی از مدلهای رایج انتشار که در حال حاضر بر ادبیات غالب هستند، بهتر عمل میکنند. این آنها را به یک ابزار مدلسازی مولد بسیار قدرتمند تبدیل میکند و من کاربرد آنها را در زمینههای مختلف، از تولید محتوای دیجیتال تا کشف داروی مولد، تصور میکنم. به طور کلی، من معتقدم که کاوش در چارچوبهای مدلسازی مولد الهامگرفته از فیزیک، نویدبخش آینده است و مدلهای مولد جریان پواسون تنها آغاز راه هستند.
نویسندگان مقاله ای در مورد این کار شامل سه دانشجوی فارغ التحصیل MIT هستند: ییلون زو از دپارتمان مهندسی برق و علوم کامپیوتر (EECS) و CSAIL، زیمینگ لیو از دپارتمان فیزیک و NSF AI IAIFI، و Shangyuan Tong از EECS و CSAIL. و همچنین دانشمند تحقیقات ارشد گوگل، یونگ لانگ تیان دکترای ’23. مکس تگمارک و تامی جاکولا از اساتید MIT این تحقیق را توصیه کردند.
این تیم توسط همکاری MIT-DSTA سنگاپور، آزمایشگاه هوش مصنوعی واتسون MIT-IBM، کمک های مالی بنیاد ملی علوم، بنیاد کیسی و خانواده، موسسه سوالات بنیادی، صندوق خانواده Rothberg برای علوم شناختی، و ML برای کشف دارویی حمایت شد. و کنسرسیوم سنتز کار آنها در کنفرانس بین المللی یادگیری ماشین در تابستان امسال ارائه شد.