یک مدل هوش مصنوعی برای تولید الگوی پیشرفته

با الهام از فیزیک، یک مدل مولد جدید PFGM++ در تولید تصویر از مدل‌های انتشار بهتر عمل می‌کند.

هوش مصنوعی مولد که در حال حاضر بر تاج گفتمان مردمی سوار است، نوید جهانی را می دهد که در آن ساده به پیچیده تبدیل می شود – جایی که توزیع ساده به الگوهای پیچیده ای از تصاویر، صداها یا متن تبدیل می شود و مصنوعی را به طرز شگفت انگیزی واقعی می کند.

قلمروهای تخیل دیگر به عنوان یک انتزاع صرف باقی نمی مانند، زیرا محققان آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) یک مدل هوش مصنوعی خلاقانه را زنده کرده اند. فناوری جدید آن‌ها دو قانون فیزیکی ظاهرا نامرتبط را که زیربنای بهترین مدل‌های مولد تا به امروز هستند، ادغام می‌کند: انتشار، که معمولاً حرکت تصادفی عناصر را نشان می‌دهد، مانند گرما در اتاق نفوذ می‌کند یا گازی که به فضا منبسط می‌شود، و جریان پواسون، که از آن استفاده می‌کند. اصول حاکم بر فعالیت بارهای الکتریکی

این ترکیب هماهنگ منجر به عملکرد برتر در تولید تصاویر جدید شده است که از مدل های پیشرفته موجود پیشی گرفته است. از زمان آغاز به کار، “مدل مولد جریان پواسون ++” (PFGM++) کاربردهای بالقوه ای در زمینه های مختلف پیدا کرده است، از تولید توالی آنتی بادی و RNA تا تولید صدا و تولید نمودار.

این مدل می تواند الگوهای پیچیده ای مانند ایجاد تصاویر واقعی یا تقلید از فرآیندهای دنیای واقعی ایجاد کند. PFGM++ برگرفته از PFGM، کار تیم در سال قبل است. PFGM از ابزار معادله ریاضی معروف به معادله پواسون الهام می گیرد و سپس آن را در داده هایی که مدل سعی می کند از آنها بیاموزد اعمال می کند. برای انجام این کار، تیم از یک ترفند هوشمندانه استفاده کرد: آنها یک بعد اضافی به “فضای” مدل خود اضافه کردند، مانند رفتن از یک طرح دو بعدی به یک مدل سه بعدی. این بعد اضافی فضای بیشتری برای مانور می دهد، داده ها را در یک زمینه بزرگتر قرار می دهد و به فرد کمک می کند هنگام تولید نمونه های جدید از همه جهت به داده ها نزدیک شود.

جسی تالر، فیزیکدان نظری ذرات در آزمایشگاه علوم هسته‌ای مرکز فیزیک نظری MIT و مدیر بنیاد ملی علوم AI می‌گوید: «PFGM++ نمونه‌ای از انواع پیشرفت‌های هوش مصنوعی است که می‌تواند از طریق همکاری‌های میان رشته‌ای بین فیزیکدانان و دانشمندان رایانه انجام شود. مؤسسه هوش مصنوعی و تعاملات بنیادی (NSF AI IAIFI)، که در این کار دخالتی نداشت. در سال‌های اخیر، مدل‌های مولد مبتنی بر هوش مصنوعی، نتایج چشم‌گیر متعددی از تصاویر واقعی گرفته تا جریان‌های شفاف متن به دست آورده‌اند. به طور قابل توجهی، برخی از قدرتمندترین مدل‌های مولد مبتنی بر مفاهیم آزمایش شده با زمان از فیزیک، مانند تقارن و ترمودینامیک هستند. PFGM++ یک ایده قرن قدمت از فیزیک بنیادی – که ممکن است ابعاد اضافی فضا-زمان وجود داشته باشد – گرفته و آن را به ابزاری قدرتمند و قوی برای تولید مجموعه داده های مصنوعی اما واقعی تبدیل می کند. من از دیدن روش‌های بی‌شماری که «هوش فیزیک» حوزه هوش مصنوعی را متحول می‌کند، هیجان‌زده هستم.»

مکانیسم اساسی PFGM آنقدرها که به نظر می رسد پیچیده نیست. محققان این داده‌ها را با بارهای الکتریکی کوچکی که در یک صفحه مسطح در یک دنیای منبسط‌شده به ابعاد قرار می‌گیرند مقایسه کردند. این بارها یک “میدان الکتریکی” تولید می کنند که بارها به دنبال حرکت به سمت بالا در امتداد خطوط میدان به یک بعد اضافی هستند و در نتیجه توزیع یکنواختی را در یک نیمکره خیالی وسیع تشکیل می دهند. فرآیند تولید مانند چرخاندن یک نوار ویدئویی به عقب است: با مجموعه ای از بارها که به طور یکنواخت توزیع شده روی نیمکره شروع می شود و سفر آنها به صفحه صاف در امتداد خطوط الکتریکی را ردیابی می کنند، آنها برای مطابقت با توزیع داده های اصلی تراز می شوند. این فرآیند جذاب به مدل عصبی اجازه می دهد تا میدان الکتریکی را بیاموزد و داده های جدیدی تولید کند که منعکس کننده اصل است.

مدل PFGM++ میدان الکتریکی در PFGM را به یک چارچوب پیچیده و با ابعاد بالاتر گسترش می‌دهد. وقتی به گسترش این ابعاد ادامه می دهید، اتفاق غیرمنتظره ای رخ می دهد – مدل شروع به شبیه شدن به کلاس مهم دیگری از مدل ها، مدل های انتشار می کند. این کار تماماً در مورد یافتن تعادل مناسب است. مدل‌های PFGM و دیفیوژن در دو انتهای یک طیف قرار دارند: یکی از آنها قوی اما پیچیده است و دیگری ساده‌تر اما کمتر استحکام دارد. مدل PFGM++ نقطه ای شیرین را ارائه می دهد و تعادلی بین استحکام و سهولت استفاده ایجاد می کند. این نوآوری راه را برای تولید تصویر و الگوی کارآمدتر هموار می کند و گامی مهم به جلو در فناوری را نشان می دهد. محققان همراه با ابعاد قابل تنظیم، روش آموزشی جدیدی را پیشنهاد کردند که یادگیری کارآمدتر میدان الکتریکی را ممکن می‌سازد.

برای تحقق بخشیدن به این نظریه، تیم یک جفت معادله دیفرانسیل را حل کرد که حرکت این بارها را در میدان الکتریکی با جزئیات شرح می‌داد. آنها عملکرد را با استفاده از امتیاز فاصله اولیه Frechet (FID) ارزیابی کردند، معیاری که به طور گسترده پذیرفته شده است که کیفیت تصاویر تولید شده توسط مدل را در مقایسه با تصاویر واقعی ارزیابی می کند. PFGM++ همچنین مقاومت بالاتری در برابر خطاها و استحکام نسبت به اندازه پله در معادلات دیفرانسیل را نشان می دهد.

با نگاهی به آینده، آنها قصد دارند جنبه های خاصی از مدل را اصلاح کنند، به ویژه به روش های سیستماتیک برای شناسایی مقدار “نقطه شیرین” D که برای داده ها، معماری ها و وظایف خاص با تجزیه و تحلیل رفتار خطاهای تخمین شبکه های عصبی طراحی شده است. آنها همچنین قصد دارند PFGM++ را برای تولید متن به تصویر/متن به ویدئو در مقیاس بزرگ مدرن اعمال کنند.

یانگ سونگ، دانشمند تحقیقاتی در OpenAI می‌گوید: «مدل‌های انتشار به یک نیروی محرکه مهم در پشت انقلاب در هوش مصنوعی مولد تبدیل شده‌اند. PFGM++ تعمیم قدرتمندی از مدل‌های انتشار را ارائه می‌کند و به کاربران اجازه می‌دهد تا با بهبود استحکام تولید تصویر در برابر آشفتگی‌ها و خطاهای یادگیری، تصاویری با کیفیت بالاتر تولید کنند. علاوه بر این، PFGM++ یک ارتباط شگفت‌انگیز بین مدل‌های الکترواستاتیک و انتشار را آشکار می‌کند و بینش نظری جدیدی را در مورد تحقیقات مدل انتشار ارائه می‌کند.

کارستن کریس، محقق ارشد NVIDIA، می گوید: «مدل های مولد جریان پواسون نه تنها بر یک فرمول زیبا الهام گرفته از فیزیک مبتنی بر الکترواستاتیک متکی هستند، بلکه در عمل نیز عملکرد مدل سازی مولد پیشرفته ای را ارائه می دهند. در کار. آن‌ها حتی از مدل‌های رایج انتشار که در حال حاضر بر ادبیات غالب هستند، بهتر عمل می‌کنند. این آنها را به یک ابزار مدل‌سازی مولد بسیار قدرتمند تبدیل می‌کند و من کاربرد آنها را در زمینه‌های مختلف، از تولید محتوای دیجیتال تا کشف داروی مولد، تصور می‌کنم. به طور کلی، من معتقدم که کاوش در چارچوب‌های مدل‌سازی مولد الهام‌گرفته از فیزیک، نویدبخش آینده است و مدل‌های مولد جریان پواسون تنها آغاز راه هستند.

نویسندگان مقاله ای در مورد این کار شامل سه دانشجوی فارغ التحصیل MIT هستند: ییلون زو از دپارتمان مهندسی برق و علوم کامپیوتر (EECS) و CSAIL، زیمینگ لیو از دپارتمان فیزیک و NSF AI IAIFI، و Shangyuan Tong از EECS و CSAIL. و همچنین دانشمند تحقیقات ارشد گوگل، یونگ لانگ تیان دکترای ’23. مکس تگمارک و تامی جاکولا از اساتید MIT این تحقیق را توصیه کردند.

این تیم توسط همکاری MIT-DSTA سنگاپور، آزمایشگاه هوش مصنوعی واتسون MIT-IBM، کمک های مالی بنیاد ملی علوم، بنیاد کیسی و خانواده، موسسه سوالات بنیادی، صندوق خانواده Rothberg برای علوم شناختی، و ML برای کشف دارویی حمایت شد. و کنسرسیوم سنتز کار آنها در کنفرانس بین المللی یادگیری ماشین در تابستان امسال ارائه شد.

دیدگاهتان را بنویسید لغو پاسخ