رویکردی باستانی در استفاده از داده های مغرضانه در هوش مصنوعی برای بهبود پزشکی
اگرچه ممکن است دانشمندان کامپیوتر در ابتدا با سوگیری و خطا به داده ها به عنوان یک مزاحمت برخورد کنند، محققان استدلال می کنند که این یک گنج پنهان برای بازتاب ارزش های اجتماعی است.
استادان علوم کامپیوتر و اخلاق زیستی از MIT، دانشگاه جانز هاپکینز و موسسه آلن تورینگ در مقالهای که اخیراً منتشر شده است، استدلال میکنند که ضرب المثل کلاسیک علوم کامپیوتر «آشغال در داخل، زبالهها بیرون بروند» در درک دادههای پزشکی مغرضانه تفاوتهای ظریفی ندارد. نسخه مجله پزشکی نیوانگلند (NEJM). محبوبیت فزاینده هوش مصنوعی، بررسی دقیقتری را در مورد مدلهای هوش مصنوعی مغرضانه ایجاد کرده است که منجر به تبعیض الگوریتمی میشود، که دفتر علم و فناوری کاخ سفید آن را به عنوان یک مسئله کلیدی در طرح اخیر خود برای منشور حقوق هوش مصنوعی شناسایی کرده است.
هنگام مواجهه با دادههای مغرضانه، بهویژه برای مدلهای هوش مصنوعی که در تنظیمات پزشکی استفاده میشوند، پاسخ معمولی این است که دادههای بیشتری را از گروههای کمتر ارائه شده جمعآوری کنید یا دادههای مصنوعی را برای اجزای گمشده تولید کنید تا اطمینان حاصل شود که مدل در میان مجموعهای از جمعیتهای بیمار به خوبی کار میکند. اما نویسندگان استدلال میکنند که این رویکرد فنی باید با یک دیدگاه اجتماعی-تکنیکی که عوامل اجتماعی تاریخی و فعلی را در نظر میگیرد، تقویت شود. با انجام این کار، محققان می توانند در رسیدگی به سوگیری در سلامت عمومی موثرتر باشند.
مرضیه قاسمی، یکی از نویسندگان این مقاله، استادیار مهندسی برق و به یاد میآورد: «ما سه نفر در مورد روشهایی بحث میکردیم که در آن اغلب مسائل مربوط به دادهها را از دیدگاه یادگیری ماشین بهعنوان آزارهایی که باید با یک راهحل فنی مدیریت شوند، بررسی میکردیم. علوم کامپیوتر و وابسته به کلینیک عبداللطیف جمیل برای یادگیری ماشینی در سلامت (کلینیک جمیل)، آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و موسسه مهندسی و علوم پزشکی (IMES). ما از قیاسهای دادهها بهعنوان مصنوع استفاده کرده بودیم که نمای جزئی از شیوههای گذشته را نشان میدهد، یا یک آینه ترک خورده که بازتابی را نگه میدارد. در هر دو مورد، اطلاعات ممکن است کاملاً دقیق یا مطلوب نباشد: شاید فکر میکنیم که به روشهای خاصی به عنوان یک جامعه رفتار میکنیم – اما وقتی واقعاً به دادهها نگاه میکنید، داستان متفاوتی را بیان میکند. ممکن است ما آن داستان را دوست نداشته باشیم، اما هنگامی که درکی از گذشته کشف کردید، میتوانید به جلو حرکت کنید و گامهایی برای رسیدگی به شیوههای ضعیف بردارید.»
داده به عنوان مصنوع
قاسمی، کادیجا فریمن و ماکسین مکینتاش در این مقاله با عنوان «در نظر گرفتن دادههای مغرضانه به عنوان مصنوعات اطلاعاتی در مراقبتهای بهداشتی با کمک هوش مصنوعی»، به همان شیوهای که انسانشناسان یا باستانشناسان فیزیکی میبینند، دادههای بالینی مغرضانه را به عنوان «مصنوعات» مشاهده میکنند. اشیاء: تکههایی از شیوههای آشکارکننده تمدن، سیستمهای اعتقادی، و ارزشهای فرهنگی – در مورد مقاله، بهویژه آنهایی که به نابرابریهای موجود در سیستم مراقبتهای بهداشتی منجر شدهاند.
به عنوان مثال، یک مطالعه در سال 2019 نشان داد که الگوریتمی که به طور گسترده به عنوان یک استاندارد صنعتی در نظر گرفته می شود، از هزینه های مراقبت های بهداشتی به عنوان شاخص نیاز استفاده می کند، که منجر به این نتیجه اشتباه می شود که بیماران سیاه پوست بیمار به همان سطح مراقبت از بیماران سفیدپوست سالم تر نیاز دارند. آنچه محققان دریافتند تبعیض الگوریتمی بود که دسترسی نابرابر به مراقبت را توجیه نمی کرد.
در این مثال، قاسمی و همکارانش به جای اینکه مجموعه دادههای مغرضانه یا کمبود داده را به عنوان مشکلاتی که فقط مستلزم دفع یا رفع آنها هستند نگاه کنند، رویکرد «مصنوعات» را به عنوان راهی برای افزایش آگاهی در مورد عناصر اجتماعی و تاریخی مؤثر بر نحوه جمعآوری دادهها و جایگزینی توصیه میکنند. رویکردهای توسعه هوش مصنوعی بالینی
قاسمی میگوید: «اگر هدف مدل شما استقرار در یک محیط بالینی است، باید با یک متخصص اخلاق زیستی یا یک پزشک با آموزش مناسب در اوایل فرمولبندی مشکل همکاری کنید.» ما به عنوان دانشمندان کامپیوتر، اغلب تصویر کاملی از عوامل مختلف اجتماعی و تاریخی که در ایجاد دادههایی که استفاده خواهیم کرد، نداریم. ما برای تشخیص اینکه چه زمانی مدلهای تعمیمیافته از دادههای موجود ممکن است برای زیرگروههای خاص به خوبی کار نکنند، به تخصص نیاز داریم.
زمانی که داده های بیشتر واقعاً می تواند به عملکرد آسیب برساند
نویسندگان اذعان میکنند که یکی از چالشبرانگیزترین جنبههای اجرای یک رویکرد مبتنی بر مصنوعات، ارزیابی این است که آیا دادهها از نظر نژادی تصحیح شدهاند: به عنوان مثال، استفاده از بدنهای سفید و مردانه بهعنوان استاندارد متعارفی که سایر بدنها بر اساس آن اندازهگیری میشوند. این مقاله به نمونهای از همکاری بیماریهای مزمن کلیه در سال 2021 اشاره میکند که معادله جدیدی را برای اندازهگیری عملکرد کلیه ایجاد کرد، زیرا معادله قدیمی قبلاً با این فرض که سیاهپوستان توده عضلانی بالاتری دارند «تصحیح» شده بود. قاسمی می گوید: پژوهشگران باید آمادگی بررسی اصلاح نژاد محور را به عنوان بخشی از فرآیند پژوهش داشته باشند.
در مقاله اخیر دیگری که در کنفرانس بینالمللی یادگیری ماشین امسال با همکاری وینیث سوریاکومار، دانشجوی دکتری قاسمی و استادیار دانشگاه کالیفرنیا در سن دیگو در سن دیگو پذیرفته شد، محققان دریافتند که با فرض گنجاندن ویژگیهای شخصیسازی شده مانند نژاد خود گزارششده، بهبود مییابد. عملکرد مدلهای ML در واقع میتواند منجر به امتیازات، مدلها و معیارهای ریسک بدتر برای جمعیتهای اقلیت و اقلیت شود.
“هیچ راه حل درستی برای گنجاندن یا عدم گنجاندن نژاد خود گزارش شده در امتیاز خطر بالینی وجود ندارد. نژاد خود گزارشدهی یک ساختار اجتماعی است که هم نماینده اطلاعات دیگر است و هم عمیقاً خود را در سایر دادههای پزشکی نشان میدهد. قاسمی توضیح می دهد که راه حل باید مطابق با شواهد باشد.
چگونه به جلو حرکت کنیم
این بدان معنا نیست که مجموعه دادههای مغرضانه باید گنجانده شوند، یا الگوریتمهای مغرضانه نیازی به اصلاح ندارند – دادههای آموزشی با کیفیت هنوز کلید توسعه مدلهای هوش مصنوعی بالینی ایمن و با کارایی بالا هستند، و قطعه NEJM نقش مؤسسههای ملی را برجسته میکند. سلامت (NIH) در شیوه های اخلاقی رانندگی.
لارنس تاباک، مدیر موقت NIH در بیانیهای مطبوعاتی هنگام اعلام برنامه 130 میلیون دلاری Bridge2AI خود در سال گذشته اظهار داشت: «تولید مجموعه دادههای با کیفیت بالا و منشأ اخلاقی برای استفاده از نسل بعدی فناوریهای هوش مصنوعی که نحوه انجام تحقیقات ما را تغییر میدهند، بسیار مهم است. . قاسمی موافق است و اشاره میکند که NIH «جمعآوری دادهها را به روشهای اخلاقی که اطلاعاتی را پوشش میدهد که قبلاً بر ارزش آن در سلامت انسان تأکید نکردهایم- مانند عوامل محیطی و عوامل اجتماعی- در اولویت قرار داده است. من در مورد اولویت بندی و سرمایه گذاری قوی آنها برای دستیابی به نتایج بهداشتی معنادار بسیار هیجان زده هستم.”
Elaine Nsoesie، دانشیار دانشگاه بهداشت عمومی بوستون، معتقد است که مزایای بالقوه زیادی برای درمان مجموعه داده های مغرضانه به عنوان مصنوعات به جای زباله، با تمرکز بر زمینه شروع می شود. او توضیح میدهد: «سوگیریهای موجود در مجموعه دادههای جمعآوریشده برای بیماران سرطان ریه در بیمارستانی در اوگاندا ممکن است با مجموعه دادههای جمعآوریشده در ایالات متحده برای همان جمعیت بیمار متفاوت باشد». با در نظر گرفتن بافت محلی، میتوانیم الگوریتمهایی را برای خدمات بهتر به جمعیتهای خاص آموزش دهیم.» Nsoesie میگوید که درک عوامل تاریخی و معاصر که یک مجموعه داده را شکل میدهند، میتواند شناسایی شیوههای تبعیضآمیز را که ممکن است در الگوریتمها یا سیستمها به روشهایی که بلافاصله آشکار نیستند کدگذاری شوند، آسانتر کند. او همچنین خاطرنشان میکند که یک رویکرد مبتنی بر مصنوعات میتواند منجر به توسعه سیاستها و ساختارهای جدیدی شود که اطمینان حاصل میکند که علل اصلی سوگیری در یک مجموعه داده خاص حذف میشوند.
“مردم اغلب به من می گویند که از هوش مصنوعی به خصوص در سلامتی بسیار می ترسند. قاسمی میگوید: «من واقعاً میترسم که هوش مصنوعی من را اشتباه تشخیص دهد» یا «نگرانم که با من بد رفتار کند». من به آنها می گویم، فردا نباید از هوش مصنوعی فرضی در سلامت بترسید، بلکه باید از سلامتی در حال حاضر بترسید. اگر نگاه فنی محدودی به دادههایی که از سیستمها استخراج میکنیم داشته باشیم، میتوانیم سادهلوحانه شیوههای ضعیف را تکرار کنیم. این تنها گزینه نیست – درک وجود یک مشکل اولین قدم ما به سمت یک فرصت بزرگتر است.»