تحلیل دقت تشخیص سرطان پستان توسط هوش مصنوعی : یک مطالعه گذشته نگر، چند مرکزی
مقدمه
سرطان پستان یکی از شایعترین انواع سرطان است که زنان را تحت تاثیر قرار می دهد ، تشخیص زودهنگام این بیماری می تواند به طور قابل توجهی در کاهش مرگومیر و بهبود نتایج درمانی موثر باشد . غربالگری با استفاده از ماموگرافی به عنوان یک روش استاندارد برای تشخیص زودهنگام سرطان پستان شناخته شده و مورد استفاده است و تشخیص زودهنگام با غربالگری ماموگرافی همراه با بهترین روش درمانی به عنوان عناصر حیاتی در کاهش مرگ و میر و عوارض سرطان پستان شناخته می شود، و اکثر کشورهای اروپایی و پردرآمد برنامه های غربالگری ماموگرافی سازمان یافته را اجرا کرده اند . برنامه غربالگری دانمارکی برای زنان 50 تا 69 ساله در سال 2010 تکمیل شد و این برنامه مطابقت بالایی با استانداردهای بین المللی بر اساس شاخص های تضمین کیفیت مطابق با دستورالعمل های اروپایی داشت . با این حال، افزایش تقاضا برای غربالگری و کمبود رادیولوژیستهای متخصص، چالشی جدی برای این برنامهها ایجاد کرده است . و این مشکلات در ظرفیتها و کمبود رادیولوژیستهای پستان تهدیدی برای ادامه قابلیت و کارایی برنامه غربالگری ایجاد میکند . سیستمهای پشتیبانی هوش مصنوعی در سالهای اخیر به عنوان یک راهحل بالقوه برای کمبود منابع در غربالگری ماموگرافی و همچنین بهبود تشخیص سرطان مورد توجه قرار گرفتهاند. ادعاهای قوی مبنی بر اینکه یک سیستم هوش مصنوعی میتواند جایگزین رادیولوژیستهای آموزشدیده شود، مطرح شده است. مطالعات اعتبارسنجی متعدد گزارش دادهاند که دقت تشخیص سرطان توسط هوش مصنوعی به تنهایی در سطحی قابل مقایسه یا حتی بالاتر از استاندارد فعلی برای غربالگری سرطان پستان است. در حالی که نتایج ممکن است امیدوارکننده به نظر برسند، این نتایج هنوز در جمعیتهای بزرگ غربالگری واقعی تکرار نشدهاند. علاوه بر این، کمیت و کیفیت شواهد موجود ناکافی تلقی شده است و دستورالعملهای اخیر توسط کمیسیون اروپایی ابتکار سرطان پستان توصیه کردهاند که از خوانش تکنفره با پشتیبانی هوش مصنوعی استفاده نشود.
از آنجایی که بهره گیری از هوش مصنوعی به عنوان یک سیستم کمکی یا جایگزین برای اولین خوانش(تفسیر) تصاویر ماموگرافی مورد توجه قرار گرفته است، در مطالعه ای که به آن خواهیم پرداخت تحلیل دقت تشخیص سرطان پستان با استفاده از یک سیستم هوش مصنوعی تجاری در دو سناریوی مختلف مورد بررسی قرار گرفت ، تشخیص سرطان پستان توسط سیستم هوش مصنوعی (AI) در جمعیت غربالگری دانمارکی انجام شد و مقایسه دقت این سیستم هوش مصنوعی در دو سناریوی مختلف صورت گرفت یکی استفاده از هوش مصنوعی بهتنهایی و دیگری غربالگری یکپارچه با هوش مصنوعی به عنوان جایگزین اولین تفسیر توسط پزشک رادیولوژیست.
روشها
در این مطالعه ، ما به بررسی دقت یک سیستم AI تجاری برای تشخیص سرطان در جمعیت غربالگری ماموگرافی دانمارکی با حداقل دو سال پیگیری پرداختیم. این سیستم AI هم در سناریوی AI مستقل شبیهسازی شد و هم در سناریوی غربالگری یکپارچه با AI که جایگزین تفسیر اول میشود، ارزیابی شد و با تفسیر اول و خوانش دوگانه با داوری مقایسه گردید.
دادههای مربوط به غربالگری ماموگرافی زنان از منطقه جنوبی دانمارک بین ۴ آگوست ۲۰۱۴ تا ۱۵ آگوست ۲۰۱۸ جمعآوری شد. در مجموع ۲۷۲،۰۰۸ ماموگرافی از ۱۵۸،۷۳۲ زن مورد بررسی قرار گرفت. پس از حذف دادههای غیر مناسب، ۲۵۷،۶۷۱ ماموگرافی برای تجزیه و تحلیل نهایی انتخاب شدند. تمامی زنان شرکتکننده در غربالگری ، برای گنجاندن در مطالعه واجد شرایط بودند. بیشتر شرکتکنندگان بین 50 تا 69 سال سن داشتند و در برنامهی غربالگری استاندارد با فواصل دو ساله شرکت میکردند. یک گروه کوچکتر نیز شامل زنانی با سابقه سرطان سینه یا استعداد ژنتیکی به سرطان سینه بودند، هر دو سال یکبار از سن 70 تا 79 سالگی یا تا زمان فوت غربالگری شدند.معیارهای خروج از مطالعه شامل پیگیری ناکافی تا تشخیص سرطان، غربالگریهای متوالی بعدی، کیفیت ناکافی و یا کمبود تصاویر و نوع دادههای پشتیبانی نشده توسط سیستم AI بود.
سناریوهای ارزیابی دقت تشخیص این سیستم هوش مصنوعی در دو سناریو ارزیابی شد 1- هوش مصنوعی مستقل: در این سناریو، دقت هوش مصنوعی با دقت اولین خواننده مقایسه شد . 2- اسکرینینگ یکپارچه با هوش مصنوعی
روش
ماموگرافیها توسط یک سیستم هوش مصنوعی تجاری (Transpara نسخه 1.7.0) ، دارای استاندارد CE و تأییدیه FDAاز شرکت ScreenPoint Medical BV ( نیژمگن هلند) پردازش شدند . این سیستم، مبتنی بر نرمافزار و شبکههای عصبی عمیق در تشخیص سرطان پستان از تصاویر ماموگرافی طراحی شده است. تمام تصاویر ماموگرافی که با استاندارد DICOM ترنسپارای مطابقت داشتند، برای پردازش ارسال شدند . سیستم به هر تصویر یک امتیاز منطقه ای بین 1 تا 98 اختصاص داد که نشان دهنده احتمال وجود سرطان بود ،به طوری که عدد 98 بالاترین احتمال بدخیمی بودن را نشان می داد. حداکثر امتیاز خام هر تصویر، به عنوان امتیاز کلی معاینه، یعنی امتیاز Transpara ،تعیین می شد.این امتیاز در بازه ای از 0 تا 10 را با دقت پنج رقم اعشاری محاسبه می شد .
دقت تشخیص در دو سناریوی مستقل و یکپارچه ارزیابی شد. در سناریوی اول (هوش مصنوعی مستقل)، دقت هوش مصنوعی با اولین تفسیر توسط رادیولوژیست مقایسه گردید و در سناریوی دوم(غربالگری یکپارچه با کمک هوش مصنوعی) ، یک روش شبیهسازی شده طراحی شده بود که در آن هوش مصنوعی جایگزین اولین پزشک یا متخصصی که تصاویر ماموگرافی را بررسی میکرد، شد. سپس نتیجهای که هوش مصنوعی به آن رسیده بود، با نتیجهای که در روش معمول (که در آن دو متخصص تصاویر را بررسی میکنند و اگر اختلاف نظری باشد، با داوری حل میشود) مقایسه شد (شکل 1 ) . در سناریوی غربالگری با هوش مصنوعی، تصمیمات اصلی پزشک دوم و داور نهایی اعمال شدند. در مواردی که بین هوش مصنوعی و پزشک دوم اختلاف نظر وجود داشت و در غربالگری اولیه داوری انجام نشده بود، یک داور شبیهسازیشده تعریف شد. تصمیمات این داور شبیهسازیشده بر اساس سطح دقتی تعیین شد که با حساسیت و ویژگی (دقت در تشخیص) داور اصلی در نمونه مطالعه مطابقت داشت. این تصمیمات شبیهسازیشده در مواردی که داوری اولیه وجود نداشت، به عنوان نتیجه نهایی داوری استفاده شدند.
معیارهای ارزیابی
دو معیار اصلی برای ارزیابی عملکرد هوش مصنوعی مورد استفاده قرار گرفت: حساسیت (Sensitivity) و ویژگی (Specificity). حساسیت درصد تشخیص صحیح سرطان در میان تمامی موارد مثبت و ویژگی درصد تشخیص صحیح عدم وجود سرطان در میان موارد منفی است. علاوه بر این ، شاخصهایی نظیر نرخ فراخوانی (Recall Rate)، ارزش پیشبینی مثبت (PPV) و تعداد موارد فراخوانده شده نیز ارزیابی شدند. استاندارد مرجع برای ارزیابی سرطان پستان تأیید شده با هیستوپاتولوژی و یا پیگیری موارد بدون سرطان طی ۲۴ ماه بود.
دو نقطه برش (cut-off) در امتیاز هوش مصنوعی اعمال شد که یکی با حساسیت متوسط اولین خواننده (AIsens) و دیگری با ویژگی متوسط (AIspec) تطبیق داده شد. اهداف اولیه مشترک شامل حساسیت و ویژگی بودند و اهداف ثانویه شامل ارزش پیشبینی مثبت (PPV)، ارزش پیشبینی منفی (NPV)، نرخ بازیابی و نرخ داوری بودند. برآوردهای دقت با استفاده از آزمون مکنمار (McNemar) یا آزمون باینومیال دقیق محاسبه شدند و نتایج آن با نتایج خوانش دوباره توسط دو پزشک رادیولوژیست و داوری نهایی مقایسه شد .
دادههای تصویری خام با فرمت DICOM از آرشیو رادیولوژی بیطرف منطقهای استخراج شد. تمام معاینات غربالگری توسط یک دستگاه ماموگرافی یکسان، انجام شد. معاینه استاندارد غربالگری شامل دو نما برای هر پستان بود، اما ممکن بود این تعداد کمتر باشد (به عنوان مثال در صورت ماستکتومی قبلی) یا بیشتر باشد (به عنوان مثال در صورت نیاز به تصاویر اضافی به دلیل کیفیت نامناسب تصویر) . دادههای بیشتر تشخیصی سرطان مانند زیرگروههای بافتشناسی و همچنین خصوصیات تومور در سرطانهای تهاجمی شامل اندازه تومور، درجه بدخیمی، خصوصیات TNM، درگیری غدد لنفاوی، وضعیت گیرنده استروژن و وضعیت HER2 نیز از برنامه کیفیت بالینی دانمارک بهدست آمد. خواندن تصاویر شامل دوبار تفسیر مستقل و کور توسط 22 رادیولوژیست معتبر و با تجربه در خواندن تصاویر غربالگری از تازهکار تا پزشک با بیش از 20 سال تجربه بود. هیچگونه تخصیص ثابتی برای خوانندگان وجود نداشت، اما خواننده دوم یک رادیولوژیست ارشد بود. ارزیابیها در نهایت در دو نتیجهی باینری دستهبندی شدند: طبیعی (ادامهی غربالگری) یا غیرطبیعی (فراخوانی). مواردی که در آنها اختلاف نظر وجود داشت به خواندن سوم، یعنی داوری، ارسال گردید تا توسط مجربترین رادیولوژیست تفسیر گردد. تشخیصهای لازم برای زنانی که فراخوانده شده بودند در واحدهای تصویربرداری تخصصی در مراکز مطالعه انجام شد.
در ارزیابی دقت هوش مصنوعی مستقل، نتایج زیر مشاهده شد:
هوش مصنوعی مستقل (Standalone AIsens) در مقایسه با اولین تفسیر انسانی، مشخصات ویژگی کمتر (1.3%-) و همچنین ارزش پیشبینی مثبت (PPV) کمتری (-6.1%) را نشان داد، در حالی که نرخ فراخوانی (+1.3%) بالاتری داشت p < 0.0001) ) . این معادل با 3369 مورد فراخوانی بیشتر (+48.3%) بود.
هوش مصنوعی مستقل (Standalone AIspec) حساسیت(-5.1 (p < 0.0001; % و PPV کمتری
(-1.3%; p = 0.01) نسبت به اولین تفسیر(خوانش) داشت. نرخ فراخوانی در 2.7% موارد تفاوت معناداری نداشت (p = 0.24) . در مقایسه با اولین تفسیر، توزیع سرطان در جداول ، حساسیت بیشتر هوش مصنوعی مستقل را نشان داد ، 100 مورد (+17.8%) سرطان اضافی از نوع «فاصلهای»(به معنای تشخیص در فواصل زمانی بین دو غربالگری) بوسیله AIsens (interval)شناسایی شد، و برای هوش مصنوعی مستقل AIspec ، 70 مورد (+12.5%) بیشتر شناسایی شد. در حالی که ، سرطانهای «اسکرینشده» شناسایی شده به ترتیب 100 مورد (-6.8%) و 174 مورد (-11.8%) کمتر بودند(p < 0.0001). تحلیلهای زیرگروه ها توزیع متفاوت در میان تمام زیرگروهها را برای هر دو نوع سرطان شناساییشده (اسکرینشده و فاصلهای ) بدون الگوی واضحی برای هیچیک از متغیرها نشان داد (جدول 4)، همچنین، اختلافات قابل توجهی در شناسایی سرطانها بین اولین تفسیر و سیستم هوش مصنوعی وجود داشت، به طوری که تعداد قابل توجهی از سرطانهای شناساییشده توسط هوش مصنوعی، توسط اولین تفسیر نادیده گرفته شدند و برعکس .
در ارزیابی دقت غربالگری ادغام شده با هوش مصنوعی (Integrated AI)، نتایج زیر مشاهده شد:
- حساسیت Integrated AIsens به میزان (+2.3% ; p = 0.0004 )نسبت به خواندن ترکیبی افزایش یافت، اما این مهم به قیمت کاهش ویژگی (-0.6%) و ارزش پیشبینی مثبت (PPV) (-3.9%)، و همچنین افزایش نرخ فراخوانی (+0.6%) و نرخ داوری (+2.2%) بود (p < 0.0001)، در شرایط مطلق، این معادل با 1708 فراخوانی بیشتر (+24.9%) و 5831 داوری بیشتر (+78.4%) بود
- دقت هوش مصنوعی یکپارچه Integrated AIspec در هیچ یک از معیارهای خروجی تفاوت معناداری نشان نداد، به جز نرخ داوری بالاتر به میزان +1.1% (p < 0.0001) که معادل با 2841 داوری (+38.2%) بود. در مقایسه با تفسیر ترکیبی، تعداد سرطانهای شناساییشده از نوع «اسکرینشده» برای Integrated AIsens به میزان 54 (-3.7%) و برای Integrated AIspec به میزان 66 (-4.5%) کمتر بود. اما نسبت به سرطانهای «فاصلهای»، تعداد شناسایی به ترتیب 100 (+17.8%) و 79 (+14.1%) بیشتر بود (p < 0.0001 ).
تحلیلهای زیرگروه ها نشان داد که نسبت به سناریوهای هوش مصنوعی مستقل، درصد اختلاف شناسایی در سناریوی یکپارچه هوش مصنوعی کمتر بود و تعداد کمی از سرطانهای فاصلهای در غربالگری هوش مصنوعی یکپارچه نادیده گرفته شدند و هیچ سرطان شناساییشدهای توسط خوانش ترکیبی نادیده گرفته نشد (جدول 3) .
سرطانهای شناساییشده در دور بعدی و سرطانهای طولانیمدت
زمانی که سرطانهای شناساییشده در دور بعدی و سرطانهای طولانیمدت در تحلیل دقت شامل شدند، حساسیت Standalone AI و Integrated AI با هر دو آستانه به طور معناداری بالاتر از تفسیر اول و خواندن ترکیبی بود (p < 0.0001) ، در حالی که ویژگی آنها بسته به شرایط متفاوت، کمتر، بیشتر یا بدون تفاوت معناداری بود (جدولهای مکمل). با این حال، حساسیت آزمون اصلی و مقایسهکننده به طور قابل توجهی کمتر از آنچه که در جدول 2 (جدول تجزیه و تحلیل دقت تشخیص در هر دو سناریو مطالعه) ارائه شده بود، بود. این نتایج نشان میدهد که سیستمهای هوش مصنوعی یکپارچه میتوانند به بهبود شناسایی سرطان در برنامههای غربالگری کمک کنند، اگرچه نیاز به دقت در انتخاب آستانهها و ارزیابی نتایج دقیق وجود دارد.
نتایج :
در میان داده های مناسب از 257.671 ماموگرافی که جهت تحلیل نهایی انتخاب شدند، حساسیت و ویژگی اولین تفسیر به ترتیب ۶۳.۷٪ و ۹۷.۸٪ بود و در تفسیر دوم با داوری این ارقام به ۷۳.۹٪ و ۹۷.۹٪ رسید . در سناریوی استفاده از هوش مصنوعی مستقل، Standalone AIsens نسبت به اولین تفسیر ویژگی و ارزش پیشبینی مثبت (PPV) کمتری نشان داد اما نرخ فراخوانی (Recall rate) بالاتری داشت. هوش مصنوعی مستقل با حساسیت بالا (Standalone AIsens) نسبت به اولین تفسیر، ویژگی پایینتری (-1.3%) و ارزش پیشبینی مثبت (PPV) پایینتری (6.1%-) و نرخ بازیابی بالاتری (1.3%+) نشان داد ( (p < 0.0001 در حالی که هوش مصنوعی مستقل با ویژگی بالا Standalone AIspec) حساسیت پایینتری (-5.1%؛ p < 0.0001) ، PPV پایینتر (1.3%-؛ p = 0.01 )و ارزش پیشبینی منفی (NPV) پایینتری (-0.04%؛ p = 0.0002 ) داشت. در مقایسه با خوانش ترکیبی، هوش مصنوعی یکپارچه با حساسیت بالا (Integrated AIsens) حساسیت بالاتری (2.3%+؛ p = 0.0004) به دست آورد، اما مشخصه پایینتر (0.6% -) و PPV پایینتر (3.9%-) داشت، همچنین نرخ بازیابی بالاتر (0.6%+) و نرخ داوری بالاتری (+2.2%؛ (p < 0.0001 نشان داد. هوش مصنوعی یکپارچه با ویژگی بالا (Integrated AIspec) تفاوت معناداری در هیچ یک از نتایج به جز نرخ داوری کمی بالاتر (p < 0.0001) نداشت، تحلیلهای زیرگروهی نشان داد که تشخیص سرطانهای دورهای توسط هوش مصنوعی مستقل و هوش مصنوعی یکپارچه در هر دو آستانه با ترکیب متغیر سرطانهای تشخیص داده شده در زیرگروههای مختلف ویژگیهای تومور بالاتر بود( p < 0.0001).
بحث:
نرخ تشخیص سرطان و نرخ فراخوانی با یافتههای قبلی از برنامههای غربالگری دانمارکی همراستا بود و قابلیت اطمینان نتایج را تأیید کرد. در سناریوی AI مستقل، دقت سیستم AI در هر دو آستانه غیرعادی بهطور معناداری پایینتر از خوانش پزشک در بیشتر معیارهای نتیجهگیری بود . با این حال زمانی که سرطانهای شناساییشده در دور بعد و سرطانهای طولانیمدت در تحلیل گنجانده شدند ،AI نشان داد که در تشخیص سرطانهای دورهای بهطور معناداری بهبود یافته و دقت بالاتری دارد. در سناریوی غربالگری (یکپارچه) ادغام با AI، دقت تشخیص با دقت خواندن ترکیبی مقایسهپذیر بود یا بهطور معناداری بالاتر از آن بود، که بستگی به آستانه انتخابشده داشت، اگرچه این مورد با نرخ داوری کمی بالاتر همراه بود. در شرایطی که AIsens یکپارچه نشاندهنده افزایش معنادار در نرخ فراخوانی بود، AIspec یکپارچه این افزایش را نشان نداد. بخش قابل توجهی از سرطان ها توسط سیستم هوش مصنوعی نادیده گرفته شد و توسط خوانش اول پزشک رادیولوژیست شناسایی شد، و بالعکس،اگرچه این تفاوتها در سناریوی یکپارچه AI کمتر مشهود بود.
نتیجه گیری
نتیجه حاصل از این بررسی ثابت کرد تفسیر اولیه توسط هوش مصنوعی در فرآیند دوبارهخوانی میتواند امکانپذیر باشد، اما انتخاب آستانه مناسب برای هوش مصنوعی جهت حفظ دقت تشخیص و مدیریت بار کاری بسیار مهم است. هدف این مطالعه، ارزیابی دقت تشخیص سرطان توسط یک سیستم هوش مصنوعی در جمعیت غربالگری دانمارک بود و منجر به یافته هایی گردید که نشان میدهد اگرچه هوش مصنوعی ممکن است در برخی موارد به شناسایی بهتر سرطانها کمک کند، اما دقت آن در جنبههایی نسبت به رادیولوژیستها کمتر است و همچنین نیاز به تنظیم دقیق الگوریتم و آستانههای برای حفظ دقت تشخیص دارد.