تحلیل دقت تشخیص سرطان پستان توسط هوش مصنوعی : یک مطالعه گذشته نگر، چند مرکزی

مقدمه

سرطان پستان یکی از شایع‌ترین انواع سرطان است که زنان را تحت تاثیر قرار می دهد ، تشخیص زودهنگام این بیماری می تواند به طور قابل توجهی در کاهش مرگ‌ومیر و بهبود نتایج درمانی موثر باشد . غربالگری با استفاده از  ماموگرافی به عنوان یک روش  استاندارد برای تشخیص زودهنگام سرطان پستان شناخته شده و مورد استفاده است و تشخیص زودهنگام با غربالگری ماموگرافی همراه با بهترین روش درمانی به عنوان عناصر حیاتی در کاهش مرگ و میر و عوارض سرطان پستان شناخته می شود، و اکثر کشورهای اروپایی و پردرآمد برنامه های غربالگری ماموگرافی سازمان یافته را اجرا کرده اند . برنامه غربالگری دانمارکی برای زنان 50 تا 69 ساله در سال 2010 تکمیل شد و این برنامه مطابقت بالایی با استانداردهای بین المللی بر اساس شاخص های تضمین کیفیت مطابق با دستورالعمل های اروپایی داشت . با این حال، افزایش تقاضا برای غربالگری و کمبود رادیولوژیست‌های متخصص، چالشی جدی برای این برنامه‌ها ایجاد کرده است . و این مشکلات در ظرفیت‌ها و کمبود رادیولوژیست‌های پستان تهدیدی برای ادامه قابلیت و کارایی برنامه غربالگری ایجاد می‌کند . سیستم‌های پشتیبانی هوش مصنوعی در سال‌های اخیر به عنوان یک راه‌حل بالقوه برای کمبود منابع در غربالگری ماموگرافی و همچنین بهبود تشخیص سرطان مورد توجه قرار گرفته‌اند. ادعاهای قوی مبنی بر اینکه یک سیستم هوش مصنوعی می‌تواند جایگزین رادیولوژیست‌های آموزش‌دیده شود، مطرح شده است. مطالعات اعتبارسنجی متعدد گزارش داده‌اند که دقت تشخیص سرطان توسط هوش مصنوعی به تنهایی در سطحی قابل مقایسه یا حتی بالاتر از استاندارد فعلی برای غربالگری سرطان پستان است. در حالی که نتایج ممکن است امیدوارکننده به نظر برسند، این نتایج هنوز در جمعیت‌های بزرگ غربالگری واقعی تکرار نشده‌اند. علاوه بر این، کمیت و کیفیت شواهد موجود ناکافی تلقی شده است و دستورالعمل‌های اخیر توسط کمیسیون اروپایی ابتکار سرطان پستان توصیه کرده‌اند که از خوانش تک‌نفره با پشتیبانی هوش مصنوعی استفاده نشود.

از آنجایی که بهره گیری از هوش مصنوعی به عنوان یک سیستم کمکی یا جایگزین برای اولین خوانش(تفسیر) تصاویر ماموگرافی مورد توجه قرار گرفته است، در مطالعه ای که به آن خواهیم پرداخت تحلیل دقت تشخیص سرطان پستان با استفاده از یک سیستم هوش مصنوعی تجاری در دو سناریوی مختلف مورد بررسی قرار گرفت ،  تشخیص سرطان پستان توسط سیستم هوش مصنوعی (AI) در جمعیت غربالگری دانمارکی انجام شد و مقایسه دقت این سیستم هوش مصنوعی در دو سناریوی مختلف صورت گرفت یکی  استفاده از هوش مصنوعی به‌تنهایی و دیگری غربالگری یکپارچه با هوش مصنوعی به عنوان جایگزین اولین تفسیر توسط پزشک رادیولوژیست.

روش‌ها

 در این مطالعه ، ما به بررسی دقت یک سیستم AI تجاری برای تشخیص سرطان در جمعیت غربالگری ماموگرافی دانمارکی با حداقل دو سال پیگیری پرداختیم. این سیستم AI هم در سناریوی AI مستقل شبیه‌سازی شد و هم در سناریوی غربالگری یکپارچه با AI که جایگزین تفسیر اول می‌شود، ارزیابی شد و با تفسیر اول و خوانش دوگانه با داوری مقایسه گردید.

داده‌های مربوط به غربالگری ماموگرافی زنان از منطقه جنوبی دانمارک بین ۴ آگوست ۲۰۱۴ تا ۱۵ آگوست ۲۰۱۸ جمع‌آوری شد. در مجموع ۲۷۲،۰۰۸ ماموگرافی از ۱۵۸،۷۳۲ زن مورد بررسی قرار گرفت. پس از حذف داده‌های غیر مناسب، ۲۵۷،۶۷۱ ماموگرافی برای تجزیه و تحلیل نهایی انتخاب شدند. تمامی زنان شرکت‌کننده در غربالگری ، برای گنجاندن در مطالعه واجد شرایط بودند. بیشتر شرکت‌کنندگان بین 50 تا 69 سال سن داشتند و در برنامه‌ی غربالگری استاندارد با فواصل دو ساله شرکت می‌کردند. یک گروه کوچک‌تر نیز شامل زنانی با سابقه سرطان سینه یا استعداد ژنتیکی به سرطان سینه بودند، هر دو سال یک‌بار از سن 70 تا 79 سالگی یا تا زمان فوت غربالگری شدند.معیارهای خروج از مطالعه شامل پیگیری ناکافی تا تشخیص سرطان، غربالگری‌های متوالی بعدی، کیفیت ناکافی و یا کمبود تصاویر و نوع داده‌های پشتیبانی نشده توسط سیستم AI بود.

سناریوهای ارزیابی دقت تشخیص این سیستم هوش مصنوعی در دو سناریو ارزیابی شد 1-   هوش مصنوعی مستقل: در این سناریو، دقت هوش مصنوعی با دقت اولین خواننده مقایسه شد . 2- اسکرینینگ یکپارچه با هوش مصنوعی

روش

ماموگرافی‌ها توسط یک سیستم هوش مصنوعی تجاری (Transpara نسخه 1.7.0) ، دارای استاندارد CE و تأییدیه  FDAاز شرکت ScreenPoint Medical BV ( نیژمگن هلند) پردازش شدند . این سیستم، مبتنی بر نرم‌افزار و شبکه‌های عصبی عمیق در تشخیص سرطان پستان از تصاویر ماموگرافی طراحی شده است. تمام تصاویر ماموگرافی‌ که با استاندارد DICOM ترنسپارای مطابقت داشتند، برای پردازش ارسال شدند . سیستم به هر تصویر یک امتیاز منطقه ای بین 1 تا 98 اختصاص داد که نشان دهنده احتمال وجود سرطان بود ،به طوری که عدد 98  بالاترین احتمال بدخیمی بودن را نشان می داد. حداکثر امتیاز خام هر تصویر، به عنوان امتیاز کلی معاینه، یعنی امتیاز Transpara ،تعیین می شد.این امتیاز در بازه ای  از 0 تا 10 را با دقت پنج رقم اعشاری محاسبه می شد .

دقت تشخیص در دو سناریوی مستقل و یکپارچه ارزیابی شد. در سناریوی اول (هوش مصنوعی مستقل)، دقت هوش مصنوعی با اولین تفسیر توسط رادیولوژیست مقایسه گردید و  در سناریوی دوم(غربالگری یکپارچه با کمک هوش مصنوعی) ، یک روش شبیه‌سازی شده طراحی شده بود که در آن هوش مصنوعی جایگزین اولین پزشک یا متخصصی که تصاویر ماموگرافی را بررسی می‌کرد، شد. سپس نتیجه‌ای که هوش مصنوعی به آن رسیده بود، با نتیجه‌ای که در روش معمول (که در آن دو متخصص تصاویر را بررسی می‌کنند و اگر اختلاف نظری باشد، با داوری حل می‌شود) مقایسه شد (شکل 1 ) .  در سناریوی غربالگری با هوش مصنوعی، تصمیمات اصلی پزشک دوم و داور نهایی اعمال شدند. در مواردی که بین هوش مصنوعی و پزشک دوم اختلاف نظر وجود داشت و در غربالگری اولیه داوری انجام نشده بود، یک داور شبیه‌سازی‌شده تعریف شد. تصمیمات این داور شبیه‌سازی‌شده بر اساس سطح دقتی تعیین شد که با حساسیت و ویژگی (دقت در تشخیص) داور اصلی در نمونه مطالعه مطابقت داشت. این تصمیمات شبیه‌سازی‌شده در مواردی که داوری اولیه وجود نداشت، به عنوان نتیجه نهایی داوری استفاده شدند.  

معیارهای ارزیابی

دو معیار اصلی برای ارزیابی عملکرد هوش مصنوعی مورد استفاده قرار گرفت: حساسیت (Sensitivity) و ویژگی (Specificity). حساسیت درصد تشخیص صحیح سرطان در میان تمامی موارد مثبت و ویژگی درصد تشخیص صحیح عدم وجود سرطان در میان موارد منفی است. علاوه بر این ، شاخص‌هایی نظیر نرخ فراخوانی (Recall Rate)، ارزش پیش‌بینی مثبت (PPV) و تعداد موارد فراخوانده‌ شده نیز ارزیابی شدند. استاندارد مرجع برای ارزیابی سرطان پستان تأیید شده با هیستوپاتولوژی و یا پیگیری موارد بدون سرطان طی ۲۴ ماه بود.

 دو نقطه برش (cut-off) در امتیاز هوش مصنوعی اعمال شد که یکی با حساسیت متوسط اولین خواننده (AIsens) و دیگری با ویژگی متوسط (AIspec) تطبیق داده شد. اهداف اولیه مشترک شامل حساسیت و ویژگی بودند و اهداف ثانویه شامل ارزش پیش‌بینی مثبت (PPV)، ارزش پیش‌بینی منفی (NPV)، نرخ بازیابی و نرخ داوری بودند. برآوردهای دقت با استفاده از آزمون مک‌نمار (McNemar) یا آزمون باینومیال دقیق محاسبه شدند و نتایج آن با نتایج خوانش دوباره توسط دو پزشک رادیولوژیست و داوری نهایی مقایسه شد .

داده‌های تصویری خام با فرمت DICOM از آرشیو رادیولوژی بی‌طرف منطقه‌ای استخراج شد. تمام معاینات غربالگری توسط یک دستگاه ماموگرافی یکسان، انجام شد. معاینه استاندارد غربالگری شامل دو نما برای هر پستان بود، اما ممکن بود این تعداد کمتر باشد (به عنوان مثال در صورت ماستکتومی قبلی) یا بیشتر باشد (به عنوان مثال در صورت نیاز به تصاویر اضافی به دلیل کیفیت نامناسب تصویر) .  داده‌های بیشتر تشخیصی سرطان مانند زیرگروه‌های بافت‌شناسی و همچنین خصوصیات تومور در سرطان‌های تهاجمی شامل اندازه تومور، درجه بدخیمی، خصوصیات  TNM، درگیری غدد لنفاوی، وضعیت گیرنده استروژن و وضعیت HER2 نیز از برنامه کیفیت بالینی دانمارک به‌دست آمد.  خواندن تصاویر شامل دوبار تفسیر مستقل و کور توسط 22 رادیولوژیست معتبر و با تجربه در خواندن تصاویر غربالگری از تازه‌کار تا پزشک با بیش از 20 سال تجربه بود. هیچ‌گونه تخصیص ثابتی برای خوانندگان وجود نداشت، اما خواننده دوم یک رادیولوژیست ارشد بود. ارزیابی‌ها در نهایت در دو نتیجه‌ی باینری دسته‌بندی شدند: طبیعی (ادامه‌ی غربالگری) یا غیرطبیعی (فراخوانی). مواردی که در آنها اختلاف نظر وجود داشت به خواندن سوم، یعنی داوری، ارسال گردید تا توسط مجرب‌ترین رادیولوژیست تفسیر گردد. تشخیص‌های لازم برای زنانی که فراخوانده شده بودند در واحدهای تصویربرداری تخصصی در مراکز مطالعه انجام شد.

در ارزیابی دقت هوش مصنوعی مستقل، نتایج زیر مشاهده شد:

 

هوش مصنوعی مستقل (Standalone AIsens) در مقایسه با اولین تفسیر انسانی، مشخصات ویژگی کمتر (1.3%-) و همچنین ارزش پیش‌بینی مثبت (PPV) کمتری (-6.1%) را نشان داد، در حالی که نرخ فراخوانی (+1.3%) بالاتری داشت p < 0.0001) ) .  این معادل با 3369 مورد فراخوانی بیشتر (+48.3%) بود.

هوش مصنوعی مستقل (Standalone AIspec) حساسیت(-5.1  (p < 0.0001; %  و PPV کمتری

(-1.3%; p = 0.01)    نسبت به اولین تفسیر(خوانش) داشت. نرخ فراخوانی در 2.7% موارد تفاوت معناداری نداشت (p = 0.24) . در مقایسه با اولین تفسیر، توزیع سرطان‌ در جداول ، حساسیت بیشتر هوش مصنوعی مستقل را نشان داد ، 100  مورد (+17.8%) سرطان اضافی از نوع «فاصله‌ای»(به معنای تشخیص در فواصل زمانی بین دو غربالگری) بوسیله  AIsens (interval)شناسایی شد،  و  برای هوش مصنوعی مستقل AIspec  ، 70 مورد (+12.5%) بیشتر شناسایی شد. در حالی که ، سرطان‌های «اسکرین‌شده» شناسایی شده به ترتیب 100 مورد (-6.8%) و 174 مورد (-11.8%) کمتر بودند(p < 0.0001).  تحلیل‌های زیرگروه ها توزیع متفاوت در میان تمام زیرگروه‌ها را برای هر دو نوع سرطان شناسایی‌شده (اسکرین‌شده و فاصله‌ای ) بدون الگوی واضحی برای هیچ‌یک از متغیرها نشان داد (جدول 4)، همچنین، اختلافات قابل توجهی در شناسایی سرطان‌ها بین اولین تفسیر و سیستم هوش مصنوعی وجود داشت، به طوری که تعداد قابل توجهی از سرطان‌های شناسایی‌شده توسط هوش مصنوعی، توسط اولین تفسیر نادیده گرفته شدند و برعکس .

در ارزیابی دقت غربالگری ادغام شده با هوش مصنوعی (Integrated AI)، نتایج زیر مشاهده  شد:

  • حساسیت Integrated AIsens به میزان (+2.3% ; p = 0.0004 )نسبت به خواندن ترکیبی افزایش یافت، اما این مهم به قیمت کاهش ویژگی (-0.6%) و ارزش پیش‌بینی مثبت (PPV) (-3.9%)، و همچنین افزایش نرخ فراخوانی (+0.6%) و نرخ داوری (+2.2%) بود (p < 0.0001)، در شرایط مطلق، این معادل با 1708 فراخوانی بیشتر (+24.9%) و 5831 داوری بیشتر (+78.4%) بود
  • دقت هوش مصنوعی یکپارچه Integrated AIspec در هیچ یک از معیارهای خروجی تفاوت معناداری نشان نداد، به جز نرخ داوری بالاتر به میزان +1.1% (p < 0.0001) که معادل با 2841 داوری (+38.2%) بود. در مقایسه با تفسیر ترکیبی، تعداد سرطان‌های شناسایی‌شده از نوع «اسکرین‌شده» برای Integrated AIsens به میزان 54 (-3.7%) و برای Integrated AIspec به میزان 66 (-4.5%) کمتر بود.  اما نسبت به سرطان‌های «فاصله‌ای»، تعداد شناسایی به ترتیب 100 (+17.8%) و 79 (+14.1%) بیشتر بود (p < 0.0001 ).

 تحلیل‌های زیرگروه ها نشان داد که نسبت به سناریوهای هوش مصنوعی مستقل، درصد اختلاف شناسایی در سناریوی یکپارچه هوش مصنوعی کمتر بود و تعداد کمی از سرطان‌های فاصله‌ای در غربالگری هوش مصنوعی یکپارچه نادیده گرفته شدند و هیچ سرطان شناسایی‌شده‌ای توسط خوانش ترکیبی نادیده گرفته نشد (جدول 3) .

سرطان‌های شناسایی‌شده در دور بعدی و سرطان‌های طولانی‌مدت

 زمانی که سرطان‌های شناسایی‌شده در دور بعدی و سرطان‌های طولانی‌مدت در تحلیل دقت شامل شدند، حساسیت Standalone AI و Integrated AI با هر دو آستانه به طور معناداری بالاتر از تفسیر  اول و خواندن ترکیبی بود (p < 0.0001) ، در حالی که ویژگی آن‌ها بسته به شرایط متفاوت، کمتر، بیشتر یا بدون تفاوت معناداری بود (جدول‌های مکمل). با این حال، حساسیت آزمون اصلی و مقایسه‌کننده به طور قابل توجهی کمتر از آنچه که در جدول 2 (جدول تجزیه و تحلیل دقت تشخیص در هر دو سناریو مطالعه) ارائه شده بود، بود. این نتایج نشان می‌دهد که سیستم‌های هوش مصنوعی یکپارچه می‌توانند به بهبود شناسایی سرطان در برنامه‌های غربالگری کمک کنند، اگرچه نیاز به دقت در انتخاب آستانه‌ها و ارزیابی نتایج دقیق وجود دارد.

نتایج :

در میان داده های مناسب از 257.671 ماموگرافی که جهت تحلیل نهایی انتخاب شدند، حساسیت و ویژگی اولین تفسیر به ترتیب ۶۳.۷٪ و ۹۷.۸٪ بود و در تفسیر دوم با داوری این ارقام به ۷۳.۹٪ و ۹۷.۹٪ رسید . در سناریوی استفاده از هوش مصنوعی مستقل،  Standalone AIsens  نسبت به اولین تفسیر ویژگی و ارزش پیش‌بینی مثبت (PPV) کمتری نشان داد اما نرخ فراخوانی (Recall rate) بالاتری داشت. هوش مصنوعی مستقل با حساسیت بالا (Standalone AIsens) نسبت به اولین تفسیر، ویژگی پایین‌تری (-1.3%) و ارزش پیش‌بینی مثبت (PPV) پایین‌تری (6.1%-) و نرخ بازیابی بالاتری (1.3%+) نشان داد ( (p < 0.0001 در حالی که هوش مصنوعی مستقل با ویژگی بالا Standalone AIspec) حساسیت پایین‌تری (-5.1%؛ p < 0.0001) ، PPV  پایین‌تر (1.3%-؛ p = 0.01 )و ارزش پیش‌بینی منفی (NPV) پایین‌تری (-0.04%؛ p = 0.0002 ) داشت. در مقایسه با خوانش ترکیبی، هوش مصنوعی یکپارچه با حساسیت بالا (Integrated AIsens) حساسیت بالاتری (2.3%+؛ p = 0.0004) به دست آورد، اما مشخصه پایین‌تر (0.6% -) و PPV پایین‌تر (3.9%-) داشت، همچنین نرخ بازیابی بالاتر (0.6%+) و نرخ داوری بالاتری (+2.2%؛ (p < 0.0001 نشان داد. هوش مصنوعی یکپارچه با ویژگی بالا (Integrated AIspec) تفاوت معناداری در هیچ یک از نتایج به جز نرخ داوری کمی بالاتر (p < 0.0001)  نداشت، تحلیل‌های زیرگروهی نشان داد که تشخیص سرطان‌های دوره‌ای توسط هوش مصنوعی مستقل و هوش مصنوعی یکپارچه در هر دو آستانه با ترکیب متغیر سرطان‌های تشخیص داده شده در زیرگروه‌های مختلف ویژگی‌های تومور بالاتر بود( p < 0.0001).

بحث:

نرخ تشخیص سرطان و نرخ فراخوانی با یافته‌های قبلی از برنامه‌های غربالگری دانمارکی هم‌راستا بود و قابلیت اطمینان نتایج را تأیید کرد. در سناریوی AI مستقل، دقت سیستم AI در هر دو آستانه غیرعادی به‌طور معناداری پایین‌تر از خوانش پزشک در بیشتر معیارهای نتیجه‌گیری بود . با این حال زمانی که سرطان‌های شناسایی‌شده در دور بعد و سرطان‌های طولانی‌مدت در تحلیل گنجانده شدند ،AI نشان داد که در تشخیص سرطان‌های دوره‌ای به‌طور معناداری بهبود یافته و دقت بالاتری دارد.  در سناریوی غربالگری (یکپارچه) ادغام با  AI، دقت تشخیص با دقت خواندن ترکیبی مقایسه‌پذیر بود یا به‌طور معناداری بالاتر از آن بود، که بستگی به آستانه انتخاب‌شده داشت، اگرچه این مورد با نرخ داوری کمی بالاتر همراه بود. در شرایطی که AIsens یکپارچه نشان‌دهنده افزایش معنادار در نرخ فراخوانی بود، AIspec یکپارچه این افزایش را نشان نداد. بخش قابل توجهی از سرطان ها توسط سیستم هوش مصنوعی نادیده گرفته شد و توسط خوانش اول پزشک رادیولوژیست شناسایی شد، و بالعکس،اگرچه این تفاوت‌ها در سناریوی یکپارچه AI کمتر مشهود بود.  

نتیجه گیری

نتیجه حاصل از این بررسی ثابت کرد  تفسیر اولیه توسط هوش مصنوعی در فرآیند دوباره‌خوانی می‌تواند امکان‌پذیر باشد، اما انتخاب آستانه مناسب برای هوش مصنوعی جهت حفظ دقت تشخیص و مدیریت بار کاری بسیار مهم است. هدف این مطالعه، ارزیابی دقت تشخیص سرطان توسط یک سیستم هوش مصنوعی در جمعیت غربالگری دانمارک بود و منجر به یافته هایی گردید که نشان می‌دهد اگرچه هوش مصنوعی ممکن است در برخی موارد به شناسایی بهتر سرطان‌ها کمک کند، اما دقت آن در جنبه‌هایی نسبت به رادیولوژیست‌ها کمتر است و همچنین نیاز به تنظیم دقیق الگوریتم و آستانه‌های برای حفظ دقت تشخیص دارد.

نظرات غیرفعال هستند.