گوگل در حال ارتقای هوش مصنوعی پزشکی خود به نام AMIE است تا بتواند اطلاعات تصویری پزشکی، مانند عکس یک ضایعه پوستی یا نوار قلب، را درک و تحلیل کند. این پیشرفت به AMIE امکان میدهد تا در گفتگوهای مربوط به سلامت، علاوه بر پردازش کلمات، شواهد دیداری را نیز بررسی کند.
پیش از این، AMIE در گفتگوهای پزشکی متنی تواناییهای امیدوارکنندهای از خود نشان داده بود. اما دنیای واقعی پزشکی فقط به کلمات محدود نمیشود. پزشکان به شدت به آنچه میبینند – از وضعیت پوست گرفته تا نتایج آزمایشها و گزارشهای دستگاهها – اتکا میکنند. حتی در پیامرسانهای ساده نیز، ارسال عکس و فایل به غنیتر شدن گفتگو کمک میکند. بنابراین، هوش مصنوعی که فقط متن را بفهمد، بخش مهمی از پازل تشخیص را از دست میدهد.
گوگل چگونه به AMIE قدرت دیدن و استدلال آموخت؟

مهندسان گوگل، AMIE را با استفاده از مدل هوش مصنوعی پیشرفته خود (Gemini 2.0 Flash) و یک چارچوب استدلال هوشمند تقویت کردهاند. به زبان ساده، این یعنی AMIE فقط یک دستورالعمل ثابت را دنبال نمیکند، بلکه مانند یک پزشک، بر اساس اطلاعاتی که جمعآوری میکند و آنچه هنوز نیاز به دانستن دارد، گفتگویش را تطبیق میدهد. این سیستم ابتدا سابقه بیمار را جمعآوری میکند، سپس به سمت تشخیص و ارائه پیشنهادهای درمانی حرکت میکند و در نهایت پیگیری را انجام میدهد. اگر AMIE حس کند اطلاعاتش ناقص است، مثلاً درخواست عکس از پوست یا نتیجه آزمایش میکند.
برای آموزش این سیستم بدون آزمون و خطای بیپایان روی انسانهای واقعی، گوگل یک آزمایشگاه شبیهسازیشده دقیق ایجاد کرد. در این آزمایشگاه، پروندههای پزشکی واقعی با تصاویر و دادههای معتبر (مانند پایگاه داده نوار قلب PTB-XL و مجموعه تصاویر پوستی SCIN) و داستانهای پسزمینه باورپذیر ساخته شد. سپس AMIE با بیماران شبیهسازیشده در این محیط گفتگو کرد و عملکردش از نظر دقت تشخیص و جلوگیری از خطا (یا برداشتهای نادرست) به طور خودکار ارزیابی شد.
AMIE در آزمون بالینی شبیهسازیشده
آزمایش اصلی در محیطی شبیه به امتحانات بالینی دانشجویان پزشکی (OSCE) انجام شد. در یک مطالعه از راه دور با ۱۰۵ سناریوی پزشکی مختلف، بازیگران آموزشدیده نقش بیماران را ایفا و یا با نسخه جدید AMIE (که تصاویر را درک میکرد) یا با پزشکان عمومی واقعی گفتگو کردند. این گفتگوها از طریق یک رابط کاربری انجام شد که بیمار میتوانست تصاویر را در آن بارگذاری کند.
پس از گفتگوها، پزشکان متخصص (پوست، قلب و داخلی) و خود بازیگران، مکالمات را بررسی کردند. آنها مواردی مانند کیفیت گرفتن شرح حال، دقت تشخیص، کیفیت برنامه درمانی پیشنهادی، مهارتهای ارتباطی، همدلی و البته نحوه تفسیر اطلاعات تصویری توسط هوش مصنوعی را ارزیابی کردند.
نتایج شگفتانگیز از کلینیک شبیهسازیشده
نکته جالب اینجا بود که در این مقایسه مستقیم، AMIE نه تنها عملکرد خوبی داشت، بلکه اغلب از پزشکان عمومی بهتر عمل کرد.
هوش مصنوعی در تفسیر دادههای تصویری به اشتراک گذاشته شده در طول گفتگوها، بهتر از پزشکان عمومی ارزیابی شد. همچنین در دقت تشخیصی، امتیاز بالاتری کسب کرد و فهرست بیماریهای احتمالی که ارائه داد، از نظر متخصصان دقیقتر و کاملتر بود.
پزشکان متخصصی که متن گفتگوها را بررسی کردند، عملکرد AMIE را در بیشتر زمینهها، بهویژه کیفیت تفسیر تصاویر و استدلال، کامل بودن بررسیهای تشخیصی، منطقی بودن برنامههای درمانی و توانایی در تشخیص موارد اورژانسی، بالاتر ارزیابی کردند.
شاید یکی از شگفتانگیزترین یافتهها از سوی بازیگران نقش بیمار بود: آنها اغلب هوش مصنوعی را در این تعاملات متنی، همدلتر و قابل اعتمادتر از پزشکان انسان یافتند.
از نظر ایمنی نیز، مطالعه تفاوت معناداری در میزان خطاهای مبتنی بر تصاویر (برداشتهای نادرست) بین AMIE و پزشکان انسانی نشان نداد. گوگل همچنین آزمایشهای اولیهای با مدل جدیدتر Gemini 2.5 Flash انجام داده که نتایج آن حاکی از پیشرفتهای بیشتر در دقت تشخیص و ارائه برنامههای درمانی مناسب است، هرچند این نتایج هنوز نیازمند بررسی دقیق توسط متخصصان انسانی است.
محدودیتها و واقعیتها
گوگل به صراحت محدودیتهای این مطالعه را بیان میکند. آنها تأکید دارند که این مطالعه یک سیستم تحقیقاتی را در یک ارزیابی به سبک OSCE با استفاده از بازیگران نقش بیمار بررسی میکند، که پیچیدگیهای مراقبت در دنیای واقعی را به طور کامل نشان نمیدهد. سناریوهای شبیهسازیشده، هرچقدر هم خوب طراحی شده باشند، با پیچیدگیهای منحصربهفرد بیماران واقعی در یک کلینیک شلوغ یکسان نیستند. همچنین، رابط کاربری چت، غنای یک مشاوره ویدیویی یا حضوری واقعی را ندارد.
گام بعدی چیست؟
حرکت محتاطانه به سمت دنیای واقعی. گوگل در حال حاضر با مرکز پزشکی Beth Israel Deaconess برای یک مطالعه تحقیقاتی همکاری میکند تا عملکرد AMIE را در محیطهای بالینی واقعی با رضایت بیماران ارزیابی کند. محققان همچنین به نیاز به فراتر رفتن از متن و تصاویر ثابت و حرکت به سمت پردازش ویدیو و صدای زنده – نوعی از تعامل که امروزه در پزشکی از راه دور رایج است – اذعان دارند.
توانمندسازی هوش مصنوعی برای دیدن و تفسیر شواهد تصویری که پزشکان هر روز از آنها استفاده میکنند، نشان میدهد که چگونه هوش مصنوعی ممکن است روزی به پزشکان و بیماران کمک کند. با این حال، مسیر تبدیل این یافتههای امیدوارکننده به ابزاری ایمن و قابل اعتماد برای مراقبتهای بهداشتی روزمره هنوز طولانی است و نیازمند پیمایشی دقیق است.