Předchozí studie zjistily, že systémy umělé inteligence mohou pomoci zdravotnickým pracovníkům tím, že úspěšně odebírají anamnézu, poskytují předběžné diagnózy a třídí pacienty.
Vědci z Harvard Medical School a Stanford University však nyní zjistili, že nástroje umělé inteligence nefungují dobře v situacích, které více napodobují skutečný svět.
Během studie tým akademiků vytvořil test s názvem Conversational Reasoning Assessment Framework for Testing in Medicine (CRAFT-MD).
Jakmile byl vyvinut, nasadili test na čtyřech velkojazyčných modelech, aby prozkoumali výkon AI v klinických podmínkách.
Zjistili, že čtyři modely ve velkém jazyce fungovaly dobře v otázkách ve stylu lékařské prohlídky, ale ne tak dobře, když se zapojily do konverzací více napodobujících interakce v reálném světě.
Autoři uvedli: „Tato mezera podtrhuje dvojí potřebu: zaprvé vytvořit realističtější hodnocení, která lépe poměří vhodnost klinických modelů umělé inteligence pro použití v reálném světě, a zadruhé zlepšit schopnost těchto nástrojů určovat diagnózy. na základě realističtějších interakcí před jejich nasazením na klinice.“
„Vyhodnocovací nástroje, jako je CRAFT-MD, mohou nejen přesněji hodnotit modely umělé inteligence pro reálnou kondici, ale mohou také pomoci optimalizovat jejich výkon na klinice.“
První autor, profesor Pranav Rajpurkar, řekl: „Naše práce odhaluje zarážející paradox – zatímco tyto modely umělé inteligence vynikají při zkouškách na lékařské fakultě, potýkají se se základním opakováním návštěvy lékaře.“
„Dynamická povaha lékařských rozhovorů – potřeba klást správné otázky ve správný čas, poskládat dohromady rozptýlené informace a uvažovat prostřednictvím symptomů – představuje jedinečné výzvy, které jdou daleko nad rámec zodpovězení otázek s výběrem z více možností.“
Profesor Rajpurkar dodal: „Když přejdeme ze standardizovaných testů na tyto přirozené konverzace, i ty nejsofistikovanější modely umělé inteligence vykazují výrazné poklesy v diagnostické přesnosti.“
Výzkumníci ukázali, že modely umělé inteligence jsou v současné době posuzovány tak, že odpovídají na lékařské otázky s výběrem z více možností.
Kolega Shreya Johri řekl: „Tento přístup předpokládá, že všechny relevantní informace jsou prezentovány jasně a stručně, často s lékařskou terminologií nebo módními slovy, které zjednodušují diagnostický proces, ale v reálném světě je tento proces mnohem komplikovanější.“
„Potřebujeme testovací rámec, který lépe odráží realitu, a proto lépe předpovídá, jak dobře bude model fungovat.“
Spoluautorka, profesorka Roxana Daneshjou, řekla: „Jako lékařský vědec mě zajímají modely umělé inteligence, které mohou účinně a eticky rozšířit klinickou praxi.“
„CRAFT-MD vytváří rámec, který věrněji odráží interakce v reálném světě, a pomáhá tak posunout pole vpřed, pokud jde o testování výkonnosti modelu AI ve zdravotnictví.“
Zdroj: diabetes.co.uk