Home Bots & Brains Machine learning-modellen voor het diagnosticeren van COVID-19 zijn nog niet geschikt voor klinisch gebruik

Machine learning-modellen voor het diagnosticeren van COVID-19 zijn nog niet geschikt voor klinisch gebruik

door Marco van der Hoeven

Onderzoekers hebben ontdekt dat van de meer dan 300 COVID-19 machine learning-modellen die in 2020 in wetenschappelijke artikelen zijn beschreven, geen enkele geschikt is voor het detecteren of diagnosticeren van COVID-19 op basis van standaard medische beeldvorming, vanwege bias, methodologische tekortkomingen, gebrek aan reproduceerbaarheid , en ‘Frankenstein-datasets’.

Het team van onderzoekers, geleid door de Universiteit van Cambridge, voerde een systematische review uit van wetenschappelijke manuscripten – gepubliceerd tussen 1 januari en 3 oktober 2020 – waarin machine learning-modellen werden beschreven die beweerden COVID-19 te kunnen diagnosticeren of voorspellen op basis van thoraxfoto’s. (CXR) en computertomografie (CT) beelden. Sommige van deze artikelen hadden het proces van intercollegiale toetsing ondergaan, terwijl de meerderheid dat niet had gedaan.

Hun zoektocht leverde 2.212 studies op, waarvan 415 werden gebruikt na initiële screening en, na kwaliteitsscreening, 62 studies werden opgenomen in de systematische review. Geen van de 62 modellen was van potentieel klinisch nut, wat een grote zwakte is, gezien de urgentie waarmee gevalideerde COVID-19-modellen nodig zijn. De resultaten worden gerapporteerd in het tijdschrift Nature Machine Intelligence.

Potentieel krachtig

Machine learning is een veelbelovende en potentieel krachtige techniek voor het opsporen en voorspellen van ziekten. Methoden voor machinaal leren, ook waar beeldvorming en andere gegevensstromen worden gecombineerd met grote elektronische gezondheidsdatabases, zouden een gepersonaliseerde benadering van de geneeskunde mogelijk kunnen maken door een verbeterde diagnose en voorspelling van individuele reacties op therapieën.

“Elk algoritme voor machine learning is echter zo goed als de gegevens waarop het is getraind”, zegt eerste auteur dr. Michael Roberts van de afdeling Toegepaste Wiskunde en Theoretische Fysica van Cambridge. “Vooral voor een nieuwe ziekte als COVID-19 is het van vitaal belang dat de trainingsgegevens zo divers mogelijk zijn, want, zoals we tijdens deze pandemie hebben gezien, zijn er veel verschillende factoren die van invloed zijn op hoe de ziekte eruitziet en hoe deze eruitziet. gedraagt ​​zich. ”

Gegevens van slechte kwaliteit

“De internationale machine learning gemeenschap heeft enorme inspanningen geleverd om de COVID-19-pandemie aan te pakken met behulp van machine learning”, zegt co-senior auteur Dr. James Rudd van de afdeling Geneeskunde van Cambridge. “Deze vroege onderzoeken zijn veelbelovend, maar ze lijden aan een hoge prevalentie van tekortkomingen in methodologie en rapportage, en geen van de literatuur die we hebben besproken, bereikt de drempel van robuustheid en reproduceerbaarheid die essentieel is om het gebruik in de klinische praktijk te ondersteunen.”

Veel van de onderzoeken werden gehinderd door problemen met gegevens van slechte kwaliteit, slechte toepassing van machine learning-methodologie, slechte reproduceerbaarheid en vooroordelen in de onderzoeksopzet. Zo gebruikten verschillende trainingsdatasets afbeeldingen van kinderen voor hun ‘niet-COVID-19’-gegevens en afbeeldingen van volwassenen voor hun COVID-19-gegevens. “Aangezien kinderen echter veel minder kans hebben om COVID-19 te krijgen dan volwassenen, kon het machine learning-model alleen nuttig zijn om het verschil te zien tussen kinderen en volwassenen, aangezien het opnemen van afbeeldingen van kinderen het model sterk bevooroordeeld maakte”, aldus Roberts.

Mislukken

Veel van de machine learning-modellen zijn getraind op voorbeelddatasets die te klein waren om effectief te zijn. “In de vroege dagen van de pandemie was er zo’n honger naar informatie, en sommige publicaties werden ongetwijfeld gehaast”, zei Rudd. “Maar als je je model baseert op gegevens van één ziekenhuis, werkt het misschien niet op gegevens van een ziekenhuis in de volgende stad: de gegevens moeten divers en idealiter internationaal zijn, anders stel je je machine learning in. model mislukken als het breder wordt getest. ”

In veel gevallen specificeerden de onderzoeken niet waar hun gegevens vandaan kwamen, of waren de modellen getraind en getest op dezelfde gegevens, of waren ze gebaseerd op openbaar beschikbare ‘Frankenstein-datasets’ die in de loop van de tijd waren geëvolueerd en samengevoegd, waardoor het onmogelijk was om de eerste resultaten te reproduceren.

Hogere kwaliteit

Een andere wijdverbreide fout in veel van de onderzoeken was een gebrek aan betrokkenheid van radiologen en clinici. “Of je nu machine learning gebruikt om het weer te voorspellen of hoe een ziekte zich kan ontwikkelen, het is zo belangrijk om ervoor te zorgen dat verschillende specialisten samenwerken en dezelfde taal spreken, zodat de juiste problemen kunnen worden aangepakt”, aldus Roberts.

Ondanks de tekortkomingen die ze aantroffen in de COVID-19-modellen, zeggen de onderzoekers dat machinaal leren met enkele belangrijke aanpassingen een krachtig hulpmiddel kan zijn bij het bestrijden van de pandemie. Ze waarschuwen bijvoorbeeld voor naïef gebruik van openbare datasets, wat kan leiden tot aanzienlijke risico’s op bias. Bovendien moeten datasets divers zijn en de juiste grootte hebben om het model bruikbaar te maken voor verschillende demografische groepen, en moeten onafhankelijke externe datasets worden samengesteld.

Naast datasets van hogere kwaliteit, zijn manuscripten met voldoende documentatie nodig om reproduceerbaar te zijn en zijn externe validatie vereist om de kans te vergroten dat modellen worden voortgezet en geïntegreerd in toekomstige klinische studies. ook om onafhankelijke technische en klinische validatie en kosteneffectiviteit tot stand te brengen.

Misschien vind je deze berichten ook interessant