
Een heroverweging van MDR
28 mei 2025
Het is tijd voor modernisatie van de regelgeving voor medische hulpmiddelen
De Europese AI-regelgeving behoort tot de strengste ter wereld, en terecht. De AI-wet van 2024 is een essentiële eerste stap om een duidelijk EU-regelgevingskader voor AI vast te stellen. Deze wet voorkomt schade in diverse sectoren, waaronder de gezondheidszorg, door middel van risicogebaseerde classificatie, transparantie en vereisten voor menselijk toezicht.
De meer uitgebreide basisregelgeving voor productveiligheid voor Europese medische AI-instrumenten vormt echter een uitdaging voor zowel innovators, artsen als patiënten.
De strenge eisen van de Medical Devices Regulations (Regelgeving medische hulpmiddelen, MDR) op het gebied van ontwerp, ontwikkeling en toezicht na het in de handel brengen verplichten fabrikanten om hun producten voor elk afzonderlijk beoogd gebruik te certificeren, waarbij de specifieke patiëntengroep, inputs, outputs en klinische beweringen gedetailleerd moeten worden beschreven.
Waarom de MDR tekortschiet voor generatieve AI
Voor hardware is dit logisch. Maar medische generatieve AI is vanwege zijn aard bijna onmogelijk op deze manier te valideren. Medische grote taalmodellen (LLM's) zijn bijzonder goed in generaliseren. Ze zijn als Zwitserse zakmessen: ze kunnen een bijna oneindig scala aan outputs creëren en worden niet beperkt door één bepaald gebruik. Medische LLM's hebben dan ook zeer waarschijnlijk redeneervermogens die verder gaan dan het beoogde gebruik.
Aangemelde instanties hebben specifiek gesteld dat "de praktijk heeft aangetoond dat het voor fabrikanten moeilijk is om de conformiteit van AI-apparaten, die de onderliggende modellen bijwerken met behulp van zelflerende mechanismen in het veld, voldoende aan te tonen.”
Momenteel beschouwen aangemelde instanties medische hulpmiddelen die op dergelijke modellen zijn gebaseerd niet als "certificeerbaar", tenzij de fabrikant maatregelen neemt om de veilige werking van het hulpmiddel te waarborgen binnen het kader van de validatie die in de technische documentatie wordt beschreven."
AI-innovators moeten daarom MDR-goedkeuring verkrijgen voor één specifieke indicatie en patiëntenpopulatie, en vervolgens telkens een verzoek indienen om het toepassingsgebied uit te breiden met een nieuwe indicatie en/of patiëntenpopulatie. Het certificeren van een LLM van medische kwaliteit voor algemeen klinisch gebruik zou tientallen jaren in beslag nemen.
We hebben met verschillende aangemelde instanties gesproken en kregen te horen dat "alles mogelijk is zolang we aantonen dat we voldoen aan de GSPR's (algemene veiligheids- en prestatie-eisen), met passende klinische gegevens of niet-klinische gegevens in het geval van artikel 61, lid 10, dat van toepassing is op specifieke GenAI-software voor medische hulpmiddelen [waardoor fabrikanten in bepaalde omstandigheden kunnen aantonen dat ze voldoen op basis van uitsluitend niet-klinische testmethoden]".
Maar deze aanpak is duidelijk gebrekkig: elk AI-bedrijf zou zelf moeten uitzoeken of het aan de voorschriften voldoet, waarbij aangemelde instanties apparaten per geval beoordelen.
De gevolgen van niets doen: afbrokkelend vertrouwen van het publiek
Deze aanpak – het met brute kracht doorvoeren van een innovatie die niet past in de bestaande regelgeving – leidt tot vertragingen in de patiëntenzorg, doordat bewezen innovaties worden beperkt tot zeer beperkte gebruikssituaties. Als gevolg daarvan zullen innovaties waarschijnlijk naar de VS of andere grote markten verhuizen.
Dit creëert een aanzienlijk risico dat het vertrouwen van het publiek in de regelgevende instanties voor de gezondheidszorg wordt geschaad, aangezien patiënten zullen uitkijken naar landen die sneller zijn overgegaan tot het reguleren van opkomende technologieën op basis van hun risico's, voordelen en unieke eigenschappen.
Zoals Derraz et al. (npj Precision Oncology, 2024) het stellen: "Naarmate de voordelen van deze therapieën bij het publiek bekend worden, zullen zij verwachten dat de regelgeving van hun eigen land toegang tot deze therapieën mogelijk maakt. Als dit niet gebeurt, zal de publieke steun voor hun nationale kaders waarschijnlijk afbrokkelen."
Er zijn nieuwe richtsnoeren nodig om ervoor te zorgen dat alle bedrijven op gelijke wijze worden beoordeeld en dat voor alle Europese AI-innovaties hetzelfde bewijsmateriaal wordt vereist, zodat ze tijdig op de markt kunnen komen om hun voordelen voor patiënten aan te tonen.
Het scheppen van een precedent
Sommige regelgevende instanties, die zich bewust zijn van deze uitdagingen, beginnen nieuwe wegen in te slaan. Het Zuid-Koreaanse Ministerie van Voedsel- en Geneesmiddelenveiligheid (MFDS) heeft in januari 2025 specifieke richtlijnen uitgevaardigd voor de goedkeuring van generatieve AI – met name LLM's en LMM's – als medische hulpmiddelen (Park et al., 2025).
De Koreaanse MFDS-richtlijnen richten zich specifiek op LLM/LMM-gebaseerde softwaretools die direct betrokken zijn bij de diagnose, behandeling of prognose van patiënten, en onderscheiden deze van meer algemene AI-systemen of eenvoudigere tools zoals medische dicteersoftware.
Belangrijke overwegingen in hun kader zijn onder meer:
Gedetailleerd beoogd gebruik en waarschuwingen: Om het hogere risico van off-label-gebruik van veelzijdige LLM's in vergelijking met conventionele AI te beperken, vereisen de richtlijnen expliciet dat fabrikanten uitgebreide details over het beoogde gebruik (met een omschrijving van het doel en de indicaties) verstrekken, samen met duidelijke waarschuwingen tegen dergelijk off-label-gebruik. Deze informatie moet worden verstrekt via gebruiksaanwijzingen, vergelijkbaar met bijsluiters bij medicijnen.
Specifieke prestatie-evaluatie: Gezien de complexiteit van het evalueren van vrije-tekstuitvoer, schrijven de richtlijnen voor dat de prestaties van het model klinisch moeten worden geëvalueerd door meerdere deskundige clinici uit de relevante vakgebieden. Bij deze evaluatie worden gestructureerde methoden gebruikt, zoals het beoordelen van de klinische significantie van eventuele fouten. Automatische meetmethoden (bijv. BLEU, ROUGE, METEOR, nauwkeurigheid, F1-score) worden aanvullend gebruikt.
Beheer van unieke LLM-risico's: De richtlijnen erkennen risico's zoals verkeerde informatie, uitdagingen op het gebied van verklaarbaarheid en de mogelijkheid van automatiseringsbias.
In plaats van specifieke technische kenmerken (zoals onzekerheidsindicatoren of verklaarbaarheidstools) verplicht te stellen, is de belangrijkste risicobeperkende strategie echter om het gebruik van het apparaat uitsluitend voor te behouden aan gekwalificeerde clinici in de relevante vakgebieden, waarbij deze beperking duidelijk wordt vermeld in de gebruiksaanwijzing.
Potentiële inconsistentie als gevolg van promptgevoeligheid of stochastiek, en het risico van modelprestatieverschuiving in de loop van de tijd, worden erkend, met algemene aanbevelingen voor periodieke evaluatie, maar zonder dat er nog specifieke verplichte maatregelen of monitoringvereisten zijn vastgelegd.
Deze richtlijnen zitten nog in een voorlopig stadium en hebben aanzienlijke beperkingen. Niettemin biedt het Zuid-Koreaanse initiatief een concreet voorbeeld van de specifieke regelgeving die nodig is voor generatieve AI in de geneeskunde.
In Europa moeten we een vergelijkbare aanpak vinden: het ontwikkelen van op maat gemaakte regelgevingskaders om de veiligheid van patiënten en de soevereiniteit van gegevens te beschermen zonder innovatie te belemmeren. Leren van internationale inspanningen en het bevorderen van samenwerking tussen regelgevers, ontwikkelaars en clinici zijn cruciale stappen. Als we niets doen, dan is het risico duidelijk: onhoudbare vertragingen in de patiëntenzorg. De tijd voor actie is nu.

