
Waarom medische AI citaties nodig heeft
8 jan 2026
In onze nieuwe blogserie, Delphyr Engineering, delen onze ontwikkelaars praktische inzichten verkregen bij het bouwen van AI-systemen, voor praktisch klinisch gebruik. In dit eerste artikel onderzoekt Tim de Boer een fundamentele vraag binnen medische AI: hoe kunnen clinici vertrouwen op door AI gegenereerde richtlijnen? Op basis van praktijkervaring legt Tim uit waarom citaten niet alleen een aardigheidje zijn, maar een vereiste voor veilige medische AI, en waarom het correct gebruik ervan verder gaat dan eenvoudige documentverwijzingen naar exacte, verifieerbare broncitaten.
Waarom het vertrouwen in medische AI begint met citaten
Als een collega klinisch advies geeft maar de basis daarvan niet kan uitleggen, wilt u waarschijnlijk de redenering begrijpen of deze verifiëren voordat u ernaar handelt. Dezelfde norm geldt voor medische AI: wanneer clinici AI gebruiken voor advies over richtlijnen of patiëntgegevens, moet de output herleidbaar zijn naar betrouwbare bronnen.
Citaten zijn essentieel, omdat ze professionals in staat stellen informatie te verifiëren, de relevantie ervan te beoordelen en weloverwogen beslissingen te nemen. Zonder duidelijke referenties zijn AI-antwoorden in een klinische omgeving niet te vertrouwen.
Vertrouwen vereist traceerbaarheid, niet alleen opzoeken
Een veelvoorkomend probleem met AI-modellen is dat ze zelfverzekerd kunnen klinken, zelfs als ze het bij het verkeerde eind hebben. In klinische contexten is dit bijzonder gevaarlijk. Een model kan een behandeling aanbevelen, een richtlijn citeren of patiëntgegevens samenvatten, maar de informatie kan onvolledig, verouderd of gewoonweg onjuist zijn.
Een model kan bijvoorbeeld adviseren om een patiënt te laten starten met bloeddrukverlagende medicatie op basis van een enkele verhoogde bloeddrukwaarde, met het argument dat dit wordt aanbevolen in de richtlijnen. Het starten van medicatie op basis van een enkele verhoogde waarde is echter niet in overeenstemming met deze aanbevelingen als er geen dwingende klinische omstandigheden zijn. Dit fenomeen, dat bekend staat als AI-hallucinatie (plausibel klinkende antwoorden die niet op bewijs zijn gebaseerd), ondermijnt het vertrouwen in medische AI.
Retrieval-Augmented Generation (RAG) moest AI-hallucinatie oplossen door antwoorden te baseren op echte documenten. Het is een AI-benadering die twee stappen combineert om antwoorden te genereren, en die vooral belangrijk is in medische AI:
Opzoeken: voordat AI antwoord geeft, doorzoekt het een betrouwbare kennisbank (zoals klinische richtlijnen, onderzoeksrapporten of patiëntendossiers).
Generatie: het AI-model gebruikt vervolgens die opgehaalde documenten om een antwoord in natuurlijke taal te genereren.
Maar werkt het? Het antwoord is: gedeeltelijk. Het AI-model raadpleegt klinische richtlijnen, patiëntendossiers en onderzoeksrapporten voordat het antwoordt. Maar zonder bronvermeldingen heb je nog steeds een black box. AI geeft je een antwoord. Je weet dat het documenten heeft geraadpleegd. Maar welke delen van het antwoord komen uit welke documenten? Geeft het de bronnen nauwkeurig weer of vervormt het ze op subtiele wijze? Als AI zegt "volgens de diabetesrichtlijnen", welke specifieke richtlijn bedoelt het dan?
Zorgprofessionals moeten niet gedwongen worden te gissen, of handmatig bronnen te doorzoeken om elke bewering te verifiëren. AI moet zijn werk laten zien. Citaten kunnen dit oplossen. Maar niet alle citaten zijn gelijk.
Meer dan alleen documentverwijzingen: waarom exacte citaten belangrijk zijn
Veel AI-tools citeren op documentniveau: "Dit komt uit bron X." Dat is beter dan niets, maar het is niet voldoende voor medische AI. Denk er eens over na: een klinische richtlijn kan meerdere pagina's lang zijn. Als je een arts vertelt "deze aanbeveling komt uit richtlijnbron X", helpt dat hem maar een beetje bij het verifiëren van de bewering. Hij zou het hele document moeten lezen om de relevante passage te vinden. In plaats daarvan vereenvoudigt het toevoegen van het exacte fragment uit de bron dat door het model wordt gebruikt de verificatie door de arts aanzienlijk, omdat hij niet meer door het document hoeft te zoeken en direct naar het relevante gedeelte wordt geleid.
```
LLM-claim: Volwassenen met diabetes type 2 moeten worden ondersteund om HbA1c-doelstellingen van 48 of 53 mmol/mol te bereiken, afhankelijk van het risico op hypoglykemie.
Geciteerde bronpassage: "Ondersteun volwassenen met diabetes type 2 in het bereiken en handhaven van hun HbA1c-streefwaarde... streef naar een HbA1c-niveau van 48 mmol/mol (6,5%)... [of] 53 mmol/mol (7,0%)." Diabetes type 2 bij volwassenen: behandeling NICE-richtlijn, paragraaf 1.6
```
Dit verandert alles wat betreft de manier waarop clinici AI-output kunnen beoordelen en vertrouwen. In plaats van een vage verwijzing naar een lang document, wordt AI gedwongen om nauwkeurig en transparant te zijn over het exacte bewijs achter elke bewering.
Precisie: AI kan niet vaag verwijzen naar een document. Het moet de specifieke zin identificeren die de bewering ondersteunt.
Onmiddellijke verificatie: clinici zien de feitelijke brontekst naast de interpretatie van de AI. Ze kunnen de nauwkeurigheid binnen enkele seconden verifiëren, in plaats van minuten.
Verantwoordelijkheid: als er iets misgaat, is er een duidelijk controlespoor. We weten precies wat het AI-model heeft gelezen en wat het heeft geconcludeerd.
Vertrouwen: het zien van het bewijs naast de bewering wekt vertrouwen. Gebruikers leren het systeem te vertrouwen omdat ze het kunnen verifiëren.
Hoe Delphyr citaten genereert
We leren onze LLM om inline citaten te genereren terwijl het zijn antwoord schrijft. Terwijl het model tekst produceert, voegt het op natuurlijke wijze citaten in bij elke bewering. Het model leert dat elke uitspraak die uit een document is afgeleid, moet worden geciteerd. Niet later. Niet bij benadering. Precies daar, met het exacte fragment.
Deze aanpak heeft een belangrijk voordeel: AI doet alleen beweringen die het kan onderbouwen. Omdat het citeren tijdens het genereren gebeurt, en niet daarna, ontwikkelt het model een interne consistentie. Het doet geen bewering om vervolgens op zoek te gaan naar ondersteunend bewijs: het vindt eerst het bewijs.
Nauwkeurigheid boven snelheid
Een belangrijk nadeel is dat het toevoegen van citaten tijdens het genereren de antwoorden vertraagt. Het genereren van citaten en het valideren ervan kost tijd. We zouden het systeem sneller kunnen maken door citaten over te slaan. Of door minder strikt te citeren. Of door citaten toe te voegen na het genereren van het antwoord, door het model eerst een antwoord te laten genereren en dat antwoord daarna te koppelen aan de bronpassages.
Dat doen we niet.
Achteraf-citaten lossen de verificatie niet daadwerkelijk op. Zodra een bewering is gegenereerd, is er geen objectieve manier om te bewijzen dat een opgehaalde bron deze ook echt ondersteunt. Overeenkomst is subjectief. Het gebruik van exacte citaten neemt deze dubbelzinnigheid volledig weg: het fragment komt ofwel letterlijk voor in de bron, ofwel niet. Validatie wordt een binaire controle.
Die dubbelzinnigheid legt de verificatie weer bij de gebruiker.
Denk eens aan het alternatief: een arts krijgt een snel antwoord, maar met losjes gekoppelde citaten. Nu is hij twee minuten lang bezig met het handmatig doorzoeken van richtlijnen om te bepalen of die bronnen de bewering echt ondersteunen. Je hebt één seconde systeemvertraging ingeruild voor twee minuten menselijke arbeid en verificatiefouten geïntroduceerd. Of erger nog: de arts controleert de losjes toegevoegde bronnen helemaal niet (automatiseringsbias), omdat dat te veel tijd zou kosten. Ze vertrouwen op AI omdat het snel en betrouwbaar is. En dan ontstaan er fouten.
Citaten verschuiven de verificatieverplichting van mensen naar systemen, maar alleen als ze deterministisch kunnen worden gevalideerd. Met onze aanpak duurt het langer voordat de LLM reageert, maar de reactie is vooraf geverifieerd. Artsen kunnen er onmiddellijk op vertrouwen of het binnen enkele seconden verifiëren door de geciteerde fragmenten te controleren.
Wat we tot nu toe hebben geleerd
Tijdens de ontwikkeling van citatiesystemen voor medische AI bij Delphyr hebben we een aantal belangrijke lessen geleerd over wat wel en niet werkt om AI-output betrouwbaar en verifieerbaar te maken.
Achteraf-citaten zijn moeilijk te valideren
We hebben onderzocht of we stellingen in de LLM-antwoorden konden valideren door achteraf citaten toe te voegen, maar we kwamen tot de conclusie dat die aanpak te dubbelzinnig is. Door exacte citaten te gebruiken, wordt deze dubbelzinnigheid volledig weggenomen.
Modellen kunnen worden getraind om betrouwbaar te citeren
Het genereren van hoogwaardige citaten is geen onopgelost probleem. Met de juiste trainingsopzet kunnen modellen leren om hun beweringen consequent te onderbouwen met bronnen. Wanneer citeren een eerste vereiste is in plaats van een bijzaak, past het model zijn gedrag aan. Het leert wanneer het moet antwoorden, wanneer het zich moet onthouden en hoe het beweringen moet formuleren zodat ze direct kunnen worden ondersteund door bewijs. In de praktijk werkt dit opmerkelijk goed.
Citaten verbeteren de onderbouwing
We hebben gezien dat het dwingen van AI om elke bewering in zijn antwoord te citeren, het conservatiever en nauwkeuriger maakt. Het model leert alleen beweringen te doen die het kan ondersteunen met exacte citaten. Dat is precies het gedrag dat je wilt in een medische context.
Latentie mag als nauwkeurigheid gegarandeerd is
De sleutel is om het wachten de moeite waard te maken: laat de gebruiker de gevonden bronnen en citaten zien en leg uit wat er wordt gecontroleerd.
Conclusie
RAG zonder citaten is een halve oplossing. Het baseert AI-antwoorden op documenten, maar laat niet zien welke delen waar vandaan komen. Citaten, met name exacte citaten, maken het plaatje compleet. Ze maken verificatie mogelijk, bouwen vertrouwen op en verschuiven de verantwoordelijkheid voor nauwkeurigheid van zorgprofessionals naar het AI-systeem.
De kosten zijn latentie. Het toevoegen van citaten en het in realtime valideren ervan kost tijd. Maar in medische AI is nauwkeurigheid belangrijker dan snelheid. Zorgprofessionals hebben systemen nodig die ze kunnen vertrouwen, niet alleen snelle systemen.
Want als de zorg voor patiënten op het spel staat, is 'vertrouw me maar' nooit goed genoeg.
Volg onze reis in medische AI
Benieuwd hoe we betrouwbare AI voor de gezondheidszorg bouwen? Volg onze engineeringblog voor inzichten in medische AI-infrastructuur, evaluatiekaders en lessen die we hebben geleerd tijdens de productie.

