Aug 2025·10 min·RAG ArchitectureResearch

cognitive retrieval systems

erschöpfte eltern brauchen um 3 uhr nachts keine halluzinierte beratung. ein retrieval-system, das weiß, wann es antworten soll, wann es nachfragen muss und wann es „ich weiß es nicht“ sagt.

der ursprung

es begann mit einer nachricht um drei uhr morgens. ich baue seit jahren ki-systeme, und was mich jedes mal stört, wenn ich einen gesundheits-chatbot öffne, ist nicht, dass er die fakten falsch hätte, denn das hat er meistens nicht. es ist die art, wie er sie sagt. fragt man ihn um zwei uhr nachmittags nach babyschlaf, während man bei einem kaffee an einem artikel recherchiert, bekommt man eine saubere, brauchbare antwort. fragt man dasselbe um drei uhr morgens, nachdem das baby zwei stunden lang geschrien hat, bekommt man genau dieselbe antwort zurück: denselben klinischen ton, dieselbe distanzierte präzision, dasselbe völlige übersehen, dass man auf drei stunden zerstückeltem schlaf läuft. wir haben systeme gebaut, die alles wissen und nichts verstehen.

dann lernte ich miriam ende kennen, eine der bekanntesten babyschlaf-expertinnen deutschlands und die person, an die sich tausende erschöpfter eltern wenden, wenn nichts anderes mehr hilft. ich habe zugesehen, wie sie um drei uhr morgens auf eine nachricht antwortet. die fakten sind dieselben, die jedes lehrbuch geben würde, aber die wirkung liegt meilenweit auseinander. sie liest die verzweiflung zwischen den zeilen und weiß, dass „er wacht alle neunzig minuten auf“ keine frage ist, sondern ein hilferuf. sie kann allerdings auch nur einem elternteil nach dem anderen helfen. in derselben nacht, während sie ihre antwort an eine mutter tippte, saßen tausende andere in dunklen kinderzimmern, das gesicht vom handy beleuchtet, tippten dieselbe frage in google und bekamen zwei millionen widersprüchliche treffer: die einen sagen, es sei entwicklungsbedingt, die anderen geben dem still- oder fütterrhythmus die schuld, wieder andere bestehen darauf, das baby brauche jetzt schlaftraining, sonst lerne es nie, sich selbst zu beruhigen. die information ist da. um drei uhr morgens ist sie das letzte, was ein elternteil braucht. gebraucht wird, was miriam gibt: dieselben fakten, getragen von jemandem, der versteht.

ein problem auf bevölkerungsebene

das ist nicht die schlechte nacht einer einzelnen mutter, es ist ein strukturelles versagen. irgendwo zwischen einem fünftel und einem drittel der eltern berichtet von schlafproblemen ihres babys, fast die hälfte aller mütter nennt den schlaf ihres kindes problematisch, und die überwältigende mehrheit dieser panischen suchen passiert zwischen zehn uhr abends und fünf uhr morgens, also genau dann, wenn kein menschlicher experte wach ist, um sie aufzufangen. in den ersten wochen nach der geburt schläft eine frischgebackene mutter unter sieben stunden pro nacht, kaum drei davon am stück, und das ist keine vage müdigkeit. es ist eine messbare beeinträchtigung: das arbeitsgedächtnis fällt um rund ein viertel, die emotionsregulation um etwa ein drittel, die reaktionszeit wird langsamer, und das gehirn wird deutlich risikoscheuer. das wahre bild ist also: millionen kognitiv beeinträchtigter menschen suchen medizinischen rat in den stunden, in denen die experten schlafen, und bekommen ihn von systemen, die eine klinische frage nicht von einem hilferuf unterscheiden können.

der kognitive zustand ist teil des kontexts

die übliche reaktion auf schlechte gesundheits-ki ist, das retrieval besser zu machen: genauere quellen finden, sie cleverer ranken, den richtigen absatz nach oben holen. das setzt voraus, das problem sei ein informationsproblem. ist es nicht, es ist ein architekturproblem. heutige systeme behandeln jede anfrage gleich, egal wer wann fragt, also bekommen der forscher um 14 uhr und das erschöpfte elternteil um 2 uhr nachts denselben ton, dieselbe komplexität, dasselbe emotionale register. genau das ist der eigentliche fehler. die kognitive kapazität der person, die die antwort liest, gehört zum kontext, und sie zu ignorieren ist der fehler. statt also ein system zu bauen, das perfekte information an einen idealisierten nutzer liefert, baue ich eines, das anpasst, wie es kommuniziert, an den echten zustand des menschen davor. dieselben fakten, andere übermittlung, miteinander verwoben statt obendrauf geschraubt.

kontextuelle empathie

bevor ich irgendetwas davon entwerfen konnte, musste ich verstehen, was zerstückelter schlaf mit einem gehirn macht. die forschung ist eindeutig: unter sechs stunden pro nacht über mehr als eine woche beschneidet messbar das arbeitsgedächtnis, dämpft die emotionsregulation, hebt die risikoscheu und verlangsamt die sprachverarbeitung. jedes davon hat eine gestalterische konsequenz. ein geschrumpftes arbeitsgedächtnis heißt, antworten müssen kurz, modular und überfliegbar sein. eine gestörte emotionsregulation heißt, eine negative formulierung trifft viel härter als beabsichtigt. erhöhte risikoscheu heißt, eine warnung muss sorgsam abgewogen werden, sonst kippt sie direkt in panik. verlangsamte verarbeitung heißt, ein verschachtelter satz wird zur wand. medizinisches schreiben optimiert auf präzision; ich musste auf verständlichkeit unter beeinträchtigung optimieren, und das ist nicht dasselbe.

das ergebnis nenne ich kontextuelle empathie, und damit meine ich die fähigkeit eines systems, seine kommunikative strategie in echtzeit an den vermuteten emotionalen zustand und die kognitive last des nutzers anzupassen, statt eine warme floskel an einen kalten absatz zu heften. es geht nicht darum, die ki netter zu machen. es ist die schlichte einsicht, dass das wie einer aussage verändert, was ankommt, und dass diese kluft umso größer wird, je erschöpfter der zuhörer ist.

die architektur

das system läuft als pipeline, die nicht nur erfasst, was gefragt wird, sondern auch, wer fragt und wann. zuerst erschließt es den kontext aus allen signalen, die es hat: dem zeitstempel und der tageszeit, der komplexität und tippfehler-dichte der nachricht, dem abstand zur letzten. daraus schätzt es ein stresslevel, eine kognitive last und die dringlichkeit des bedarfs. dann ruft es in schichten ab statt nur einmal, stützt sich auf die eigene historie des elternteils, auf eine wissensbasis aus miriams methodik und der schlafforschung und auf ein abschließendes re-ranking, das für ein gestresstes elternteil die einfacheren, umsetzbareren treffer nach oben holt und für einen ruhigen rechercheur die umfassenden quellen. der ton selbst wird als kontinuierlicher raum behandelt, mit dimensionen wie wärme, dringlichkeit, komplexität und beruhigung, und der vermutete zustand setzt für jede ein ziel, das dem modell als parameter übergeben wird statt als plumpe regel à la „wenn gestresst, sei nett“.

derselbe fakt kommt an den beiden enden dieses raums dann sehr unterschiedlich heraus. zu einem neugierigen elternteil bei tageslicht: babyschlafzyklen dauern fünfzig bis sechzig minuten, kürzer als bei erwachsenen, und häufiges aufwachen ist vor dem sechsten monat entwicklungsbedingt normal. zu einem erschöpften um drei uhr morgens: du machst nichts falsch, alle neunzig minuten aufzuwachen ist in diesem alter völlig normal, die zyklen sind einfach viel kürzer als unsere, und das wird besser. dieselbe information, gegenteilige wirkung.

darunter stützen sich verschiedene stufen auf verschiedene modelle. generierung und ton liegen auf claude sonnet 4.6, wo tiefe und nuance im denken sich auszahlen; die schnelle arbeit, kontext zu erschließen und jede aussage gegen ihre quelle zu prüfen, läuft auf haiku 4.5, schnell und günstig genug, um in echtzeit zu bleiben; und die wirklich mehrdeutigen fälle eskalieren zu opus 4.8. es ist das inzwischen vertraute muster, dass ein stärkeres modell die arbeit plant und schnellere die teile parallel ausführen. ich habe mich teils deshalb für claude entschieden und teils, weil seine sicherheit antrainiert ist statt nachträglich angeschraubt, was zählt, wenn eine gesundheitsanfrage anweisungsartige sprache tragen kann („ignorier das schreien, lass es einfach brüllen“), der ein schwächeres system tatsächlich folgen könnte.

was schwer ist, ehrlich gesagt

das hier ist öffentlich gebaut und erst halb fertig. auf einem beschrifteten set von 115 fällen, feld für feld gegen eine referenz geprüft, stimmt die kontexterschließung insgesamt etwa zu 84 prozent überein, doch der schnitt verdeckt die spreizung: das ablesen des inneren zustands liegt bei rund 81 prozent, während die zeitlichen signale, die am schwersten zu fassen sind, bei 57 prozent sitzen. ein jüngster struktureller fix hat genau diese zeitlichen signale gehoben, von 43 auf 57 prozent, und das, ohne die zahl der unsicheren fälle zu bewegen, die bei drei blieb. nichts davon ist für einen gesundheitskontext schon gut genug, wo selbst eine handvoll falscher einschätzungen zu viel ist. das tiefere problem bleibt, dass die wahrheit teuer ist: zu bestätigen, dass ein erschlossener zustand dem echten entspricht, verlangt sorgfältige beschriftung, keine zahl, die ich billig erzeugen kann. ob der adaptive ton das verständnis gegenüber einem flachen klinischen wirklich verbessert, ist eine eigene offene frage, mit einer studie, die entworfen ist und auf das ethikvotum wartet, statt mit einem ergebnis in der hand. ich lege diese zahlen lieber auf den tisch, als sie schönzureden.

die grenzen

die ehrlichen grenzen reichen weiter als die kennzahlen. das system ist auf deutsch und englisch abgestimmt und bräuchte für jede andere sprache eigene arbeit; schlafnormen sind kulturell verschieden, und die wissensbasis stützt sich auf westliche pädiatrische leitlinien; und ich weiß noch nicht, ob die nutzung das ergebnis über wochen und monate verbessert, nur dass sie im moment hilft. das ethische gewicht wiegt schwerer. wenn das system einen rat gibt, der zu schaden führt, existiert kaum ein haftungsrahmen. rund-um-die-uhr-ki-unterstützung könnte still und leise die menschliche beratung verdrängen, die etwas ernstes erkannt hätte. und gute empathische ki wird höchstwahrscheinlich ein bezahldienst sein, was genau die kluft zu vergrößern droht, die sie schließen sollte. ich baue das mit ausdrücklicher unsicherheit über seine langzeitwirkung, nicht trotz ihr.

worum es geht

die mutter, die um 3:14 uhr wach ist, braucht kein weiteres suchergebnis. sie braucht eine antwort, die berücksichtigt, dass ihr arbeitsgedächtnis um ein viertel gesunken ist und ihre emotionsregulation um ein drittel: fakten, mit wärme überbracht, beruhigung, in evidenz verankert. die heutigen werkzeuge zwingen sie zur wahl zwischen richtig-aber-kalt und warm-aber-unzuverlässig, und das ist eine falsche wahl. cognitive retrieval systems ist mein versuch, sie zu verweigern, eine architektur, die empathie und genauigkeit als eine fähigkeit behandelt statt als zwei, die konkurrieren. ich baue es mit miriam ende, nicht um ihre expertise zu ersetzen, sondern um sie in die stunden zu verlängern, in denen sie schläft und ein elternteil nicht. für die vielen eltern, die mit dem babyschlaf kämpfen, kann der unterschied zwischen einer kalten richtigen antwort und einer warmen richtigen das sein, was sie durch die nacht trägt.

quellen

Xiong, G. et al. (2024). Benchmarking RAG for Medicine. ACL 2024 Findings.
Farquhar, S. et al. (2024). Detecting hallucinations using semantic entropy. Nature, 630, 625-630.
Omar, M. et al. (2025). LLM Hallucinations in Clinical Decision Support. Communications Medicine, 5.
Min, S. et al. (2023). FActScore. EMNLP 2023.
Mindell, J.A. et al. (2006). Behavioral Treatment of Infant Sleep Problems. Sleep, 29(10).
Lim, J. & Dinges, D.F. (2010). The impact of short-term sleep deprivation on cognitive variables. Psychological Bulletin, 136(3).
Yoo, S.S. et al. (2007). The human emotional brain without sleep. Current Biology, 17(20).
Harrison, Y. & Horne, J.A. (2000). Sleep loss and decision making. Journal of Experimental Psychology: Applied, 6(3).
Ratcliff, R. & Van Dongen, H.P. (2009). Sleep deprivation affects multiple distinct cognitive processes. Psychonomic Bulletin & Review, 16(4).
World Health Organization. (2021). Ethics and Governance of AI for Health. Geneva: WHO.
European Union. (2024). The AI Act. Official Journal of the EU.
Anthropic. (2026). Claude Model Cards.

last updated: Jun 2026