Forschung

Wie wir über Entscheidungsfindung, Wissenslücken und KI-Agenten denken, die darüber nachdenken, was sie nicht wissen.

Die Lücken im Wissen einer Organisation bewerten

Organisationen sammeln Daten über Dutzende Systeme hinweg — Dokumente, E-Mails, CRMs, Projekttools. Die übliche Annahme: mehr Daten bedeuten bessere Entscheidungen. In der Praxis sind oft genau die Daten entscheidend, die fehlen, die eine Entscheidung wirklich ändern würden. Eine Lieferzeit, die niemand erfasst hat. Eine Preisänderung des Wettbewerbers, vergraben in einem Postfach. Ein Vertragsbestandteil, das vor drei Monaten ausgelaufen ist.

Wir haben ein System gebaut, das das Wissen einer Organisation in einen strukturierten Graphen abbildet und ihn auf Lücken prüft. Jede Lücke erhält einen Score: Wie wahrscheinlich ist es, dass das Schließen dieser Lücke die aktuelle Empfehlung ändern würde? Eine fehlende Kostenschätzung für die Produktion, die eine Beschaffungsentscheidung umdrehen könnte, bekommt einen hohen Score. Eine fehlende Fußnote in einem Bericht, die am Ergebnis nichts ändert, bekommt fast null. Das System sucht zuerst nach den hoch bewerteten Lücken.

Die Bewertung basiert auf Simulation. Für jede Unbekannte testet das System eine begrenzte Menge plausibler Werte und misst, wie oft sich die Spitzenoption ändern würde. Das Ergebnis ist eine Zahl — der Value of Information — die genau sagt, wie viel ein bestimmtes fehlendes Wissen ausmachen kann. So lässt sich Informationsbeschaffung nach Entscheidungswirkung priorisieren.

Praktisch heißt das: Das System verwendet sein Abrufbudget für Information, die die Antwort wirklich verschieben könnte. Die Suche endet, wenn keine verbleibende Lücke die Empfehlung plausibel mehr ändern könnte — ein mathematisch definierter Stopppunkt.

Fehlende Information hat messbaren Entscheidungswert. Das System findet die Lücken, die zählen, und ignoriert die, die nicht zählen.

Wann ein KI-Agent genug Information hat, um zu entscheiden

Die meisten Abrufsysteme füllen ein Kontextfenster, bis der Platz oder ein Token-Limit erreicht ist. Der Stopp ist mechanisch. Er hat nichts damit zu tun, ob genug Information für eine gute Antwort da ist. Das System kann bei schweren Fragen zu früh stoppen und bei leichten Kapazität verschwenden.

Das VOI-Framework nutzt eine andere Stoppregel. Nach jedem Abrufschritt werden die Scores aller verbleibenden Unbekannten neu berechnet. Wenn keine Unbekannte über einem Schwellenwert liegt, endet die Suche — die Empfehlung ist stabil. Wenn der Vorsprung der führenden Option die Summe aller verbleibenden Unbekannten übersteigt, endet die Suche ebenfalls — keine plausible Kombination neuer Fakten könnte sie überholen.

Beide Bedingungen sind mathematisch. Das System stoppt nicht, weil es sich „fertig anfühlt“. Bei gleichem Wissensgraphen und gleicher Anfrage ist der Pfad und der Stopp reproduzierbar. Das unterstützt Auditierbarkeit: Jeder Abruf lässt sich begründen, die Stoppregel ist explizit.

Die Konvergenzgarantie hat einen praktischen Nutzen: Mehr Aufwand dort, wo die Evidenz wirklich unsicher ist, weniger dort, wo die Antwort früh klar ist. Der Aufwand skaliert mit der Schwierigkeit der Frage.

Das System stoppt die Suche, wenn es zeigen kann, dass mehr Information die Antwort nicht mehr ändern würde.

Eine Wissensbasis, die sich nach dem ausrichtet, was zählt

Klassische Wissensbasen sind statisch. Jemand legt fest, was gespeichert wird, baut eine Taxonomie und hofft, dass sie hält. Mit der Zeit weicht die Struktur von dem ab, was die Organisation wirklich braucht. Dokumente veralten unbemerkt. Ganze Bereiche füllen sich mit Inhalten, die niemand nutzt, während das dringend benötigte Wissen ungesammelt bleibt.

In diesem Rahmen erzeugt jede verarbeitete Entscheidung Lückensignale — Aufzeichnungen fehlender Information, die in der bestehenden Basis nicht zu finden war. Diese Signale summieren sich über Entscheidungen. Ein Fakt, der 30 Entscheidungen geändert hätte, hat eine höhere kumulative Bewertung als einer, der eine geändert hätte. Diese Summe misst direkt den organisatorischen Bedarf an einem bestimmten Wissensstück.

Das System nutzt diese Signale für gezielte Beschaffungsanfragen: Was fehlt, wer hat es wahrscheinlich (z. B. nach Upload-Historie), in welchem Format es am nützlichsten wäre. Zusätzlich werden Frische-Schwellen pro Domäne angepasst — enger, wo veraltete Information oft hohe Lücken-Scores erzeugt, lockerer, wo nicht.

Mit der Zeit nähert sich die Wissensbasis einer Form an, die zu den Entscheidungsmustern der Organisation passt; Aufwand wandert zu wirkungsvollen Lücken, weniger zu Randinhalten. Die Struktur entsteht aus der Nutzung.

Die Wissensbasis lernt, was zählt, indem sie beobachtet, welche fehlenden Fakten echte Entscheidungen betreffen.

Mit Bayes-Verfahren quantifizieren, was wir über Märkte nicht wissen

Standard-Regression liefert einen Punktwert. „Kleine I&C-Firmen haben eine 34 %ige Adoptionswahrscheinlichkeit.“ Die Zahl hilft, verbirgt aber: Wie sicher soll man sein? Wenn die Trainingsdaten nur 12 Firmen in diesem Segment enthalten, ist die Antwort: nicht sehr. Die Bayes-Spezifikation liefert Intervallbreite als gleichwertiges Ergebnis neben dem Mittelwert — entscheidend, wenn Tail-Risiko die Entscheidung treibt.

In unserer Forschung zur KI-Adoption in europäischen KMU haben wir bayesianische neuronale Netze genutzt, um pro Segment zwei Größen vorherzusagen: likelihood to adopt (LTA) und willingness to pay (WTP). Der Bayes-Ansatz liefert eine Posterior-Verteilung pro Vorhersage. Der Mittelwert ist der beste Schätzwert. Die Breite ist die Unsicherheit. Eine enge Verteilung bedeutet: Die Daten stützen die Vorhersage gut. Eine breite: Das Modell ist unsicher — und diese Unsicherheit ist direkt nutzbar für Investitionsentscheidungen.

Der praktische Unterschied zeigt sich beim Segmentvergleich. Zwei Segmente können denselben mittleren LTA haben; wenn eines ein glaubwürdiges Intervall von ±4 % und das andere ±18 % hat, sind die Risikoprofile sehr verschieden. Ein Produktteam, das entscheidet, wo es zuerst launchen soll, braucht beide Angaben. Der Punktschätzer sagt das erwartete Ergebnis. Das Intervall sagt, wie viel man setzt.

Bayes-Verfahren gehen mit dünnen Daten besser um: Bei wenigen Beobachtungen verhindert die Prior extrem kollabierte Schätzungen. Mit mehr Daten zieht sich die Posterior zusammen und der Prior verblasst. Das ist besonders für frühe Marktforschung nützlich — man kann nicht auf tausend Antworten warten, bevor man launchen muss.

Wir haben das auf eine Befragung von 113 europäischen Unternehmen über Branchen und Größenklassen angewandt. Das Bayes-Modell reduzierte die Unsicherheit segmentbezogener LTA-Schätzungen um 15–30 % gegenüber dem frequentistischen Basismodell, abhängig von der Segmentgröße. Wichtiger: Es markierte zwei Segmente, in denen das frequentistische Modell hohe LTA zeigte, das Bayes’sche glaubwürdige Intervall aber so breit war, dass es null einschloss — die Daten stützten also nicht die Schlussfolgerung, dass diese Segmente adoptieren würden.

Der Bayes-Rahmen erlaubt informative Priors aus externen Quellen. Bei uns lieferten Eurostat-Daten zu KI-Adoption nach Branche und Firmengröße eine Prior-Verteilung, die das Modell in Bevölkerungsstatistik verankerte, bevor Umfragedaten kamen. Das Posterior aktualisierte sich dann mit der Stichprobe. Das ist ein sauberer Weg, kleine Umfrage-Stichproben mit großen Sekundärdaten zu verbinden — anders als bei Standard-Regression.

Für Produktteams ist die Ausgabe eine Tabelle von Segmenten nach Erwartungswert mit expliziten Risikogrenzen. Segment A hat vielleicht den höchsten erwarteten LTA, aber auch das breiteste Intervall. Segment B einen niedrigeren Punktwert, aber viel höhere Sicherheit. Die Wahl dazwischen ist eine Entscheidung unter Unsicherheit — und die Bayes-Ausgabe macht das bewusst.

Der übergeordnete Punkt ist methodisch: Wenn Tail-Risiko zählt, halten glaubwürdige Intervalle neben Mittelwerten den Trade-off zwischen Präzision und Unsicherheit sichtbar. In unserem Workflow war die Bayes-Schicht der natürliche Ort dafür.

Bayes-Modelle liefern Vorhersagen mit Unsicherheitsgrenzen. Die Breite des Intervalls ist genauso wichtig wie der Schätzwert.

Entscheidungsqualität hängt von zwei Dingen ab — und die meisten Organisationen unterinvestieren in beides

Die Produktivität von Unternehmen hängt davon ab, wie schnell und wie gut Führungskräfte entscheiden. Eisenhardt (1989) verband bereits reiche Informationssuche und schnelles Handeln mit Überperformance; neu ist die Möglichkeit, Entscheidungsqualität in messbare Komponenten zu zerlegen und die Rendite von Verbesserungen je Komponente abzuschätzen.

Unser Modell fasst Entscheidungsqualität als Funktion zweier Größen: Informationsqualität und Entscheiderkompetenz. Informationsqualität hat fünf Dimensionen: Präzision, Wahrheit, Vollständigkeit, Aktualität und Relevanz. Entscheiderkompetenz umfasst, ob die richtige Person zur richtigen Zeit die richtige Information erhält und was unbekannt ist. Beides zählt. Gute Information in den falschen Händen ist verschwendet. Ein kompetenter Entscheider mit schlechter Information trifft schlechte Entscheidungen.

Das Verhältnis ist super-additiv: Gleichzeitige Investition in beides bringt mehr als die Summe der Einzelinvestitionen. Das folgt aus der Erwartungsnutzentheorie: Information verkleinert die Menge möglicher Zustände; Kompetenz bestimmt, wie gut man die verbleibenden Zustände navigiert. Verbesserung des einen verstärkt den Wert des anderen.

Organisationen nutzen typischerweise 30–50 % der verfügbaren Information bei strategischen Entscheidungen (BARC, 2024). Oft ist die Engstelle Auffindbarkeit, nicht Speicher: Wissen liegt über E-Mail, Dokumente, Chat, CRM und ERP und wird selten für eine konkrete Entscheidung zusammengeführt. Entscheidungen basieren auf Teilbildern, obwohl die fehlenden Fakten intern existieren.

Der formale Begriff, der das quantifizierbar macht, ist der Expected Value of Perfect Information (EVPI) aus der Entscheidungstheorie: wie viel ein Entscheider in erwartetem Nutzen zahlen würde, den wahren Zustand der Welt vor der Entscheidung zu kennen. EVPI setzt eine Obergrenze für den Wert jedes Informationssystems. Je näher die tatsächliche Informationsnutzung an perfekter Information kommt, desto mehr Wert wird erfasst.

Eine typische Organisation arbeitet mit einem Informationsnutzungsgrad (ρ) um 0,30 und einem Kompetenzmultiplikator (κ) um 0,35. ρ = 0,75 und κ = 0,65 — mit dem richtigen System erreichbar — bedeuten eine Verbesserung der entscheidungsgetriebenen Wertschöpfung um eine Größenordnung. Der genaue Multiplikator hängt vom EVPI der Entscheidungsklasse ab, je nach Branche und Funktion. Hochriskante Beschaffung in der Industrie hat anderes EVPI als routinemäßiges Hiring in Dienstleistungen.

Ein seltener diskutierter Befund: gezielte Information ist pro Kosten-Einheit überproportional wertvoll. Eine Studie aus der angewandten Entscheidungstheorie fand, dass eine domänenspezifische Analyse das Nettoergebnis um den Faktor 9,4 übertraf gegenüber einem generischen Bericht, bei nur 2,4-fachen Kosten. Grund: die Spezifitätsquote — der Anteil Inhalts, der für die Entscheidung wirklich relevant war — war 14-mal höher. Systeme, die nach erwarteter Entscheidungswirkung abrufen, nutzen diese Spezifitätsprämie automatisch.

Die praktische Konsequenz für KI-Systeme: Abruf nach erwarteter Entscheidungswirkung gewichten, nicht nur nach oberflächlicher Ähnlichkeit — Fakten priorisieren, die die Empfehlung materiell verschieben würden. Dieses Ziel formal zu machen, ergibt anderen Kontextaufbau als reine lexikalische oder Embedding-Nähe.

Entscheidungsqualität = f(Informationsqualität, Entscheiderkompetenz). Beides gleichzeitig zu verbessern bringt super-additive Renditen.

80 % der Unternehmen stufen Vertrauen so hoch ein wie Performance

In unserer Umfrage bewerteten 80 % der Teilnehmenden Sicherheits- und Transparenzfeatures als genauso wichtig wie Performance-Verbesserungen bei der Auswahl von KI-Tools, mit wenig Varianz nach Unternehmensgröße oder Branche. Ein schnelleres System mit schwacher Provenienz wurde als weniger attraktiv beschrieben als ein langsameres mit Quellen und nachvollziehbaren Argumentationsschritten.

Merkmale wie Quellentracing, Audit-Trails, erklärbare Outputs und Residency-Kontrollen tauchten neben Latenz und Genauigkeit in Kaufkriterien auf. Teams, die diese Punkte als späte Compliance-Runde behandelten, berichteten von mehr Nacharbeit, wenn Fragebögen in der Beschaffung sie früher adressierten als erwartet.

Europäische Teilnehmende betonten Verarbeitungsort, Modell-Provenienz und Nutzungsbeschränkungen für Training. Eine Hosting-Region allein reichte selten; Kommentare sammelten sich um Kombinationen aus Jurisdiktion, Handhabung und Nachvollziehbarkeit.

Diese Erwartungen zu erfüllen hat messbare Engineering-Kosten: reichhaltigere Provenienz-Metadaten und aufbewahrte Traces erhöhen Speicher und Latenz. Das Umfragemuster legt nahe, diese Kosten als Kernproduktbudget zu behandeln, nicht als optionales Add-on.

In dieser Stichprobe hatten vertrauensrelevante Attribute vergleichbares Gewicht wie zentrale Performance-Aussagen; sie nachträglich einzuplanen, passte nicht dazu, wie Käufer die Bewertung von Anbietern beschrieben.

Unternehmen unterschätzen KI bei weitem

Wir haben 113 europäische Unternehmen gebeten zu schätzen, wie viel Zeit sie mit Informationssuche, Abstimmung und Doppelarbeit verbringen. Dann haben wir gemessen. Die Lücke war groß. 77,20 % der Antwortenden zeigten eine signifikante Value-Perception-Lücke — sie unterschätzten die verlorene Zeit um 30–50 %. Zeit, die sie für produktiv hielten, ging oft für die Suche nach Information drauf, die woanders in der Organisation schon existierte.

Diese Unterschätzung ist die primäre Adoptionsbarriere. Unternehmen nehmen KI-Tools nicht aus einem einfachen Grund: Sie halten das Problem für zu klein für den Aufwand. Die Ironie: Wer die schlimmsten Informationsmanagement-Probleme hat, ist sich derer oft am wenigsten bewusst — die Ineffizienz ist unsichtbar, weil sie auf viele kleine Aufgaben verteilt ist.

Wissensarbeiter verbringen durchschnittlich 2,5 Stunden pro Tag mit interner Informationssuche. Weitere 7 % der Wochenzeit entfallen auf Verwaltung ohne direkten Wertbeitrag. Hochgerechnet sind das über 10 Milliarden Euro pro Woche Produktivitätsverlust in der EU. Veröffentlichte Zeitnutzungs- und Arbeitsmarktstudien liefern ähnliche Größenordnungen; in unseren Interviews fiel auf, wie selten solche Aggregate im internen Bild der Firma auftauchten, wohin die Zeit geht.

Für Anbieter ist die Friktion oft epistemisch, bevor sie technisch ist: Käufer, die Basislast für Suche und Abstimmung zu niedrig ansetzen, unterschätzen auch den Nutzen von Tools, die genau das adressieren.

Nicht-Adoption in der Stichprobe hing mit gedämpften internen Schätzungen von Such- und Abstimmungsaufwand im Vergleich zu externen Zeitnutzungsstatistiken zusammen.

Forschung basierend auf Achieving Product-Market-Fit for an Adaptive AI Assistant System in European SMEs (Rothe, 2025) und VOI-Driven Context Engineering for Decision-Making AI Agents (2026). Kontakt aufnehmen, wenn Sie die Forschung besprechen möchten.