Intelligente KI-Lösungen für Text, Sprache, Bilder & Daten.

RAG für Entscheider: Wie ein Wissens-Bot funktioniert – ohne Feintuning, ohne Code

Alexander Krapp - Leichte Sprache: Ein Schlüssel zur Inklusion

So funktioniert RAG – Funktionsbeschreibung auf Führungsebene

  1. Frage stellen
    Der Nutzer fragt z. B.: „Welche Richtlinien gelten bei Geschäftsreisen?“
  2. Rollen & Tonalität festlegen
    Ein System-Prompt legt Verhalten und Stil fest (z. B. „antworte verbindlich, nenne Quellen, biete nächste Schritte an“). Optional gibt es Rollen (z. B. Führung, Support, Fachabteilung).
  3. Relevante Inhalte finden (Retrieval)
    Das System durchsucht einen Vektorindex Ihrer Inhalte und holt die passendsten Textausschnitte (Chunks).
  4. Antwort generieren
    Das LLM kombiniert Allgemeinwissen + Ihre Inhalte zu einer konsolidierten Antwort mit Quellenverweisen.
  5. Qualität absichern
    Guardrails (z. B. Tonalitäts-/Compliance-Vorgaben) und Schwellenwerte sorgen dafür, dass das System bei Unsicherheit nachfragt statt zu raten.

Wichtig: RAG „denkt“ nicht zu klein. Das LLM liefert weiterhin vollständige, sprachlich runde Antworten – die nachgeladenen Inhalte geben Fachtiefe und Belege.

Braucht es ein Dokumentenmanagementsystem?

Nein. Für RAG genügt eine lesbare Quelle (Dateien, CMS, Wiki, Cloud-Ordner).
In vielen Projekten lesen wir direkt aus einem CMS (z. B. WordPress) ein. Vorteil: keine Doppelpflege, bestehende Kategorien/Tags können als Metadaten übernommen werden.

Inhalte vorbereiten – was wirklich zählt

Formate

  • Text first. Bestens: Markdown.
  • Word/HTML → direkt nutzbar. PDFs: vorher in Text überführen (Export/OCR).

Struktur & Überschriften

  • Inhalte in sinnvolle Bedeutungsblöcke gliedern (Absätze, Zwischenüberschriften).
  • Jeder Abschnitt erhält eine klare, sprechende Überschrift.
  • Wenn mehrere Abschnitte dasselbe Oberthema haben, Oberthema in jeder Überschrift wiederholen (z. B. Reisekosten – Bahn – Sitzplatzreservierung). Das verbessert die Trefferqualität spürbar.

Chunking (Abschnittsgröße)

  • Zielgröße: 200–300 Tokens, max. 512.
  • Konsistenz: Längen ±20 %.
  • Überlappungen nur sparsam einsetzen – lieber sauber schneiden.

  • Praxis-Tipp:
    • Texte um ~2.000 Zeichen (~500 Tokens) meist nicht weiter splitten.
    • Sehr lange Texte (~6.000+ Zeichen) sinnvoll in mehrere abgeschlossene Unterthemen teilen.

Metadaten / Taxonomie

Ein kleines, stabiles Set reicht:
topic (Oberthema) • subtopicaudience/persona (z. B. Führung, Support) • sourcecreated_at/version.

Mythos „Keywords“: Sie müssen keine Stichworte aus dem Prompt in jeden Text schreiben. Die Zuordnung passiert semantisch. Tags helfen vor allem beim Filtern (z. B. unterschiedliche Zielgruppen).

Ein Bot – mehrere Rollen (Persona-Handling)

Es gibt drei bewährte Wege, wie der Bot die Perspektive wählt:

Variante

Beschreibung

Reifegrad

Empfehlung

Manueller Schalter

Nutzer wählt Rolle (Dropdown/Buttons).

MVP-tauglich, sofort verständlich

Startpunkt

Profil-Attribut

Rolle aus Benutzerprofil (z. B. „Führung“).

Enterprise-ready

Für feste Zielgruppen

Automatische Erkennung

System leitet Rolle nach ein paar Nachrichten ab.

Komfortabel, aber erklärungsbedürftig

Nach MVP evaluieren

Prompt-Hinweis: Oft bewährt sich ein Einstiegs-Prompt + rollen-spezifische Leitplanken (insgesamt 4 Prompts: Einstieg + 3 Rollen). So bleibt Verhalten stabil, ohne mehrere Modelle zu pflegen.

Governance, Sicherheit, Betrieb

  • Datenschutz & PII: Personenbezüge vor der Indexierung maskieren oder ausschließen.
  • Zugriffsrechte (RBAC): Wer darf welche Quellen sehen? Diese Rechte werden beim Retrieval respektiert.
  • Nachvollziehbarkeit: Jede Antwort enthält Quellenangaben (Dokument, Abschnitt, Datum).
  • Betrieb: Cloud oder On-Prem – wichtig sind Monitoring (Nutzung, Latenz, Qualität) und Inhalts-Lifecycle (Versionierung, Archiv).

Erfolg messen – klare, geschäftsrelevante KPIs

  • Antwort-Nützlichkeit (User-Rating)
  • Quellen-Abdeckung (Antworten mit belegter Quelle)
  • First-Answer-Time (Zeit bis zur ersten sinnvollen Antwort)
  • Deflection-Rate (wie viele Anfragen ohne menschliche Eskalation gelöst werden)
  • Content-Fitness (Anteil veralteter/fehlender Inhalte pro Quartal)

Vorgehensmodell – vom Kick-off zum Rollout

  1. Discovery (½ Tag)
    Ziele, Zielgruppen, Top-Use-Cases, Datenlage.

  2. Content-Audit & Leitplanken
    Formate, Struktur, Chunking-Regeln, Metadaten-Schema.

  3. Pilot (ca. 2–3 Wochen)
    Quellen anbinden, Index aufbauen, Prompt-Leitplanken setzen, Testfragen definieren.

  4. Evaluation & Iteration
    Antworten prüfen, Lücken schließen, Rollen feinschärfen.

  5. Rollout & Betrieb
    Monitoring, Content-Prozesse, Schulung der Redaktionen.

Häufige Fragen – kurz & klar

  • „Ist RAG ohne unsere Inhalte schon sinnvoll?“
    Ja – das LLM antwortet mit Allgemeinwissen. Ihre Inhalte heben die Treffsicherheit und Compliance.
  • „Sollen wir sofort neu strukturieren?“
    Ja, aber pragmatisch. Beginnen Sie mit einem Inhaltsverzeichnis (Ober-/Unterthemen) und kurzen, abgeschlossenen Artikeln (Markdown). Sehr große Altdokumente kann die Software automatisch teilen.
  • „Brauchen wir drei Modelle für drei Zielgruppen?“
    Nein. Ein Modell reicht. Rollen werden über Prompts und – falls gewünscht – Filter auf Inhalte gesteuert.
  • „Wie tief müssen wir technisch einsteigen?“
    Nicht tief. Inhalte, Struktur, Freigabeprozesse – das ist der Hebel. Die Technik kümmert sich um Suche, Ranking und Generierung.

Optional: Anbindung an bestehende Plattformen

RAG läuft stand-alone oder lässt sich in bestehende Arbeitsumgebungen (Web-Portal, Teams/Slack, CMS) integrieren.
Wer bereits mit einer zentralen Plattform arbeitet, kann RAG dort sanft andocken (Quellen, Rollen, Rechte) – ohne Medienbrüche.

Fazit

RAG ist der geschäftsnahe Weg zu verlässlichen Antworten: Das LLM liefert Sprachkompetenz, Ihre Inhalte liefern Relevanz.

Mit klaren Content-Regeln (Markdown, saubere Überschriften, konsistentes Chunking, schlanke Metadaten) und einem schrittweisen Vorgehen entsteht in kurzer Zeit ein produktives Wissenssystem – ohne Feintuning-Marathon und ohne Code.

Nächster Schritt

Lassen Sie uns in einem halbtägigen Workshop Ihre Use-Cases und Inhalte strukturieren und die Leitplanken für Chunking & Metadaten festlegen. Auf dieser Basis liefern wir einen Pilot-Bot in wenigen Wochen – messbar, nachvollziehbar, erweiterbar.

SOULSURF GmbH – Digital Solutions. AI Engineering. Menschlich nah.

„Ich möchte ein RAG-System für meine Firma!“

Wir beraten, implementieren, erweitern und begleiten. Meldet Euch gerne.