Worum geht’s überhaupt?
Retrieval-Augmented Generation (RAG) verbindet ein großes Sprachmodell (LLM) mit Ihren eigenen Inhalten.
- Das LLM bringt breites Allgemeinwissen mit (ähnlich „ChatGPT“).
- RAG liefert dazu unternehmensspezifisches Wissen in Echtzeit nach – aus Handbüchern, Richtlinien, FAQs, Artikeln, Wikis u. v. m.
Ergebnis: präzise, nachvollziehbare Antworten (inkl. Quellen), ohne dass das Modell eigens neu trainiert werden muss.
So funktioniert RAG – Funktionsbeschreibung auf Führungsebene
- Frage stellen
Der Nutzer fragt z. B.: „Welche Richtlinien gelten bei Geschäftsreisen?“ - Rollen & Tonalität festlegen
Ein System-Prompt legt Verhalten und Stil fest (z. B. „antworte verbindlich, nenne Quellen, biete nächste Schritte an“). Optional gibt es Rollen (z. B. Führung, Support, Fachabteilung). - Relevante Inhalte finden (Retrieval)
Das System durchsucht einen Vektorindex Ihrer Inhalte und holt die passendsten Textausschnitte (Chunks). - Antwort generieren
Das LLM kombiniert Allgemeinwissen + Ihre Inhalte zu einer konsolidierten Antwort mit Quellenverweisen. - Qualität absichern
Guardrails (z. B. Tonalitäts-/Compliance-Vorgaben) und Schwellenwerte sorgen dafür, dass das System bei Unsicherheit nachfragt statt zu raten.
Wichtig: RAG „denkt“ nicht zu klein. Das LLM liefert weiterhin vollständige, sprachlich runde Antworten – die nachgeladenen Inhalte geben Fachtiefe und Belege.
Braucht es ein Dokumentenmanagementsystem?
Nein. Für RAG genügt eine lesbare Quelle (Dateien, CMS, Wiki, Cloud-Ordner).
In vielen Projekten lesen wir direkt aus einem CMS (z. B. WordPress) ein. Vorteil: keine Doppelpflege, bestehende Kategorien/Tags können als Metadaten übernommen werden.
Inhalte vorbereiten – was wirklich zählt
Formate
- Text first. Bestens: Markdown.
- Word/HTML → direkt nutzbar. PDFs: vorher in Text überführen (Export/OCR).
Struktur & Überschriften
- Inhalte in sinnvolle Bedeutungsblöcke gliedern (Absätze, Zwischenüberschriften).
- Jeder Abschnitt erhält eine klare, sprechende Überschrift.
- Wenn mehrere Abschnitte dasselbe Oberthema haben, Oberthema in jeder Überschrift wiederholen (z. B. Reisekosten – Bahn – Sitzplatzreservierung). Das verbessert die Trefferqualität spürbar.
Chunking (Abschnittsgröße)
- Zielgröße: 200–300 Tokens, max. 512.
- Konsistenz: Längen ±20 %.
- Überlappungen nur sparsam einsetzen – lieber sauber schneiden.
- Praxis-Tipp:
- Texte um ~2.000 Zeichen (~500 Tokens) meist nicht weiter splitten.
- Sehr lange Texte (~6.000+ Zeichen) sinnvoll in mehrere abgeschlossene Unterthemen teilen.
- Texte um ~2.000 Zeichen (~500 Tokens) meist nicht weiter splitten.
Metadaten / Taxonomie
Ein kleines, stabiles Set reicht:
topic (Oberthema) • subtopic • audience/persona (z. B. Führung, Support) • source • created_at/version.
Mythos „Keywords“: Sie müssen keine Stichworte aus dem Prompt in jeden Text schreiben. Die Zuordnung passiert semantisch. Tags helfen vor allem beim Filtern (z. B. unterschiedliche Zielgruppen).
Ein Bot – mehrere Rollen (Persona-Handling)
Es gibt drei bewährte Wege, wie der Bot die Perspektive wählt:
Variante | Beschreibung | Reifegrad | Empfehlung |
Manueller Schalter | Nutzer wählt Rolle (Dropdown/Buttons). | MVP-tauglich, sofort verständlich | Startpunkt |
Profil-Attribut | Rolle aus Benutzerprofil (z. B. „Führung“). | Enterprise-ready | Für feste Zielgruppen |
Automatische Erkennung | System leitet Rolle nach ein paar Nachrichten ab. | Komfortabel, aber erklärungsbedürftig | Nach MVP evaluieren |
Prompt-Hinweis: Oft bewährt sich ein Einstiegs-Prompt + rollen-spezifische Leitplanken (insgesamt 4 Prompts: Einstieg + 3 Rollen). So bleibt Verhalten stabil, ohne mehrere Modelle zu pflegen.
Governance, Sicherheit, Betrieb
- Datenschutz & PII: Personenbezüge vor der Indexierung maskieren oder ausschließen.
- Zugriffsrechte (RBAC): Wer darf welche Quellen sehen? Diese Rechte werden beim Retrieval respektiert.
- Nachvollziehbarkeit: Jede Antwort enthält Quellenangaben (Dokument, Abschnitt, Datum).
- Betrieb: Cloud oder On-Prem – wichtig sind Monitoring (Nutzung, Latenz, Qualität) und Inhalts-Lifecycle (Versionierung, Archiv).
Erfolg messen – klare, geschäftsrelevante KPIs
- Antwort-Nützlichkeit (User-Rating)
- Quellen-Abdeckung (Antworten mit belegter Quelle)
- First-Answer-Time (Zeit bis zur ersten sinnvollen Antwort)
- Deflection-Rate (wie viele Anfragen ohne menschliche Eskalation gelöst werden)
- Content-Fitness (Anteil veralteter/fehlender Inhalte pro Quartal)
Vorgehensmodell – vom Kick-off zum Rollout
- Discovery (½ Tag)
Ziele, Zielgruppen, Top-Use-Cases, Datenlage. - Content-Audit & Leitplanken
Formate, Struktur, Chunking-Regeln, Metadaten-Schema. - Pilot (ca. 2–3 Wochen)
Quellen anbinden, Index aufbauen, Prompt-Leitplanken setzen, Testfragen definieren. - Evaluation & Iteration
Antworten prüfen, Lücken schließen, Rollen feinschärfen. - Rollout & Betrieb
Monitoring, Content-Prozesse, Schulung der Redaktionen.
Häufige Fragen – kurz & klar
- „Ist RAG ohne unsere Inhalte schon sinnvoll?“
Ja – das LLM antwortet mit Allgemeinwissen. Ihre Inhalte heben die Treffsicherheit und Compliance. - „Sollen wir sofort neu strukturieren?“
Ja, aber pragmatisch. Beginnen Sie mit einem Inhaltsverzeichnis (Ober-/Unterthemen) und kurzen, abgeschlossenen Artikeln (Markdown). Sehr große Altdokumente kann die Software automatisch teilen. - „Brauchen wir drei Modelle für drei Zielgruppen?“
Nein. Ein Modell reicht. Rollen werden über Prompts und – falls gewünscht – Filter auf Inhalte gesteuert. - „Wie tief müssen wir technisch einsteigen?“
Nicht tief. Inhalte, Struktur, Freigabeprozesse – das ist der Hebel. Die Technik kümmert sich um Suche, Ranking und Generierung.
Optional: Anbindung an bestehende Plattformen
RAG läuft stand-alone oder lässt sich in bestehende Arbeitsumgebungen (Web-Portal, Teams/Slack, CMS) integrieren.
Wer bereits mit einer zentralen Plattform arbeitet, kann RAG dort sanft andocken (Quellen, Rollen, Rechte) – ohne Medienbrüche.
Fazit
RAG ist der geschäftsnahe Weg zu verlässlichen Antworten: Das LLM liefert Sprachkompetenz, Ihre Inhalte liefern Relevanz.
Mit klaren Content-Regeln (Markdown, saubere Überschriften, konsistentes Chunking, schlanke Metadaten) und einem schrittweisen Vorgehen entsteht in kurzer Zeit ein produktives Wissenssystem – ohne Feintuning-Marathon und ohne Code.
Nächster Schritt
Lassen Sie uns in einem halbtägigen Workshop Ihre Use-Cases und Inhalte strukturieren und die Leitplanken für Chunking & Metadaten festlegen. Auf dieser Basis liefern wir einen Pilot-Bot in wenigen Wochen – messbar, nachvollziehbar, erweiterbar.
SOULSURF GmbH – Digital Solutions. AI Engineering. Menschlich nah.
„Ich möchte ein RAG-System für meine Firma!“
Wir beraten, implementieren, erweitern und begleiten. Meldet Euch gerne.