Worum es hier geht
Willkommen beim „State of EU-I“ – der kleinen KI-Weihnachtsausgabe für alle, die zwischen Datenschutz, Budget und Buzzword-Bingo balancieren müssen.
2025 sieht so aus:
Oben fliegen die großen Cloud-Modelle wie GPT-5.1, DeepSeek oder Kimi. Darunter gibt es schwere Open-Source-Modelle für eigene Rechenzentren. Und ganz unten, dicht an der Maschine, laufen kleine, schlanke Modelle, die eher Automatisierungsschrauber sind als „Alleskönner-Assistenten“.
Schauen wir kurz und knackig durch alle drei Ebenen.
Tabelle – Was haben wir uns angesehen?
Name KI | Performance | Typisches Hosting |
GPT-5.1 (Cloud) | Highest | Cloud |
DeepSeek V3 / Kimi K2 (API / open-weight) | Highest | Cloud oder GPU-Cluster |
Llama 4 (theoretisch) | High bis Highest | Cluster – aber nicht self-hosted in der EU (Lizenz) |
Apertus 70B (CH, Open Source) | Medium | Starker Server oder Cluster |
EuroLLM / Teuken 7B (EU-Modelle) | Medium bis Minimal | Lokaler Server |
Mistral 7B / Llama 3.x 8B | Minimal bis Medium | Lokaler Server (1–2 GPUs) |
Kleine Llamas, Mini-Modelle (1–3B) | Minimal | Local, Edge, Kleinst-Server |
„Highest“ ist Frontier-Klasse. „Medium“ ist solide für Doku, Metadaten und kleine Bots. „Minimal“ heißt: super für Automatisierung, nicht fürs große KI-Feuerwerk.
State of the Art
Ganz oben stehen die Cloud-Flaggschiffe wie GPT-5.1, DeepSeek, Kimi, Gemini. Sie sind extrem gut im Verstehen, Schreiben, Übersetzen, Programmieren und bei komplexen Rückfragen. Ihr zahlt pro Nutzung, bekommt saubere Abrechnung, Skalierung inklusive und müsst euch nicht mit GPUs, Treibern und Kühlung beschäftigen.
Der Haken: Die Intelligenz wohnt nicht bei euch. Ihr habt keine eigene KI-Infrastruktur, seid von einem Anbieter abhängig und schickt Daten – technisch und rechtlich sauber verpackt – in fremde Rechenzentren. Für viele Anwendungsfälle ist das völlig okay, für streng regulierte Bereiche oder echte Betriebsgeheimnisse nicht immer.
Nachladen statt Nachtrainieren
Feintraining bindet Budget und Zeit. In vielen Fällen reicht es, zur Laufzeit das richtige Wissen nachzuladen und Antworten damit zu steuern. Ergebnis: bessere Treffer, aktuelle Inhalte, kontrollierbare Nutzungskosten. Einstieg: RAG für Entscheider: Wie ein Wissens‑Bot funktioniert – ohne Feintuning, ohne Code.
Open Source
Die zweite Schicht sind große Open-Source- oder open-weight-Modelle wie Apertus 70B, größere Mistral-Modelle oder offene Varianten von DeepSeek/Kimi. Hier könnt ihr KI in eurem Rechenzentrum oder in einer souveränen EU-Cloud betreiben. Ihr kontrolliert Logging, Netzwerkgrenzen, Zugriffsrechte und könnt mit RAG und Feintuning echte „Inhouse-Assistenten“ bauen.
Apertus 70B ist ein gutes Beispiel: Performance eher Medium, dafür stark bei Dokumentenverarbeitung, Metadaten-Extraction, Mehrsprachigkeit und Transparenz. Das ist kein „GPT-5.1-Klon“, aber sehr brauchbar für Automatisierung und Fach-Assistenz auf euren eigenen Daten.
Die Kehrseite heißt CapEx: Ein ernstzunehmendes Setup mit 70B-Modell oder sogar Open-Flagship wie Kimi oder DeepSeek (die ja fast so gut sind wie Flagship Cloud Modelle) bedeutet normalerweise mehrere GPUs mit viel Speicher, ordentlichem Storage und Kühlung. In der Praxis landet man schnell im Bereich von grob 30.000 bis 150.000 Euro für einen Server-Cluster, je nach Ambition und Redundanz – plus laufende Strom- und Betriebskosten. Das lohnt sich, wenn ihr viel Volumen oder besonders sensible Szenarien habt, ist aber nichts, was man „mal eben“ beschafft.
Dazu kommt das Thema Lizenz: Nicht alles, was „open“ heißt, ist wirklich frei nutzbar. Llama 4 ist das prominenteste Beispiel. Technisch ist es ein starkes multimodales Modell mit riesigen Kontextfenstern. Lizenzrechtlich verbietet die Llama-4-Lizenz aber, dass Unternehmen und Personen in der EU diese multimodalen Llama-4-Modelle selbst hosten oder weiterverarbeiten. Für EU-Self-Hosting fällt Llama 4 damit praktisch raus – auch wenn es technisch verlockend wäre. Fazit: Bei Open-Source-/open-weight-Modellen gehört ein Lizenz-Check immer mit in die Planung.
Minimal Open Source
Unten in der Pyramide leben die kleinen Modelle: Mistral 7B, Llama 3.x 8B, EuroLLM- und Teuken-Varianten im einstelligen Milliardenbereich sowie Mini-Modelle mit 1–3B Parametern. Sie sind nicht gebaut, um euch komplette Strategiepapiere oder hochkomplexe Fachgutachten zu schreiben.
Ihr Vorteil ist die Pragmatik. Ein kleiner KI-Server mit einer guten GPU oder zwei reicht oft aus. Anschaffungskosten bleiben im niedrigen bis mittleren fünfstelligen Bereich, Betriebskosten sind überschaubar, das Setup passt in viele bestehende IT-Landschaften.
Leistungstechnisch reden wir hier bewusst von Minimal bis Medium. Diese Modelle sind ideal für Metadaten-Extraction aus Dokumenten, Klassifikation, einfache Scoring-Aufgaben, Routing von Tickets und kleine spezialisierte Chatbots über klar begrenzte Wissensdomänen. Für „Wie baue ich unsere Unternehmensstrategie um?“ sind sie nicht gedacht – für „Lies das, hol mir die Felder X/Y/Z und gib mir eine kurze Zusammenfassung“ dagegen perfekt.
Fazit
Ohne Zugriff auf eine State-of-the-Art-KI in der Cloud ist die praktische Implementierung moderner AI-Features heute kaum sinnvoll möglich. Für Ideation, komplexe Recherche, hochwertigen Content, tiefes Codereview oder anspruchsvolle Entscheidungsunterstützung sind Cloud-Flaggschiffe der schnellste und wirtschaftlichste Weg.
Für Frontrunner und größere Unternehmen kann es dennoch sehr sinnvoll sein, eigene Hardware aufzubauen oder anzumieten. Das schafft rechtliche Klarheit, erhöht die Kontrolle über Datenflüsse und Logs und ist für manche Betriebsgeheimnisse schlicht unverzichtbar. Wenn bestimmte Informationen garantiert nie ein externes Rechenzentrum sehen sollen, führt an lokal betriebener KI kaum ein Weg vorbei.
Die Einsatzzwecke lokaler KI liegen heute vor allem bei Metadaten-Extraction, Dokumentenklassifikation, kleineren Chatbots in klar abgegrenzten Bereichen und Automatisierungsschritten im Hintergrund. In dieser Kombination aus Cloud-KI für das „Große“ und lokalen Modellen für das „Nahe am Prozess“ sehen wir bei SOULSURF den realistischen State of EU-I für die nächsten Jahre. Und genau an dieser Hybrid-Strategie arbeiten wir mit unseren Kunden – gern auch mit euch, nach den Feiertagen. 🎄🤖
Ihr plant ein KI‑Produkt oder wollt ein bestehendes Angebot wirtschaftlich trimmen? Wir zeigen, wo Marge verloren geht – und wo sie entsteht.
„Ich möchte mehr zu aktuellen KI-Modellen wissen!“
Wir beraten, implementieren, erweitern und begleiten. Meldet Euch gerne.





