Was du nach diesem Modul kannst
- Du verstehst, was Tokens sind und warum die Kontextlänge zählt (Modul: Token-Estimator unten).
- Du erkennst Halluzinationen und weisst konkret, wie du sie reduzierst.
- Du schreibst gute Prompts (Rolle, Kontext, Beispiele, Format).
- Du kennst den Unterschied zwischen Chat-LLM und Agent.
- Du kannst die wichtigsten Modelle 2026 (Claude Opus 4.7, GPT, Gemini) einschätzen und das passende für deine Aufgabe wählen.
Was ist eigentlich KI?
„Künstliche Intelligenz” ist ein Sammelbegriff. Wenn jemand „die KI” sagt, meinen die Leute meistens ganz unterschiedliche Dinge. Damit du den Durchblick behältst, hier die vier wichtigsten Stufen — von der ältesten zur neuesten Idee:
Klassische KI (Symbolic AI)
Stufe 1 · seit 1950er
Programme mit fest verdrahteten Regeln: „Wenn-Dann”. Ein Schach-Computer, der jede Stellung nach einem Regelbuch bewertet. Funktioniert gut bei klaren Spielen — aber nicht, wenn die Welt unscharf ist.
Machine Learning (ML)
Stufe 2 · seit 1990er
Statt Regeln zu schreiben, zeigt man dem Computer Beispiele, und er findet selbst Muster. „Hier sind 10 000 Bilder von Katzen und Hunden — finde den Unterschied.”
Deep Learning
Stufe 3 · seit 2012
Eine spezielle ML-Variante mit vielen Schichten künstlicher Neuronen. Diese tieferen Netze können viel komplexere Muster erkennen — Gesichter, Sprache, ganze Szenen. Der Durchbruch der modernen KI.
Generative AI
Stufe 4 · seit 2022
Modelle, die nicht nur erkennen, sondern erzeugen: Texte, Bilder, Stimmen, Videos, Code. ChatGPT, Claude, Midjourney, ElevenLabs gehören hierhin. Das, was heute „die KI” genannt wird.
Wie ein neuronales Netz lernt
Stell dir vor, du sollst lernen, Äpfel von Birnen zu unterscheiden — und niemand erklärt dir die Regeln. Du bekommst nur Bilder gezeigt und jedes Mal gesagt, ob es richtig oder falsch war. Genau so lernt ein neuronales Netz.
Die Grundidee in vier Schritten
Eingabe
Daten kommen rein — z. B. ein Bild, das in Zahlen (Pixel-Helligkeiten) übersetzt wird.
Verarbeitung
Diese Zahlen wandern durch Schichten von Neuronen. Jedes Neuron mischt seine Eingangswerte mit Faktoren, sogenannten Gewichten.
Vorhersage
Am Ende kommt eine Zahl raus: „87 % Apfel”.
Lernen
Wenn die Vorhersage falsch ist, werden die Gewichte minimal angepasst — millionenfach, mit Mathematik namens Backpropagation. Mit jeder Runde wird das Netz besser.
Die Analogie zum menschlichen Gehirn
Auch dein Gehirn lernt durch Wiederholung. Wenn du Klavier übst, verstärken sich bestimmte Verbindungen zwischen deinen Nervenzellen. Künstliche Netze tun etwas Ähnliches — aber sie haben keine Gefühle, kein Verständnis und kein Bewusstsein. Sie sind extrem gute Mustererkenner, mehr nicht.
LLMs — Large Language Models
Ein LLM ist ein riesiges neuronales Netz, das auf einer absurden Menge Text trainiert wurde — Bücher, Wikipedia, Foren, Code, Webseiten. Sein einziger ursprünglicher Job ist eigentlich banal: Sage das nächste Wort voraus.
Tokens — die Bausteine
LLMs „sehen” keine Buchstaben oder Wörter, sondern Tokens: kleine Textstückchen, oft
zwischen einem Buchstaben und einem ganzen kurzen Wort. „Schokolade” könnte z. B. zu
drei Tokens werden: Schoko · la · de.
Kontextfenster — das Kurzzeitgedächtnis
Das Kontextfenster ist die Anzahl Tokens, die das Modell auf einmal lesen kann. 2026 ist das riesig: Claude Opus 4.7, Claude Sonnet 4.6 und Gemini 2.5 Pro schaffen 1 Million Tokens — das entspricht etwa 5–7 ganzen Romanen. Trotzdem: was ausserhalb dieses Fensters liegt, hat das Modell „vergessen”.
Training in drei Phasen
- Pre-Training. Das Modell liest Milliarden Texte und lernt Sprachstrukturen. Dauert Monate, kostet Millionen.
- Fine-Tuning / RLHF. Menschen bewerten Antworten, um dem Modell beizubringen, hilfreich, ehrlich und harmlos zu antworten.
- Inference. Wenn du mit dem Modell chattest. Das Training ist da längst abgeschlossen — das Modell lernt nicht mehr aus eurem Gespräch (ausser du nutzt eine Memory-Funktion).
Probier's aus: Wie viele Tokens hat dein Satz?
Tippe einen Satz und der Token-Schätzer rechnet live. Faustregel im Englischen: 1 Token ≈ 4 Zeichen oder 0.75 Wörter. Im Deutschen etwas mehr Tokens wegen längerer Wörter.
- Zeichen
- 43
- Wörter
- 7
- ≈ Tokens
- 13
- Tokens / 1M
- 0.000013
Die Modelle 2026 im Vergleich
KI-Modelle entwickeln sich rasant. Hier ein Überblick über die wichtigsten Familien — Stand Mai 2026. Behalte im Kopf: in einem halben Jahr ist diese Tabelle wahrscheinlich schon teilweise veraltet.
| Modell | Anbieter | Kontext | Stärken | Open Source? |
|---|---|---|---|---|
| Claude Opus 4.7 | Anthropic | 1M Tokens | Komplexes Reasoning, Coding, Agenten-Aufgaben | Nein |
| Claude Sonnet 4.6 | Anthropic | 1M Tokens | Allrounder, gutes Preis-Leistungs-Verhältnis | Nein |
| Claude Haiku 4.5 | Anthropic | 200k Tokens | Schnell, günstig, ideal für Apps mit hohem Volumen | Nein |
| GPT-5.5 | OpenAI | ~400k Tokens | Multimodal, agentisches Coding, Computer Use | Nein |
| Gemini 2.5 Pro | Google DeepMind | 1–2M Tokens | Multimodal (Audio, Video, Bild), „Deep Think” Reasoning | Nein |
| Llama 4 (Scout / Maverick) | Meta | bis 10M Tokens | Frei verfügbar, lokal lauffähig, grosse Community | Ja (Lizenz) |
| Mistral Large 3 | Mistral AI (FR) | 128k Tokens | EU-freundlich, mehrsprachig, Apache 2.0 | Ja |
| DeepSeek V4 | DeepSeek (CN) | 128k Tokens | Sehr stark in Mathematik & Code, sehr günstig | Ja |
| Qwen 3.5 | Alibaba | 1M Tokens | Mehrsprachig, gute Multimodalität | Ja |
Closed vs. Open Source
Closed Source
z. B. Claude, GPT-5.5, Gemini
- Über API oder Web-App nutzbar
- Sehr leistungsstark, „state of the art”
- Du sendest deine Daten an die Firma
- Du musst zahlen (oder es gibt ein Limit)
Open Source
z. B. Llama, Mistral, Qwen
- Du kannst die Modell-Gewichte herunterladen
- Lauffähig auf deinem eigenen Computer
- Volle Privatsphäre — Daten bleiben bei dir
- Brauchen ordentlich Hardware (gute GPU)
Lokale Modelle: Ollama & LM Studio
Du willst ein LLM bei dir zuhause laufen lassen? Das geht 2026 einfacher denn je. Zwei Tools machen das fast trivial:
- Ollama (
ollama.com) — Kommandozeile. Ein Befehl wieollama run llama3.3lädt und startet das Modell. Funktioniert auf macOS, Linux und Windows. - LM Studio (
lmstudio.ai) — Grafische Oberfläche. Modelle suchen, herunterladen, chatten — alles per Klick.
Prompt Engineering für Teens
Ein Prompt ist die Anweisung, die du einer KI gibst. Je besser dein Prompt, desto besser die Antwort. „Prompt Engineering” ist die Kunst, gute Prompts zu schreiben — und sie ist überraschend einfach zu lernen.
Die fünf Bausteine eines guten Prompts
- Rolle. „Du bist ein erfahrener Mathe-Tutor.”
- Aufgabe. „Erkläre mir, wie man quadratische Gleichungen löst.”
- Kontext. „Ich bin in der 9. Klasse und habe das Thema noch nie gesehen.”
- Format. „Antworte in 3 nummerierten Schritten mit Beispielen.”
- Einschränkungen. „Verwende keine englischen Begriffe.”
Schlecht vs. Gut — ein direkter Vergleich
Schlechter Prompt
Erklär mir Photosynthese.
Zu vage. Die KI rät, was du wissen willst — vielleicht zu lang, vielleicht zu kompliziert.
Guter Prompt
Du bist Bio-Lehrer für die 7. Klasse. Erkläre Photosynthese in 4 Sätzen. Vergleiche es am Schluss mit etwas aus dem Alltag (z. B. Kochen). Keine Fachbegriffe ohne Erklärung.
Klare Rolle, Format, Länge, Stil. Du bekommst genau das, was du wolltest.
Drei Profi-Tricks
1. „Step by step” — Chain of Thought. Bei kniffligen Fragen sag der KI: „Denke Schritt für Schritt.” Das aktiviert oft eine sorgfältigere Denkweise und bessere Ergebnisse — besonders bei Mathe und Logik.
2. Beispiele geben (Few-Shot). Statt zu beschreiben, was du willst, zeige es. Gib zwei oder drei Beispiele für die Form der Antwort, dann die echte Frage. Das funktioniert verblüffend gut.
3. Iterieren statt aufgeben. Die erste Antwort ist selten perfekt. Sag: „Mach das kürzer”, „Anderer Ton”, „Mehr Beispiele”. Behandle die KI wie einen Praktikanten, dem du Feedback gibst.
Stimme: Speech-to-Text & TTS
Sprach-KI hat 2026 ein Niveau erreicht, bei dem es teils unmöglich ist, Mensch und Maschine zu unterscheiden. Es gibt zwei Hauptrichtungen:
Speech-to-Text
STT · Hören
Wandelt gesprochene Sprache in Text um. Beispiele:
- Whisper (OpenAI) — Open Source, läuft auch lokal, sehr gute Mehrsprachigkeit
- Deepgram — extrem schnell, gut für Live-Untertitel
- AssemblyAI — gut für Podcasts und Meetings
Text-to-Speech
TTS · Sprechen
Wandelt Text in Sprache um — täuschend echt:
- ElevenLabs — der Goldstandard für realistische Stimmen, Voice Cloning
- OpenAI TTS — solide, einfach zu nutzen
- Coqui XTTS — Open Source, lokal lauffähig
Wofür benutzt man das?
- Untertitel automatisch erzeugen für YouTube oder TikTok
- Hörbücher selbst produzieren
- Vorlesefunktionen für Lerntools
- Voiceovers für Videos und Spiele
- Barrierefreiheit für Sehbehinderte
Computer Vision & Bildgenerierung
Sehende KI ist 2026 schon fast Standard. Sie zerfällt in drei grosse Bereiche: Erkennen, Verstehen und Erzeugen.
Erkennen — Object Detection & OCR
- YOLO (You Only Look Once) — der Klassiker für Echtzeit-Objekterkennung. Findet Personen, Autos, Tiere in Live-Videos. YOLO v11 (2025/26) läuft sogar auf Smartphones.
- OCR (Optical Character Recognition) — Texterkennung in Bildern. Tools wie Tesseract oder PaddleOCR können sogar handschriftliche Notizen lesen.
Verstehen — Vision-Language-Models (VLMs)
Modelle wie Claude Vision, GPT-5.5 Vision oder Gemini 2.5 können Bilder nicht nur erkennen, sondern beschreiben, analysieren und Fragen dazu beantworten. Du kannst ein Foto deiner Mathe-Hausaufgabe schicken und die KI erklärt dir den Lösungsweg.
Erzeugen — Bildgenerierung
Stable Diffusion
Open Source, lokal lauffähig. Maximale Kontrolle, aber Lernkurve.
Midjourney
Bekannt für künstlerische, „cineastische” Bilder. Bezahlt-Service.
DALL-E / GPT-Image
Direkt in ChatGPT eingebaut. Gut für Konzepte und schnelle Skizzen.
Flux
Open-Source-Aufsteiger 2024–26, sehr fotorealistisch.
Veo / Sora
Video-Generierung. Aus einem Text wird ein 10-Sekunden-Clip.
Nano Banana
Schnelle Bildbearbeitung per Prompt — „mach den Himmel rosa”.
AI-Agents — KI, die handelt
Das grosse Thema 2026: autonome Agenten. Während ein normales LLM nur mit dir chattet, kann ein Agent Werkzeuge benutzen — Webseiten lesen, Dateien schreiben, Code ausführen, Mails versenden. Er erledigt komplette Aufgaben selbstständig.
Der Agent-Loop
Plan
Der Agent überlegt: „Was muss ich tun, um das Ziel zu erreichen?”
Tool Use
Er wählt ein Werkzeug (Websuche, Dateischreiben, API-Call) und benutzt es.
Observe
Er liest das Ergebnis und prüft, was er jetzt weiss.
Reflect
Er fragt sich: „Bin ich am Ziel? Was ist der nächste Schritt?”
Wiederhole
Bis das Ziel erreicht ist (oder ein Limit greift).
Bekannte Agenten 2026
Claude Code
Der Coding-Agent von Anthropic. Liest deinen Code, plant Änderungen, schreibt Files, führt Tests aus — und erklärt, was er getan hat.
Cursor Agent
In den Cursor-Editor eingebaut. Bearbeitet ganze Codebasen agentisch, mit Live-Diff-Preview.
OpenAI Operator
Steuert deinen Browser für dich — Termine buchen, einkaufen, Forms ausfüllen.
Devin / SWE-Agents
Spezialisierte Agenten, die selbstständig Software-Tickets in Repos abarbeiten.
MCP — der Standard für Tools
Model Context Protocol (MCP) ist 2026 zum De-facto-Standard geworden, mit dem Agenten Werkzeuge entdecken und benutzen. Statt für jeden Agenten alles neu zu schreiben, gibt es MCP-Server für Gmail, Notion, GitHub, Slack — und dein Agent kann sie alle benutzen.
Ethik & KI-Fallen
KI ist kein Spielzeug — sie verändert Gesellschaft, Bildung, Politik. Wer KI klug benutzt, denkt diese sechs Themen mit.
1. Halluzinationen
LLMs erfinden manchmal Fakten — sehr selbstbewusst. Buchtitel, die nicht existieren. Zitate, die nie gesagt wurden. Studien, die ausgedacht sind. Prüfe wichtige Behauptungen immer mit einer zweiten Quelle.
2. Bias (Verzerrung)
KI lernt aus menschlichen Daten — und übernimmt deren Vorurteile. Gegenüber Geschlecht, Hautfarbe, Akzent, Beruf. Modelle werden zwar getrimmt, aber Bias verschwindet nie ganz.
3. Deepfakes
Realistische Fake-Videos und -Audios sind 2026 in Minuten erstellbar. Politiker, die nie etwas gesagt haben. Mitschüler in Situationen, die nie passiert sind. Verbreite nichts, bei dem du nicht 100 % sicher bist, dass es echt ist.
4. Privatsphäre
Was du in einen KI-Chat tippst, kann zum Trainingsmaterial werden — oder gespeichert bleiben. Gib nie Passwörter, Adressen, Bankdaten oder vertrauliche Informationen anderer Personen preis.
5. Urheberrecht
KI-Bilder im Stil eines bestimmten Künstlers — ist das erlaubt? Die Rechtslage ist 2026 weltweit noch nicht final. Faustregel: für privates Üben okay. Für kommerzielle oder öffentliche Nutzung lieber recherchieren.
6. KI-Inhalte erkennen
- Bilder: zu glatte Haut, falsch gezählte Finger, seltsame Ohren oder Schmuck, unscharfe Hintergründe.
- Texte: zu glatt, zu vorhersehbar, viele „jedoch”, „letztendlich”, „es ist wichtig zu beachten”.
- Videos: unscharfe Übergänge an Händen, falsche Schatten, Lippen passen nicht zum Ton.
- Audio: zu perfekte Aussprache, keine Atmer, falsche Betonungen bei Eigennamen.
Deine ersten KI-Projekte
Genug Theorie. Hier sind vier Projekte, die du dieses Wochenende starten kannst — vom Anfänger bis fortgeschritten.
Projekt 1 · Mini-Chatbot mit der Anthropic-API
Niveau: Einsteiger · Zeit: 1 Stunde · Sprache: Python
import anthropic
client = anthropic.Anthropic() # API-Key aus Umgebungsvariable
response = client.messages.create(
model="claude-haiku-4-5",
max_tokens=200,
messages=[
{"role": "user",
"content": "Erzähl mir einen Witz über Python."}
],
)
print(response.content[0].text)
Brauchst nur einen API-Key (kostet wenige Cents), Python und 10 Zeilen Code.
Projekt 2 · Lokales LLM mit Ollama
Niveau: Einsteiger · Zeit: 30 Min · Hardware: Laptop mit 8 GB RAM
# Terminal:
ollama pull llama3.2:3b
ollama run llama3.2:3b
# >>> Erkläre mir Schwarze Löcher in 3 Sätzen.
Komplett offline, keine Kosten, kein Account. Daten bleiben bei dir.
Projekt 3 · Discord-Bot mit KI-Persönlichkeit
Niveau: Mittel · Zeit: 1 Wochenende · Stack: Python, discord.py, Anthropic-API
Bau einen Bot, der in deinem Server auf Erwähnung antwortet — als Pirat, Roboter aus dem
Jahr 3000, oder Mathe-Lehrer. Der System-Prompt definiert die Persönlichkeit, jedes
@bot löst eine Antwort aus. Grossartiges Lernprojekt für Asynchron-Programmierung.
Projekt 4 · Bilderkennung mit Webcam
Niveau: Mittel · Zeit: 2–4 Stunden · Stack: Python, OpenCV, YOLO
Mit ca. 20 Zeilen Code öffnest du deine Webcam und lässt YOLO Personen, Tassen, Telefone in Echtzeit erkennen — und Bounding Boxes um sie zeichnen. Funktioniert komplett lokal, ohne Cloud.
Mini-Glossar
- Token
- Kleinster Textbaustein, mit dem ein LLM rechnet. Etwa 0,75 Wörter im Englischen.
- Embedding
- Mathematische Repräsentation eines Wortes/Satzes als Zahlenvektor. Ähnliche Bedeutungen liegen nahe beieinander.
- RAG
- Retrieval Augmented Generation. Das Modell sucht erst in einer Datenbank nach Fakten, dann antwortet es. Reduziert Halluzinationen.
- Fine-Tuning
- Ein vortrainiertes Modell mit eigenen Daten weitertrainieren, um es auf eine spezifische Aufgabe zu trimmen.
- Prompt
- Die Eingabe an die KI. Inkl. System-Prompt (verborgene Anweisung), User-Prompt (deine Frage) und Beispiele.
- Halluzination
- Wenn die KI Fakten erfindet, die plausibel klingen, aber falsch sind.
- Agent
- Ein KI-System, das mehrere Schritte plant und Werkzeuge benutzt, um ein Ziel zu erreichen.
- Tool Use
- Wenn ein LLM externe Funktionen aufrufen darf — z. B. Websuche, Taschenrechner, API.
- MCP
- Model Context Protocol. Offener Standard, mit dem Agenten Tools entdecken und benutzen.
- Multimodal
- Modelle, die mehrere Eingabetypen verstehen: Text, Bild, Audio, Video.
Mini-Quiz
5 Fragen · Bestehensgrenze 80 %