KI: Von Mustern zu Maschinen, die mitdenken.

Was du nach diesem Modul kannst

Du verstehst, was Tokens sind und warum die Kontextlänge zählt (Modul: Token-Estimator unten).
Du erkennst Halluzinationen und weisst konkret, wie du sie reduzierst.
Du schreibst gute Prompts (Rolle, Kontext, Beispiele, Format).
Du kennst den Unterschied zwischen Chat-LLM und Agent.
Du kannst die wichtigsten Modelle 2026 (Claude Opus 4.7, GPT, Gemini) einschätzen und das passende für deine Aufgabe wählen.

Was ist eigentlich KI?

„Künstliche Intelligenz” ist ein Sammelbegriff. Wenn jemand „die KI” sagt, meinen die Leute meistens ganz unterschiedliche Dinge. Damit du den Durchblick behältst, hier die vier wichtigsten Stufen — von der ältesten zur neuesten Idee:

Klassische KI (Symbolic AI)

Stufe 1 · seit 1950er

Programme mit fest verdrahteten Regeln: „Wenn-Dann”. Ein Schach-Computer, der jede Stellung nach einem Regelbuch bewertet. Funktioniert gut bei klaren Spielen — aber nicht, wenn die Welt unscharf ist.

Machine Learning (ML)

Stufe 2 · seit 1990er

Statt Regeln zu schreiben, zeigt man dem Computer Beispiele, und er findet selbst Muster. „Hier sind 10 000 Bilder von Katzen und Hunden — finde den Unterschied.”

Deep Learning

Stufe 3 · seit 2012

Eine spezielle ML-Variante mit vielen Schichten künstlicher Neuronen. Diese tieferen Netze können viel komplexere Muster erkennen — Gesichter, Sprache, ganze Szenen. Der Durchbruch der modernen KI.

Generative AI

Stufe 4 · seit 2022

Modelle, die nicht nur erkennen, sondern erzeugen: Texte, Bilder, Stimmen, Videos, Code. ChatGPT, Claude, Midjourney, ElevenLabs gehören hierhin. Das, was heute „die KI” genannt wird.

Wie ein neuronales Netz lernt

Stell dir vor, du sollst lernen, Äpfel von Birnen zu unterscheiden — und niemand erklärt dir die Regeln. Du bekommst nur Bilder gezeigt und jedes Mal gesagt, ob es richtig oder falsch war. Genau so lernt ein neuronales Netz.

Die Grundidee in vier Schritten

Eingabe
Daten kommen rein — z. B. ein Bild, das in Zahlen (Pixel-Helligkeiten) übersetzt wird.
Verarbeitung
Diese Zahlen wandern durch Schichten von Neuronen. Jedes Neuron mischt seine Eingangswerte mit Faktoren, sogenannten Gewichten.
Vorhersage
Am Ende kommt eine Zahl raus: „87 % Apfel”.
Lernen
Wenn die Vorhersage falsch ist, werden die Gewichte minimal angepasst — millionenfach, mit Mathematik namens Backpropagation. Mit jeder Runde wird das Netz besser.

Die Analogie zum menschlichen Gehirn

Auch dein Gehirn lernt durch Wiederholung. Wenn du Klavier übst, verstärken sich bestimmte Verbindungen zwischen deinen Nervenzellen. Künstliche Netze tun etwas Ähnliches — aber sie haben keine Gefühle, kein Verständnis und kein Bewusstsein. Sie sind extrem gute Mustererkenner, mehr nicht.

LLMs — Large Language Models

Ein LLM ist ein riesiges neuronales Netz, das auf einer absurden Menge Text trainiert wurde — Bücher, Wikipedia, Foren, Code, Webseiten. Sein einziger ursprünglicher Job ist eigentlich banal: Sage das nächste Wort voraus.

Tokens — die Bausteine

LLMs „sehen” keine Buchstaben oder Wörter, sondern Tokens: kleine Textstückchen, oft zwischen einem Buchstaben und einem ganzen kurzen Wort. „Schokolade” könnte z. B. zu drei Tokens werden: Schoko · la · de.

Kontextfenster — das Kurzzeitgedächtnis

Das Kontextfenster ist die Anzahl Tokens, die das Modell auf einmal lesen kann. 2026 ist das riesig: Claude Opus 4.7, Claude Sonnet 4.6 und Gemini 2.5 Pro schaffen 1 Million Tokens — das entspricht etwa 5–7 ganzen Romanen. Trotzdem: was ausserhalb dieses Fensters liegt, hat das Modell „vergessen”.

Training in drei Phasen

Pre-Training. Das Modell liest Milliarden Texte und lernt Sprachstrukturen. Dauert Monate, kostet Millionen.
Fine-Tuning / RLHF. Menschen bewerten Antworten, um dem Modell beizubringen, hilfreich, ehrlich und harmlos zu antworten.
Inference. Wenn du mit dem Modell chattest. Das Training ist da längst abgeschlossen — das Modell lernt nicht mehr aus eurem Gespräch (ausser du nutzt eine Memory-Funktion).

Probier's aus: Wie viele Tokens hat dein Satz?

Tippe einen Satz und der Token-Schätzer rechnet live. Faustregel im Englischen: 1 Token ≈ 4 Zeichen oder 0.75 Wörter. Im Deutschen etwas mehr Tokens wegen längerer Wörter.

Beispiel-Text

Zeichen: 43
Wörter: 7
≈ Tokens: 13
Tokens / 1M: 0.000013

KIisteinmächtigesWerkzeug,keinOrakel.

Die Modelle 2026 im Vergleich

KI-Modelle entwickeln sich rasant. Hier ein Überblick über die wichtigsten Familien — Stand Mai 2026. Behalte im Kopf: in einem halben Jahr ist diese Tabelle wahrscheinlich schon teilweise veraltet.

Modell	Anbieter	Kontext	Stärken	Open Source?
Claude Opus 4.7	Anthropic	1M Tokens	Komplexes Reasoning, Coding, Agenten-Aufgaben	Nein
Claude Sonnet 4.6	Anthropic	1M Tokens	Allrounder, gutes Preis-Leistungs-Verhältnis	Nein
Claude Haiku 4.5	Anthropic	200k Tokens	Schnell, günstig, ideal für Apps mit hohem Volumen	Nein
GPT-5.5	OpenAI	~400k Tokens	Multimodal, agentisches Coding, Computer Use	Nein
Gemini 2.5 Pro	Google DeepMind	1–2M Tokens	Multimodal (Audio, Video, Bild), „Deep Think” Reasoning	Nein
Llama 4 (Scout / Maverick)	Meta	bis 10M Tokens	Frei verfügbar, lokal lauffähig, grosse Community	Ja (Lizenz)
Mistral Large 3	Mistral AI (FR)	128k Tokens	EU-freundlich, mehrsprachig, Apache 2.0	Ja
DeepSeek V4	DeepSeek (CN)	128k Tokens	Sehr stark in Mathematik & Code, sehr günstig	Ja
Qwen 3.5	Alibaba	1M Tokens	Mehrsprachig, gute Multimodalität	Ja

Closed vs. Open Source

Closed Source

z. B. Claude, GPT-5.5, Gemini

Über API oder Web-App nutzbar
Sehr leistungsstark, „state of the art”
Du sendest deine Daten an die Firma
Du musst zahlen (oder es gibt ein Limit)

Open Source

z. B. Llama, Mistral, Qwen

Du kannst die Modell-Gewichte herunterladen
Lauffähig auf deinem eigenen Computer
Volle Privatsphäre — Daten bleiben bei dir
Brauchen ordentlich Hardware (gute GPU)

Lokale Modelle: Ollama & LM Studio

Du willst ein LLM bei dir zuhause laufen lassen? Das geht 2026 einfacher denn je. Zwei Tools machen das fast trivial:

Ollama (ollama.com) — Kommandozeile. Ein Befehl wie ollama run llama3.3 lädt und startet das Modell. Funktioniert auf macOS, Linux und Windows.
LM Studio (lmstudio.ai) — Grafische Oberfläche. Modelle suchen, herunterladen, chatten — alles per Klick.

Prompt Engineering für Teens

Ein Prompt ist die Anweisung, die du einer KI gibst. Je besser dein Prompt, desto besser die Antwort. „Prompt Engineering” ist die Kunst, gute Prompts zu schreiben — und sie ist überraschend einfach zu lernen.

Die fünf Bausteine eines guten Prompts

Rolle. „Du bist ein erfahrener Mathe-Tutor.”
Aufgabe. „Erkläre mir, wie man quadratische Gleichungen löst.”
Kontext. „Ich bin in der 9. Klasse und habe das Thema noch nie gesehen.”
Format. „Antworte in 3 nummerierten Schritten mit Beispielen.”
Einschränkungen. „Verwende keine englischen Begriffe.”

Schlecht vs. Gut — ein direkter Vergleich

Schlechter Prompt

Erklär mir Photosynthese.

Zu vage. Die KI rät, was du wissen willst — vielleicht zu lang, vielleicht zu kompliziert.

Guter Prompt

Du bist Bio-Lehrer für die 7. Klasse. Erkläre Photosynthese in 4 Sätzen. Vergleiche es am Schluss mit etwas aus dem Alltag (z. B. Kochen). Keine Fachbegriffe ohne Erklärung.

Klare Rolle, Format, Länge, Stil. Du bekommst genau das, was du wolltest.

Drei Profi-Tricks

1. „Step by step” — Chain of Thought. Bei kniffligen Fragen sag der KI: „Denke Schritt für Schritt.” Das aktiviert oft eine sorgfältigere Denkweise und bessere Ergebnisse — besonders bei Mathe und Logik.

2. Beispiele geben (Few-Shot). Statt zu beschreiben, was du willst, zeige es. Gib zwei oder drei Beispiele für die Form der Antwort, dann die echte Frage. Das funktioniert verblüffend gut.

3. Iterieren statt aufgeben. Die erste Antwort ist selten perfekt. Sag: „Mach das kürzer”, „Anderer Ton”, „Mehr Beispiele”. Behandle die KI wie einen Praktikanten, dem du Feedback gibst.

Stimme: Speech-to-Text & TTS

Sprach-KI hat 2026 ein Niveau erreicht, bei dem es teils unmöglich ist, Mensch und Maschine zu unterscheiden. Es gibt zwei Hauptrichtungen:

Speech-to-Text

STT · Hören

Wandelt gesprochene Sprache in Text um. Beispiele:

Whisper (OpenAI) — Open Source, läuft auch lokal, sehr gute Mehrsprachigkeit
Deepgram — extrem schnell, gut für Live-Untertitel
AssemblyAI — gut für Podcasts und Meetings

Text-to-Speech

TTS · Sprechen

Wandelt Text in Sprache um — täuschend echt:

ElevenLabs — der Goldstandard für realistische Stimmen, Voice Cloning
OpenAI TTS — solide, einfach zu nutzen
Coqui XTTS — Open Source, lokal lauffähig

Wofür benutzt man das?

Untertitel automatisch erzeugen für YouTube oder TikTok
Hörbücher selbst produzieren
Vorlesefunktionen für Lerntools
Voiceovers für Videos und Spiele
Barrierefreiheit für Sehbehinderte

Computer Vision & Bildgenerierung

Sehende KI ist 2026 schon fast Standard. Sie zerfällt in drei grosse Bereiche: Erkennen, Verstehen und Erzeugen.

Erkennen — Object Detection & OCR

YOLO (You Only Look Once) — der Klassiker für Echtzeit-Objekterkennung. Findet Personen, Autos, Tiere in Live-Videos. YOLO v11 (2025/26) läuft sogar auf Smartphones.
OCR (Optical Character Recognition) — Texterkennung in Bildern. Tools wie Tesseract oder PaddleOCR können sogar handschriftliche Notizen lesen.

Verstehen — Vision-Language-Models (VLMs)

Modelle wie Claude Vision, GPT-5.5 Vision oder Gemini 2.5 können Bilder nicht nur erkennen, sondern beschreiben, analysieren und Fragen dazu beantworten. Du kannst ein Foto deiner Mathe-Hausaufgabe schicken und die KI erklärt dir den Lösungsweg.

Erzeugen — Bildgenerierung

Stable Diffusion

Open Source, lokal lauffähig. Maximale Kontrolle, aber Lernkurve.

Midjourney

Bekannt für künstlerische, „cineastische” Bilder. Bezahlt-Service.

DALL-E / GPT-Image

Direkt in ChatGPT eingebaut. Gut für Konzepte und schnelle Skizzen.

Flux

Open-Source-Aufsteiger 2024–26, sehr fotorealistisch.

Veo / Sora

Video-Generierung. Aus einem Text wird ein 10-Sekunden-Clip.

Nano Banana

Schnelle Bildbearbeitung per Prompt — „mach den Himmel rosa”.

AI-Agents — KI, die handelt

Das grosse Thema 2026: autonome Agenten. Während ein normales LLM nur mit dir chattet, kann ein Agent Werkzeuge benutzen — Webseiten lesen, Dateien schreiben, Code ausführen, Mails versenden. Er erledigt komplette Aufgaben selbstständig.

Der Agent-Loop

Plan
Der Agent überlegt: „Was muss ich tun, um das Ziel zu erreichen?”
Tool Use
Er wählt ein Werkzeug (Websuche, Dateischreiben, API-Call) und benutzt es.
Observe
Er liest das Ergebnis und prüft, was er jetzt weiss.
Reflect
Er fragt sich: „Bin ich am Ziel? Was ist der nächste Schritt?”
Wiederhole
Bis das Ziel erreicht ist (oder ein Limit greift).

Bekannte Agenten 2026

Claude Code

Der Coding-Agent von Anthropic. Liest deinen Code, plant Änderungen, schreibt Files, führt Tests aus — und erklärt, was er getan hat.

Cursor Agent

In den Cursor-Editor eingebaut. Bearbeitet ganze Codebasen agentisch, mit Live-Diff-Preview.

OpenAI Operator

Steuert deinen Browser für dich — Termine buchen, einkaufen, Forms ausfüllen.

Devin / SWE-Agents

Spezialisierte Agenten, die selbstständig Software-Tickets in Repos abarbeiten.

MCP — der Standard für Tools

Model Context Protocol (MCP) ist 2026 zum De-facto-Standard geworden, mit dem Agenten Werkzeuge entdecken und benutzen. Statt für jeden Agenten alles neu zu schreiben, gibt es MCP-Server für Gmail, Notion, GitHub, Slack — und dein Agent kann sie alle benutzen.

Ethik & KI-Fallen

KI ist kein Spielzeug — sie verändert Gesellschaft, Bildung, Politik. Wer KI klug benutzt, denkt diese sechs Themen mit.

1. Halluzinationen

LLMs erfinden manchmal Fakten — sehr selbstbewusst. Buchtitel, die nicht existieren. Zitate, die nie gesagt wurden. Studien, die ausgedacht sind. Prüfe wichtige Behauptungen immer mit einer zweiten Quelle.

2. Bias (Verzerrung)

KI lernt aus menschlichen Daten — und übernimmt deren Vorurteile. Gegenüber Geschlecht, Hautfarbe, Akzent, Beruf. Modelle werden zwar getrimmt, aber Bias verschwindet nie ganz.

3. Deepfakes

Realistische Fake-Videos und -Audios sind 2026 in Minuten erstellbar. Politiker, die nie etwas gesagt haben. Mitschüler in Situationen, die nie passiert sind. Verbreite nichts, bei dem du nicht 100 % sicher bist, dass es echt ist.

4. Privatsphäre

Was du in einen KI-Chat tippst, kann zum Trainingsmaterial werden — oder gespeichert bleiben. Gib nie Passwörter, Adressen, Bankdaten oder vertrauliche Informationen anderer Personen preis.

5. Urheberrecht

KI-Bilder im Stil eines bestimmten Künstlers — ist das erlaubt? Die Rechtslage ist 2026 weltweit noch nicht final. Faustregel: für privates Üben okay. Für kommerzielle oder öffentliche Nutzung lieber recherchieren.

6. KI-Inhalte erkennen

Bilder: zu glatte Haut, falsch gezählte Finger, seltsame Ohren oder Schmuck, unscharfe Hintergründe.
Texte: zu glatt, zu vorhersehbar, viele „jedoch”, „letztendlich”, „es ist wichtig zu beachten”.
Videos: unscharfe Übergänge an Händen, falsche Schatten, Lippen passen nicht zum Ton.
Audio: zu perfekte Aussprache, keine Atmer, falsche Betonungen bei Eigennamen.

Deine ersten KI-Projekte

Genug Theorie. Hier sind vier Projekte, die du dieses Wochenende starten kannst — vom Anfänger bis fortgeschritten.

Projekt 1 · Mini-Chatbot mit der Anthropic-API

Niveau: Einsteiger · Zeit: 1 Stunde · Sprache: Python

import anthropic

client = anthropic.Anthropic()  # API-Key aus Umgebungsvariable

response = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=200,
    messages=[
        {"role": "user",
         "content": "Erzähl mir einen Witz über Python."}
    ],
)
print(response.content[0].text)

Brauchst nur einen API-Key (kostet wenige Cents), Python und 10 Zeilen Code.

Projekt 2 · Lokales LLM mit Ollama

Niveau: Einsteiger · Zeit: 30 Min · Hardware: Laptop mit 8 GB RAM

# Terminal:
ollama pull llama3.2:3b
ollama run llama3.2:3b

# >>> Erkläre mir Schwarze Löcher in 3 Sätzen.

Komplett offline, keine Kosten, kein Account. Daten bleiben bei dir.

Projekt 3 · Discord-Bot mit KI-Persönlichkeit

Niveau: Mittel · Zeit: 1 Wochenende · Stack: Python, discord.py, Anthropic-API

Bau einen Bot, der in deinem Server auf Erwähnung antwortet — als Pirat, Roboter aus dem Jahr 3000, oder Mathe-Lehrer. Der System-Prompt definiert die Persönlichkeit, jedes @bot löst eine Antwort aus. Grossartiges Lernprojekt für Asynchron-Programmierung.

Projekt 4 · Bilderkennung mit Webcam

Niveau: Mittel · Zeit: 2–4 Stunden · Stack: Python, OpenCV, YOLO

Mit ca. 20 Zeilen Code öffnest du deine Webcam und lässt YOLO Personen, Tassen, Telefone in Echtzeit erkennen — und Bounding Boxes um sie zeichnen. Funktioniert komplett lokal, ohne Cloud.

Mini-Glossar

Token: Kleinster Textbaustein, mit dem ein LLM rechnet. Etwa 0,75 Wörter im Englischen.
Embedding: Mathematische Repräsentation eines Wortes/Satzes als Zahlenvektor. Ähnliche Bedeutungen liegen nahe beieinander.
RAG: Retrieval Augmented Generation. Das Modell sucht erst in einer Datenbank nach Fakten, dann antwortet es. Reduziert Halluzinationen.
Fine-Tuning: Ein vortrainiertes Modell mit eigenen Daten weitertrainieren, um es auf eine spezifische Aufgabe zu trimmen.
Prompt: Die Eingabe an die KI. Inkl. System-Prompt (verborgene Anweisung), User-Prompt (deine Frage) und Beispiele.
Halluzination: Wenn die KI Fakten erfindet, die plausibel klingen, aber falsch sind.
Agent: Ein KI-System, das mehrere Schritte plant und Werkzeuge benutzt, um ein Ziel zu erreichen.
Tool Use: Wenn ein LLM externe Funktionen aufrufen darf — z. B. Websuche, Taschenrechner, API.
MCP: Model Context Protocol. Offener Standard, mit dem Agenten Tools entdecken und benutzen.
Multimodal: Modelle, die mehrere Eingabetypen verstehen: Text, Bild, Audio, Video.

Was du nach diesem Modul kannst

Was ist eigentlich KI?

Klassische KI (Symbolic AI)

Machine Learning (ML)

Deep Learning

Generative AI

Wie ein neuronales Netz lernt

Die Grundidee in vier Schritten

Eingabe

Verarbeitung

Vorhersage

Lernen

Die Analogie zum menschlichen Gehirn

LLMs — Large Language Models

Tokens — die Bausteine

Kontextfenster — das Kurzzeitgedächtnis

Training in drei Phasen

Probier's aus: Wie viele Tokens hat dein Satz?

Die Modelle 2026 im Vergleich

Closed vs. Open Source

Closed Source

Open Source

Lokale Modelle: Ollama & LM Studio

Prompt Engineering für Teens

Die fünf Bausteine eines guten Prompts

Schlecht vs. Gut — ein direkter Vergleich

Schlechter Prompt

Guter Prompt

Drei Profi-Tricks

Stimme: Speech-to-Text & TTS

Speech-to-Text

Text-to-Speech

Wofür benutzt man das?

Computer Vision & Bildgenerierung

Erkennen — Object Detection & OCR

Verstehen — Vision-Language-Models (VLMs)

Erzeugen — Bildgenerierung

Stable Diffusion

Midjourney

DALL-E / GPT-Image

Flux

Veo / Sora

Nano Banana

AI-Agents — KI, die handelt

Der Agent-Loop

Plan

Tool Use

Observe

Reflect

Wiederhole

Bekannte Agenten 2026

Claude Code

Cursor Agent

OpenAI Operator

Devin / SWE-Agents

MCP — der Standard für Tools

Ethik & KI-Fallen

1. Halluzinationen

2. Bias (Verzerrung)

3. Deepfakes

4. Privatsphäre

5. Urheberrecht

6. KI-Inhalte erkennen

Deine ersten KI-Projekte

Projekt 1 · Mini-Chatbot mit der Anthropic-API

Projekt 2 · Lokales LLM mit Ollama

Projekt 3 · Discord-Bot mit KI-Persönlichkeit

Projekt 4 · Bilderkennung mit Webcam

Mini-Glossar