Modul 4 von 5 · Maker Lab

KI: Von Mustern zu Maschinen, die mitdenken.

Wie LLMs funktionieren, was Tokens, Halluzinationen und Agenten sind — und wie du heute damit baust, ohne im Hype zu ertrinken.

Lesedauer 35 Min Niveau: Fortgeschritten 12–18 Jahre

Was du nach diesem Modul kannst

  • Du verstehst, was Tokens sind und warum die Kontextlänge zählt (Modul: Token-Estimator unten).
  • Du erkennst Halluzinationen und weisst konkret, wie du sie reduzierst.
  • Du schreibst gute Prompts (Rolle, Kontext, Beispiele, Format).
  • Du kennst den Unterschied zwischen Chat-LLM und Agent.
  • Du kannst die wichtigsten Modelle 2026 (Claude Opus 4.7, GPT, Gemini) einschätzen und das passende für deine Aufgabe wählen.

Was ist eigentlich KI?

„Künstliche Intelligenz” ist ein Sammelbegriff. Wenn jemand „die KI” sagt, meinen die Leute meistens ganz unterschiedliche Dinge. Damit du den Durchblick behältst, hier die vier wichtigsten Stufen — von der ältesten zur neuesten Idee:

Klassische KI (Symbolic AI)

Stufe 1 · seit 1950er

Programme mit fest verdrahteten Regeln: „Wenn-Dann”. Ein Schach-Computer, der jede Stellung nach einem Regelbuch bewertet. Funktioniert gut bei klaren Spielen — aber nicht, wenn die Welt unscharf ist.

Machine Learning (ML)

Stufe 2 · seit 1990er

Statt Regeln zu schreiben, zeigt man dem Computer Beispiele, und er findet selbst Muster. „Hier sind 10 000 Bilder von Katzen und Hunden — finde den Unterschied.”

Deep Learning

Stufe 3 · seit 2012

Eine spezielle ML-Variante mit vielen Schichten künstlicher Neuronen. Diese tieferen Netze können viel komplexere Muster erkennen — Gesichter, Sprache, ganze Szenen. Der Durchbruch der modernen KI.

Generative AI

Stufe 4 · seit 2022

Modelle, die nicht nur erkennen, sondern erzeugen: Texte, Bilder, Stimmen, Videos, Code. ChatGPT, Claude, Midjourney, ElevenLabs gehören hierhin. Das, was heute „die KI” genannt wird.

Wie ein neuronales Netz lernt

Stell dir vor, du sollst lernen, Äpfel von Birnen zu unterscheiden — und niemand erklärt dir die Regeln. Du bekommst nur Bilder gezeigt und jedes Mal gesagt, ob es richtig oder falsch war. Genau so lernt ein neuronales Netz.

Die Grundidee in vier Schritten

  1. Eingabe

    Daten kommen rein — z. B. ein Bild, das in Zahlen (Pixel-Helligkeiten) übersetzt wird.

  2. Verarbeitung

    Diese Zahlen wandern durch Schichten von Neuronen. Jedes Neuron mischt seine Eingangswerte mit Faktoren, sogenannten Gewichten.

  3. Vorhersage

    Am Ende kommt eine Zahl raus: „87 % Apfel”.

  4. Lernen

    Wenn die Vorhersage falsch ist, werden die Gewichte minimal angepasst — millionenfach, mit Mathematik namens Backpropagation. Mit jeder Runde wird das Netz besser.

Die Analogie zum menschlichen Gehirn

Auch dein Gehirn lernt durch Wiederholung. Wenn du Klavier übst, verstärken sich bestimmte Verbindungen zwischen deinen Nervenzellen. Künstliche Netze tun etwas Ähnliches — aber sie haben keine Gefühle, kein Verständnis und kein Bewusstsein. Sie sind extrem gute Mustererkenner, mehr nicht.

LLMs — Large Language Models

Ein LLM ist ein riesiges neuronales Netz, das auf einer absurden Menge Text trainiert wurde — Bücher, Wikipedia, Foren, Code, Webseiten. Sein einziger ursprünglicher Job ist eigentlich banal: Sage das nächste Wort voraus.

Tokens — die Bausteine

LLMs „sehen” keine Buchstaben oder Wörter, sondern Tokens: kleine Textstückchen, oft zwischen einem Buchstaben und einem ganzen kurzen Wort. „Schokolade” könnte z. B. zu drei Tokens werden: Schoko · la · de.

Kontextfenster — das Kurzzeitgedächtnis

Das Kontextfenster ist die Anzahl Tokens, die das Modell auf einmal lesen kann. 2026 ist das riesig: Claude Opus 4.7, Claude Sonnet 4.6 und Gemini 2.5 Pro schaffen 1 Million Tokens — das entspricht etwa 5–7 ganzen Romanen. Trotzdem: was ausserhalb dieses Fensters liegt, hat das Modell „vergessen”.

Training in drei Phasen

  1. Pre-Training. Das Modell liest Milliarden Texte und lernt Sprachstrukturen. Dauert Monate, kostet Millionen.
  2. Fine-Tuning / RLHF. Menschen bewerten Antworten, um dem Modell beizubringen, hilfreich, ehrlich und harmlos zu antworten.
  3. Inference. Wenn du mit dem Modell chattest. Das Training ist da längst abgeschlossen — das Modell lernt nicht mehr aus eurem Gespräch (ausser du nutzt eine Memory-Funktion).

Probier's aus: Wie viele Tokens hat dein Satz?

Tippe einen Satz und der Token-Schätzer rechnet live. Faustregel im Englischen: 1 Token ≈ 4 Zeichen oder 0.75 Wörter. Im Deutschen etwas mehr Tokens wegen längerer Wörter.

Zeichen
43
Wörter
7
≈ Tokens
13
Tokens / 1M
0.000013
KIisteinmächtigesWerkzeug,keinOrakel.

Die Modelle 2026 im Vergleich

KI-Modelle entwickeln sich rasant. Hier ein Überblick über die wichtigsten Familien — Stand Mai 2026. Behalte im Kopf: in einem halben Jahr ist diese Tabelle wahrscheinlich schon teilweise veraltet.

ModellAnbieterKontextStärkenOpen Source?
Claude Opus 4.7Anthropic1M TokensKomplexes Reasoning, Coding, Agenten-AufgabenNein
Claude Sonnet 4.6Anthropic1M TokensAllrounder, gutes Preis-Leistungs-VerhältnisNein
Claude Haiku 4.5Anthropic200k TokensSchnell, günstig, ideal für Apps mit hohem VolumenNein
GPT-5.5OpenAI~400k TokensMultimodal, agentisches Coding, Computer UseNein
Gemini 2.5 ProGoogle DeepMind1–2M TokensMultimodal (Audio, Video, Bild), „Deep Think” ReasoningNein
Llama 4 (Scout / Maverick)Metabis 10M TokensFrei verfügbar, lokal lauffähig, grosse CommunityJa (Lizenz)
Mistral Large 3Mistral AI (FR)128k TokensEU-freundlich, mehrsprachig, Apache 2.0Ja
DeepSeek V4DeepSeek (CN)128k TokensSehr stark in Mathematik & Code, sehr günstigJa
Qwen 3.5Alibaba1M TokensMehrsprachig, gute MultimodalitätJa

Closed vs. Open Source

Closed Source

z. B. Claude, GPT-5.5, Gemini

  • Über API oder Web-App nutzbar
  • Sehr leistungsstark, „state of the art”
  • Du sendest deine Daten an die Firma
  • Du musst zahlen (oder es gibt ein Limit)

Open Source

z. B. Llama, Mistral, Qwen

  • Du kannst die Modell-Gewichte herunterladen
  • Lauffähig auf deinem eigenen Computer
  • Volle Privatsphäre — Daten bleiben bei dir
  • Brauchen ordentlich Hardware (gute GPU)

Lokale Modelle: Ollama & LM Studio

Du willst ein LLM bei dir zuhause laufen lassen? Das geht 2026 einfacher denn je. Zwei Tools machen das fast trivial:

  • Ollama (ollama.com) — Kommandozeile. Ein Befehl wie ollama run llama3.3 lädt und startet das Modell. Funktioniert auf macOS, Linux und Windows.
  • LM Studio (lmstudio.ai) — Grafische Oberfläche. Modelle suchen, herunterladen, chatten — alles per Klick.

Prompt Engineering für Teens

Ein Prompt ist die Anweisung, die du einer KI gibst. Je besser dein Prompt, desto besser die Antwort. „Prompt Engineering” ist die Kunst, gute Prompts zu schreiben — und sie ist überraschend einfach zu lernen.

Die fünf Bausteine eines guten Prompts

  1. Rolle. „Du bist ein erfahrener Mathe-Tutor.”
  2. Aufgabe. „Erkläre mir, wie man quadratische Gleichungen löst.”
  3. Kontext. „Ich bin in der 9. Klasse und habe das Thema noch nie gesehen.”
  4. Format. „Antworte in 3 nummerierten Schritten mit Beispielen.”
  5. Einschränkungen. „Verwende keine englischen Begriffe.”

Schlecht vs. Gut — ein direkter Vergleich

Schlechter Prompt

Erklär mir Photosynthese.

Zu vage. Die KI rät, was du wissen willst — vielleicht zu lang, vielleicht zu kompliziert.

Guter Prompt

Du bist Bio-Lehrer für die 7. Klasse. Erkläre Photosynthese in 4 Sätzen. Vergleiche es am Schluss mit etwas aus dem Alltag (z. B. Kochen). Keine Fachbegriffe ohne Erklärung.

Klare Rolle, Format, Länge, Stil. Du bekommst genau das, was du wolltest.

Drei Profi-Tricks

1. „Step by step” — Chain of Thought. Bei kniffligen Fragen sag der KI: „Denke Schritt für Schritt.” Das aktiviert oft eine sorgfältigere Denkweise und bessere Ergebnisse — besonders bei Mathe und Logik.

2. Beispiele geben (Few-Shot). Statt zu beschreiben, was du willst, zeige es. Gib zwei oder drei Beispiele für die Form der Antwort, dann die echte Frage. Das funktioniert verblüffend gut.

3. Iterieren statt aufgeben. Die erste Antwort ist selten perfekt. Sag: „Mach das kürzer”, „Anderer Ton”, „Mehr Beispiele”. Behandle die KI wie einen Praktikanten, dem du Feedback gibst.

Stimme: Speech-to-Text & TTS

Sprach-KI hat 2026 ein Niveau erreicht, bei dem es teils unmöglich ist, Mensch und Maschine zu unterscheiden. Es gibt zwei Hauptrichtungen:

Speech-to-Text

STT · Hören

Wandelt gesprochene Sprache in Text um. Beispiele:

  • Whisper (OpenAI) — Open Source, läuft auch lokal, sehr gute Mehrsprachigkeit
  • Deepgram — extrem schnell, gut für Live-Untertitel
  • AssemblyAI — gut für Podcasts und Meetings

Text-to-Speech

TTS · Sprechen

Wandelt Text in Sprache um — täuschend echt:

  • ElevenLabs — der Goldstandard für realistische Stimmen, Voice Cloning
  • OpenAI TTS — solide, einfach zu nutzen
  • Coqui XTTS — Open Source, lokal lauffähig

Wofür benutzt man das?

  • Untertitel automatisch erzeugen für YouTube oder TikTok
  • Hörbücher selbst produzieren
  • Vorlesefunktionen für Lerntools
  • Voiceovers für Videos und Spiele
  • Barrierefreiheit für Sehbehinderte

Computer Vision & Bildgenerierung

Sehende KI ist 2026 schon fast Standard. Sie zerfällt in drei grosse Bereiche: Erkennen, Verstehen und Erzeugen.

Erkennen — Object Detection & OCR

  • YOLO (You Only Look Once) — der Klassiker für Echtzeit-Objekterkennung. Findet Personen, Autos, Tiere in Live-Videos. YOLO v11 (2025/26) läuft sogar auf Smartphones.
  • OCR (Optical Character Recognition) — Texterkennung in Bildern. Tools wie Tesseract oder PaddleOCR können sogar handschriftliche Notizen lesen.

Verstehen — Vision-Language-Models (VLMs)

Modelle wie Claude Vision, GPT-5.5 Vision oder Gemini 2.5 können Bilder nicht nur erkennen, sondern beschreiben, analysieren und Fragen dazu beantworten. Du kannst ein Foto deiner Mathe-Hausaufgabe schicken und die KI erklärt dir den Lösungsweg.

Erzeugen — Bildgenerierung

Stable Diffusion

Open Source, lokal lauffähig. Maximale Kontrolle, aber Lernkurve.

Midjourney

Bekannt für künstlerische, „cineastische” Bilder. Bezahlt-Service.

DALL-E / GPT-Image

Direkt in ChatGPT eingebaut. Gut für Konzepte und schnelle Skizzen.

Flux

Open-Source-Aufsteiger 2024–26, sehr fotorealistisch.

Veo / Sora

Video-Generierung. Aus einem Text wird ein 10-Sekunden-Clip.

Nano Banana

Schnelle Bildbearbeitung per Prompt — „mach den Himmel rosa”.

AI-Agents — KI, die handelt

Das grosse Thema 2026: autonome Agenten. Während ein normales LLM nur mit dir chattet, kann ein Agent Werkzeuge benutzen — Webseiten lesen, Dateien schreiben, Code ausführen, Mails versenden. Er erledigt komplette Aufgaben selbstständig.

Der Agent-Loop

  1. Plan

    Der Agent überlegt: „Was muss ich tun, um das Ziel zu erreichen?”

  2. Tool Use

    Er wählt ein Werkzeug (Websuche, Dateischreiben, API-Call) und benutzt es.

  3. Observe

    Er liest das Ergebnis und prüft, was er jetzt weiss.

  4. Reflect

    Er fragt sich: „Bin ich am Ziel? Was ist der nächste Schritt?”

  5. Wiederhole

    Bis das Ziel erreicht ist (oder ein Limit greift).

Bekannte Agenten 2026

Claude Code

Der Coding-Agent von Anthropic. Liest deinen Code, plant Änderungen, schreibt Files, führt Tests aus — und erklärt, was er getan hat.

Cursor Agent

In den Cursor-Editor eingebaut. Bearbeitet ganze Codebasen agentisch, mit Live-Diff-Preview.

OpenAI Operator

Steuert deinen Browser für dich — Termine buchen, einkaufen, Forms ausfüllen.

Devin / SWE-Agents

Spezialisierte Agenten, die selbstständig Software-Tickets in Repos abarbeiten.

MCP — der Standard für Tools

Model Context Protocol (MCP) ist 2026 zum De-facto-Standard geworden, mit dem Agenten Werkzeuge entdecken und benutzen. Statt für jeden Agenten alles neu zu schreiben, gibt es MCP-Server für Gmail, Notion, GitHub, Slack — und dein Agent kann sie alle benutzen.

Ethik & KI-Fallen

KI ist kein Spielzeug — sie verändert Gesellschaft, Bildung, Politik. Wer KI klug benutzt, denkt diese sechs Themen mit.

1. Halluzinationen

LLMs erfinden manchmal Fakten — sehr selbstbewusst. Buchtitel, die nicht existieren. Zitate, die nie gesagt wurden. Studien, die ausgedacht sind. Prüfe wichtige Behauptungen immer mit einer zweiten Quelle.

2. Bias (Verzerrung)

KI lernt aus menschlichen Daten — und übernimmt deren Vorurteile. Gegenüber Geschlecht, Hautfarbe, Akzent, Beruf. Modelle werden zwar getrimmt, aber Bias verschwindet nie ganz.

3. Deepfakes

Realistische Fake-Videos und -Audios sind 2026 in Minuten erstellbar. Politiker, die nie etwas gesagt haben. Mitschüler in Situationen, die nie passiert sind. Verbreite nichts, bei dem du nicht 100 % sicher bist, dass es echt ist.

4. Privatsphäre

Was du in einen KI-Chat tippst, kann zum Trainingsmaterial werden — oder gespeichert bleiben. Gib nie Passwörter, Adressen, Bankdaten oder vertrauliche Informationen anderer Personen preis.

5. Urheberrecht

KI-Bilder im Stil eines bestimmten Künstlers — ist das erlaubt? Die Rechtslage ist 2026 weltweit noch nicht final. Faustregel: für privates Üben okay. Für kommerzielle oder öffentliche Nutzung lieber recherchieren.

6. KI-Inhalte erkennen

  • Bilder: zu glatte Haut, falsch gezählte Finger, seltsame Ohren oder Schmuck, unscharfe Hintergründe.
  • Texte: zu glatt, zu vorhersehbar, viele „jedoch”, „letztendlich”, „es ist wichtig zu beachten”.
  • Videos: unscharfe Übergänge an Händen, falsche Schatten, Lippen passen nicht zum Ton.
  • Audio: zu perfekte Aussprache, keine Atmer, falsche Betonungen bei Eigennamen.

Deine ersten KI-Projekte

Genug Theorie. Hier sind vier Projekte, die du dieses Wochenende starten kannst — vom Anfänger bis fortgeschritten.

Projekt 1 · Mini-Chatbot mit der Anthropic-API

Niveau: Einsteiger · Zeit: 1 Stunde · Sprache: Python

import anthropic

client = anthropic.Anthropic()  # API-Key aus Umgebungsvariable

response = client.messages.create(
    model="claude-haiku-4-5",
    max_tokens=200,
    messages=[
        {"role": "user",
         "content": "Erzähl mir einen Witz über Python."}
    ],
)
print(response.content[0].text)

Brauchst nur einen API-Key (kostet wenige Cents), Python und 10 Zeilen Code.

Projekt 2 · Lokales LLM mit Ollama

Niveau: Einsteiger · Zeit: 30 Min · Hardware: Laptop mit 8 GB RAM

# Terminal:
ollama pull llama3.2:3b
ollama run llama3.2:3b

# >>> Erkläre mir Schwarze Löcher in 3 Sätzen.

Komplett offline, keine Kosten, kein Account. Daten bleiben bei dir.

Projekt 3 · Discord-Bot mit KI-Persönlichkeit

Niveau: Mittel · Zeit: 1 Wochenende · Stack: Python, discord.py, Anthropic-API

Bau einen Bot, der in deinem Server auf Erwähnung antwortet — als Pirat, Roboter aus dem Jahr 3000, oder Mathe-Lehrer. Der System-Prompt definiert die Persönlichkeit, jedes @bot löst eine Antwort aus. Grossartiges Lernprojekt für Asynchron-Programmierung.

Projekt 4 · Bilderkennung mit Webcam

Niveau: Mittel · Zeit: 2–4 Stunden · Stack: Python, OpenCV, YOLO

Mit ca. 20 Zeilen Code öffnest du deine Webcam und lässt YOLO Personen, Tassen, Telefone in Echtzeit erkennen — und Bounding Boxes um sie zeichnen. Funktioniert komplett lokal, ohne Cloud.

Mini-Glossar

Token
Kleinster Textbaustein, mit dem ein LLM rechnet. Etwa 0,75 Wörter im Englischen.
Embedding
Mathematische Repräsentation eines Wortes/Satzes als Zahlenvektor. Ähnliche Bedeutungen liegen nahe beieinander.
RAG
Retrieval Augmented Generation. Das Modell sucht erst in einer Datenbank nach Fakten, dann antwortet es. Reduziert Halluzinationen.
Fine-Tuning
Ein vortrainiertes Modell mit eigenen Daten weitertrainieren, um es auf eine spezifische Aufgabe zu trimmen.
Prompt
Die Eingabe an die KI. Inkl. System-Prompt (verborgene Anweisung), User-Prompt (deine Frage) und Beispiele.
Halluzination
Wenn die KI Fakten erfindet, die plausibel klingen, aber falsch sind.
Agent
Ein KI-System, das mehrere Schritte plant und Werkzeuge benutzt, um ein Ziel zu erreichen.
Tool Use
Wenn ein LLM externe Funktionen aufrufen darf — z. B. Websuche, Taschenrechner, API.
MCP
Model Context Protocol. Offener Standard, mit dem Agenten Tools entdecken und benutzen.
Multimodal
Modelle, die mehrere Eingabetypen verstehen: Text, Bild, Audio, Video.

Mini-Quiz

5 Fragen · Bestehensgrenze 80 %

  1. 1/5 Was ist ein Token in einem LLM?
  2. 2/5 Welches Claude-Modell hat Stand Mai 2026 ein Kontextfenster von 1 Million Tokens?
  3. 3/5 Was beschreibt den „Agent-Loop" am besten?
  4. 4/5 Welches dieser Modelle ist *open source*?
  5. 5/5 Was bedeutet „Halluzination" bei einer KI?