Heute wird es gruselig: Wir sprechen über den KI-Geist Microsoft Copilot in Excel, das „Excel aus der Hölle“.
Die neue Funktion erlaubt Spracheingaben statt komplexer Formeln. Doch Vorsicht: Die KI neigt dazu, Zahlen zu interpretieren, Fakten zu erfinden und ist nicht deterministisch.
Microsoft warnt anscheinend selbst davor, die Funktion für Aufgaben zu nutzen, die Genauigkeit erfordern.Wir beleuchten das größte Schreckgespenst: Copilot greift auf alle Nutzerdaten zu und kann sensible Informationen (wie z.B. Gehaltsdaten) aus anderen Bereichen in harmlosen Zusammenfassungen preisgeben. Die Ergebnisse haben zudem keine Sicherheitsklassifizierung. Ist dieses Experiment ein Feature oder lediglich Marketing, das dem Kernversprechen der Excel-Verlässlichkeit komplett widerspricht? Happy Halloween!
Heute beleuchten wir Notebook LM von Google, das nun Videozusammenfassungen erstellen kann. Die KI generiert Erklärvideos oder Briefvideos aus deinen eigenen Quellen (Texten, PDFs, Notizen).
Erfahre, wie Notebook LM mithilfe von Gemini und Nano Banana Videos in über 80 Sprachen und in verschiedenen Stilen wie Whiteboard, Aquarell oder Anime erstellt. Wir klären, wer dieses Werkzeug nutzt (Studierende, Forscher, Content Creator) und wo die Grenzen liegen, insbesondere bei logiklastigen oder komplexen Fächern wie Chemie und Mathe. Notebook LM ist ein fähiger Assistent zur Wissensaufbereitung, aber kein Ersatz für eigenes tiefes Verständnis.
Im KI Gilde Podcast testen wir Deepseek OCR, das momentan "ziemlich viel Furore macht".
Deepseek OCR ist mehr als nur eine Texterkennung: Es erfasst Dokumente visuell (fast wie ein Mensch), nutzt "Kontexts optical Compression" und erreicht eine Kompression um das 7- bis 20-fache.
Erfahre, warum das Modell ideal für die Verarbeitung komplexer Dokumente ist:
Es erkennt Layouts und Tabellenstrukturen erstaunlich gut (über 92 % Genauigkeit bei Tabellen) und liefert strukturierte Daten, z.B. als sauberes Markdown.
Wir klären, wie Deepseek OCR als maßgeschneiderte Basis für RAG-Pipelines dient und wo es Tesseract überlegen ist. Achtung: Das Modell ist zwar Open Source, benötigt aber zwingend eine dedizierte Nvidia Grafikkarte (GPU) und ist keine reine CPU-Lösung.
Analyse: OpenAI Atlas – Strategie, Technik und die Gefahr des Startup Killer Effekts
Herzlich willkommen zur Analyse von OpenAIs neuem KI-Browser Atlas, vorgestellt am 21. Oktober 2025. Das Projekt wird als potenzielles Betriebssystem fürs Web betrachtet und basiert auf tiefer KI-Integration, gestützt auf drei Säulen: dem integrierten Chat, den kontextbezogenen Browser Memories und dem mächtigen Agent Mode.
Wir beleuchten die multimodale Technik, die es der KI ermöglicht, Webseiten nicht nur zu lesen, sondern auch zu sehen. Außerdem bewerten wir die Strategie: Trotz hoher Rechenintensität und Risiken wie Prompt Injection nutzt OpenAI seine Marktmacht, um die primäre Schnittstelle für das agentenbasierte Web zu werden. Erfahren Sie, warum Atlas als „Startup Killer“ wirken und etablierte Konzepte massiv herausfordern könnte.
Dieser Podcast der KI Gilde beleuchtet Anthropic's neue Entwicklungen:
das KI-Modell Haiku 4.5 und die Skills.Haiku 4.5 ist das kleinste Modell von Anthropic, das hohe Leistung (beim Programmieren so gut wie das frühere Topmodell Sonnet 4) mit niedrigen Kosten und hoher Geschwindigkeit kombiniert. Es bietet ein 200.000 Token Kontextfenster und kann Bilder verstehen (Vision Fähigkeiten).
Die Skills stellen einen Paradigmenwechsel dar. Dabei handelt es sich um dauerhafte, wiederverwendbare KI-Bausteine, die zur Automatisierung dienen. Sie können Anleitungen und optional ausführbare Skripte (z.B. Python oder JavaScript) in einer abgeschirmten Umgebung (Sandbox) enthalten. Dieser Ansatz führt weg vom ständigen Prompts hin zu einem Ökosystem spezialisierter, kombinierbarer KI-Werkzeuge.
Die NVIDIA DGX Spark verspricht, Petaflop-KI-Leistung auf den Schreibtisch zu bringen. Wir analysieren, was der winzige Kasten (Preis ca. 4.000 $) technisch leistet.
Im Fokus steht der GB10 Grace Blackwell Superchip und der 128 GB kohärente, vereinheitlichte Speicher (Unified Memory).
Diese Kapazität ermöglicht es Entwicklern, Modelle mit bis zu 70 Milliarden Parametern lokal zu verfeinern oder mit sensiblen Daten zu arbeiten.Der zentrale Kompromiss: Die Speicherbandbreite ist mit 273 GB/s im Verhältnis gering. Dies macht die Spark super für Prototyping und Entwicklung, aber langsamer bei der sequenziellen Inferenz (Decode-Phase) im Vergleich zu High-End-GPUs.
Die Spark demokratisiert die Arbeit an großen LLMs und ist als hochspezialisiertes Tool für KI/ML-Entwickler und Forscher konzipiert. Sie ist die optimierte Entwicklungsplattform, nicht der Produktionsserver.
In dieser Folge des KI Gilde Podcasts geht es um Tiny Recursion Models (TRMs), winzige KI-Modelle mit teilweise nur 7 Millionen Parametern.
TRMs sind keine Allzweck-Textgeneratoren wie Chat GPT, sondern hocheffiziente Spezialwerkzeuge für knifflige Logikrätsel. Sie arbeiten mit einem rekursiven Ansatz: In einer Schleife verfeinern sie intern ihren Denkansatz (Reasoning Merkmal) Schritt für Schritt, unterstützt durch Deep Supervision.
Sie liefern beeindruckende Ergebnisse auf spezifischen Logik-Benchmarks (z.B. Sudoku oder ARKAGI), der Vergleich mit Generalisten wie Gemini ist jedoch irreführend, da TRMs extrem spezifisch trainiert werden.Ihre wahre Bedeutung liegt in ihrer Effizienz: Sie ermöglichen durch geringere Kosten und niedrige Latenz die On-Device AI (KI direkt auf Geräten wie Smartphones). TRMs sind spezialisierte Problemlöser und ein wichtiger Baustein für ein vielfältiges, nachhaltigeres KI-Ökosystem.
Heute packen wir ein heiß diskutiertes Thema an: Poisoning Attacks (Datenvergiftung) auf große Sprachmodelle (LLMs).Bisher schien es fast unmöglich, riesige Modelle wie GPT-4 oder LLaMA anzugreifen. Neuere Experimente zeigen jedoch, dass nicht der Prozentsatz der manipulierten Daten entscheidend ist, sondern die absolute Zahl.
Schon etwa 250 manipulierte Dokumente könnten ausreichen, um ein Modell zu kompromittieren, unabhängig von seiner Größe oder der Menge der sauberen Trainingsdaten.
Wir diskutieren das beunruhigende Missbrauchspotenzial. Angreifer könnten über Webarchive schädliche Befehle (wie den Linux-Befehl „RM- RF“, alles löschen) in Trainingsdaten einschleusen. Kritisch wird es, wenn diese manipulierten LLMs später Zugriff auf echte Systeme erhalten.
Nano Banana gegen die Realität: Wir nehmen Googles gehyptes neues Bild-Tool Gemini 2.5 Flash Image (Nano Banana) unter die Lupe. Wie nützlich ist das Werkzeug wirklich?
Wir analysieren die starken Kernfunktionen, darunter die Subjekt- oder Charakterkonsistenz über mehrere Bilder hinweg und die konversationelle Bearbeitung (ein kreativer Copilot). Dabei beleuchten wir auch die klaren Schwachstellen: die Unzuverlässigkeit ("Nano Banana Effekt") und die niedrige Auflösung (oft nur ca. 720p).
Erfahre, warum Nano Banana für Profis noch kein Profikiller ist, aber durch seine Einfachheit die Bildbearbeitung massiv zugänglicher macht und etablierte Tools herausfordert.
KI-Agenten lernen, autonom im Browser zu arbeiten und Ziele, die in natürlicher Sprache formuliert werden, selbstständig zu erfüllen.
Wir beleuchten, wie diese KI-Agenten Webseiten verstehen: entweder rein textbasiert durch die Analyse des HTML-Codes, oder visuell mithilfe multimodaler Modelle (MLMs), die Screenshots analysieren. Oft wird für beste Robustheit ein hybrider Ansatz kombiniert.
Die Werkzeuge reichen von Google DevTools MCP (Model Context Protocol) für Entwickler über lokale Open-Source-Lösungen wie Nanobrowser, bis hin zum Eigenbau mithilfe von Python-Frameworks wie Langchain und Playwright. Lokale Modelle (z.B. über Olama) können dabei für den Datenschutz genutzt werden.Das Potenzial ist groß für die Automatisierung repetitiver Aufgaben, wie Recherche, Datenextraktion, Formularausfüllung und technische SEO-Analysen.
Als größte Herausforderungen gelten aktuell noch die mangelnde Zuverlässigkeit bei sich ständig ändernden Webseiten sowie neue Sicherheitsrisiken wie die Prompt Injection, bei der Agenten unwissentlich bösartige, versteckte Befehle ausführen können.
Der OpenAI DevDay 2025 markierte einen fundamentalen Wandel: OpenAI positioniert sich neu als dominanter Plattformbetreiber und strebt danach, das "Windows der KI" zu schaffen.Die wichtigsten Ankündigungen sind:
1. Apps in ChatGPT: ChatGPT wird durch das Apps SDK und ein App-Verzeichnis zu einer interaktiven Anwendungsplattform, die direkt die App-Store-Monopole von Apple und Google angreift.
2. AgentKit: Eine neue Suite von Werkzeugen, einschließlich des visuellen Agent Builder, soll die Entwicklung autonomer KI-Agenten drastisch vereinfachen und beschleunigen. Dies löste Debatten über die Verdrängung von Startups ("Startup-Killer"-These) aus.
3. Codex mit GPT-5: Der KI-gestützte Programmierassistent ist nun allgemein verfügbar und wird von einem spezialisierten GPT-5-Modell angetrieben. Trotz beeindruckender Leistung birgt die Verwendung von Codex erhebliche Sicherheitsrisiken im generierten Code.
4. Neue Modelle: Das extrem präzise Premium-Modell GPT-5 Pro wurde mit hohen Preisen ($120 pro 1M Output-Tokens) eingeführt. Die Öffnung der Sora 2 API für Video-Erstellung birgt massive Missbrauchsrisiken, da interne Tests zeigten, dass die Sicherheitsfilter versagen und die Erstellung schädlicher Inhalte ermöglichen.
Die führenden KI-Agenten im Terminal im direkten Vergleich: Wir analysieren Anthropic Claude Code, Google Gemini CLI und OpenAI Codex CLI. Erfahren Sie, wie Claude Code durch kontrollierbares, tiefes Denken für komplexe Problemlösungen überzeugt. Die Gemini CLI bietet mit 1 Million Token das massivste Kontextfenster für die Analyse ganzer Codebasen. Die Codex CLI setzt auf Zuverlässigkeit und Sicherheit durch granulare Genehmigungsmodi. Wir zeigen, wie diese agentenbasierten Werkzeuge das Terminal in eine Kommandozentrale für das moderne Software Engineering verwandeln.
In dieser Folge analysieren wir den gesamten Lebenszyklus eines KI-Telefon-Agenten – von der Konzeption bis zum Betrieb. Wir zerlegen die komplette technologische Pipeline von Speech-to-Text (STT) über Large Language Models (LLM) bis hin zur Text-to-Speech (TTS) Synthese.Du erfährst, warum Latenz die entscheidende Hürde für eine natürliche, menschenähnliche Konversation ist und welche Strategien es zur Reduzierung gibt. Wir beleuchten die strategische "Build vs. Buy"-Entscheidung zwischen fertigen Plattformen und flexiblen Open-Source-Frameworks und diskutieren unverzichtbare, fortgeschrittene Funktionen wie "Barge-In" – die Fähigkeit des Anrufers, den Agenten zu unterbrechen. Abschließend klären wir die unumgänglichen rechtlichen Rahmenbedingungen der DSGVO, insbesondere die strengen Anforderungen an die Einwilligung zur Anrufaufzeichnung.
In dieser Folge geht es um Anthropics neues, experimentelles Feature für Claude namens „Imagine“. Wir besprechen, wie dieser KI-Agent Benutzeroberflächen in Echtzeit generiert und eine Desktop-ähnliche Umgebung direkt in Claude erschafft.Erfahren Sie, wie dies einen Wandel von statischen Apps hin zu dynamischen, von der KI generierten Arbeitsbereichen einleiten könnte, bei denen sich die Oberfläche an die jeweilige Aufgabe anpasst.
Lernen Sie 5 entscheidende n8n-Geheimnisse für selbstgehostete Setups, die Ihre Automatisierungen von Hobby-Projekten zu professionellen, kundenfähigen Systemen machen. Diese Folge behandelt praxisnahe Profi-Tipps, die oft nur durch monatelanges Ausprobieren erlernt werden.
Themen sind unter anderem:
• Umgebungsvariablen zur einfachen Verwaltung von Zugangsdaten.
• Batch-Verarbeitung, um die Leistung zu steigern und Serverüberlastung zu vermeiden.
• Effektive Fehlerbehandlung, um die Erfolgsrate von Workflows auf über 95 % zu heben.
• Webhook-Validierung, um fehlerhafte Daten abzufangen, bevor sie Probleme verursachen.
• Globales Zustandsmanagement, damit Workflows sich ihren Fortschritt merken und keine Daten doppelt verarbeiten.
In dieser Folge analysieren wir zwei gegensätzliche Ereignisse, die die Zukunft der KI prägen:
Zum einen führt Anthropic die Fähigkeit für sein Modell Claude ein, schädliche Konversationen eigenständig zu beenden. Die kontroverse Begründung: das „Wohl des Modells“ („Model Welfare“). Dieser Schritt wirft grundlegende ethische Fragen über den Status von KI auf.
Gleichzeitig erlebt OpenAI nach der Einführung von GPT-5 eine massive Nutzer-Revolte. Trotz überlegener Benchmarks beschweren sich Nutzer über den Verlust von Persönlichkeit, Kreativität und praktischer Funktionalität. Wir decken die strategischen Gründe dahinter auf – von Kostenreduktion bis zur Priorisierung des Massenmarktes.
In dieser Folge tauchen wir tief in Unsloth ein, ein Open-Source-Framework, das das Training von Sprachmodellen (LLMs) revolutioniert. Erfahre, wie es von nur zwei Entwicklern geschaffen wurde, um das Fine-Tuning um das Zwei- bis Dreißigfache zu beschleunigen und den Speicherbedarf um bis zu 90 % zu senken.
Wir beleuchten die Schlüsseltechnologien dahinter: maßgeschneiderte Triton-Kernel, eine manuelle Backpropagation-Engine und intelligente Quantisierungsmethoden. Diese Innovationen ermöglichen es, selbst große Modelle wie Llama 3 auf Consumer-Hardware oder kostenlosen Plattformen wie Google Colab zu trainieren, ohne dabei an Genauigkeit zu verlieren. Unsloth demokratisiert damit den Zugang zu fortschrittlicher KI-Entwicklung.
In dieser Folge geht es um die nächste Evolutionsstufe für KI-Systeme: Graph RAG.Der Standardansatz Retrieval-Augmented Generation (RAG) verbessert Sprachmodelle, indem er Wissen aus Vektordatenbanken abruft. Das Problem dabei ist, dass oft nur eine zusammenhanglose Liste von Fakten entsteht und der Kontext verloren geht.Wir erklären, wie die Kombination von Graphen und Vektoren dieses Problem löst. Dieser hybride Ansatz ermöglicht es, nicht nur thematisch relevante Informationen zu finden, sondern auch die komplexen Beziehungen und Zusammenhänge dazwischen zu verstehen. Das Ergebnis sind präzisere, nachvollziehbare Antworten auf komplexe, mehrstufige Fragen.
Die Einführung von KI erfolgt schneller als bei jeder früheren Technologie, ist jedoch auffallend ungleichmäßig. Ein neuer Bericht von Anthropic zeigt, dass sich die Nutzung geografisch in wohlhabenden Ländern und inhaltlich auf wenige Aufgaben wie das Programmieren konzentriert.Während die private Nutzung vielfältiger wird, setzen Unternehmen KI vor allem zur vollständigen Automatisierung von Aufgaben ein. Dabei scheinen die Fähigkeiten des Modells und der wirtschaftliche Wert wichtiger zu sein als die Kosten der Nutzung. Diese Muster deuten darauf hin, dass die Vorteile der KI zunächst in bereits reichen Regionen konzentriert sein könnten, was die globale wirtschaftliche Ungleichheit möglicherweise verschärft
In dieser Folge analysieren wir die strategische Neuausrichtung von Docker, das sich von einem reinen Anbieter von Container-Infrastruktur zu einer integrierten, KI-nativen Entwicklungsplattform wandelt.Wir beleuchten die neuen Werkzeuge in Docker Desktop:• Der Docker Model Runner (DMR) vereinfacht die lokale Ausführung von Large Language Models (LLMs) mit Hardwarebeschleunigung drastisch. Modelle werden dabei als standardisierte OCI-Artefakte behandelt, was die gesamte Werkzeugkette der DevOps-Welt für MLOps nutzbar macht.• Docker Compose wurde fundamental erweitert, um KI-Modelle als erstklassige Bestandteile zu behandeln. Entwickler können nun komplette KI-Stacks – bestehend aus LLMs, Vektordatenbanken und Diensten – deklarativ in einer einzigen compose.yaml-Datei beschreiben.• Das Model Context Protocol (MCP) wird integriert, um die Entwicklung intelligenter, werkzeugnutzender "agentischer" Anwendungen zu ermöglichen und ein robustes Framework dafür zu schaffen.Erfahrt, wie Docker damit die Eintrittsbarriere für Millionen von Entwicklern senken und die Entwicklung von KI-Anwendungen auf dieselbe Weise demokratisieren will, wie es die Anwendungscontainerisierung getan hat.