
In dieser Folge nehmen wir das DeepSeek V3 Paper genau unter die Lupe – das Open-Source-Powerhouse, das aktuell für Furore in der KI-Szene sorgt. Wir erklären, warum dieses Modell mit seinen 671 Milliarden Parametern (37 Milliarden aktiv pro Token) und innovativen Architekturen wie Multi-Head Latent Attention und Mixture-of-Experts den Markt revolutioniert. Dabei beleuchten wir, wie DeepSeek V3 trotz geringer Kosten (nur ca. 5,58 Mio. USD für das Training) durch eine effiziente Nutzung von Nvidia H800 Chips und einen sparsamen Datenaufwand beeindruckende Leistungen erzielt. Erfahrt, was hinter dem Hype steckt, welche technischen Neuerungen das Modell auszeichnen und warum es als Gamechanger in der Open-Source-KI gilt.