Du bist Data Scientist oder interessierst dich für Daten, Maschine Learning und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.
Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in mehr als 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.
Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.
Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.
All content for Data Science Deep Dive is the property of INWT Statistics GmbH and is served directly from their servers
with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
Du bist Data Scientist oder interessierst dich für Daten, Maschine Learning und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.
Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in mehr als 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.
Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.
Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.
#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch
Data Science Deep Dive
47 minutes 22 seconds
7 months ago
#69: AI Agents verstehen und evaluieren mit Matthäus Deutsch
AI Agents sind mehr als nur Chatbots – aber wie bewertet man sie richtig? Wir sprechen über die Herausforderungen beim Testen von AI im Kundenservice, warum falsche API-Parameter ins Chaos führen und wieso "mysteriöser Fleischeintopf" ein PR-Desaster wurde. Matthäus Deutsch von Parloa berichtet, wie flexible Plattformintegrationen und evaluative Ansätze (z.B. assertion-based Testing und Simulationen) den Einsatz von AI Agents vorantreiben. Außerdem: welche Metriken wirklich zählen, was Multi-Agent-Setups leisten und warum der Preisverfall bei Open-Source-Modellen das Game verändert.
Zusammenfassung
AI Agents erweitern klassische Chatbots im Kundenservice, insbesondere im Telefonbereich, durch GenAI-basierte, dynamische Lösungen
Parloa demonstriert flexible Plattformintegrationen und den Einsatz von Evaluationsmethoden wie assertion-based Testing und Simulationen
Die Evaluation von AI Agents erfordert spezielles Benchmarking auf Plattform- und individueller Ebene
Typische Herausforderungen sind Integrationsprobleme, fehlerhafte API-Calls und unzureichendes Instruction Following
Tests erfolgen sowohl auf Konversationsebene als auch durch deterministische Ansätze und LLMs als Judge
Es müssen komplexe Metriken und Trade-offs beachtet werden, wobei häufig binäre Testansätze aggregiert werden
Schnelle Updates auf neue Modellversionen sind möglich, allerdings steigen langfristig die Kosten durch umfangreiche Testzyklen
Innovationen wie optimierte Speech-to-Speech-Technologien und Open-Source-Lösungen (z. B. DeepSeek) bieten Potenzial zur Kostenreduktion
Der Einsatz von Operatoren-Modellen und Tool-Integrationen ermöglicht auch die Anbindung an Legacy-Systeme, z.B. SAP
Ziel ist es, den Automatisierungsanteil im Kundenservice zu erhöhen und eine Balance zwischen bewährter Qualität und neuen Features zu finden
Links
Matthäus Deutsch auf LinkedIn: https://www.linkedin.com/in/matth%C3%A4us-d-928864ab/
Parloa Contact-Center-AI-Plattform https://www.parloa.com/de/
Stellenangebote bei Parloa https://www.parloa.com/company/careers/#jobs
#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch https://www.podbean.com/ew/pb-6gvc6-16d5018
#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen? https://www.podbean.com/ew/pb-m5qr2-17c425d
heise online: "Aromatisches" Chloramingas, Eintopf aus Menschenfleisch: KI-Rezepte irritieren https://www.heise.de/news/Aromatisches-Chlorgas-Eintopf-aus-Menschenfleisch-KI-irritiert-mit-Rezepten-9242991.html
Feedback, Fragen oder Themenwünsche gern an podcast@inwt-statistics.de
Data Science Deep Dive
Du bist Data Scientist oder interessierst dich für Daten, Maschine Learning und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten.
Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in mehr als 10 Jahren als Data Scientists im B2B Bereich gesammelt haben.
Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt.
Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen.