All content for ExplAInable is the property of Tamir Nave & Uri Goren and is served directly from their servers
with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
אורי גורן ותמיר נווה מדברים על
Machine Learning
ואתגרים בתעשייה עם מומחים מהתחום.
בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF.
בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.
ExplAInable
אורי גורן ותמיר נווה מדברים על
Machine Learning
ואתגרים בתעשייה עם מומחים מהתחום.