על RLHF ומודלי שפה גדולים

https://is1-ssl.mzstatic.com/image/thumb/Podcasts221/v4/c9/39/67/c939679f-63ba-1b8b-5195-a8b6284185aa/mza_14705587296471243598.jpg/600x600bb.jpg

ExplAInable

Tamir Nave & Uri Goren

100 episodes

1 week ago

אורי גורן ותמיר נווה מדברים על Machine Learning ואתגרים בתעשייה עם מומחים מהתחום.

Science

RSS

All content for ExplAInable is the property of Tamir Nave & Uri Goren and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

אורי גורן ותמיר נווה מדברים על Machine Learning ואתגרים בתעשייה עם מומחים מהתחום.

Science

על RLHF ומודלי שפה גדולים

ExplAInable

55 minutes 10 seconds

6 months ago

על RLHF ומודלי שפה גדולים

בפרק זה החליפו מייק ותמיר את התובנות החידודים והשאלות הפתוחות שלהם בניסיון להבין איך מתחברים עולם ה RL ועולם ה LLM (קרי RLHF). ב 2024 השתנתה הפרדיגמה - בתחילה יצירת מודל reward כדי לעשות אימון נוסף ל LLM אחרי ה pretraining שלו באמצעות PPO. ולאחר מכן הוחלף ה PPO בRLHF. בעוד רוב מודלי ה reasoning של החברות הגדולות (chatgpt, claude, gemini) עדיין באפילה - נדבר על איך לדעתנו RLHF יכול לשמש בתהליך.