"Reinforcement Learning with Human Feedback" Nedir?

EXPLORE

Society & Culture

© 2024 PodJoint

https://is1-ssl.mzstatic.com/image/thumb/PodcastSource221/v4/f8/0a/1f/f80a1f1d-0da9-1323-7f9d-cab12dc4cd5c/fd852478-e8da-45f2-a4fb-03b8d33f0b1b.jpg/600x600bb.jpg

Noktalı Virgül

Orhun | Kürşat

47 episodes

5 days ago

ODTÜ bilgisayar mühendisliği mezunu iki arkadaş olarak, sektörde devops, backend, veri bilimi ve bilgisayarlı görü vb. alanlarda kazandığımız deneyimlerle karşınızdayız. Birikimlerimizi "Noktalı Virgül" adlı podcastimizde paylaşarak, bilgisayar bilimi alanında ilerlemek isteyen ve özellikle üniversiteye yeni başlayan, üniversite hayatında yol alan ya da mezuniyet sonrası kariyerine ilk adımları atmak isteyenlere rehberlik etmek istiyoruz.

Show more...

All content for Noktalı Virgül is the property of Orhun | Kürşat and is served directly from their servers with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.

ODTÜ bilgisayar mühendisliği mezunu iki arkadaş olarak, sektörde devops, backend, veri bilimi ve bilgisayarlı görü vb. alanlarda kazandığımız deneyimlerle karşınızdayız. Birikimlerimizi "Noktalı Virgül" adlı podcastimizde paylaşarak, bilgisayar bilimi alanında ilerlemek isteyen ve özellikle üniversiteye yeni başlayan, üniversite hayatında yol alan ya da mezuniyet sonrası kariyerine ilk adımları atmak isteyenlere rehberlik etmek istiyoruz.

Show more...

https://d3t3ozftmdmh3i.cloudfront.net/staging/podcast_uploaded_nologo/42410134/42410134-1731176659682-8d8b9eaa279d7.jpg

"Reinforcement Learning with Human Feedback" Nedir?

Noktalı Virgül

12 minutes 36 seconds

3 months ago

"Reinforcement Learning with Human Feedback" Nedir?

🎙️ ChatGPT Neden Her Zaman Kibar?Bu sorunun cevabı, düşündüğünüzden daha teknik: Reinforcement Learning with Human Feedback (RLHF).Bu bölümde, ChatGPT gibi modellerin nasıl eğitildiğini, neden her cümlede insanları memnun etmeye çalıştıklarını, ve bunun tıpkı satrançta kazanmak için hamle yapmaya benzeyen yapay bir strateji olduğunu konuşuyoruz.Ama dikkat: İnsanları memnun etmek her zaman doğru cevapları getirmiyor olabilir. Peki bu modeller aslında ne kadar “doğru”? Ne kadar “ikna edici”? Ve biz onların kontrolünde miyiz, yoksa onlar mı bizim?Videoda Bahsedilen Kaynaklar:https://openai.com/index/chatgpt/https://www.harysdalvi.com/blog/llms-dont-predict-next-word/https://arxiv.org/pdf/2409.12822