
🎙️ ChatGPT Neden Her Zaman Kibar?Bu sorunun cevabı, düşündüğünüzden daha teknik: Reinforcement Learning with Human Feedback (RLHF).Bu bölümde, ChatGPT gibi modellerin nasıl eğitildiğini, neden her cümlede insanları memnun etmeye çalıştıklarını, ve bunun tıpkı satrançta kazanmak için hamle yapmaya benzeyen yapay bir strateji olduğunu konuşuyoruz.Ama dikkat: İnsanları memnun etmek her zaman doğru cevapları getirmiyor olabilir. Peki bu modeller aslında ne kadar “doğru”? Ne kadar “ikna edici”? Ve biz onların kontrolünde miyiz, yoksa onlar mı bizim?Videoda Bahsedilen Kaynaklar:https://openai.com/index/chatgpt/https://www.harysdalvi.com/blog/llms-dont-predict-next-word/https://arxiv.org/pdf/2409.12822