在這一集,我想用最貼近日常的方式,帶你拆解一個看似「不理性」卻很常見的行為:我們做決策時,常常比起整體證據,更容易重複上一次的選擇。這種現象在強化學習裡被稱為選擇遲滯(choice hysteresis)。最新研究用演化模擬的方法,比對了兩種導致選擇遲滯的機制——正向偏誤(positivity bias;非對稱更新)與逐漸堅持(gradual perseveration)——結果顛覆我們對「偏誤=壞事」的直覺:在許多環境下,偏誤其實是演化會選擇的好策略。
Hoxha_PNAS_2025
本集重點你會聽到
兩種「看起來偏心」的學習方式:
正向偏誤:好結果學得快、壞結果學得慢;能把高報酬與低報酬的差距「放大」,讓決策更抗噪。
逐漸堅持:不管上次好壞,都更傾向重複剛剛的選擇;像是把「習慣」慢慢刻進策略裡。
什麼時候偏誤最有用:
多數情況:正向偏誤被穩定選中,因為它像一種降噪濾波器,讓你不被隨機起伏牽著走。
環境很穩、很簡單、或很「肥」(到處都有好回饋):逐漸堅持才比較佔上風。
環境高度多變(常翻盤):逐漸交替反而更好(不是堅持),因為你得主動切換以跟上翻轉。
為什麼這跟生活與AI都很有關:
面對有雜訊的世界,「一點點樂觀」可以幫你聚焦在真正好的選項,不被偶發壞運氣嚇退。
設計AI時,適度且可調的偏誤,在部分回饋、需探索—利用權衡的情境下,可能勝過零偏誤的學習器。
Hoxha_PNAS_2025
生活化的例子(你一定有感)
去餐廳點餐,上次不算好吃,但這次還是想再點一次?這就是逐漸堅持在作祟。
考高分時相信方法超有效;考低分就怪自己運氣不好或題目太難——這是正向偏誤的日常版本。
公司策略常常翻轉時,學會切換比「硬撐到底」更重要;持續用同一招,代價其實很高。
參考文獻
Hoxha, I., Sperber, L., & Palminteri, S. (2025). Evolving choice hysteresis in reinforcement learning: Comparing the adaptive value of positivity bias and gradual perseveration. Proceedings of the National Academy of Sciences, 122(36), e2422144122.
https://doi.org/10.1073/pnas.2422144122
--
Hosting provided by
SoundOn