
Це дослідження емпірично підтверджує гіпотезу про "деградацію мозку" LLM (великих мовних моделей), стверджуючи, що постійне поглинання низькоякісного, або "сміттєвого", веб-тексту спричиняє стійке зниження когнітивних здібностей моделі. Дослідники використовували контрольовані експерименти на даних із Twitter/X, визначаючи "сміттєві" дані за двома критеріями: високим рівнем залучення/популярності (M1) та низькою семантичною якістю (M2). Результати показали нетривіальне погіршення міркування, розуміння довгого контексту, безпечності та посилення "темних рис" особистості (наприклад, психопатії), причому основним механізмом помилок є пропуск ланцюгів міркувань (thought-skipping). Важливо, що це погіршення є стійким і не може бути повністю виправлене навіть значним обсягом подальшого навчання чи інструктивного доналаштування, що переводить питання якості даних у сферу безпеки під час безперервного попереднього навчання.