Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла
460 episodes
1 week ago
Все говорят о доказательной медицине, но мало кто может объяснить, что это вообще такое. Чем «доказательная» отличается от «научной» и «традиционной», и зачем проверять то, что «и так работает»? В этом выпуске разбираемся в том, как устроены клинические исследования: чем причинно-следственная связь отличается от корреляции, что такое клинически значимый эффект, почему «кому-то помогло» ещё не является весомым доказательством, и почему даже хорошие исследования иногда дают противоположные результаты.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Аня Симонова, Стас Цыганов, Андрей Смирнов
Полезные ссылки:
YouTube Александра
www.youtube.com/@Scinquisitor
Сайт, где можно купить билеты на ближайшие лекции
https://alexanderpanchin.com/
Настольная игра "Научный апокалипсис"
https://scientificapocalypse.com/
Telegram-канал
https://t.me/ScienceInquisition
Instagram*
https://instagram.com/panchin.nauka/
Tik-tok
https://www.tiktok.com/@panchin.nauka
*Компания Meta (соцсети Facebook и Instagram) признана экстремистской и её деятельность запрещена в РФ
All content for Podlodka Podcast is the property of Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла and is served directly from their servers
with no modification, redirects, or rehosting. The podcast is not affiliated with or endorsed by Podjoint in any way.
Все говорят о доказательной медицине, но мало кто может объяснить, что это вообще такое. Чем «доказательная» отличается от «научной» и «традиционной», и зачем проверять то, что «и так работает»? В этом выпуске разбираемся в том, как устроены клинические исследования: чем причинно-следственная связь отличается от корреляции, что такое клинически значимый эффект, почему «кому-то помогло» ещё не является весомым доказательством, и почему даже хорошие исследования иногда дают противоположные результаты.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Аня Симонова, Стас Цыганов, Андрей Смирнов
Полезные ссылки:
YouTube Александра
www.youtube.com/@Scinquisitor
Сайт, где можно купить билеты на ближайшие лекции
https://alexanderpanchin.com/
Настольная игра "Научный апокалипсис"
https://scientificapocalypse.com/
Telegram-канал
https://t.me/ScienceInquisition
Instagram*
https://instagram.com/panchin.nauka/
Tik-tok
https://www.tiktok.com/@panchin.nauka
*Компания Meta (соцсети Facebook и Instagram) признана экстремистской и её деятельность запрещена в РФ
Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Евгений Кателла, Егор Толстой
Полезные ссылки:
Бенчмарки
https://huggingface.co/datasets/cais/mmlu
https://huggingface.co/datasets/MMMU/MMMU
https://huggingface.co/datasets/allenai/ai2_arc
https://huggingface.co/datasets/Rowan/hellaswag
https://huggingface.co/datasets/allenai/winogrande
https://huggingface.co/datasets/Idavidrein/gpqa
https://lastexam.ai/
https://www.swebench.com/
https://arcprize.org/arc-agi
https://github.com/t3dotgg/SnitchBench
Арена
https://lmarena.ai/
Фреймворк для эвалов
https://github.com/EleutherAI/lm-evaluation-harness
Бумаги
https://arxiv.org/abs/2504.07825
https://arxiv.org/abs/2311.12022
https://arxiv.org/abs/2406.12045
Тех репорты с таблицами
https://www.anthropic.com/news/claude-4
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro
https://openai.com/index/introducing-o3-and-o4-mini/
Podlodka Podcast
Все говорят о доказательной медицине, но мало кто может объяснить, что это вообще такое. Чем «доказательная» отличается от «научной» и «традиционной», и зачем проверять то, что «и так работает»? В этом выпуске разбираемся в том, как устроены клинические исследования: чем причинно-следственная связь отличается от корреляции, что такое клинически значимый эффект, почему «кому-то помогло» ещё не является весомым доказательством, и почему даже хорошие исследования иногда дают противоположные результаты.
Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
Telegram-чат: https://t.me/podlodka
Telegram-канал: https://t.me/podlodkanews
Страница в Facebook: www.facebook.com/podlodkacast/
Twitter-аккаунт: https://twitter.com/PodcastPodlodka
Ведущие в выпуске:
Аня Симонова, Стас Цыганов, Андрей Смирнов
Полезные ссылки:
YouTube Александра
www.youtube.com/@Scinquisitor
Сайт, где можно купить билеты на ближайшие лекции
https://alexanderpanchin.com/
Настольная игра "Научный апокалипсис"
https://scientificapocalypse.com/
Telegram-канал
https://t.me/ScienceInquisition
Instagram*
https://instagram.com/panchin.nauka/
Tik-tok
https://www.tiktok.com/@panchin.nauka
*Компания Meta (соцсети Facebook и Instagram) признана экстремистской и её деятельность запрещена в РФ