Основной контент книги Podlodka #433 – Как оцениваются LLM
Podcast

Czas trwania odcinka 1 godz. 27 min.

2025 rok

12+

O podcaście

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт. Также ждем вас, ваши лайки, репосты и комменты в мессенджерах и соцсетях!
 Telegram-чат: https://t.me/podlodka Telegram-канал: https://t.me/podlodkanews Страница в Facebook: www.facebook.com/podlodkacast/ Twitter-аккаунт: https://twitter.com/PodcastPodlodka Ведущие в выпуске: Евгений Кателла, Егор Толстой Полезные ссылки: Бенчмарки https://huggingface.co/datasets/cais/mmlu https://huggingface.co/datasets/MMMU/MMMU https://huggingface.co/datasets/allenai/ai2_arc https://huggingface.co/datasets/Rowan/hellaswag https://huggingface.co/datasets/allenai/winogrande https://huggingface.co/datasets/Idavidrein/gpqa https://lastexam.ai/ https://www.swebench.com/ https://arcprize.org/arc-agi https://github.com/t3dotgg/SnitchBench Арена https://lmarena.ai/ Фреймворк для эвалов https://github.com/EleutherAI/lm-evaluation-harness Бумаги https://arxiv.org/abs/2504.07825 https://arxiv.org/abs/2311.12022 https://arxiv.org/abs/2406.12045 Тех репорты с таблицами https://www.anthropic.com/news/claude-4 https://ai.meta.com/blog/llama-4-multimodal-intelligence/ https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-pro https://openai.com/index/introducing-o3-and-o4-mini/

Ostatnia aktualizacja:
15 lipca 2025
Co to jest podcast?
Tekst, format audio dostępny
Средний рейтинг 4,5 на основе 57 оценок
Tekst, format audio dostępny
Средний рейтинг 5 на основе 4 оценок
Audio
Средний рейтинг 4,8 на основе 130 оценок
Audio
Средний рейтинг 4,6 на основе 1133 оценок
Audio
Средний рейтинг 4,1 на основе 1104 оценок
Audio
Средний рейтинг 4,9 на основе 33 оценок
Szkic
Средний рейтинг 4,5 на основе 27 оценок
Tekst
Средний рейтинг 4,9 на основе 55 оценок
Tekst, format audio dostępny
Средний рейтинг 4,1 на основе 169 оценок
Tekst, format audio dostępny
Средний рейтинг 4,7 на основе 1981 оценок
Zaloguj się, aby ocenić książkę i dodać recenzję
Ograniczenie wiekowe:
12+
Data wydania na Litres:
15 lipca 2025
Data napisania:
15 lipca 2025
Czas trwania:
1 godz. 27 min. 44 sek.
Właściciele praw:
Автор, Егор Толстой, Стас Цыганов, Екатерина Петрова и Евгений Кателла
Format pobierania:
1x