🔥 2025 - год, когда LLM действительно изменились. Коротко и по делу, по мотивам поста Андрея Карпты
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949
@data_analysis_ml
2025 оказался неожиданно сильным годом для LLM. Не просто улучшения метрик, а реальные сдвиги в том, как модели обучаются, как ими пользуются и как вообще стоит думать об их «интеллекте».
Главное за 2025 по мнению Карпты:
1. RLVR — Reinforcement Learning from Verifiable Rewards
До 2025 стандартный стек выглядел так: pretraining → SFT → RLHF. В 2025 к этому стеку добавился новый, ключевой этап- RLVR.
Вместо субъективной человеческой оценки модель обучают на автоматически проверяемых наградах: задачи по математике, коду, логике. В результате LLM сама находит стратегии рассуждения - дробит задачи, проверяет гипотезы, возвращается назад.
Важно не «что мы показали модели», а то, что она сама нашла рабочие способы думать. Этот этап оказался невероятно эффективным по соотношению capability к стоимости, из-за чего значительная часть вычислений ушла не в pretraining, а в длинные RL-прогоны.
Побочный эффект — появился новый регулятор мощности: test-time compute. Больше «времени на размышление» — выше качество. o1 показал идею, o3 в начале 2025 сделал перелом — разницу стало чувствовать интуитивно.
2. «Призраки, а не животные» и рваный интеллект
В 2025 индустрия наконец осознала форму LLM-интеллекта. Мы не «растим животных». Мы «призываем призраков».
LLM оптимизированы не под выживание и социальные группы, а под имитацию текста, получение наград в формальных задачах и апвоты. Поэтому интеллект получается рваным:
- гениальны в одном
- наивны и уязвимы в другом
RLVR усиливает этот эффект - модели становятся сверхсильными в верифицируемых доменах и странно слабыми вне их. Отсюда и потеря доверия к бенчмаркам: они почти всегда верифицируемы, а значит легко «обрастают jagged-улучшениями». Обучение на тесте стало искусством.
Можно побить все бенчмарки и всё ещё быть далеко от AGI.
3. Cursor и новый слой LLM-приложений
Cursor показал, что появился новый класс LLM-продуктов - «Cursor для X».
Это не просто интерфейс к модели, а слой, который:
- делает context engineering
- оркестрирует множество LLM-вызовов в DAG
- балансирует стоимость и качество
- дает специализированный UI
- вводит «ползунок автономности»
Вероятный сценарий: LLM-лабы делают «универсального студента», а приложения превращают их в специалистов — добавляя данные, инструменты, сенсоры и обратную связь.
4. Claude Code - AI, который живет на твоем компьютере
Claude Code стал первым убедительным агентом, который работает локально, в твоем окружении, с твоими файлами и контекстом.
Это важный сдвиг. Не облачные контейнеры и абстрактные агенты, а «дух», который живет рядом с разработчиком. В мире рваных возможностей это оказалось гораздо полезнее, чем агентные своры в облаке.
Форм-фактор CLI сделал этот сдвиг особенно наглядным: AI - это уже не сайт, а постоянный спутник.
5. Vibe coding
2025 - год, когда стало возможно писать сложные программы, почти забыв, что код вообще существует.
Vibe coding демократизирует программирование:
- обычные люди могут создавать софт
- профессионалы пишут больше, быстрее и смелее
- код стал дешевым, одноразовым, экспериментальным
Можно написать программу ради одной проверки, одного бага, одной идеи - и выкинуть. Это изменит и софт, и профессии.
6. Nano banana и будущее интерфейсов
Чат - это терминал 80-х. Удобно для машины, плохо для человека.
Люди предпочитают визуальное мышление: схемы, изображения, анимации, интерфейсы. LLM должны общаться с нами в этих форматах. Gemini Nano banana - первый намек на настоящий LLM-GUI, где текст, изображения и знания слиты в одной модели.
Это не просто генерация картинок — это новый пользовательский слой для интеллекта.
2025 показал: LLM - это новый тип интеллекта. Он одновременно умнее и глупее, чем ожидали. Он невероятно полезен, но мы реализовали, возможно, даже не 10% его потенциала.
Прогресс будет быстрым. Работы впереди — море. Поле идей - открыто.
https://x.com/karpathy/status/2002118205729562949
@data_analysis_ml
❤20👍10🔥6
Если коротко:
BLOOM это попытка встроить безопасность и контроль в саму основу ИИ, а не латать проблемы постфактум.
Вот суть простыми словами.
1) Безопасность не фильтр, а часть архитектуры
Сегодня безопасность ИИ часто выглядит так:
- модель обучили
- потом добавили ограничения и фильтры
Anthropic говорит прямо:
так не работает в долгую.
В BLOOM безопасность должна:
- закладываться на этапе обучения
- быть частью внутренней структуры модели
- масштабироваться вместе с ростом возможностей ИИ
2) Надёжность важнее «умных ответов»
Модель должна:
- не только отвечать
- но и понимать, когда она не уверена
- уметь корректно отказывать
- не галлюцинировать в критических ситуациях
Проще говоря:
лучше честное «я не знаю», чем уверенная ошибка.
3) Контроль остаётся у людей
BLOOM подчёркивает:
- пользователи должны понимать, как ИИ принимает решения
- должно быть ясно, где проходят границы ответственности
- контроль и управление не опция, а обязательное требование
ИИ не должен быть «чёрным ящиком», который невозможно остановить или скорректировать.
4) Оценка рисков должна происходить системно, а не реактивно
Anthropic предлагает смотреть на риски ИИ:
- заранее
- на нескольких уровнях сразу
- техническом
- социальном
- экономическом
Не «исправлять, когда что-то сломалось»,
а предсказывать, где и почему может сломаться.
BLOOM - это не про очередную модель и не про рост бенчмарков. Это про смену подхода:
- от «быстрее и мощнее»
- к «надёжнее, предсказуемее и управляемее»
Главная мысль:
если ИИ становится мощнее человека, безопасность должна расти быстрее, чем его интеллект.
И именно этим Anthropic предлагает заниматься уже сейчас.
https://www.anthropic.com/research/bloom
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥8❤7🍌2🤣1💔1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Китайские учёные представили сверхбыстрый аналоговый чип до 1000× быстрее топовых цифровых процессоров.
Чип решает сложные математические задачи для ИИ и научных вычислений и в тестах обходит даже GPU NVIDIA.
Ключевая идея не ускорять цифру, а уйти от неё:
аналоговые вычисления позволяют считать напрямую, без дискретных шагов, что даёт резкий прирост скорости и энергоэффективности.
Это может изменить правила игры:
- ускорение обучения и инференса ИИ
- прорыв в научном моделировании
- новые архитектуры, выходящие за пределы GPU/TPU
Гонка вычислительных мощностей входит в следующую фазу.
Чип решает сложные математические задачи для ИИ и научных вычислений и в тестах обходит даже GPU NVIDIA.
Ключевая идея не ускорять цифру, а уйти от неё:
аналоговые вычисления позволяют считать напрямую, без дискретных шагов, что даёт резкий прирост скорости и энергоэффективности.
Это может изменить правила игры:
- ускорение обучения и инференса ИИ
- прорыв в научном моделировании
- новые архитектуры, выходящие за пределы GPU/TPU
Гонка вычислительных мощностей входит в следующую фазу.
👍35🔥15❤6🥴2
⚡️ Итоги 2025 в Machine Learning: фиксация ключевых сдвигов индустрии
24 декабря в Telegram канале South HUB состоится онлайн-дискуссия, посвящённая анализу ключевых технологических, продуктовых и управленческих событий 2025 года в машинном обучении. Участники обсудят, какие решения и подходы действительно повлияли на практику ML и data-проектов, а также с какими выводами и ожиданиями индустрия заходит в 2026 год.
В дискуссии участвуют члены программного комитета Snow BASE:
— Александр Толмачёв, Chief Data Officer, ex-Ozon — ML и измеримость бизнес-эффекта
— Андрей Венжега, Head of Search & Recommendations, Avito — поиск и рекомендательные системы
— Павел Пархоменко, руководитель ML, AI и логистических сервисов, Яндекс.Лавка — масштабирование ML в логистике
— Андрей Кузнецов, Head of ML, Positive Technologies — устойчивость ML-систем в продакшене
🗓 24 декабря, 13:00–14:00 (МСК)
📍 Telegram канал South HUB
24 декабря в Telegram канале South HUB состоится онлайн-дискуссия, посвящённая анализу ключевых технологических, продуктовых и управленческих событий 2025 года в машинном обучении. Участники обсудят, какие решения и подходы действительно повлияли на практику ML и data-проектов, а также с какими выводами и ожиданиями индустрия заходит в 2026 год.
В дискуссии участвуют члены программного комитета Snow BASE:
— Александр Толмачёв, Chief Data Officer, ex-Ozon — ML и измеримость бизнес-эффекта
— Андрей Венжега, Head of Search & Recommendations, Avito — поиск и рекомендательные системы
— Павел Пархоменко, руководитель ML, AI и логистических сервисов, Яндекс.Лавка — масштабирование ML в логистике
— Андрей Кузнецов, Head of ML, Positive Technologies — устойчивость ML-систем в продакшене
🗓 24 декабря, 13:00–14:00 (МСК)
📍 Telegram канал South HUB
👍4❤3🌚2
Привет всем, в особенности тем, кто работает с медиапланированием ТВ-рекламы
Вы наверняка знаете, что ролики должны идти в конкретное время и с правильной частотой, чтобы их увидела нужная целевая аудитория. Мы в Авито понимаем, что это сложно, потому что сами регулярно занимаемся таким планированием. Но недавно мы собрали новый подход и решили о нём рассказать, чтобы вы тоже могли им воспользоваться.
Сняли новый фильм из цикла «Диванная аналитика», в котором Андрей Корнеев, аналитик в медиамаркетинге, простыми словами объясняет:
— Как измерить эффект от ТВ-рекламы.
— Почему наши старые методы работали неидеально.
— Как построить систему, которая сама подскажет, как лучше разместить рекламу.
Посмотрите, чтобы прокачать свой аналитический mindset:
🔼 YouTube
🔼 Rutube
🔼 VK Видео
Больше лайфхаков, кейсов, методик и вакансий — в нашем телеграм-канале «Коммуналка аналитиков». Подписывайтесь — будет полезно!
Вы наверняка знаете, что ролики должны идти в конкретное время и с правильной частотой, чтобы их увидела нужная целевая аудитория. Мы в Авито понимаем, что это сложно, потому что сами регулярно занимаемся таким планированием. Но недавно мы собрали новый подход и решили о нём рассказать, чтобы вы тоже могли им воспользоваться.
Сняли новый фильм из цикла «Диванная аналитика», в котором Андрей Корнеев, аналитик в медиамаркетинге, простыми словами объясняет:
— Как измерить эффект от ТВ-рекламы.
— Почему наши старые методы работали неидеально.
— Как построить систему, которая сама подскажет, как лучше разместить рекламу.
Посмотрите, чтобы прокачать свой аналитический mindset:
Больше лайфхаков, кейсов, методик и вакансий — в нашем телеграм-канале «Коммуналка аналитиков». Подписывайтесь — будет полезно!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2😁2
Acontext - это open-source проект, который решает одну из самых болезненных проблем AI-систем: управление контекстом, памятью и состоянием между запросами.
Проект создан командой MemoDB и нацелен на разработчиков, которые строят:
- LLM-приложения
- агентные системы
- RAG-пайплайны
- long-running AI-процессы
Что делает Acontext:
- Выносит контекст из prompt’ов в отдельный слой
- Даёт структурированную «память» вместо хаотичного текста
- Позволяет хранить, обновлять и переиспользовать контекст между вызовами модели
- Упрощает построение stateful AI-приложений
- Снижает токен-оверход и стоимость inference
Ключевая идея:
контекст — это не строка, а управляемый объект.
Почему это важно:
- prompt’ы перестают разрастаться
- поведение модели становится стабильнее
- проще отлаживать и масштабировать систему
- легче добавлять новые источники знаний
Acontext особенно полезен для:
- AI-агентов
- чатов с памятью
- multi-step reasoning
- инструментальных LLM-пайплайнов
Если ты строишь что-то сложнее одного запроса к модели — без слоя управления контекстом дальше будет только боль.
Репозиторий:
https://github.com/memodb-io/Acontext
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10👍5🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
MiniMax M2.1 официальный релиз 🚀
MiniMax M2.1 - это модель, созданная под реальные задачи разработки и AI-native команды. Подходит как для vibe-билдов и быстрых прототипов, так и для серьезных продакшен-воркфлоу.
Что важно
- SOTA open-source coding и agent модель
- 10B активных параметров
- Оптимизирована под агентные сценарии, инструменты и сложные пайплайны
Результаты в бенчмарках
- 72.5% на SWE-multilingual
- 88.6% на VIBE-bench - новом open-source бенчмарке
- Обходит ведущие закрытые модели, включая Gemini 3 Pro и Claude 4.5 Sonnet
- Open-source модель реально конкурирует с топовыми закрытыми решениями
- Сделана не только для чата, а для агентных систем и автоматизации
- Хорошо подходит для production-кодинга и AI-инфраструктуры
https://www.minimax.io/news/minimax-m21
MiniMax M2.1 - это модель, созданная под реальные задачи разработки и AI-native команды. Подходит как для vibe-билдов и быстрых прототипов, так и для серьезных продакшен-воркфлоу.
Что важно
- SOTA open-source coding и agent модель
- 10B активных параметров
- Оптимизирована под агентные сценарии, инструменты и сложные пайплайны
Результаты в бенчмарках
- 72.5% на SWE-multilingual
- 88.6% на VIBE-bench - новом open-source бенчмарке
- Обходит ведущие закрытые модели, включая Gemini 3 Pro и Claude 4.5 Sonnet
- Open-source модель реально конкурирует с топовыми закрытыми решениями
- Сделана не только для чата, а для агентных систем и автоматизации
- Хорошо подходит для production-кодинга и AI-инфраструктуры
https://www.minimax.io/news/minimax-m21
🔥13❤5👍5🤣1
🚀 28 готовых AI-проектов, которые можно реально использовать в проде или для портфолио.
Что внутри:
Проекты машинного обучения
→ Прогноз цен на жилье (Airbnb price prediction)
→ Калькулятор стоимости авиабилетов
→ Трекер успеваемости студентов
AI для здравоохранения
→ Обнаружение заболеваний грудной клетки
→ Прогноз сердечных заболеваний
→ Анализатор риска диабета
Генеративные AI-приложения
→ Живой чатбот на базе Gemini
→ Рабочий медицинский ассистент
→ Инструмент анализа документов
Проекты Computer Vision
→ Система отслеживания руки
→ Приложение для распознавания медикаментов
→ Реализации на OpenCV
Дашборды для анализа данных
→ E-commerce insights
→ Аналитика ресторанов
→ Трекер производительности игроков в крикете
И 10 продвинутых проектов, которые скоро появятся:
→ Детекция дипфейков
→ Классификация опухолей мозга
→ Система оповещения о сонливости водителя
Это не просто файлы с кодом.
Это end-to-end, рабочие приложения, которые можно запускать, тестировать и использовать.
💻 Репозиторий: https://github.com/KalyanM45/AI-Project-Gallery
Что внутри:
Проекты машинного обучения
→ Прогноз цен на жилье (Airbnb price prediction)
→ Калькулятор стоимости авиабилетов
→ Трекер успеваемости студентов
AI для здравоохранения
→ Обнаружение заболеваний грудной клетки
→ Прогноз сердечных заболеваний
→ Анализатор риска диабета
Генеративные AI-приложения
→ Живой чатбот на базе Gemini
→ Рабочий медицинский ассистент
→ Инструмент анализа документов
Проекты Computer Vision
→ Система отслеживания руки
→ Приложение для распознавания медикаментов
→ Реализации на OpenCV
Дашборды для анализа данных
→ E-commerce insights
→ Аналитика ресторанов
→ Трекер производительности игроков в крикете
И 10 продвинутых проектов, которые скоро появятся:
→ Детекция дипфейков
→ Классификация опухолей мозга
→ Система оповещения о сонливости водителя
Это не просто файлы с кодом.
Это end-to-end, рабочие приложения, которые можно запускать, тестировать и использовать.
💻 Репозиторий: https://github.com/KalyanM45/AI-Project-Gallery
❤12👍4🔥1
Теперь можно конвертировать документ, пройтись по всем картинкам - и получить текстовые аннотации, которые модель создаёт автоматически.
Это удобно для:
- анализа больших отчетов, презентаций, научных статей
- автоматического извлечения подписей и описаний графиков
- подготовки данных для RAG/LLM-пайплайнов
- улучшения доступности контента
На примере: CodeCut извлекает изображение графика и сразу генерирует его описание — с упоминанием распределений, метрик, масштабов и ключевых наблюдений.
Минимальный код выглядит так:
from docling.document_converter import DocumentConverter
converter = DocumentConverter(...)
doc = converter.convert("report.pdf").document
for pic in doc.pictures:
print(pic.annotations[0].text)
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9👍7🔥2
Развернуть PostgreSQL в MWS Cloud Platform ⬜️ — быстрее, чем вспомнить пароль от pgAdmin. И точно быстрее, чем объяснить DevOps'у, зачем ещё одна база.
Всего несколько минут и у вас:
🎄🎁 И грант до 10 000 ₽ на запуск — чтобы точно не пришлось вспоминать, как настраивать failover вручную.
➡️ Развернуть кластер
Всего несколько минут и у вас:
⏺️ готовая база на сетевых или локальных дисках⏺️ постоянный primary endpoint⏺️ безопасное подключение через Private Link⏺️ автоматические бэкапы и обслуживания по твоему расписанию
🎄🎁 И грант до 10 000 ₽ на запуск — чтобы точно не пришлось вспоминать, как настраивать failover вручную.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1