Media is too big
VIEW IN TELEGRAM
Рассказал про свое ощущение пузыря в LLM токенах.
Но мы не боимся и с vsellm.ru тоже влетаем в этот пузырь!
По промокоду
Но мы не боимся и с vsellm.ru тоже влетаем в этот пузырь!
По промокоду
SPECIALGIFT в @vsellm_bot дарим 500 руб на счет. А цены на GPT-4.1 и GPT-4.1-mini ниже опенроутера на 10%!7❤9👍6🔥3😁2
🚀 Вакансия в VseLLM — Middle Python Backend Developer
Привет! Мы команда VseLLM — авторы LLM Arena, самого популярного бенчмарка нейросетей в России.
Недавно запустили наш новый продукт — vsellm.ru — удобный доступ ко всем ИИ без прокси и VPN.
Сейчас расширяемся и ищем бэкенд-разработчика уровня Middle, который поможет нам развивать:
• Админку vsellm.ru
• Telegram-бота @vsellm_bot
🧩 Мы ожидаем
• Опыт Python 3+ лет
• Знание FastAPI, PostgreSQL
• Умение проектировать системы и писать тесты
• Опыт с Docker / Docker Compose
• Бонусом будет опыт разработки Telegram-ботов и работа с Kubernetes
⚙️ Условия
• Удалёнка и гибкий график
• Можно part-time (от 20 часов в неделю)
• Минимум бюрократии, максимум влияния на продукт
• Оплата — по договорённости, обсуждается индивидуально
📨 Хочешь присоединиться?
Отправь CV → @roman_kucev
Привет! Мы команда VseLLM — авторы LLM Arena, самого популярного бенчмарка нейросетей в России.
Недавно запустили наш новый продукт — vsellm.ru — удобный доступ ко всем ИИ без прокси и VPN.
Сейчас расширяемся и ищем бэкенд-разработчика уровня Middle, который поможет нам развивать:
• Админку vsellm.ru
• Telegram-бота @vsellm_bot
🧩 Мы ожидаем
• Опыт Python 3+ лет
• Знание FastAPI, PostgreSQL
• Умение проектировать системы и писать тесты
• Опыт с Docker / Docker Compose
• Бонусом будет опыт разработки Telegram-ботов и работа с Kubernetes
⚙️ Условия
• Удалёнка и гибкий график
• Можно part-time (от 20 часов в неделю)
• Минимум бюрократии, максимум влияния на продукт
• Оплата — по договорённости, обсуждается индивидуально
📨 Хочешь присоединиться?
Отправь CV → @roman_kucev
vsellm.ru
VseLLM — единый API-доступ к лучшим LLM
VseLLM — российская платформа для доступа к языковым моделям через единый API.
10❤8👍5🔥3😁1
Media is too big
VIEW IN TELEGRAM
Продолжаю тестировать Comet.
Как вы и просили: сделал прожарку ИИ браузера от Perplexity и дал самую интересную задачу - настроить проект по разметке в Яндекс.Заданиях.
Что из этого вышло, смотрите на видео!
0:00-0:51 постановка задачи
0:52-14:31 работа ИИ агента
14:33-16:05 разбор полетов, проверка
Как вы и просили: сделал прожарку ИИ браузера от Perplexity и дал самую интересную задачу - настроить проект по разметке в Яндекс.Заданиях.
Что из этого вышло, смотрите на видео!
0:00-0:51 постановка задачи
0:52-14:31 работа ИИ агента
14:33-16:05 разбор полетов, проверка
2🔥8😁3👍1
Forwarded from Неискусственный интеллект (Илья Склюев)
Alignment ИИ: как научить машину быть безопасной
Современные языковые модели умеют писать код, сочинять стихи и отвечать на сложные вопросы. Но как гарантировать, что ИИ-помощник не создаст инструкцию по изготовлению взрывчатки или не начнёт давать опасные медицинские советы?
Мы попросили экспертов из Data Light и «Авито» рассказать об очищении данных и работе с "выравниванием" модели.
1️⃣ Как работать с данными? (Александр Громов, CBDO Data Light)
Современные опенсорс-датасеты вроде Common Crawl содержат миллиарды веб-страниц – и там есть всё: от научных статей до токсичных комментариев. Без качественной очистки модель впитает весь этот хаос. Основные этапы следующие:
▪️ Удаление дублей. Это многоступенчатый конвейер. Сначала приводят данные к единому виду. Затем чистят точные копии через криптографические хэши. Самый трудный этап – поиск семантических дублей, переписанных разными словами текстов. Здесь используют векторные представления.
▪️ Поиск токсичности. Классификаторы на основе решений вроде fastText, быстро находят явные проблемы, также работают модераторы.
▪️ Синтетические данные. Берут сильную модель-учителя, генерируют пары «опасный запрос → безопасный отказ», применяют Constitutional AI (самостоятельная оценка ответов). Долю синтетики держат ограниченной – обычно не больше 20-30%, иначе модель переобучается на собственные шаблоны.
▪️ Визуальные данные. Используют специальные детекторы, создают "цифровые отпечатки" изображений и видео, извлекают текст из мемов и скриншотов. разметчиков.
2️⃣ Выравнивание модели (Анастасия Рысьмятова, руководитель разработки LLM в «Авито»)
“Сырая" модель ведёт себя непредсказуемо. Alignment – это искусство научить модель "хотеть" то же, что хотим мы.
▪️ Первый этап – SFT (Supervised Fine-tuning). Модель учится на тщательно подготовленных кураторских диалогах "человек-ИИ", где показаны примеры правильного поведения.
Для масштабирования процесса также используют автоматизированную генерацию диалогов, когда одна модель играет роль пользователя, другая – ассистента. Доменные эксперты проверяют фактическую точность, специалисты по безопасности контролируют соблюдение принципов.
➖ Мы также применяем DPO (обучение на парах плохих-хороших ответов). Используем датасет из 40 тысяч небезопасных запросов разного уровня. Для оценки создали специальные бенчмарки безопасности, в которых судьёй выступает другая модель (оценивает провокации и попытки джейлбрейка).
▪️ Второй этап — RFHL (обучение с обратной связью от человека). На основе человеческих предпочтений обучают отдельную модель-судью. Финальный этап – научить основную модель зарабатывать своими ответами высокие баллы.
Если оценка судьи высокая – внутренние настройки модели слегка подкручивают в сторону такого стиля ответов. При этом добавляют штраф за сильное отклонение от изначального поведения, чтобы модель оставалась "похожей на себя".
➖ Альтернатива — Constitutional AI. Дать модели явный список правил и научить самостоятельно оценивать свои ответы. Процесс выглядит так: модель генерирует ответ, критикует его согласно встроенным принципам и переписывает. При конфликте принципов используют иерархию с заранее определенными приоритетами.
❓ Главная дилемма alignment'а: как сделать модель максимально полезной, не жертвуя безопасностью? Для этого применяется контекстная модерация. Технология задаёт разные уровни строгости — от условно детского до профессионального. Ответ строится соответствующе, без совсем глупой цензуры и отказа от ответов.
@anti_agi
Современные языковые модели умеют писать код, сочинять стихи и отвечать на сложные вопросы. Но как гарантировать, что ИИ-помощник не создаст инструкцию по изготовлению взрывчатки или не начнёт давать опасные медицинские советы?
Мы попросили экспертов из Data Light и «Авито» рассказать об очищении данных и работе с "выравниванием" модели.
Современные опенсорс-датасеты вроде Common Crawl содержат миллиарды веб-страниц – и там есть всё: от научных статей до токсичных комментариев. Без качественной очистки модель впитает весь этот хаос. Основные этапы следующие:
“Сырая" модель ведёт себя непредсказуемо. Alignment – это искусство научить модель "хотеть" то же, что хотим мы.
Для масштабирования процесса также используют автоматизированную генерацию диалогов, когда одна модель играет роль пользователя, другая – ассистента. Доменные эксперты проверяют фактическую точность, специалисты по безопасности контролируют соблюдение принципов.
Если оценка судьи высокая – внутренние настройки модели слегка подкручивают в сторону такого стиля ответов. При этом добавляют штраф за сильное отклонение от изначального поведения, чтобы модель оставалась "похожей на себя".
@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
963👍8❤6🔥5
Media is too big
VIEW IN TELEGRAM
Ура, наконец получил видео с выступления на Conversations!
В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉
В этом году Conversations снова пройдет 5 декабря в Москве. Вот что интересного для себя выделил в программе:
• LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft
• AI-агенты ловят хакера: от экспертизы до моделей — Андрей Кузнецов, Positive Technologies
Я планирую пойти, кто тоже? Полную программу можно посмотреть на сайте. А еще организаторы дали промкод на скидку 10%: CVS25mDmR
В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉
В этом году Conversations снова пройдет 5 декабря в Москве. Вот что интересного для себя выделил в программе:
• LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft
• AI-агенты ловят хакера: от экспертизы до моделей — Андрей Кузнецов, Positive Technologies
Я планирую пойти, кто тоже? Полную программу можно посмотреть на сайте. А еще организаторы дали промкод на скидку 10%: CVS25mDmR
1🔥13❤9👍5
Роман с данными
Ура, наконец получил видео с выступления на Conversations! В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉 В этом году Conversations…
Но это прошлогодний доклад 🥲
За год ландшафт бенчмарков заметно изменился!
Если хотите узнать, как и на каких бенчах замеряются сейчас новые LLM модели — заходите во вторник в 11 на наш вебинар!
Расскажу про GPQA-Diamond, 𝜏-Bench, OSWorld и другие популярные бенчмарки. Регистрация тут.
За год ландшафт бенчмарков заметно изменился!
Если хотите узнать, как и на каких бенчах замеряются сейчас новые LLM модели — заходите во вторник в 11 на наш вебинар!
Расскажу про GPQA-Diamond, 𝜏-Bench, OSWorld и другие популярные бенчмарки. Регистрация тут.
Telegram
Евгений Кокуйкин - Raft
Во вторник, 28 октября, проведём вебинар, где расскажем о новых функциях HiveTrace и редтиминг фреймворке HiveTrace Red.
Откроет встречу наш гость Роман Куцев с обзором бенчмарков агентных систем. Летом Роман помог переработать соответствующий раздел в гайде…
Откроет встречу наш гость Роман Куцев с обзором бенчмарков агентных систем. Летом Роман помог переработать соответствующий раздел в гайде…
2❤5👍2🔥2
Сходил на интервью к девочкам из N айтишниц — рассказал, как стал заниматься разметкой данных, и поделился самой интересной историей с работы про роботов-пылесосов 😀
Telegram
N айтишниц заходят в бар
#Типичный_айтишник этой недели организует гладиаторские бои. Неудивительно, ведь народ требует хлеба и зрелищ, а Роман – один из создателей LLM Arena!
Кто ты и что делаешь?
Я Роман Куцев, уже 8 лет занимаюсь сбором и разметкой данных для обучения ИИ. Сейчас…
Кто ты и что делаешь?
Я Роман Куцев, уже 8 лет занимаюсь сбором и разметкой данных для обучения ИИ. Сейчас…
10K❤10🔥8👍3
Поделюсь обновлениями проекта VseLLM!
Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.
С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.
Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://news.1rj.ru/str/vsellm_bot.
Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.
С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.
Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://news.1rj.ru/str/vsellm_bot.
10K🔥13❤9👍7👎6💩4🤣2
Media is too big
VIEW IN TELEGRAM
Лучшее, что я видел на этой неделе.
Как перестать напевать эту песенку?😂😂😂
Как перестать напевать эту песенку?😂😂😂
1🤣14🔥4😁4💯1
Forwarded from LLM Arena
LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.
GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.
Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.
Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
10K❤5🔥4👍2🙏1
Один график из отчёта The State of AI in 2025 — и сразу понятно, где AI-агенты реально прижились.
McKinsey разложили по полочкам: кто именно (по профессиям) и в каких индустриях их использует.
McKinsey разложили по полочкам: кто именно (по профессиям) и в каких индустриях их использует.
2👍9🔥5❤2🙏1
Ключевые выводы McKinsey из отчета The State of AI in 2025 о применении AI агентов
1. Большинство организаций всё ещё находятся на стадии экспериментов или пилотных проектов: две трети респондентов говорят, что их организации пока не начали масштабировать ИИ на уровне всей компании.
2. Высокий интерес к ИИ-агентам: 62% участников опроса отмечают, что их организации как минимум экспериментируют с ИИ-агентами.
3. Позитивные ранние сигналы влияния ИИ: Респонденты сообщают о выгодах по отдельным сценариям применения — снижении затрат и росте выручки — и 64% говорят, что ИИ помогает инновациям.
4. Лидеры используют ИИ для роста, инноваций и снижения затрат: 80% респондентов говорят, что их компании ставят повышение эффективности целью ИИ-инициатив.
5. Перепроектирование рабочих процессов — ключевой фактор успеха: половина наиболее успешных компаний в ИИ намерена использовать ИИ для трансформации бизнеса, и большинство из них пересматривают рабочие процессы.
Цифры крутые! Но потом читаю юмористические посты
Вити Тарнавского https://news.1rj.ru/str/singularityfm/375
Леши Хахунова https://news.1rj.ru/str/aihappens/392
И складывается картинка как их внедряют😀😀😀
1. Большинство организаций всё ещё находятся на стадии экспериментов или пилотных проектов: две трети респондентов говорят, что их организации пока не начали масштабировать ИИ на уровне всей компании.
2. Высокий интерес к ИИ-агентам: 62% участников опроса отмечают, что их организации как минимум экспериментируют с ИИ-агентами.
3. Позитивные ранние сигналы влияния ИИ: Респонденты сообщают о выгодах по отдельным сценариям применения — снижении затрат и росте выручки — и 64% говорят, что ИИ помогает инновациям.
4. Лидеры используют ИИ для роста, инноваций и снижения затрат: 80% респондентов говорят, что их компании ставят повышение эффективности целью ИИ-инициатив.
5. Перепроектирование рабочих процессов — ключевой фактор успеха: половина наиболее успешных компаний в ИИ намерена использовать ИИ для трансформации бизнеса, и большинство из них пересматривают рабочие процессы.
Цифры крутые! Но потом читаю юмористические посты
Вити Тарнавского https://news.1rj.ru/str/singularityfm/375
Леши Хахунова https://news.1rj.ru/str/aihappens/392
И складывается картинка как их внедряют😀😀😀
2👍6😁6❤2🔥1
Жесть, зарубежная LMArena привлекла второй раунд в $150M под оценку $1.7B.
Как думаете, под какую оценку мы в России можем в свою llmarena.ru привлечь инвестиции?
Перевод поста LMArena в Х:
Как думаете, под какую оценку мы в России можем в свою llmarena.ru привлечь инвестиции?
Перевод поста LMArena в Х:
Сегодня мы с радостью объявляем о привлечении 150 миллионов долларов в рамках раунда финансирования серии А при оценке компании в 1,7 миллиарда долларов — почти в 3 раза больше, чем в майском посевном раунде. С момента начала оценки в сентябре наш годовой объем потребления превысил 30 миллионов долларов.
Наша миссия ясна: измерять и продвигать границы применения ИИ в реальном мире, обеспечивая разработчикам, исследователям, предприятиям и обычным пользователям возможность понимать, как ИИ ведет себя там, где это наиболее важно.
Раунд возглавили @Felicis и UC Investments (@UofCalifornia), при участии @a16z, @TheHouseFund, LDVP, @kleinerperkins, @lightspeedvp и @LaudeVentures. Это достижение отражает растущий консенсус в отрасли: ИИ не может масштабироваться ответственно без независимой, прозрачной и непрерывной оценки.
За последний год LMArena стала самой надежной в мире платформой для сообщества, позволяющей понять, как модели ИИ работают в реальных условиях. Поскольку ИИ охватывает миллиарды людей по всему миру, потребность в измерениях, основанных на реальном опыте, а не только на эталонных показателях, никогда не была столь актуальной.
Сегодня мы обслуживаем более 5 миллионов пользователей в месяц в 150 странах. Вместе наше сообщество ежемесячно генерирует более 60 миллионов диалогов, оценивая возможности и надежность моделей в текстовом, программном, графическом, видеоформате и поиске. Мы будем двигаться еще быстрее, чтобы создавать новые функции и улучшать пользовательский опыт, позволяя сообществу оценивать передовые достижения в области искусственного интеллекта.
Этот беспрецедентный уровень вовлеченности свидетельствует о фундаментальном сдвиге в ожиданиях: сегодня мир требует от ИИ измеримых, сопоставимых и подотчетных результатов.
Новое финансирование позволит нам значительно расширить масштабы наших инженерных разработок, исследований, работы платформы и инициатив, направленных на развитие сообщества, чтобы удовлетворить растущий глобальный спрос. При поддержке нашей команды, партнеров и глобального сообщества мы продолжим переосмысливать методы оценки и развития искусственного интеллекта — на пути к созданию самой надежной в мире платформы для оценки.
X (formerly Twitter)
Arena.ai (@arena) on X
Today, we’re excited to announce our $150M Series A at a $1.7B valuation—nearly 3× our May seed round. Since launching evaluations in Sept, our annualized consumption run rate has surpassed $30M.
Our mission is clear: to measure and advance the frontier…
Our mission is clear: to measure and advance the frontier…
10K😱9🎉4🤔2🤯1🤣1
Forwarded from LLM Arena
В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, данные до ноября 2025 года).
1. После выхода OpenAI o1 (декабрь 2024) индустрия дружно подсела на multi-step reasoning — думать “в несколько шагов” стало базовой потребностью.
• Reasoning-модели уже >50% всего трафика.
• xAI Grok Code Fast 1 вырвался на #1 по токенам в reasoning, обогнав Gemini 2.5 Pro и Flash.
2. Open Source: Китай + “средний класс” моделей
• DeepSeek + Qwen выросли с микродолей до примерно ~30% мирового объема токенов.
• И главное: OS перестал быть «одна семья правит всеми». Раньше тянул DeepSeek, теперь трафик размазан между DeepSeek / Qwen / Moonshot (Kimi) / GPT-OSS.
• Маленькие модели <15B в API теряют смысл и популярность. Побеждает “средний класс” 15B–70B — новый стандарт эффективности.
3. Кодинг — наконец-то серьезный рост
• Доля запросов по программированию выросла с 11% до ~50% всего объема токенов к концу 2025.
• Anthropic всё ещё король кодинга: Claude держит ~60% рынка платных код-запросов. Но OpenAI и MiniMax уже начали подъедать доли.
• Кодинг — главная причина роста длины промптов. Контексты в коде в среднем в 3–4 раза длиннее, чем «обычные» задачи.
4. Roleplay — скрытый потенциал.
В мире Open Source 52% всех токенов тратится на... Ролплей.
• Люди используют открытые модели для создания персонажей и интерактивных историй, так как там меньше цензуры.
• Даже в китайских моделях ролплей занимает треть трафика, хотя там растет доля кодинга.
5. Эффект «Стеклянной туфельки» (The Glass Slipper Effect)
Авторы ввели крутой термин для удержания пользователей.
• Если модель первой «идеально решает» специфическую задачу юзера (надевается как туфелька Золушки), этот юзер остается с ней навсегда, даже если выходят модели новее.
• У DeepSeek обнаружен уникальный «Эффект бумеранга»: пользователи уходят пробовать новинки, но возвращаются обратно, поняв, что соотношение цена/качество у DeepSeek лучше.
6. Цена vs Качество
Рынок разделился на два лагеря:
• Efficient Giants: Дешево и много (Gemini Flash, DeepSeek). Здесь царствует закон Джевонса — снижение цены ведет к взрывному росту потребления.
• Premium Leaders: Дорого и качественно (Claude 3.7/4 Sonnet, GPT-5 Pro). Спрос здесь неэластичен: профи готовы платить любые деньги за топовое качество рассуждений.
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenRouter
State of AI 2025: 100T Token LLM Usage Study | OpenRouter
Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.
❤7👍5🔥3👏1
LLM Arena
Мне безумно зашел раздел “Analysis of LLM User Retention”. Делюсь инсайдами, которые почерпнул:
Почти у всех LLM быстрый churn, но иногда появляются foundational cohorts — ранние группы, которые удерживаются заметно лучше. Это значит, что для них случился устойчивый workload–model fit: модель впервые реально закрыла важную задачу, и её встраивают в пайплайны/процессы, из-за чего переключаться становится дорого.
Это описывается как эффект “Cinderella / Glass Slipper”: есть набор ценных нерешённых задач, и каждая новая frontier-модель «примеряется» к ним. Когда совпали требования по качеству/стоимости/стабильности — происходит “идеальная посадка” и возникает lock-in. Поэтому когортный retention — индикатор скачка возможностей и преимущества “first-to-solve”, но окно короткое: после догоняющих релизов такие когорты почти не формируются.
Еще занимательный факте: если модель провалилась, как, например, Llama 4 Maverick - у такой модели не будет сильных когорт вообще (не было “frontier-fit”). Поэтому и происходит LLM гонка - попытки выпустить frontier-модель, и за счет более долгого оттока ее окупить.
Какой все же интересный рынок развития LLM! По промкоду ROMAN дарю вам 200 руб на счет в моем сервисе VseLLM - русском аналоге OpenRouter.
Почти у всех LLM быстрый churn, но иногда появляются foundational cohorts — ранние группы, которые удерживаются заметно лучше. Это значит, что для них случился устойчивый workload–model fit: модель впервые реально закрыла важную задачу, и её встраивают в пайплайны/процессы, из-за чего переключаться становится дорого.
Это описывается как эффект “Cinderella / Glass Slipper”: есть набор ценных нерешённых задач, и каждая новая frontier-модель «примеряется» к ним. Когда совпали требования по качеству/стоимости/стабильности — происходит “идеальная посадка” и возникает lock-in. Поэтому когортный retention — индикатор скачка возможностей и преимущества “first-to-solve”, но окно короткое: после догоняющих релизов такие когорты почти не формируются.
Еще занимательный факте: если модель провалилась, как, например, Llama 4 Maverick - у такой модели не будет сильных когорт вообще (не было “frontier-fit”). Поэтому и происходит LLM гонка - попытки выпустить frontier-модель, и за счет более долгого оттока ее окупить.
Какой все же интересный рынок развития LLM! По промкоду ROMAN дарю вам 200 руб на счет в моем сервисе VseLLM - русском аналоге OpenRouter.
👍11❤5🔥3
В марте лечу на Snow BASE - кэмп в Красной Поляне для C-level в области AI и Data Science!
В преддверии кэмпа ребята предложили провести эфир и по самым насущным и актуальными темам в AI. И я, как любитель такой движухи, с радостью согласился. В следующий вторник в 18:00 буду снимать покровы с тематики GenAI.
Позвал:
— Валерий Ковальский, Head of AI в Red.Mad.Robot
— Александр Абрамов, Head of AI CoE во ВкусВилл
— Артур Самигуллин, руководитель Yandex AI Studio
— Александр Толмачев, CDO
Обсудим:
— Как считать реальную ценность AI-агентов и выбирать направления, которые дадут эффект
— Техники повышения надёжности: снижение галлюцинаций, scaffolding, caching, debate-подходы
— Честные кейсы и факапы внедрения GenAI — что сработало, что провалилось, сколько стоило
— Agent swarm и другие тренды: перспектива или хайп?
— Как вайбкодинг изменил процессы разработки, найма и структуру команд
Ссылка на трансляцию: тут!
В преддверии кэмпа ребята предложили провести эфир и по самым насущным и актуальными темам в AI. И я, как любитель такой движухи, с радостью согласился. В следующий вторник в 18:00 буду снимать покровы с тематики GenAI.
Позвал:
— Валерий Ковальский, Head of AI в Red.Mad.Robot
— Александр Абрамов, Head of AI CoE во ВкусВилл
— Артур Самигуллин, руководитель Yandex AI Studio
— Александр Толмачев, CDO
Обсудим:
— Как считать реальную ценность AI-агентов и выбирать направления, которые дадут эффект
— Техники повышения надёжности: снижение галлюцинаций, scaffolding, caching, debate-подходы
— Честные кейсы и факапы внедрения GenAI — что сработало, что провалилось, сколько стоило
— Agent swarm и другие тренды: перспектива или хайп?
— Как вайбкодинг изменил процессы разработки, найма и структуру команд
Ссылка на трансляцию: тут!
🔥14❤7👍6👏1
Роман с данными
В марте лечу на Snow BASE - кэмп в Красной Поляне для C-level в области AI и Data Science! В преддверии кэмпа ребята предложили провести эфир и по самым насущным и актуальными темам в AI. И я, как любитель такой движухи, с радостью согласился. В следующий…
Напоминаю, что сегодня в 18:00 у нас эфир!
Большой фокус хочу уделить ROI и целесообразности внедрения ИИ в бизнес.
Приходите, будет интересно.
Ссылка на трансляцию: тут!
Большой фокус хочу уделить ROI и целесообразности внедрения ИИ в бизнес.
Приходите, будет интересно.
Ссылка на трансляцию: тут!
11😁6👍4🤝1
Anthropic выкатили любопытный разбор “Detecting and preventing distillation attacks”
Они утверждают, что DeepSeek, Moonshot (Kimi) и MiniMax в промышленных масштабах «дистиллировали» Claude — то есть генерили ответы сильной модели и использовали их как обучающие данные для своих. По их оценке, было сгенерировано больше 16 млн диалогов через ~24 тыс. фрод-аккаунтов и прокси. Ключевая цель — самые дорогие навыки: reasoning, tool-use, coding, агентность.
Почему это вообще имеет смысл? Потому что это про экономику.
Если вы хотите получить сопоставимое качество данных «вручную», то вам нужны тысячи человеко-часов: разметка, сравнение ответов, рубрики, проверки, консистентность, контроль качества. Даже если очень грубо и дешево считать $1 за “качественную единицу разметки” (а для сложных задач это часто сильно выше), 16 млн единиц — это $16 млн. Если считать ближе к реальности пост-трейнинга (где люди реально думают, оценивают, спорят, прогоняют рубрики) — легко получается сотни миллионов долларов!
А синтетика от сильной модели превращает это в «копейки». Условно: не $1–$20, а $0.01 и ниже (в зависимости от длины ответов, модели и прайса/доступа). Тогда 16 млн — это $160k–$1.6 млн. То есть разница не “в два раза”, а на порядки: x50–x500+ по стоимости (и это без учета того, что синтетика ещё и масштабируется мгновенно).
Вот почему тема дистилляции такая токсичная: вы не просто «ускоряете обучение», вы переносите самый дорогой актив — “качество” — практически напрямую. И дальше уже вопрос не только бизнеса, но и контроля: сохранятся ли safeguards, как это влияет на экспортные ограничения и т.д.
Мой вывод простой: у фронтира главный дефицит — не только GPU, а качественный пост-трейнинг. И именно поэтому все будут либо защищаться от дистилляции, либо пытаться её делать.
Кстати, мы во VseLLM натренировались и научились генерировать синтетику не хуже китайцев.
Так что если интересно - пишите в ЛС 😉
Они утверждают, что DeepSeek, Moonshot (Kimi) и MiniMax в промышленных масштабах «дистиллировали» Claude — то есть генерили ответы сильной модели и использовали их как обучающие данные для своих. По их оценке, было сгенерировано больше 16 млн диалогов через ~24 тыс. фрод-аккаунтов и прокси. Ключевая цель — самые дорогие навыки: reasoning, tool-use, coding, агентность.
Почему это вообще имеет смысл? Потому что это про экономику.
Если вы хотите получить сопоставимое качество данных «вручную», то вам нужны тысячи человеко-часов: разметка, сравнение ответов, рубрики, проверки, консистентность, контроль качества. Даже если очень грубо и дешево считать $1 за “качественную единицу разметки” (а для сложных задач это часто сильно выше), 16 млн единиц — это $16 млн. Если считать ближе к реальности пост-трейнинга (где люди реально думают, оценивают, спорят, прогоняют рубрики) — легко получается сотни миллионов долларов!
А синтетика от сильной модели превращает это в «копейки». Условно: не $1–$20, а $0.01 и ниже (в зависимости от длины ответов, модели и прайса/доступа). Тогда 16 млн — это $160k–$1.6 млн. То есть разница не “в два раза”, а на порядки: x50–x500+ по стоимости (и это без учета того, что синтетика ещё и масштабируется мгновенно).
Вот почему тема дистилляции такая токсичная: вы не просто «ускоряете обучение», вы переносите самый дорогой актив — “качество” — практически напрямую. И дальше уже вопрос не только бизнеса, но и контроля: сохранятся ли safeguards, как это влияет на экспортные ограничения и т.д.
Мой вывод простой: у фронтира главный дефицит — не только GPU, а качественный пост-трейнинг. И именно поэтому все будут либо защищаться от дистилляции, либо пытаться её делать.
Кстати, мы во VseLLM натренировались и научились генерировать синтетику не хуже китайцев.
Так что если интересно - пишите в ЛС 😉
❤7🔥6😱3👍1