NEW BOT Телеграм, страница

Рассказал про свое ощущение пузыря в LLM токенах.

Но мы не боимся и с vsellm.ru тоже влетаем в этот пузырь!

По промокоду SPECIALGIFT в @vsellm_bot дарим 500 руб на счет. А цены на GPT-4.1 и GPT-4.1-mini ниже опенроутера на 10%!

7❤9👍6🔥3😁2

2.13K views11:47

Роман с данными

🚀 Вакансия в VseLLM — Middle Python Backend Developer

Привет! Мы команда VseLLM — авторы LLM Arena, самого популярного бенчмарка нейросетей в России.
Недавно запустили наш новый продукт — vsellm.ru — удобный доступ ко всем ИИ без прокси и VPN.

Сейчас расширяемся и ищем бэкенд-разработчика уровня Middle, который поможет нам развивать:
• Админку vsellm.ru
• Telegram-бота @vsellm_bot

🧩 Мы ожидаем
• Опыт Python 3+ лет
• Знание FastAPI, PostgreSQL
• Умение проектировать системы и писать тесты
• Опыт с Docker / Docker Compose
• Бонусом будет опыт разработки Telegram-ботов и работа с Kubernetes

⚙️ Условия
• Удалёнка и гибкий график
• Можно part-time (от 20 часов в неделю)
• Минимум бюрократии, максимум влияния на продукт
• Оплата — по договорённости, обсуждается индивидуально

📨 Хочешь присоединиться?
Отправь CV → @roman_kucev

vsellm.ru

VseLLM — единый API-доступ к лучшим LLM

VseLLM — российская платформа для доступа к языковым моделям через единый API.

10❤8👍5🔥3😁1

1.81K views12:16

Продолжаю тестировать Comet.
Как вы и просили: сделал прожарку ИИ браузера от Perplexity и дал самую интересную задачу - настроить проект по разметке в Яндекс.Заданиях.

Что из этого вышло, смотрите на видео!
0:00-0:51 постановка задачи
0:52-14:31 работа ИИ агента
14:33-16:05 разбор полетов, проверка

2🔥8😁3👍1

1.88K views20:35

Роман с данными

Forwarded from Неискусственный интеллект (Илья Склюев)

Alignment ИИ: как научить машину быть безопасной

Современные языковые модели умеют писать код, сочинять стихи и отвечать на сложные вопросы. Но как гарантировать, что ИИ-помощник не создаст инструкцию по изготовлению взрывчатки или не начнёт давать опасные медицинские советы?

Мы попросили экспертов из Data Light и «Авито» рассказать об очищении данных и работе с "выравниванием" модели.

1️⃣

Как работать с данными? (Александр Громов, CBDO Data Light)

Современные опенсорс-датасеты вроде Common Crawl содержат миллиарды веб-страниц – и там есть всё: от научных статей до токсичных комментариев. Без качественной очистки модель впитает весь этот хаос. Основные этапы следующие:

▪️ Удаление дублей. Это многоступенчатый конвейер. Сначала приводят данные к единому виду. Затем чистят точные копии через криптографические хэши. Самый трудный этап – поиск семантических дублей, переписанных разными словами текстов. Здесь используют векторные представления.

▪️ Поиск токсичности. Классификаторы на основе решений вроде fastText, быстро находят явные проблемы, также работают модераторы.

▪️ Синтетические данные. Берут сильную модель-учителя, генерируют пары «опасный запрос → безопасный отказ», применяют Constitutional AI (самостоятельная оценка ответов). Долю синтетики держат ограниченной – обычно не больше 20-30%, иначе модель переобучается на собственные шаблоны.

▪️ Визуальные данные. Используют специальные детекторы, создают "цифровые отпечатки" изображений и видео, извлекают текст из мемов и скриншотов. разметчиков.

2️⃣

Выравнивание модели (Анастасия Рысьмятова, руководитель разработки LLM в «Авито»)

“Сырая" модель ведёт себя непредсказуемо. Alignment – это искусство научить модель "хотеть" то же, что хотим мы.

▪️ Первый этап – SFT (Supervised Fine-tuning). Модель учится на тщательно подготовленных кураторских диалогах "человек-ИИ", где показаны примеры правильного поведения.

Для масштабирования процесса также используют автоматизированную генерацию диалогов, когда одна модель играет роль пользователя, другая – ассистента. Доменные эксперты проверяют фактическую точность, специалисты по безопасности контролируют соблюдение принципов.

➖

Мы также применяем DPO (обучение на парах плохих-хороших ответов). Используем датасет из 40 тысяч небезопасных запросов разного уровня. Для оценки создали специальные бенчмарки безопасности, в которых судьёй выступает другая модель (оценивает провокации и попытки джейлбрейка).

▪️ Второй этап — RFHL (обучение с обратной связью от человека). На основе человеческих предпочтений обучают отдельную модель-судью. Финальный этап – научить основную модель зарабатывать своими ответами высокие баллы.

Если оценка судьи высокая – внутренние настройки модели слегка подкручивают в сторону такого стиля ответов. При этом добавляют штраф за сильное отклонение от изначального поведения, чтобы модель оставалась "похожей на себя".

➖

Альтернатива — Constitutional AI. Дать модели явный список правил и научить самостоятельно оценивать свои ответы. Процесс выглядит так: модель генерирует ответ, критикует его согласно встроенным принципам и переписывает. При конфликте принципов используют иерархию с заранее определенными приоритетами.

❓

Главная дилемма alignment'а: как сделать модель максимально полезной, не жертвуя безопасностью? Для этого применяется контекстная модерация. Технология задаёт разные уровни строгости — от условно детского до профессионального. Ответ строится соответствующе, без совсем глупой цензуры и отказа от ответов.

@anti_agi

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

963👍8❤6🔥5

1.76K views14:40

Ура, наконец получил видео с выступления на Conversations!

В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉

В этом году Conversations снова пройдет 5 декабря в Москве. Вот что интересного для себя выделил в программе:

• LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft

• AI-агенты ловят хакера: от экспертизы до моделей — Андрей Кузнецов, Positive Technologies

Я планирую пойти, кто тоже? Полную программу можно посмотреть на сайте. А еще организаторы дали промкод на скидку 10%: CVS25mDmR

1🔥13❤9👍5

2.82K views14:03

Роман с данными

Ура, наконец получил видео с выступления на Conversations! В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉 В этом году Conversations…

Но это прошлогодний доклад 🥲
За год ландшафт бенчмарков заметно изменился!

Если хотите узнать, как и на каких бенчах замеряются сейчас новые LLM модели — заходите во вторник в 11 на наш вебинар!

Расскажу про GPQA-Diamond, 𝜏-Bench, OSWorld и другие популярные бенчмарки. Регистрация тут.

Евгений Кокуйкин - Raft

Во вторник, 28 октября, проведём вебинар, где расскажем о новых функциях HiveTrace и редтиминг фреймворке HiveTrace Red.

Откроет встречу наш гость Роман Куцев с обзором бенчмарков агентных систем. Летом Роман помог переработать соответствующий раздел в гайде…

2❤5👍2🔥2

3.32K views16:28

Роман с данными

Сходил на интервью к девочкам из N айтишниц — рассказал, как стал заниматься разметкой данных, и поделился самой интересной историей с работы про роботов-пылесосов 😀

N айтишниц заходят в бар

#Типичный_айтишник этой недели организует гладиаторские бои. Неудивительно, ведь народ требует хлеба и зрелищ, а Роман – один из создателей LLM Arena!

Кто ты и что делаешь?
Я Роман Куцев, уже 8 лет занимаюсь сбором и разметкой данных для обучения ИИ. Сейчас…

10K❤10🔥8👍3

2.83K views10:23

Роман с данными

Поделюсь обновлениями проекта VseLLM!

Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.

С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.

Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://news.1rj.ru/str/vsellm_bot.

10K🔥13❤9👍7👎6💩4🤣2

4.97K views16:55

Лучшее, что я видел на этой неделе.
Как перестать напевать эту песенку?😂😂😂

1🤣14🔥4😁4💯1

2.59K views08:03

Роман с данными

Forwarded from LLM Arena

🔫

GenCode Mini Gallery Bench

LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.

📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки.

GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.

Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.

Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.

❗️ Модели, используемые для генераций доступны по API на VSELLM

♾ Вкладка с бенчмарком доступна на https://llmarena.ru/ или напрямую по ссылке https://clocks.llmarena.ru/.

📸 Ждем вашего мнения и обратной связи.

Please open Telegram to view this post

VIEW IN TELEGRAM

10K❤5🔥4👍2🙏1

2.57K views16:04

Роман с данными

Один график из отчёта The State of AI in 2025 — и сразу понятно, где AI-агенты реально прижились.

McKinsey разложили по полочкам: кто именно (по профессиям) и в каких индустриях их использует.

2👍9🔥5❤2🙏1

2.22K views03:47

Роман с данными

Ключевые выводы McKinsey из отчета The State of AI in 2025 о применении AI агентов
1. Большинство организаций всё ещё находятся на стадии экспериментов или пилотных проектов: две трети респондентов говорят, что их организации пока не начали масштабировать ИИ на уровне всей компании.
2. Высокий интерес к ИИ-агентам: 62% участников опроса отмечают, что их организации как минимум экспериментируют с ИИ-агентами.
3. Позитивные ранние сигналы влияния ИИ: Респонденты сообщают о выгодах по отдельным сценариям применения — снижении затрат и росте выручки — и 64% говорят, что ИИ помогает инновациям.
4. Лидеры используют ИИ для роста, инноваций и снижения затрат: 80% респондентов говорят, что их компании ставят повышение эффективности целью ИИ-инициатив.
5. Перепроектирование рабочих процессов — ключевой фактор успеха: половина наиболее успешных компаний в ИИ намерена использовать ИИ для трансформации бизнеса, и большинство из них пересматривают рабочие процессы.

Цифры крутые! Но потом читаю юмористические посты
Вити Тарнавского https://news.1rj.ru/str/singularityfm/375
Леши Хахунова https://news.1rj.ru/str/aihappens/392

И складывается картинка как их внедряют😀😀😀

2👍6😁6❤2🔥1

2.53K views04:47

Роман с данными

Жесть, зарубежная LMArena привлекла второй раунд в $150M под оценку $1.7B.

Как думаете, под какую оценку мы в России можем в свою llmarena.ru привлечь инвестиции?

Перевод поста LMArena в Х:

Сегодня мы с радостью объявляем о привлечении 150 миллионов долларов в рамках раунда финансирования серии А при оценке компании в 1,7 миллиарда долларов — почти в 3 раза больше, чем в майском посевном раунде. С момента начала оценки в сентябре наш годовой объем потребления превысил 30 миллионов долларов.

Наша миссия ясна: измерять и продвигать границы применения ИИ в реальном мире, обеспечивая разработчикам, исследователям, предприятиям и обычным пользователям возможность понимать, как ИИ ведет себя там, где это наиболее важно.

Раунд возглавили @Felicis и UC Investments (@UofCalifornia), при участии @a16z, @TheHouseFund, LDVP, @kleinerperkins, @lightspeedvp и @LaudeVentures. Это достижение отражает растущий консенсус в отрасли: ИИ не может масштабироваться ответственно без независимой, прозрачной и непрерывной оценки.

За последний год LMArena стала самой надежной в мире платформой для сообщества, позволяющей понять, как модели ИИ работают в реальных условиях. Поскольку ИИ охватывает миллиарды людей по всему миру, потребность в измерениях, основанных на реальном опыте, а не только на эталонных показателях, никогда не была столь актуальной.

Сегодня мы обслуживаем более 5 миллионов пользователей в месяц в 150 странах. Вместе наше сообщество ежемесячно генерирует более 60 миллионов диалогов, оценивая возможности и надежность моделей в текстовом, программном, графическом, видеоформате и поиске. Мы будем двигаться еще быстрее, чтобы создавать новые функции и улучшать пользовательский опыт, позволяя сообществу оценивать передовые достижения в области искусственного интеллекта.

Этот беспрецедентный уровень вовлеченности свидетельствует о фундаментальном сдвиге в ожиданиях: сегодня мир требует от ИИ измеримых, сопоставимых и подотчетных результатов.

Новое финансирование позволит нам значительно расширить масштабы наших инженерных разработок, исследований, работы платформы и инициатив, направленных на развитие сообщества, чтобы удовлетворить растущий глобальный спрос. При поддержке нашей команды, партнеров и глобального сообщества мы продолжим переосмысливать методы оценки и развития искусственного интеллекта — на пути к созданию самой надежной в мире платформы для оценки.

X (formerly Twitter)

Arena.ai (@arena) on X

Today, we’re excited to announce our $150M Series A at a $1.7B valuation—nearly 3× our May seed round. Since launching evaluations in Sept, our annualized consumption run rate has surpassed $30M.

Our mission is clear: to measure and advance the frontier…

10K😱9🎉4🤔2🤯1🤣1

2.14K views07:35

Роман с данными

Forwarded from LLM Arena

⚡️ Анализируем исследование OpenRouter, вышедшее в декабре 2025 года.

В исследовании изучили 100 трлн токенов живого трафика через OpenRouter (300+ моделей, 60+ провайдеров, миллионы пользователей, данные до ноября 2025 года).

1. После выхода OpenAI o1 (декабрь 2024) индустрия дружно подсела на multi-step reasoning — думать “в несколько шагов” стало базовой потребностью.
• Reasoning-модели уже >50% всего трафика.
• xAI Grok Code Fast 1 вырвался на #1 по токенам в reasoning, обогнав Gemini 2.5 Pro и Flash. Хотя есть некий скепсис и впечатление, что цифры у Grok искусственно завышенные на OR.

2. Open Source: Китай + “средний класс” моделей
• DeepSeek + Qwen выросли с микродолей до примерно ~30% мирового объема токенов.
• И главное: OS перестал быть «одна семья правит всеми». Раньше тянул DeepSeek, теперь трафик размазан между DeepSeek / Qwen / Moonshot (Kimi) / GPT-OSS.
• Маленькие модели <15B в API теряют смысл и популярность. Побеждает “средний класс” 15B–70B — новый стандарт эффективности.

3. Кодинг — наконец-то серьезный рост
• Доля запросов по программированию выросла с 11% до ~50% всего объема токенов к концу 2025.
• Anthropic всё ещё король кодинга: Claude держит ~60% рынка платных код-запросов. Но OpenAI и MiniMax уже начали подъедать доли. (Хотя сами мы тут ставим и на Гемини, который на том же OR уже не первую неделю лидирует в «Программировании»).
• Кодинг — главная причина роста длины промптов. Контексты в коде в среднем в 3–4 раза длиннее, чем «обычные» задачи.

4. Roleplay — скрытый потенциал.
В мире Open Source 52% всех токенов тратится на... Ролплей.
• Люди используют открытые модели для создания персонажей и интерактивных историй, так как там меньше цензуры.
• Даже в китайских моделях ролплей занимает треть трафика, хотя там растет доля кодинга.

5. Эффект «Стеклянной туфельки» (The Glass Slipper Effect)
Авторы ввели крутой термин для удержания пользователей.
• Если модель первой «идеально решает» специфическую задачу юзера (надевается как туфелька Золушки), этот юзер остается с ней навсегда, даже если выходят модели новее.
• У DeepSeek обнаружен уникальный «Эффект бумеранга»: пользователи уходят пробовать новинки, но возвращаются обратно, поняв, что соотношение цена/качество у DeepSeek лучше.

6. Цена vs Качество
Рынок разделился на два лагеря:
• Efficient Giants: Дешево и много (Gemini Flash, DeepSeek). Здесь царствует закон Джевонса — снижение цены ведет к взрывному росту потребления.
• Premium Leaders: Дорого и качественно (Claude 3.7/4 Sonnet, GPT-5 Pro). Спрос здесь неэластичен: профи готовы платить любые деньги за топовое качество рассуждений.

Please open Telegram to view this post

VIEW IN TELEGRAM

OpenRouter

State of AI 2025: 100T Token LLM Usage Study | OpenRouter

Read OpenRouter's 2025 State of AI report — an empirical 100 trillion token study of real LLM usage, model trends, and developer insights.

❤7👍5🔥3👏1

978 views07:45

Роман с данными

LLM Arena

Мне безумно зашел раздел “Analysis of LLM User Retention”. Делюсь инсайдами, которые почерпнул:

Почти у всех LLM быстрый churn, но иногда появляются foundational cohorts — ранние группы, которые удерживаются заметно лучше. Это значит, что для них случился устойчивый workload–model fit: модель впервые реально закрыла важную задачу, и её встраивают в пайплайны/процессы, из-за чего переключаться становится дорого.

Это описывается как эффект “Cinderella / Glass Slipper”: есть набор ценных нерешённых задач, и каждая новая frontier-модель «примеряется» к ним. Когда совпали требования по качеству/стоимости/стабильности — происходит “идеальная посадка” и возникает lock-in. Поэтому когортный retention — индикатор скачка возможностей и преимущества “first-to-solve”, но окно короткое: после догоняющих релизов такие когорты почти не формируются.

Еще занимательный факте: если модель провалилась, как, например, Llama 4 Maverick - у такой модели не будет сильных когорт вообще (не было “frontier-fit”). Поэтому и происходит LLM гонка - попытки выпустить frontier-модель, и за счет более долгого оттока ее окупить.

Какой все же интересный рынок развития LLM! По промкоду ROMAN дарю вам 200 руб на счет в моем сервисе VseLLM - русском аналоге OpenRouter.

👍12❤5🔥3

1.41K views07:48

Роман с данными

В марте лечу на Snow BASE - кэмп в Красной Поляне для C-level в области AI и Data Science!

В преддверии кэмпа ребята предложили провести эфир и по самым насущным и актуальными темам в AI. И я, как любитель такой движухи, с радостью согласился. В следующий вторник в 18:00 буду снимать покровы с тематики GenAI.

Позвал:
— Валерий Ковальский, Head of AI в Red.Mad.Robot
— Александр Абрамов, Head of AI CoE во ВкусВилл
— Артур Самигуллин, руководитель Yandex AI Studio
— Александр Толмачев, CDO

Обсудим:
— Как считать реальную ценность AI-агентов и выбирать направления, которые дадут эффект
— Техники повышения надёжности: снижение галлюцинаций, scaffolding, caching, debate-подходы
— Честные кейсы и факапы внедрения GenAI — что сработало, что провалилось, сколько стоило
— Agent swarm и другие тренды: перспектива или хайп?
— Как вайбкодинг изменил процессы разработки, найма и структуру команд

Ссылка на трансляцию: тут!

🔥14❤7👍6👏1

1.57K views08:04

Роман с данными

В марте лечу на Snow BASE - кэмп в Красной Поляне для C-level в области AI и Data Science! В преддверии кэмпа ребята предложили провести эфир и по самым насущным и актуальными темам в AI. И я, как любитель такой движухи, с радостью согласился. В следующий…

Напоминаю, что сегодня в 18:00 у нас эфир!

Большой фокус хочу уделить ROI и целесообразности внедрения ИИ в бизнес.

Приходите, будет интересно.
Ссылка на трансляцию: тут!

11😁6👍4🤝1

1.3K views08:53

Роман с данными

Anthropic выкатили любопытный разбор “Detecting and preventing distillation attacks”

Они утверждают, что DeepSeek, Moonshot (Kimi) и MiniMax в промышленных масштабах «дистиллировали» Claude — то есть генерили ответы сильной модели и использовали их как обучающие данные для своих. По их оценке, было сгенерировано больше 16 млн диалогов через ~24 тыс. фрод-аккаунтов и прокси. Ключевая цель — самые дорогие навыки: reasoning, tool-use, coding, агентность.

Почему это вообще имеет смысл? Потому что это про экономику.

Если вы хотите получить сопоставимое качество данных «вручную», то вам нужны тысячи человеко-часов: разметка, сравнение ответов, рубрики, проверки, консистентность, контроль качества. Даже если очень грубо и дешево считать $1 за “качественную единицу разметки” (а для сложных задач это часто сильно выше), 16 млн единиц — это $16 млн. Если считать ближе к реальности пост-трейнинга (где люди реально думают, оценивают, спорят, прогоняют рубрики) — легко получается сотни миллионов долларов!

А синтетика от сильной модели превращает это в «копейки». Условно: не $1–$20, а $0.01 и ниже (в зависимости от длины ответов, модели и прайса/доступа). Тогда 16 млн — это $160k–$1.6 млн. То есть разница не “в два раза”, а на порядки: x50–x500+ по стоимости (и это без учета того, что синтетика ещё и масштабируется мгновенно).

Вот почему тема дистилляции такая токсичная: вы не просто «ускоряете обучение», вы переносите самый дорогой актив — “качество” — практически напрямую. И дальше уже вопрос не только бизнеса, но и контроля: сохранятся ли safeguards, как это влияет на экспортные ограничения и т.д.

Мой вывод простой: у фронтира главный дефицит — не только GPU, а качественный пост-трейнинг. И именно поэтому все будут либо защищаться от дистилляции, либо пытаться её делать.

Кстати, мы во VseLLM натренировались и научились генерировать синтетику не хуже китайцев.
Так что если интересно - пишите в ЛС 😉

❤8🔥6😱3👍1

942 views07:54

About

Blog

Apps

Platform