Роман с данными – Telegram
Роман с данными
2.5K subscribers
51 photos
12 videos
3 files
103 links
Все о данных, ML, AI
Founder LLM Arena. Ex-Founder TrainingData.Pro
Окончил ВМК МГУ, 8 лет занимаюсь сбором и разметкой данных
Контакты: @roman_kucev
Download Telegram
Дал Анфисе небольшое интервью, рассказал как AI помогает в реальной жизни.

С Анфисой знаком уже много лет, в своё время я почти проинвестировал в ее 18+ компанию feelpurpur.com, но это уже совсем другая история🙃
👍12🔥97
В пятницу проводим панельную дискуссию «Почему бенчмаркам нельзя верить»! Если вы будете на aiconf.ru, обязательно заходите!

P.S а опрос ниже поможет мне понять: это только у меня куха едет от кол-ва конференций в этом году или у всех так.
1🔥5👍21
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳

Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.

❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.

Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.

Мы открываем бета-тестирование и дарим 500 ₽ по промокоду SPECIALGIFT на баланс первым пользователям.
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.

Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
7👍2413🔥12
Media is too big
VIEW IN TELEGRAM
Рассказал про свое ощущение пузыря в LLM токенах.

Но мы не боимся и с vsellm.ru тоже влетаем в этот пузырь!

По промокоду SPECIALGIFT в @vsellm_bot дарим 500 руб на счет. А цены на GPT-4.1 и GPT-4.1-mini ниже опенроутера на 10%!
79👍6🔥3😁2
🚀 Вакансия в VseLLM — Middle Python Backend Developer

Привет! Мы команда VseLLM — авторы LLM Arena, самого популярного бенчмарка нейросетей в России.
Недавно запустили наш новый продукт — vsellm.ru — удобный доступ ко всем ИИ без прокси и VPN.

Сейчас расширяемся и ищем бэкенд-разработчика уровня Middle, который поможет нам развивать:
• Админку vsellm.ru
• Telegram-бота @vsellm_bot

🧩 Мы ожидаем
• Опыт Python 3+ лет
• Знание FastAPI, PostgreSQL
• Умение проектировать системы и писать тесты
• Опыт с Docker / Docker Compose
• Бонусом будет опыт разработки Telegram-ботов и работа с Kubernetes

⚙️ Условия
• Удалёнка и гибкий график
• Можно part-time (от 20 часов в неделю)
• Минимум бюрократии, максимум влияния на продукт
• Оплата — по договорённости, обсуждается индивидуально

📨 Хочешь присоединиться?
Отправь CV → @roman_kucev
108👍5🔥3😁1
Media is too big
VIEW IN TELEGRAM
Продолжаю тестировать Comet.
Как вы и просили: сделал прожарку ИИ браузера от Perplexity и дал самую интересную задачу - настроить проект по разметке в Яндекс.Заданиях.

Что из этого вышло, смотрите на видео!
0:00-0:51 постановка задачи
0:52-14:31 работа ИИ агента
14:33-16:05 разбор полетов, проверка
2🔥8😁3👍1
Forwarded from Неискусственный интеллект (Илья Склюев)
Alignment ИИ: как научить машину быть безопасной

Современные языковые модели умеют писать код, сочинять стихи и отвечать на сложные вопросы. Но как гарантировать, что ИИ-помощник не создаст инструкцию по изготовлению взрывчатки или не начнёт давать опасные медицинские советы?

Мы попросили экспертов из Data Light и «Авито» рассказать об очищении данных и работе с "выравниванием" модели.

1️⃣ Как работать с данными? (Александр Громов, CBDO Data Light)

Современные опенсорс-датасеты вроде Common Crawl содержат миллиарды веб-страниц – и там есть всё: от научных статей до токсичных комментариев. Без качественной очистки модель впитает весь этот хаос. Основные этапы следующие:

▪️ Удаление дублей. Это многоступенчатый конвейер. Сначала приводят данные к единому виду. Затем чистят точные копии через криптографические хэши. Самый трудный этап – поиск семантических дублей, переписанных разными словами текстов. Здесь используют векторные представления.

▪️ Поиск токсичности. Классификаторы на основе решений вроде fastText, быстро находят явные проблемы, также работают модераторы.

▪️ Синтетические данные. Берут сильную модель-учителя, генерируют пары «опасный запрос → безопасный отказ», применяют Constitutional AI (самостоятельная оценка ответов). Долю синтетики держат ограниченной – обычно не больше 20-30%, иначе модель переобучается на собственные шаблоны.

▪️ Визуальные данные. Используют специальные детекторы, создают "цифровые отпечатки" изображений и видео, извлекают текст из мемов и скриншотов. разметчиков.

2️⃣ Выравнивание модели (Анастасия Рысьмятова, руководитель разработки LLM в «Авито»)

“Сырая" модель ведёт себя непредсказуемо. Alignment – это искусство научить модель "хотеть" то же, что хотим мы.

▪️ Первый этап – SFT (Supervised Fine-tuning). Модель учится на тщательно подготовленных кураторских диалогах "человек-ИИ", где показаны примеры правильного поведения.

Для масштабирования процесса также используют автоматизированную генерацию диалогов, когда одна модель играет роль пользователя, другая – ассистента. Доменные эксперты проверяют фактическую точность, специалисты по безопасности контролируют соблюдение принципов.

Мы также применяем DPO (обучение на парах плохих-хороших ответов). Используем датасет из 40 тысяч небезопасных запросов разного уровня. Для оценки создали специальные бенчмарки безопасности, в которых судьёй выступает другая модель (оценивает провокации и попытки джейлбрейка).

▪️ Второй этап — RFHL (обучение с обратной связью от человека). На основе человеческих предпочтений обучают отдельную модель-судью. Финальный этап – научить основную модель зарабатывать своими ответами высокие баллы.

Если оценка судьи высокая – внутренние настройки модели слегка подкручивают в сторону такого стиля ответов. При этом добавляют штраф за сильное отклонение от изначального поведения, чтобы модель оставалась "похожей на себя".

Альтернатива — Constitutional AI. Дать модели явный список правил и научить самостоятельно оценивать свои ответы. Процесс выглядит так: модель генерирует ответ, критикует его согласно встроенным принципам и переписывает. При конфликте принципов используют иерархию с заранее определенными приоритетами.

Главная дилемма alignment'а: как сделать модель максимально полезной, не жертвуя безопасностью? Для этого применяется контекстная модерация. Технология задаёт разные уровни строгости — от условно детского до профессионального. Ответ строится соответствующе, без совсем глупой цензуры и отказа от ответов.

@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍86🔥5
Media is too big
VIEW IN TELEGRAM
Ура, наконец получил видео с выступления на Conversations!

В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉

В этом году Conversations снова пройдет 5 декабря в Москве. Вот что интересного для себя выделил в программе:

LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft

AI-агенты ловят хакера: от экспертизы до моделей — Андрей Кузнецов, Positive Technologies

Я планирую пойти, кто тоже? Полную программу можно посмотреть на сайте. А еще организаторы дали промкод на скидку 10%: CVS25mDmR
1🔥139👍5
Роман с данными
Ура, наконец получил видео с выступления на Conversations! В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉 В этом году Conversations…
Но это прошлогодний доклад 🥲
За год ландшафт бенчмарков заметно изменился!

Если хотите узнать, как и на каких бенчах замеряются сейчас новые LLM модели — заходите во вторник в 11 на наш вебинар!

Расскажу про GPQA-Diamond, 𝜏-Bench, OSWorld и другие популярные бенчмарки. Регистрация тут.
25👍2🔥2
Поделюсь обновлениями проекта VseLLM!

Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.

С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.

Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://news.1rj.ru/str/vsellm_bot.
2🔥139👍7👎6💩4🤣2
Media is too big
VIEW IN TELEGRAM
Лучшее, что я видел на этой неделе.
Как перестать напевать эту песенку?😂😂😂
1🤣14🔥4😁4💯1
Forwarded from LLM Arena
🔫 GenCode Mini Gallery Bench

LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.

📈 LLM стремительно эволюционируют и выходят на уровень AGENT-поведения, где модели решают задачи от анализа данных до полноценной разработки. На этом фоне особенно интересно посмотреть на то, как модели в режиме реального времени справляются даже с такими, на первый взгляд, простыми задачами вёрстки.

GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.

Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.

Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.

❗️ Модели, используемые для генераций доступны по API на VSELLM

Вкладка с бенчмарком доступна на https://llmarena.ru/ или напрямую по ссылке https://clocks.llmarena.ru/.

📸 Ждем вашего мнения и обратной связи.
Please open Telegram to view this post
VIEW IN TELEGRAM
14🔥4👍1🙏1