Дал Анфисе небольшое интервью, рассказал как AI помогает в реальной жизни.
С Анфисой знаком уже много лет, в своё время я почти проинвестировал в ее 18+ компанию feelpurpur.com, но это уже совсем другая история🙃
С Анфисой знаком уже много лет, в своё время я почти проинвестировал в ее 18+ компанию feelpurpur.com, но это уже совсем другая история🙃
👍12🔥9❤7
В пятницу проводим панельную дискуссию «Почему бенчмаркам нельзя верить»! Если вы будете на aiconf.ru, обязательно заходите!
P.S а опрос ниже поможет мне понять: это только у меня куха едет от кол-ва конференций в этом году или у всех так.
P.S а опрос ниже поможет мне понять: это только у меня куха едет от кол-ва конференций в этом году или у всех так.
1🔥5👍2❤1
Всем привет! Хочу анонсировать бета-запуск нашего нового проекта VseLLM!🥳
Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.
❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.
Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.
Мы открываем бета-тестирование и дарим 500 ₽ по промокоду
Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.
Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
Вместе с командой LLM Arena мы решили собрать информацию про все LLM в одном месте: какие модели доступны у российских провайдеров, сколько стоит использование, скорость и пропускная способность, и другая прикладная информация для интеграции моделей в ваши проекты.
❗️Помимо агрегатора данных о LLM мы делаем единый API-доступ: через один ключ можно работать и с ChatGPT, и с Гигачатом. На текущий момент доступно 20 моделей. Всё это — с оплатой в рублях и закрывающими документами для юрлиц.
Как это устроено:
— У каждой модели есть основная версия с SLA на уровне 99%+ за счет прямых подключений (минимум сбоев, SLA высокого уровня, рекомендовано для задач, где важна максимальная стабильность и высокий отклик).
— Дополнительно для некоторых моделей доступны noSLA версии — более гибкий SLA из альтернативных каналов (~95% доступности), при этом качество работы моделей остаётся на том же уровне при более низкой цене.
Мы открываем бета-тестирование и дарим 500 ₽ по промокоду
SPECIALGIFT на баланс первым пользователям.Хочешь попробовать? Забирай свой API-ключ в @vsellm_bot.
Чтобы избежать накруток, можем запросить дополнительные данные для модерации перед начислением бонуса
vsellm.ru
VseLLM: Единый API-доступ к лучшим LLM
Доступ к ChatGPT, Гигачату и другим моделям через один API. Оплата в рублях, закрывающие документы.
7👍24❤13🔥12
Media is too big
VIEW IN TELEGRAM
Рассказал про свое ощущение пузыря в LLM токенах.
Но мы не боимся и с vsellm.ru тоже влетаем в этот пузырь!
По промокоду
Но мы не боимся и с vsellm.ru тоже влетаем в этот пузырь!
По промокоду
SPECIALGIFT в @vsellm_bot дарим 500 руб на счет. А цены на GPT-4.1 и GPT-4.1-mini ниже опенроутера на 10%!7❤9👍6🔥3😁2
🚀 Вакансия в VseLLM — Middle Python Backend Developer
Привет! Мы команда VseLLM — авторы LLM Arena, самого популярного бенчмарка нейросетей в России.
Недавно запустили наш новый продукт — vsellm.ru — удобный доступ ко всем ИИ без прокси и VPN.
Сейчас расширяемся и ищем бэкенд-разработчика уровня Middle, который поможет нам развивать:
• Админку vsellm.ru
• Telegram-бота @vsellm_bot
🧩 Мы ожидаем
• Опыт Python 3+ лет
• Знание FastAPI, PostgreSQL
• Умение проектировать системы и писать тесты
• Опыт с Docker / Docker Compose
• Бонусом будет опыт разработки Telegram-ботов и работа с Kubernetes
⚙️ Условия
• Удалёнка и гибкий график
• Можно part-time (от 20 часов в неделю)
• Минимум бюрократии, максимум влияния на продукт
• Оплата — по договорённости, обсуждается индивидуально
📨 Хочешь присоединиться?
Отправь CV → @roman_kucev
Привет! Мы команда VseLLM — авторы LLM Arena, самого популярного бенчмарка нейросетей в России.
Недавно запустили наш новый продукт — vsellm.ru — удобный доступ ко всем ИИ без прокси и VPN.
Сейчас расширяемся и ищем бэкенд-разработчика уровня Middle, который поможет нам развивать:
• Админку vsellm.ru
• Telegram-бота @vsellm_bot
🧩 Мы ожидаем
• Опыт Python 3+ лет
• Знание FastAPI, PostgreSQL
• Умение проектировать системы и писать тесты
• Опыт с Docker / Docker Compose
• Бонусом будет опыт разработки Telegram-ботов и работа с Kubernetes
⚙️ Условия
• Удалёнка и гибкий график
• Можно part-time (от 20 часов в неделю)
• Минимум бюрократии, максимум влияния на продукт
• Оплата — по договорённости, обсуждается индивидуально
📨 Хочешь присоединиться?
Отправь CV → @roman_kucev
vsellm.ru
VseLLM: Единый API-доступ к лучшим LLM
Доступ к ChatGPT, Гигачату и другим моделям через один API. Оплата в рублях, закрывающие документы.
10❤8👍5🔥3😁1
Media is too big
VIEW IN TELEGRAM
Продолжаю тестировать Comet.
Как вы и просили: сделал прожарку ИИ браузера от Perplexity и дал самую интересную задачу - настроить проект по разметке в Яндекс.Заданиях.
Что из этого вышло, смотрите на видео!
0:00-0:51 постановка задачи
0:52-14:31 работа ИИ агента
14:33-16:05 разбор полетов, проверка
Как вы и просили: сделал прожарку ИИ браузера от Perplexity и дал самую интересную задачу - настроить проект по разметке в Яндекс.Заданиях.
Что из этого вышло, смотрите на видео!
0:00-0:51 постановка задачи
0:52-14:31 работа ИИ агента
14:33-16:05 разбор полетов, проверка
2🔥8😁3👍1
Forwarded from Неискусственный интеллект (Илья Склюев)
Alignment ИИ: как научить машину быть безопасной
Современные языковые модели умеют писать код, сочинять стихи и отвечать на сложные вопросы. Но как гарантировать, что ИИ-помощник не создаст инструкцию по изготовлению взрывчатки или не начнёт давать опасные медицинские советы?
Мы попросили экспертов из Data Light и «Авито» рассказать об очищении данных и работе с "выравниванием" модели.
1️⃣ Как работать с данными? (Александр Громов, CBDO Data Light)
Современные опенсорс-датасеты вроде Common Crawl содержат миллиарды веб-страниц – и там есть всё: от научных статей до токсичных комментариев. Без качественной очистки модель впитает весь этот хаос. Основные этапы следующие:
▪️ Удаление дублей. Это многоступенчатый конвейер. Сначала приводят данные к единому виду. Затем чистят точные копии через криптографические хэши. Самый трудный этап – поиск семантических дублей, переписанных разными словами текстов. Здесь используют векторные представления.
▪️ Поиск токсичности. Классификаторы на основе решений вроде fastText, быстро находят явные проблемы, также работают модераторы.
▪️ Синтетические данные. Берут сильную модель-учителя, генерируют пары «опасный запрос → безопасный отказ», применяют Constitutional AI (самостоятельная оценка ответов). Долю синтетики держат ограниченной – обычно не больше 20-30%, иначе модель переобучается на собственные шаблоны.
▪️ Визуальные данные. Используют специальные детекторы, создают "цифровые отпечатки" изображений и видео, извлекают текст из мемов и скриншотов. разметчиков.
2️⃣ Выравнивание модели (Анастасия Рысьмятова, руководитель разработки LLM в «Авито»)
“Сырая" модель ведёт себя непредсказуемо. Alignment – это искусство научить модель "хотеть" то же, что хотим мы.
▪️ Первый этап – SFT (Supervised Fine-tuning). Модель учится на тщательно подготовленных кураторских диалогах "человек-ИИ", где показаны примеры правильного поведения.
Для масштабирования процесса также используют автоматизированную генерацию диалогов, когда одна модель играет роль пользователя, другая – ассистента. Доменные эксперты проверяют фактическую точность, специалисты по безопасности контролируют соблюдение принципов.
➖ Мы также применяем DPO (обучение на парах плохих-хороших ответов). Используем датасет из 40 тысяч небезопасных запросов разного уровня. Для оценки создали специальные бенчмарки безопасности, в которых судьёй выступает другая модель (оценивает провокации и попытки джейлбрейка).
▪️ Второй этап — RFHL (обучение с обратной связью от человека). На основе человеческих предпочтений обучают отдельную модель-судью. Финальный этап – научить основную модель зарабатывать своими ответами высокие баллы.
Если оценка судьи высокая – внутренние настройки модели слегка подкручивают в сторону такого стиля ответов. При этом добавляют штраф за сильное отклонение от изначального поведения, чтобы модель оставалась "похожей на себя".
➖ Альтернатива — Constitutional AI. Дать модели явный список правил и научить самостоятельно оценивать свои ответы. Процесс выглядит так: модель генерирует ответ, критикует его согласно встроенным принципам и переписывает. При конфликте принципов используют иерархию с заранее определенными приоритетами.
❓ Главная дилемма alignment'а: как сделать модель максимально полезной, не жертвуя безопасностью? Для этого применяется контекстная модерация. Технология задаёт разные уровни строгости — от условно детского до профессионального. Ответ строится соответствующе, без совсем глупой цензуры и отказа от ответов.
@anti_agi
Современные языковые модели умеют писать код, сочинять стихи и отвечать на сложные вопросы. Но как гарантировать, что ИИ-помощник не создаст инструкцию по изготовлению взрывчатки или не начнёт давать опасные медицинские советы?
Мы попросили экспертов из Data Light и «Авито» рассказать об очищении данных и работе с "выравниванием" модели.
Современные опенсорс-датасеты вроде Common Crawl содержат миллиарды веб-страниц – и там есть всё: от научных статей до токсичных комментариев. Без качественной очистки модель впитает весь этот хаос. Основные этапы следующие:
“Сырая" модель ведёт себя непредсказуемо. Alignment – это искусство научить модель "хотеть" то же, что хотим мы.
Для масштабирования процесса также используют автоматизированную генерацию диалогов, когда одна модель играет роль пользователя, другая – ассистента. Доменные эксперты проверяют фактическую точность, специалисты по безопасности контролируют соблюдение принципов.
Если оценка судьи высокая – внутренние настройки модели слегка подкручивают в сторону такого стиля ответов. При этом добавляют штраф за сильное отклонение от изначального поведения, чтобы модель оставалась "похожей на себя".
@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍8❤6🔥5
Media is too big
VIEW IN TELEGRAM
Ура, наконец получил видео с выступления на Conversations!
В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉
В этом году Conversations снова пройдет 5 декабря в Москве. Вот что интересного для себя выделил в программе:
• LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft
• AI-агенты ловят хакера: от экспертизы до моделей — Андрей Кузнецов, Positive Technologies
Я планирую пойти, кто тоже? Полную программу можно посмотреть на сайте. А еще организаторы дали промкод на скидку 10%: CVS25mDmR
В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉
В этом году Conversations снова пройдет 5 декабря в Москве. Вот что интересного для себя выделил в программе:
• LLM для слов, MCP для цифр: как можно оптимизировать экономику проектов с помощью MCP-серверов — Иван Четвериков, Raft
• AI-агенты ловят хакера: от экспертизы до моделей — Андрей Кузнецов, Positive Technologies
Я планирую пойти, кто тоже? Полную программу можно посмотреть на сайте. А еще организаторы дали промкод на скидку 10%: CVS25mDmR
1🔥13❤9👍5
Роман с данными
Ура, наконец получил видео с выступления на Conversations! В докладе за 20 минут пояснил, почему бенчмарки лгут и как правильно оценивать LLM для бизнес-задач. Кстати, мой доклад стал лучшим по версии слушателей в техническом треке 🎉🎉🎉 В этом году Conversations…
Но это прошлогодний доклад 🥲
За год ландшафт бенчмарков заметно изменился!
Если хотите узнать, как и на каких бенчах замеряются сейчас новые LLM модели — заходите во вторник в 11 на наш вебинар!
Расскажу про GPQA-Diamond, 𝜏-Bench, OSWorld и другие популярные бенчмарки. Регистрация тут.
За год ландшафт бенчмарков заметно изменился!
Если хотите узнать, как и на каких бенчах замеряются сейчас новые LLM модели — заходите во вторник в 11 на наш вебинар!
Расскажу про GPQA-Diamond, 𝜏-Bench, OSWorld и другие популярные бенчмарки. Регистрация тут.
Telegram
Евгений Кокуйкин - Raft
Во вторник, 28 октября, проведём вебинар, где расскажем о новых функциях HiveTrace и редтиминг фреймворке HiveTrace Red.
Откроет встречу наш гость Роман Куцев с обзором бенчмарков агентных систем. Летом Роман помог переработать соответствующий раздел в гайде…
Откроет встречу наш гость Роман Куцев с обзором бенчмарков агентных систем. Летом Роман помог переработать соответствующий раздел в гайде…
2❤5👍2🔥2
Сходил на интервью к девочкам из N айтишниц — рассказал, как стал заниматься разметкой данных, и поделился самой интересной историей с работы про роботов-пылесосов 😀
Telegram
N айтишниц заходят в бар
#Типичный_айтишник этой недели организует гладиаторские бои. Неудивительно, ведь народ требует хлеба и зрелищ, а Роман – один из создателей LLM Arena!
Кто ты и что делаешь?
Я Роман Куцев, уже 8 лет занимаюсь сбором и разметкой данных для обучения ИИ. Сейчас…
Кто ты и что делаешь?
Я Роман Куцев, уже 8 лет занимаюсь сбором и разметкой данных для обучения ИИ. Сейчас…
4❤10🔥7👍3
Поделюсь обновлениями проекта VseLLM!
Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.
С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.
Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://news.1rj.ru/str/vsellm_bot.
Кроме того, что это удобное единое окно API-доступа к различным передовым моделям (с ценами ниже Openrouter), теперь еще и наши юзеры получают бесплатный доступ к настроенному и готовому n8n-серверу. Достаточно иметь просто ключ с положительным балансом и запросить приглашение прямо в боте.
С нашей платформой и n8n можно быстро собирать собственные AI-пайплайны на стабильной платформе с высокой отказоустойчивостью.
Если вы работаете с LLM или автоматизацией — ошибкой будет не попробовать самому тут — https://news.1rj.ru/str/vsellm_bot.
2🔥13❤9👍7👎6💩4🤣2
Media is too big
VIEW IN TELEGRAM
Лучшее, что я видел на этой неделе.
Как перестать напевать эту песенку?😂😂😂
Как перестать напевать эту песенку?😂😂😂
1🤣14🔥4😁4💯1
Forwarded from LLM Arena
LLM Arena совместно с Сергеем Курбановым (руководитель направления RnD в компании MWS) рады представить новый бенчмарк.
GenCode Mini Bench не содержит выводов — только чистый эксперимент и результат работы моделей.
Да, это не совсем привычный бенчмарк, но надеемся, что вам понравится его формат. Кроме того, там подключена форма обратной связи, где вы можете прислать собственные промпты, а мы каждые 2 недели будем обновлять его содержимое.
Генерации обновляются каждые 6 часов, поэтому заглядываете периодически, чтобы посмотреть на результаты различных моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤4🔥4👍1🙏1