Сегодня в 20:00 по МСК, как и всегда по воскресеньям, я запущу стрим.
Сегодня нейросети будут продолжать угадывать игры по скриншотам, Квен победил в прошлый раз, но сегодня у него будут очень сильные соперники.
Впервые на моем стриме появятся ЧатГПТ от ОпенАи и Гемини от Гугла! Эти двое это очень мощные нейросети, возможно самые мощные из существующих на данный момент.
Так как соперники у нас будут сильные то и скриншоты из игр я подобрал сложные, посмотрим как они справятся.
Стрим пройдет на Твиче, здесь: https://www.twitch.tv/tosternoscript
Сегодня нейросети будут продолжать угадывать игры по скриншотам, Квен победил в прошлый раз, но сегодня у него будут очень сильные соперники.
Впервые на моем стриме появятся ЧатГПТ от ОпенАи и Гемини от Гугла! Эти двое это очень мощные нейросети, возможно самые мощные из существующих на данный момент.
Так как соперники у нас будут сильные то и скриншоты из игр я подобрал сложные, посмотрим как они справятся.
Стрим пройдет на Твиче, здесь: https://www.twitch.tv/tosternoscript
👍11
Стрим начался, заходите: https://www.twitch.tv/tosternoscript
Twitch
TosterScript - Twitch
Мафия с Нейросетями: Фэнтези Таверна
🔥9
Forwarded from Krist/Blog
RuQualBench 🐸
Я сделал бенчмарк для оценки качества русского языка в LLM. Подробности:
- Набор из 100 (по умолчанию)/250/500 вопросов по general chat/creative writing доменам.
- LLM as a Judge, но с четкими критериями разметки ответов.
- Упор на типичные для LLM ошибки на русском (перепутанные рода, "китайщина", выдуманные слова).
- Всё под открытой лицензией!
Анализ результатов:
- Лучшими моделями всё еще остаются закрытые (в частности, Sonnet 4.5, Gemini, GPT-4o). Но некоторые открытые очень близки.
- GPT-5 ужасна. Я думал, что она лучше.
- Из открытых моделей Gemma-3-27b-it и Vistral-24B оказались вне конкуренции.
- Ruadapt значительно уменьшает количество ошибок относительно Qwen.
- Qwen3 и GPT-oss очень плохи. Даже хуже, чем я ожидал.
- Qwen3-Next лучше, чем Qwen3. Похоже, туда долили русского языка.
- У DeepSeek V3 мало ошибок, но актуальная V3.2-Exp почти в 2 раза хуже.
Лидерборд, код и данные
Я сделал бенчмарк для оценки качества русского языка в LLM. Подробности:
- Набор из 100 (по умолчанию)/250/500 вопросов по general chat/creative writing доменам.
- LLM as a Judge, но с четкими критериями разметки ответов.
- Упор на типичные для LLM ошибки на русском (перепутанные рода, "китайщина", выдуманные слова).
- Всё под открытой лицензией!
Анализ результатов:
- Лучшими моделями всё еще остаются закрытые (в частности, Sonnet 4.5, Gemini, GPT-4o). Но некоторые открытые очень близки.
- GPT-5 ужасна. Я думал, что она лучше.
- Из открытых моделей Gemma-3-27b-it и Vistral-24B оказались вне конкуренции.
- Ruadapt значительно уменьшает количество ошибок относительно Qwen.
- Qwen3 и GPT-oss очень плохи. Даже хуже, чем я ожидал.
- Qwen3-Next лучше, чем Qwen3. Похоже, туда долили русского языка.
- У DeepSeek V3 мало ошибок, но актуальная V3.2-Exp почти в 2 раза хуже.
Лидерборд, код и данные
❤6👍4👏3
👆интересный лидерборд, хоть и есть странности.
C Qwen3 как-то странно, как будто размер модели никак не влияет на качество, 32b обходит и 235b и 8b. Но тут всякое может быть, если для разработчиков модели русский язык не приоритет то качество может скакать независимо от размера модели.
Больше всего меня смущают модели от OpenAi. Разве GPT-5 плох в русском языке? Я с ним все время разговариваю по русски и каких-то проблем не замечал. При этом GPT-4o на втором месте, до выхода GPT-5 я обычно только с ним и разговаривал, и какой-то особой разницы в "обычных" разговорах между GPT-4o и GPT-5 я не заметил. А судя по лидерборду разница должна была бы быть ощутимая.
Но в любом случае очень хорошо что такой лидерборд есть, да и код открытый: https://github.com/kristaller486/RuQualBench
C Qwen3 как-то странно, как будто размер модели никак не влияет на качество, 32b обходит и 235b и 8b. Но тут всякое может быть, если для разработчиков модели русский язык не приоритет то качество может скакать независимо от размера модели.
Больше всего меня смущают модели от OpenAi. Разве GPT-5 плох в русском языке? Я с ним все время разговариваю по русски и каких-то проблем не замечал. При этом GPT-4o на втором месте, до выхода GPT-5 я обычно только с ним и разговаривал, и какой-то особой разницы в "обычных" разговорах между GPT-4o и GPT-5 я не заметил. А судя по лидерборду разница должна была бы быть ощутимая.
Но в любом случае очень хорошо что такой лидерборд есть, да и код открытый: https://github.com/kristaller486/RuQualBench
GitHub
GitHub - kristaller486/RuQualBench: RuQualBench: A benchmark for evaluating the quality of the Russian language in LLM responses
RuQualBench: A benchmark for evaluating the quality of the Russian language in LLM responses - kristaller486/RuQualBench
👏5
Выложил запись вчерашнего стрима: https://vkvideo.ru/video-227821233_456239040
И да, спасибо moushgh за донат сделанный во время трансляции!
Думаю, мы пока закончим с отгадыванием игр по скриншотам, тем более что мы нашли сильнейшую в этом деле нейросеть. В это воскресенье займемся на стриме кое чем новым (но это новое еще нужно реализовать).
И да, спасибо moushgh за донат сделанный во время трансляции!
Думаю, мы пока закончим с отгадыванием игр по скриншотам, тем более что мы нашли сильнейшую в этом деле нейросеть. В это воскресенье займемся на стриме кое чем новым (но это новое еще нужно реализовать).
VK Видео
Нейросети угадывают игры по скриншотам. Запись стрима 26 октября
Что бы не пропустить будущие трансляции подпишись на канал: https://news.1rj.ru/str/TosterScript И подписывайтесь на мой Твич канал: https://www.twitch.tv/tosternoscript
👏6👍2💋1
Forwarded from Krist/Blog
Дополнение по поводу качества русского языка в Qwen3.
Я добавил в лидерборд новую Qwen3-VL-32B и оказалось, что у неё в целом всё не так уж и плохо с русским языком (на уровне Haiku). Мне показалось это странным, потому что старший Qwen3-235B-A22B-2507-Instruct находится где-то совсем внизу списка. Потом я добавил старый Qwen3-32B и он тоже оказался выше, чем 235B-2507-Instruct. Напрашивается два вывода: бенчмарк не отражает качество русского языка или с API Alibaba, через который тестировалась модель (а точнее, через опенроутер с закрепленным провайдером) что-то не так. Поскольку по всем остальным моделям оценка вполне совпадает как с личными ощущениями, так и прочитанными логами бенчмарка, проблема с API Alibaba - главный подозреваемый.
Я перетестил Qwen3-235B-A22B-2507-Instruct через Google Vertex AI API и модель из конца списка поднялась в самое начало. Я почитал логи - ошибок стало значительно меньше и они менее критичные, то есть, всё совпало с оценкой бенчмарка.
Какие можно сделать выводы:
1. Нельзя слепо доверять официальному провайдеру модели, он тоже может быть плохим. Возможно это относится и к Qwen Chat.
2. Не стоит использовать Alibaba API, по крайней мере через openrouter. Лучше выбрать альтернативу или поднять модель локально.
3. Семь раз отмерь, один раз опубликуй.
Я добавил в лидерборд новую Qwen3-VL-32B и оказалось, что у неё в целом всё не так уж и плохо с русским языком (на уровне Haiku). Мне показалось это странным, потому что старший Qwen3-235B-A22B-2507-Instruct находится где-то совсем внизу списка. Потом я добавил старый Qwen3-32B и он тоже оказался выше, чем 235B-2507-Instruct. Напрашивается два вывода: бенчмарк не отражает качество русского языка или с API Alibaba, через который тестировалась модель (а точнее, через опенроутер с закрепленным провайдером) что-то не так. Поскольку по всем остальным моделям оценка вполне совпадает как с личными ощущениями, так и прочитанными логами бенчмарка, проблема с API Alibaba - главный подозреваемый.
Я перетестил Qwen3-235B-A22B-2507-Instruct через Google Vertex AI API и модель из конца списка поднялась в самое начало. Я почитал логи - ошибок стало значительно меньше и они менее критичные, то есть, всё совпало с оценкой бенчмарка.
Какие можно сделать выводы:
1. Нельзя слепо доверять официальному провайдеру модели, он тоже может быть плохим. Возможно это относится и к Qwen Chat.
2. Не стоит использовать Alibaba API, по крайней мере через openrouter. Лучше выбрать альтернативу или поднять модель локально.
3. Семь раз отмерь, один раз опубликуй.
🔥9
👆По своему опыту могу сказать - почему-то именно в случае с китайскими моделями качество очень сильно зависит от провайдера. Можно было бы предположить что дело в том что это у опенсорсных моделей качество зависит от провайдера, но почему-то с Gemma или с gpt-oss у меня в опенроутере проблем нет, а вот с китайскими Qwen или deepseek постоянно что-то не так.
👍6❤1
Forwarded from [31/100] Витя Тарнавский
Яндекс выкатил большой апдейт для Алисы - Алиса AI.
Давайте для начала расскажу, что рынок пользовательского AI – это игра в дистрибуцию, а не в технологии. Вот так.
Думаете, люди реально сравнивают ChatGPT и Claude? Пару человек может и сравнивает. Массово люди пробуют о чем услышали и до чего дотянулись, и если оно задачу решает, ему ок.
Deepseek в РФ имеет невероятную популярность, хотя он на две головы хуже.
История аналогична старому поиску. Выигрывает тот, кто встанет по-умолчанию на устройство, а не тот, у кого поиск лучше.
Конечно, нужен базовый технологический "достаточный" уровень. Это сложная задача, которая под силу только гигантам сейчас. Но коммодитизация уже происходит.
Яндекс в релизе много рассказывает что Алиса "умнее". Им нужно пройти барьер "люди считают что Алиса умная". Но реальная война начнется в дистрибуции – и у Яндекса здесь самые сильные позиции в РФ, включая 70% рынка поиска и 35% рынка браузеров. Можно обратить внимание "везде, бесплатно и без VPN" в конце лендинга.
Ещё из интересного:
1. Яндекс заранее бронирует территорию "делаем за вас" через агентов – хотя сейчас таких агентов нет совсем, всё "coming soon". Тут ждем хоть чего-нибудь работающего.
2. Наконец-то wearables наушник с AI! Меня послушали 💅
Самый большой риск для Яндекса, как я это вижу, это "границы откроются" и сюда полноценно придут Google и OpenAI. Дистрибуция это еще и бренд – и все знают про ChatGPT.
Давайте для начала расскажу, что рынок пользовательского AI – это игра в дистрибуцию, а не в технологии. Вот так.
Думаете, люди реально сравнивают ChatGPT и Claude? Пару человек может и сравнивает. Массово люди пробуют о чем услышали и до чего дотянулись, и если оно задачу решает, ему ок.
Deepseek в РФ имеет невероятную популярность, хотя он на две головы хуже.
История аналогична старому поиску. Выигрывает тот, кто встанет по-умолчанию на устройство, а не тот, у кого поиск лучше.
Конечно, нужен базовый технологический "достаточный" уровень. Это сложная задача, которая под силу только гигантам сейчас. Но коммодитизация уже происходит.
Яндекс в релизе много рассказывает что Алиса "умнее". Им нужно пройти барьер "люди считают что Алиса умная". Но реальная война начнется в дистрибуции – и у Яндекса здесь самые сильные позиции в РФ, включая 70% рынка поиска и 35% рынка браузеров. Можно обратить внимание "везде, бесплатно и без VPN" в конце лендинга.
Ещё из интересного:
1. Яндекс заранее бронирует территорию "делаем за вас" через агентов – хотя сейчас таких агентов нет совсем, всё "coming soon". Тут ждем хоть чего-нибудь работающего.
2. Наконец-то wearables наушник с AI! Меня послушали 💅
Самый большой риск для Яндекса, как я это вижу, это "границы откроются" и сюда полноценно придут Google и OpenAI. Дистрибуция это еще и бренд – и все знают про ChatGPT.
👍3
Яндекс находиться в идеальной позиции по отношению к ИИ.
Западные конкуренты сами сторонятся российского рынка, а китайцы на российский рынок не лезут (хотя могли бы). Выходит среди конкурентов только Сбер, и у Сбера стартовые условия хуже чем у Яндекса.
У Яндекса есть браузер, есть устройства, куча популярных приложений, то есть уже есть "точки входа" на аудиторию.
У Яндекса есть данные о юзерах, что люди ищут, куда кликают. Для нейросетей нужны данные и они у Яндекса есть.
Но сама по себе нейросеть это просто чат который генерирует текст, что бы реально помогать юзеру ей нужны инструменты, сервисы, и все это у Яндекса тоже есть: карты, поиск, навигация, кино, еда и тд, во все это можно интегрировать нейросеть, научить обращаться к этим сервисам, работать с ними. Именно это Яндекс и обещает реализовать, и у них есть все предпосылки к этому.
Если смотреть на "потребительское" использование ИИ то у Яндекса ситуация лучше некуда. И они это прекрасно понимают, весь их лендинг он про что https://alice.yandex.ru/about (сам по себе лендинг правда сделан ужасно, вообще не уровень яндекса, но месседж понятный) ? Про бытовое использование нейросетей.
Такое чувство что в России сложиться ситуация когда у нас будет разделение на "бытовые" и "профессиональные" нейросети. Условно говоря программисты будут применять ЧатГПТ или Клод в своей работе, но если нужно заказать такси - это будет делать Алиса.
Западные конкуренты сами сторонятся российского рынка, а китайцы на российский рынок не лезут (хотя могли бы). Выходит среди конкурентов только Сбер, и у Сбера стартовые условия хуже чем у Яндекса.
У Яндекса есть браузер, есть устройства, куча популярных приложений, то есть уже есть "точки входа" на аудиторию.
У Яндекса есть данные о юзерах, что люди ищут, куда кликают. Для нейросетей нужны данные и они у Яндекса есть.
Но сама по себе нейросеть это просто чат который генерирует текст, что бы реально помогать юзеру ей нужны инструменты, сервисы, и все это у Яндекса тоже есть: карты, поиск, навигация, кино, еда и тд, во все это можно интегрировать нейросеть, научить обращаться к этим сервисам, работать с ними. Именно это Яндекс и обещает реализовать, и у них есть все предпосылки к этому.
Если смотреть на "потребительское" использование ИИ то у Яндекса ситуация лучше некуда. И они это прекрасно понимают, весь их лендинг он про что https://alice.yandex.ru/about (сам по себе лендинг правда сделан ужасно, вообще не уровень яндекса, но месседж понятный) ? Про бытовое использование нейросетей.
Такое чувство что в России сложиться ситуация когда у нас будет разделение на "бытовые" и "профессиональные" нейросети. Условно говоря программисты будут применять ЧатГПТ или Клод в своей работе, но если нужно заказать такси - это будет делать Алиса.
Новая Алиса AI
Самая мощная нейросеть Яндекса. Решает реальные задачи, отвечает с картинками и видео, оживляет фото, помогает творить. Попробуйте.
👍15👎3❤1🤡1
Affinity сделали все свои программы бесплатными, вернее, они выпустили одну программу внутри которой тот же функционал работы с векторной и растровой графикой который был в старых программах: https://www.affinity.studio/
Я когда-то купил Affinity Photo и Affinity Designer, в отличие от Адобов Аффинити можно было купить один раз и пользоваться постоянно, правда что бы получить новую мажорную версию нужно было покупать ее еще раз, так что я просто сидел на старой версии.
Хороший софт для работы с графикой, все что связано с графикой я делаю именно в нем.
И да, там теперь прикручены нейросети, и вот за это нужно платить.
Я когда-то купил Affinity Photo и Affinity Designer, в отличие от Адобов Аффинити можно было купить один раз и пользоваться постоянно, правда что бы получить новую мажорную версию нужно было покупать ее еще раз, так что я просто сидел на старой версии.
Хороший софт для работы с графикой, все что связано с графикой я делаю именно в нем.
И да, там теперь прикручены нейросети, и вот за это нужно платить.
Affinity
Affinity | Professional Creative Software, Free for Everyone
Powerful, precise, and free forever. Discover Affinity — the next generation of professional photo, design, and layout software built for creative freedom.
👍9
Forwarded from Откровения от Олега
Участвую в жюри конкурса про создание опенсорса.
Напишу совершенно анонимно, чтобы никого не обидеть.
Возможно, это только я собрал бинго. За всех не скажу.
У меня выводы достаточно шокирующие.
Пользуясь наличием AI, люди начали решать задачи в каком-то эпохальном количестве, заливая всё нейрослопом.
Общий паттерн такой: одна задача обычно сделана хорошо, а другие написаны целиком в AI и немного поправлены.
В другие времена люди бы просто не взялись бы делать дополнительные задачи.
А сейчас - почему бы и нет? Авось прокатит.
Никогда в прошлом люди не смогли бы написать столько кода всего за несколько часов хакатона. Это поворотный момент в истории.
Всего за неделю мне пришлось отсмотреть решения более 40 команд, многие из которых сделали сразу по нескольку задач. Это очень много для одного человека. Я чуть не расплавился всё это проверять. Даже отменил все совещания на работе в четверг и пятницу - иначе было не успеть.
ИНСАЙТЫ
1) Больше 60 процентов решений не работают из коробки. Совсем недавно такой код даже не стали бы рассматривать. Но Бог придумал зумеров, и к ним нужно относиться как к зумерам. Я все равно рассматривал задачки, где авторы что-то забыли написать в README, типа забытых питоновских библиотек. Просто за это штрафы. Господи, как же мы могли докатиться до момента, когда люди сдают работу вообще не тестируя?
2) Тотальная эпидемия AI слопа. Люди используют несуществующие API и библиотеки, даже не удосужившись проверить, что их код запускается. Сдают не используемые нигде функции, пропущенные импорты, несуществующие переменные. Один чел настолько не заморачивался, что отправил мне решение в виде пустого проекта, где в текстовике лежал сгенерированный промт.
3) Бессвязность. Часть задач сдана не по адресу: у меня задачки про Git, а мне присылают на оценку модули ядра Linux. Часть имеет очень странную структуру директорий. Было несколько человек, которые прислали вордовские файлы с описанием того, что они хотели сделать, но не сделали. Т.е. без кода вообще. Один чел прислал DEB пакеты без исходников. Я не знаю, чем они там упарываются, но я тоже хочу!
4) Readme погенерены нейросетями, поэтому они могут вообще не соответствовать коду. Readme может обещать несуществующую функциональность. Или наоборот - существующая функциональность никак не указана в Readme. Конечно, по большей части, в Readme ты Лев Толстой, а на деле...
5) Большая часть кода написана на Python и JS, тестировать их достаточно сложно. Хотя были люди, которые наоборот, писали всё на C++ - на языке, который нейросети знают плохо, который медленно компилируется и тяжко проверятся. Вот зачем, ну зачем?
5) Больше половины кода можно считать за тотальный провал. Всего несколько решений что-то делают, и только парочку можно считать сколько-то работающими. При этом, AI-сгенерированный код, который вообще не проверяли, чаще всего приводил к полной недееспособности проекта - вплоть до того, что я сдавался в попытках это запустить и просто ставил ноль.
ГЛАВНЫЕ УРОКИ:
- Не подписываться на проверку сложных заданий в короткие сроки. Совершенно неясно, сколько людей придет их делать.
- Quality != Quantity. Мы дожили до кризиса тестирования: тестировать задачи теперь сложнее, чем писать код реализации.
- Корреляция языка и качества. Решения на Rust самые крутые.
- О распределенных системах никто не хочет думать. В задачке на распределенность, больше половины решений работают в режиме single node.
- Мало кто понимает, на что способны Git и Systemd. Даже с нейросетями. Чтобы нейросеть подсказала тебе крутое решение - нужно задать хороший вопрос.
===
Как-то так. Держу в курсе. Скоро будет еще один конкурс, посмотрим как повторяются наблюдения
Напишу совершенно анонимно, чтобы никого не обидеть.
Возможно, это только я собрал бинго. За всех не скажу.
У меня выводы достаточно шокирующие.
Пользуясь наличием AI, люди начали решать задачи в каком-то эпохальном количестве, заливая всё нейрослопом.
Общий паттерн такой: одна задача обычно сделана хорошо, а другие написаны целиком в AI и немного поправлены.
В другие времена люди бы просто не взялись бы делать дополнительные задачи.
А сейчас - почему бы и нет? Авось прокатит.
Никогда в прошлом люди не смогли бы написать столько кода всего за несколько часов хакатона. Это поворотный момент в истории.
Всего за неделю мне пришлось отсмотреть решения более 40 команд, многие из которых сделали сразу по нескольку задач. Это очень много для одного человека. Я чуть не расплавился всё это проверять. Даже отменил все совещания на работе в четверг и пятницу - иначе было не успеть.
ИНСАЙТЫ
1) Больше 60 процентов решений не работают из коробки. Совсем недавно такой код даже не стали бы рассматривать. Но Бог придумал зумеров, и к ним нужно относиться как к зумерам. Я все равно рассматривал задачки, где авторы что-то забыли написать в README, типа забытых питоновских библиотек. Просто за это штрафы. Господи, как же мы могли докатиться до момента, когда люди сдают работу вообще не тестируя?
2) Тотальная эпидемия AI слопа. Люди используют несуществующие API и библиотеки, даже не удосужившись проверить, что их код запускается. Сдают не используемые нигде функции, пропущенные импорты, несуществующие переменные. Один чел настолько не заморачивался, что отправил мне решение в виде пустого проекта, где в текстовике лежал сгенерированный промт.
3) Бессвязность. Часть задач сдана не по адресу: у меня задачки про Git, а мне присылают на оценку модули ядра Linux. Часть имеет очень странную структуру директорий. Было несколько человек, которые прислали вордовские файлы с описанием того, что они хотели сделать, но не сделали. Т.е. без кода вообще. Один чел прислал DEB пакеты без исходников. Я не знаю, чем они там упарываются, но я тоже хочу!
4) Readme погенерены нейросетями, поэтому они могут вообще не соответствовать коду. Readme может обещать несуществующую функциональность. Или наоборот - существующая функциональность никак не указана в Readme. Конечно, по большей части, в Readme ты Лев Толстой, а на деле...
5) Большая часть кода написана на Python и JS, тестировать их достаточно сложно. Хотя были люди, которые наоборот, писали всё на C++ - на языке, который нейросети знают плохо, который медленно компилируется и тяжко проверятся. Вот зачем, ну зачем?
5) Больше половины кода можно считать за тотальный провал. Всего несколько решений что-то делают, и только парочку можно считать сколько-то работающими. При этом, AI-сгенерированный код, который вообще не проверяли, чаще всего приводил к полной недееспособности проекта - вплоть до того, что я сдавался в попытках это запустить и просто ставил ноль.
ГЛАВНЫЕ УРОКИ:
- Не подписываться на проверку сложных заданий в короткие сроки. Совершенно неясно, сколько людей придет их делать.
- Quality != Quantity. Мы дожили до кризиса тестирования: тестировать задачи теперь сложнее, чем писать код реализации.
- Корреляция языка и качества. Решения на Rust самые крутые.
- О распределенных системах никто не хочет думать. В задачке на распределенность, больше половины решений работают в режиме single node.
- Мало кто понимает, на что способны Git и Systemd. Даже с нейросетями. Чтобы нейросеть подсказала тебе крутое решение - нужно задать хороший вопрос.
===
Как-то так. Держу в курсе. Скоро будет еще один конкурс, посмотрим как повторяются наблюдения
🔥12
Сегодня, как и всегда по воскресеньям, в 20:00 я запущу стрим на Твиче: https://www.twitch.tv/tosternoscript
Сегодня стрим будет особенный, во первых в нашу нейро-семью вступают китайская модель DeepSeek и французская Мистраль!
Во вторых, впервые на моем стриме нейросети будут общаться между собой, до этого они всегда разговаривали только со мной, но сегодня они будут свободно общаться друг с другом.
В третьих, сегодня будет аж пять участников, помимо Дипсика и Мистраль сегодня к нам придут Грок, ЯндексГПТ и Гемма. Пять нейросети из четырех стран 🇫🇷🇺🇸🇷🇺🇨🇳.
А что будем обсуждать на стриме? Будем составлять тир лист лучших ии-корпораций мира, посмотрим что разные нейросети думают о различных компаниях.
В комментах, к слову, можете предлагать какие ии-компании можно дать нейросетям на обсуждение.
Сегодня стрим будет особенный, во первых в нашу нейро-семью вступают китайская модель DeepSeek и французская Мистраль!
Во вторых, впервые на моем стриме нейросети будут общаться между собой, до этого они всегда разговаривали только со мной, но сегодня они будут свободно общаться друг с другом.
В третьих, сегодня будет аж пять участников, помимо Дипсика и Мистраль сегодня к нам придут Грок, ЯндексГПТ и Гемма. Пять нейросети из четырех стран 🇫🇷🇺🇸🇷🇺🇨🇳.
А что будем обсуждать на стриме? Будем составлять тир лист лучших ии-корпораций мира, посмотрим что разные нейросети думают о различных компаниях.
В комментах, к слову, можете предлагать какие ии-компании можно дать нейросетям на обсуждение.
❤7👍3
https://www.twitch.tv/tosternoscript - стрим начался, заходите.
Twitch
TosterScript - Twitch
Мафия с Нейросетями: Фэнтези Таверна
👍6
Загрузил запись прошедшего стрима сюда: https://vkvideo.ru/video-227821233_456239041
Спасибо isRiko и inixid за донаты!
В комментах будет спойлер к стриму.
Спасибо isRiko и inixid за донаты!
В комментах будет спойлер к стриму.
VK Видео
Тир лист лучших ИИ-компаний с точки зрения нейросетей. Стрим от 2 ноября 2025
Что бы не пропустить будущие трансляции подпишись на канал: https://news.1rj.ru/str/TosterScript Подписывайтесь на мой Твич канал: https://www.twitch.tv/tosternoscript
Печальные новости, ЧатГПТ теперь не будет консультировать по медицинским и юридическим вопросам: https://www.rbc.ru/technology_and_media/01/11/2025/69060ead9a79477f5ef60bab
И более того, я так понимаю что даже если удаться подобрать промт при помощи которого получиться расспросить ЧатГПТ по таким вопросам то ОпенАи может за это просто забанить аккаунт.
Мое предсказание - скоро такие же фильтры включат в Гемини, потом в Клоде (Антропик), дольше всех будет сопротивляться Грок, но рано или поздно Илону Маску придется сдать позиции.
Если почитать комменты к моему видосу про установку локальной модели на комп: https://youtu.be/Bzn1r7zkHys то там очень много было вопросов в духе "А зачем нужны глупые локальные модели если есть ЧатГПТ?", ну, вот сама жизнь постепенно дает ответы на эти вопросы.
И более того, я так понимаю что даже если удаться подобрать промт при помощи которого получиться расспросить ЧатГПТ по таким вопросам то ОпенАи может за это просто забанить аккаунт.
Мое предсказание - скоро такие же фильтры включат в Гемини, потом в Клоде (Антропик), дольше всех будет сопротивляться Грок, но рано или поздно Илону Маску придется сдать позиции.
Если почитать комменты к моему видосу про установку локальной модели на комп: https://youtu.be/Bzn1r7zkHys то там очень много было вопросов в духе "А зачем нужны глупые локальные модели если есть ЧатГПТ?", ну, вот сама жизнь постепенно дает ответы на эти вопросы.
РБК
Open AI запретила ChatGPT давать консультации по праву и медицине
Согласно новой политике OpenAI, ChatGPT больше не сможет консультировать пользователей по юридическим вопросам. Также это относится к медицине, финансовой деятельности, трудоустройству и национальной
🤔7❤3🤬1
Forwarded from Глеб Кудрявцев про AI кодинг
В твиттерах скандальчик, что новые собственные модельки Курсора и Windsurf представляют собой дообученых китайцев.
Чтож, если это так, что впервые можно сказать, что китайцы уже на что-то способны. Раньше это были слезы, так что вести отрадные для всех (для РФ же это значит, что не за горами аналоги от Яндекса и Т-банка, которыми уже более менее можно пользоваться).
Чтож, если это так, что впервые можно сказать, что китайцы уже на что-то способны. Раньше это были слезы, так что вести отрадные для всех (для РФ же это значит, что не за горами аналоги от Яндекса и Т-банка, которыми уже более менее можно пользоваться).
😁5❤2👍2👏2
👆 Вообще люди которые ноют про то что модели Т-банка это "не настоящие модели" потому что это дообученный Квен или что модели Авито это Квен, или Windsurf, или что угодно еще плохо понимают что такое разработка софта.
Ничего плохого, или даже необычного в том что бы создавать свою модель на базе уже существующей опенсорсной модели нет.
Вообще-то весь современный софт создается на базе опенсорса, и нейросетевые модели это тоже софт. Никто ведь не жалуется на то что "а почему это они использую Reactjs для рендеринга сайта, нужно свой рендеринг были написать!" или "почему они используют PostgreSQL?! Они должны были создать свою собственную базу данных с нуля!".
Такие претензии совершенно нелепы когда речь идет о разработке софта, но почему-то когда речь заходит о нейросетевых моделях это воспринимается в качестве серьезного аргумента.
Ничего плохого, или даже необычного в том что бы создавать свою модель на базе уже существующей опенсорсной модели нет.
Вообще-то весь современный софт создается на базе опенсорса, и нейросетевые модели это тоже софт. Никто ведь не жалуется на то что "а почему это они использую Reactjs для рендеринга сайта, нужно свой рендеринг были написать!" или "почему они используют PostgreSQL?! Они должны были создать свою собственную базу данных с нуля!".
Такие претензии совершенно нелепы когда речь идет о разработке софта, но почему-то когда речь заходит о нейросетевых моделях это воспринимается в качестве серьезного аргумента.
❤18👍4
Forwarded from Борис опять
Оказалось, что альфа арена это хороший способ замерить сколько популярных телеграм каналов попадутся на нейрослопе
Вот, например, канал ODS на основании худшего бенчмарка в мире делает вывод, что QWEN у нас оказывается уже AGI
Upd: не заметил, что это репост, но вопросов к контролю качества это не снимает
😱 😱 😱
Вот, например, канал ODS на основании худшего бенчмарка в мире делает вывод, что QWEN у нас оказывается уже AGI
Upd: не заметил, что это репост, но вопросов к контролю качества это не снимает
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут провели так называемую Альфа Арену где заставили разные нейросети торговать на крипто бирже, каждой выдали по $10k денег. У Бориса горит с того что куча телеграм каналов и СМИ восприняли этот нулевой по ценности "бенчмарк" как что-то что реально отражает интеллектуальные способности нейросетей.
Вот тут он пишет подробнее про то почему это совершенно бессмысленный бенчмарк (на инглише): https://borisagain.substack.com/p/why-alpha-arena-is-literally-the
"Победил" в этом состязании Квен, но с тем же успехом они могли бы сравнивать генераторы рандомных чисел, нейросетям не дали ни достаточного количества информации, ни достаточного количества времени, ни инструментов.
Да и сам крипторынок это максимально рандомная среда, на момент проведения "эксперемента" весь крипторынок падал так что все нейросети, закономерно, ушли в минус.
Но мы действительно получили полезную информацию, не о нейросетях, но о телеграм каналах которые с восторгами писали про Альфа Арену и всерьез оценивали ее "результаты".
Вот тут он пишет подробнее про то почему это совершенно бессмысленный бенчмарк (на инглише): https://borisagain.substack.com/p/why-alpha-arena-is-literally-the
"Победил" в этом состязании Квен, но с тем же успехом они могли бы сравнивать генераторы рандомных чисел, нейросетям не дали ни достаточного количества информации, ни достаточного количества времени, ни инструментов.
Да и сам крипторынок это максимально рандомная среда, на момент проведения "эксперемента" весь крипторынок падал так что все нейросети, закономерно, ушли в минус.
Но мы действительно получили полезную информацию, не о нейросетях, но о телеграм каналах которые с восторгами писали про Альфа Арену и всерьез оценивали ее "результаты".
Substack
Why Alpha Arena is literally the worst
How not to make a benchmark. Also: keep your grifting off my AI lawn.
🔥2👍1
Сделал шорт из того самого момента на стриме когда Гигачат попытался угадать по скриншоту игру Смута (думаю все кто присутствовал запомнили это):
https://www.youtube.com/shorts/KziLSFtKpwo - ютуб.
https://www.tiktok.com/@tosternoscript/video/7570065138468801800 - да, я завел себе тиктак.
В конце шорта будет камео чата Твича 😉.
https://www.youtube.com/shorts/KziLSFtKpwo - ютуб.
https://www.tiktok.com/@tosternoscript/video/7570065138468801800 - да, я завел себе тиктак.
В конце шорта будет камео чата Твича 😉.
YouTube
Смогут ли ИИ отгадать игру Смута по скриншоту? #ai #нейросети #нейросетьзахватитмир #смута
Это был фрагмент с моего стрима, что бы не пропустить будущие трансляции подписывайтесь на мой телеграм канал: 📡 https://news.1rj.ru/str/TosterScript - там я сообщаю о...
👏12❤1
Тут к моему шорту кто-то написал коммент что Алиса смогла отгадать игру Смута, я решил проверить в веб интерфейсе, и да, она реально угадала.
Для справедливости я пошел в веб интерфейс Гигачата и спросил тот же самый вопрос с тем же скриншотом, и он ответил... что это Pathfinder: Kingmaker 😕.
Короче, Яндекс, если ты меня слышишь, выкатывай уже в API доступ распознавание картинок.
Для справедливости я пошел в веб интерфейс Гигачата и спросил тот же самый вопрос с тем же скриншотом, и он ответил... что это Pathfinder: Kingmaker 😕.
Короче, Яндекс, если ты меня слышишь, выкатывай уже в API доступ распознавание картинок.
👍20❤1🤮1