Тостер Скрипт – Telegram
Тостер Скрипт
4.75K subscribers
121 photos
13 videos
4 files
165 links
Канал Тостера который устраивает игры и состязания между нейросетями.

Ютуб: https://www.youtube.com/@TosterScriptOne
Твич: https://www.twitch.tv/tosternoscript
Второй ютуб: https://www.youtube.com/@TosterScriptTwo

Почта: tosternoscript@yandex.ru
Download Telegram
Яндекс выкатил большой апдейт для Алисы - Алиса AI.

Давайте для начала расскажу, что рынок пользовательского AI – это игра в дистрибуцию, а не в технологии. Вот так.

Думаете, люди реально сравнивают ChatGPT и Claude? Пару человек может и сравнивает. Массово люди пробуют о чем услышали и до чего дотянулись, и если оно задачу решает, ему ок.

Deepseek в РФ имеет невероятную популярность, хотя он на две головы хуже.

История аналогична старому поиску. Выигрывает тот, кто встанет по-умолчанию на устройство, а не тот, у кого поиск лучше.

Конечно, нужен базовый технологический "достаточный" уровень. Это сложная задача, которая под силу только гигантам сейчас. Но коммодитизация уже происходит.

Яндекс в релизе много рассказывает что Алиса "умнее". Им нужно пройти барьер "люди считают что Алиса умная". Но реальная война начнется в дистрибуции – и у Яндекса здесь самые сильные позиции в РФ, включая 70% рынка поиска и 35% рынка браузеров. Можно обратить внимание "везде, бесплатно и без VPN" в конце лендинга.

Ещё из интересного:
1. Яндекс заранее бронирует территорию "делаем за вас" через агентов – хотя сейчас таких агентов нет совсем, всё "coming soon". Тут ждем хоть чего-нибудь работающего.
2. Наконец-то wearables наушник с AI! Меня послушали 💅

Самый большой риск для Яндекса, как я это вижу, это "границы откроются" и сюда полноценно придут Google и OpenAI. Дистрибуция это еще и бренд – и все знают про ChatGPT.
👍3
Яндекс находиться в идеальной позиции по отношению к ИИ.

Западные конкуренты сами сторонятся российского рынка, а китайцы на российский рынок не лезут (хотя могли бы). Выходит среди конкурентов только Сбер, и у Сбера стартовые условия хуже чем у Яндекса.

У Яндекса есть браузер, есть устройства, куча популярных приложений, то есть уже есть "точки входа" на аудиторию.

У Яндекса есть данные о юзерах, что люди ищут, куда кликают. Для нейросетей нужны данные и они у Яндекса есть.

Но сама по себе нейросеть это просто чат который генерирует текст, что бы реально помогать юзеру ей нужны инструменты, сервисы, и все это у Яндекса тоже есть: карты, поиск, навигация, кино, еда и тд, во все это можно интегрировать нейросеть, научить обращаться к этим сервисам, работать с ними. Именно это Яндекс и обещает реализовать, и у них есть все предпосылки к этому.

Если смотреть на "потребительское" использование ИИ то у Яндекса ситуация лучше некуда. И они это прекрасно понимают, весь их лендинг он про что https://alice.yandex.ru/about (сам по себе лендинг правда сделан ужасно, вообще не уровень яндекса, но месседж понятный) ? Про бытовое использование нейросетей.

Такое чувство что в России сложиться ситуация когда у нас будет разделение на "бытовые" и "профессиональные" нейросети. Условно говоря программисты будут применять ЧатГПТ или Клод в своей работе, но если нужно заказать такси - это будет делать Алиса.
👍15👎31🤡1
Affinity сделали все свои программы бесплатными, вернее, они выпустили одну программу внутри которой тот же функционал работы с векторной и растровой графикой который был в старых программах: https://www.affinity.studio/

Я когда-то купил Affinity Photo и Affinity Designer, в отличие от Адобов Аффинити можно было купить один раз и пользоваться постоянно, правда что бы получить новую мажорную версию нужно было покупать ее еще раз, так что я просто сидел на старой версии.

Хороший софт для работы с графикой, все что связано с графикой я делаю именно в нем.

И да, там теперь прикручены нейросети, и вот за это нужно платить.
👍9
Участвую в жюри конкурса про создание опенсорса.
Напишу совершенно анонимно, чтобы никого не обидеть.

Возможно, это только я собрал бинго. За всех не скажу.
У меня выводы достаточно шокирующие.

Пользуясь наличием AI, люди начали решать задачи в каком-то эпохальном количестве, заливая всё нейрослопом.
Общий паттерн такой: одна задача обычно сделана хорошо, а другие написаны целиком в AI и немного поправлены.

В другие времена люди бы просто не взялись бы делать дополнительные задачи.
А сейчас - почему бы и нет? Авось прокатит.

Никогда в прошлом люди не смогли бы написать столько кода всего за несколько часов хакатона. Это поворотный момент в истории.

Всего за неделю мне пришлось отсмотреть решения более 40 команд, многие из которых сделали сразу по нескольку задач. Это очень много для одного человека. Я чуть не расплавился всё это проверять. Даже отменил все совещания на работе в четверг и пятницу - иначе было не успеть.

ИНСАЙТЫ

1) Больше 60 процентов решений не работают из коробки. Совсем недавно такой код даже не стали бы рассматривать. Но Бог придумал зумеров, и к ним нужно относиться как к зумерам. Я все равно рассматривал задачки, где авторы что-то забыли написать в README, типа забытых питоновских библиотек. Просто за это штрафы. Господи, как же мы могли докатиться до момента, когда люди сдают работу вообще не тестируя?

2) Тотальная эпидемия AI слопа. Люди используют несуществующие API и библиотеки, даже не удосужившись проверить, что их код запускается. Сдают не используемые нигде функции, пропущенные импорты, несуществующие переменные. Один чел настолько не заморачивался, что отправил мне решение в виде пустого проекта, где в текстовике лежал сгенерированный промт.

3) Бессвязность. Часть задач сдана не по адресу: у меня задачки про Git, а мне присылают на оценку модули ядра Linux. Часть имеет очень странную структуру директорий. Было несколько человек, которые прислали вордовские файлы с описанием того, что они хотели сделать, но не сделали. Т.е. без кода вообще. Один чел прислал DEB пакеты без исходников. Я не знаю, чем они там упарываются, но я тоже хочу!

4) Readme погенерены нейросетями, поэтому они могут вообще не соответствовать коду. Readme может обещать несуществующую функциональность. Или наоборот - существующая функциональность никак не указана в Readme. Конечно, по большей части, в Readme ты Лев Толстой, а на деле...

5) Большая часть кода написана на Python и JS, тестировать их достаточно сложно. Хотя были люди, которые наоборот, писали всё на C++ - на языке, который нейросети знают плохо, который медленно компилируется и тяжко проверятся. Вот зачем, ну зачем?

5) Больше половины кода можно считать за тотальный провал. Всего несколько решений что-то делают, и только парочку можно считать сколько-то работающими. При этом, AI-сгенерированный код, который вообще не проверяли, чаще всего приводил к полной недееспособности проекта - вплоть до того, что я сдавался в попытках это запустить и просто ставил ноль.

ГЛАВНЫЕ УРОКИ:

- Не подписываться на проверку сложных заданий в короткие сроки. Совершенно неясно, сколько людей придет их делать.

- Quality != Quantity. Мы дожили до кризиса тестирования: тестировать задачи теперь сложнее, чем писать код реализации.

- Корреляция языка и качества. Решения на Rust самые крутые.

- О распределенных системах никто не хочет думать. В задачке на распределенность, больше половины решений работают в режиме single node.

- Мало кто понимает, на что способны Git и Systemd. Даже с нейросетями. Чтобы нейросеть подсказала тебе крутое решение - нужно задать хороший вопрос.

===

Как-то так. Держу в курсе. Скоро будет еще один конкурс, посмотрим как повторяются наблюдения
🔥12
Сегодня, как и всегда по воскресеньям, в 20:00 я запущу стрим на Твиче: https://www.twitch.tv/tosternoscript

Сегодня стрим будет особенный, во первых в нашу нейро-семью вступают китайская модель DeepSeek и французская Мистраль!

Во вторых, впервые на моем стриме нейросети будут общаться между собой, до этого они всегда разговаривали только со мной, но сегодня они будут свободно общаться друг с другом.

В третьих, сегодня будет аж пять участников, помимо Дипсика и Мистраль сегодня к нам придут Грок, ЯндексГПТ и Гемма. Пять нейросети из четырех стран 🇫🇷🇺🇸🇷🇺🇨🇳.

А что будем обсуждать на стриме? Будем составлять тир лист лучших ии-корпораций мира, посмотрим что разные нейросети думают о различных компаниях.

В комментах, к слову, можете предлагать какие ии-компании можно дать нейросетям на обсуждение.
7👍3
Печальные новости, ЧатГПТ теперь не будет консультировать по медицинским и юридическим вопросам: https://www.rbc.ru/technology_and_media/01/11/2025/69060ead9a79477f5ef60bab

И более того, я так понимаю что даже если удаться подобрать промт при помощи которого получиться расспросить ЧатГПТ по таким вопросам то ОпенАи может за это просто забанить аккаунт.

Мое предсказание - скоро такие же фильтры включат в Гемини, потом в Клоде (Антропик), дольше всех будет сопротивляться Грок, но рано или поздно Илону Маску придется сдать позиции.

Если почитать комменты к моему видосу про установку локальной модели на комп: https://youtu.be/Bzn1r7zkHys то там очень много было вопросов в духе "А зачем нужны глупые локальные модели если есть ЧатГПТ?", ну, вот сама жизнь постепенно дает ответы на эти вопросы.
🤔73🤬1
В твиттерах скандальчик, что новые собственные модельки Курсора и Windsurf представляют собой дообученых китайцев.

Чтож, если это так, что впервые можно сказать, что китайцы уже на что-то способны. Раньше это были слезы, так что вести отрадные для всех (для РФ же это значит, что не за горами аналоги от Яндекса и Т-банка, которыми уже более менее можно пользоваться).
😁52👍2👏2
👆 Вообще люди которые ноют про то что модели Т-банка это "не настоящие модели" потому что это дообученный Квен или что модели Авито это Квен, или Windsurf, или что угодно еще плохо понимают что такое разработка софта.

Ничего плохого, или даже необычного в том что бы создавать свою модель на базе уже существующей опенсорсной модели нет.

Вообще-то весь современный софт создается на базе опенсорса, и нейросетевые модели это тоже софт. Никто ведь не жалуется на то что "а почему это они использую Reactjs для рендеринга сайта, нужно свой рендеринг были написать!" или "почему они используют PostgreSQL?! Они должны были создать свою собственную базу данных с нуля!".

Такие претензии совершенно нелепы когда речь идет о разработке софта, но почему-то когда речь заходит о нейросетевых моделях это воспринимается в качестве серьезного аргумента.
18👍4
Forwarded from Борис опять
Оказалось, что альфа арена это хороший способ замерить сколько популярных телеграм каналов попадутся на нейрослопе

Вот, например, канал ODS на основании худшего бенчмарка в мире делает вывод, что QWEN у нас оказывается уже AGI

Upd: не заметил, что это репост, но вопросов к контролю качества это не снимает

😱😱😱
Please open Telegram to view this post
VIEW IN TELEGRAM
Тут провели так называемую Альфа Арену где заставили разные нейросети торговать на крипто бирже, каждой выдали по $10k денег. У Бориса горит с того что куча телеграм каналов и СМИ восприняли этот нулевой по ценности "бенчмарк" как что-то что реально отражает интеллектуальные способности нейросетей.

Вот тут он пишет подробнее про то почему это совершенно бессмысленный бенчмарк (на инглише): https://borisagain.substack.com/p/why-alpha-arena-is-literally-the

"Победил" в этом состязании Квен, но с тем же успехом они могли бы сравнивать генераторы рандомных чисел, нейросетям не дали ни достаточного количества информации, ни достаточного количества времени, ни инструментов.

Да и сам крипторынок это максимально рандомная среда, на момент проведения "эксперемента" весь крипторынок падал так что все нейросети, закономерно, ушли в минус.

Но мы действительно получили полезную информацию, не о нейросетях, но о телеграм каналах которые с восторгами писали про Альфа Арену и всерьез оценивали ее "результаты".
🔥2👍1
Сделал шорт из того самого момента на стриме когда Гигачат попытался угадать по скриншоту игру Смута (думаю все кто присутствовал запомнили это):

https://www.youtube.com/shorts/KziLSFtKpwo - ютуб.

https://www.tiktok.com/@tosternoscript/video/7570065138468801800 - да, я завел себе тиктак.

В конце шорта будет камео чата Твича 😉.
👏121
Тут к моему шорту кто-то написал коммент что Алиса смогла отгадать игру Смута, я решил проверить в веб интерфейсе, и да, она реально угадала.

Для справедливости я пошел в веб интерфейс Гигачата и спросил тот же самый вопрос с тем же скриншотом, и он ответил... что это Pathfinder: Kingmaker 😕.

Короче, Яндекс, если ты меня слышишь, выкатывай уже в API доступ распознавание картинок.
👍201🤮1
Сегодня, как и всегда по воскресеньям, я запущу стрим в 20:00 по МСК. Попробуем вместе с нейросетями составить еще один Тирлист, в прошлый раз получилось так себе, но думаю сегодня будет лучше.

Будем составлять тирлист российских айти компаний, с категориями от "фейк айти" и до "айти компания мирового уровня".

Стрим пройдет здесь: https://www.twitch.tv/tosternoscript
👍9👀3
Вайлдберрис выпустили свой определитель сгенерированных картинок: https://habr.com/ru/news/964822/

Я его потестил, ну короче ребята, был такой художник, Васнецов, все это время он нас обманывал, не рисовал он свои картины, сплошная генерация. Срочно выносим его из музеев.
😁45🤣15😭41
Вот уже почти месяц я работаю над новым проектом, и наконец-то могу его анонсировать, встречайте Мафию с Нейросетями.

Уже в это воскресенье, в 20:00 по МСК, я проведу первую тестовую игру в Мафию с Нейросетями, проходить все будет на Твиче в прямом эфире: https://www.twitch.tv/tosternoscript

Это будет именно тест, я пока еще ни разу не пробовал запускать игру с мощными нейросетями типа ЧатГПТ или Гемини, так что я без понятия как они будут играть, пока я пробовал запускать только с самыми дешевыми моделями.

Сейчас в игре есть: 1 игрок за мафию, остальные мирные. Ночь, день, обсуждения, оправдательные речи, голосования, казнь, короче реализованы все основные механики.

Это базовый вариант игры, если с ним все будет ок то будем дальше увеличивать количество игроков, ролей, и тд, планов у меня на Мафию много, в том числе у меня есть идеи которые возможно реализовать в Мафии только при помощи нейросетей.
👍267🥰2👌1🍾1