Тостер Скрипт – Telegram
Тостер Скрипт
4.76K subscribers
121 photos
13 videos
4 files
165 links
Канал Тостера который устраивает игры и состязания между нейросетями.

Ютуб: https://www.youtube.com/@TosterScriptOne
Твич: https://www.twitch.tv/tosternoscript
Второй ютуб: https://www.youtube.com/@TosterScriptTwo

Почта: tosternoscript@yandex.ru
Download Telegram
Запись вчерашнего стрима с состязанием Грока, Геммы и Гигачата в определении игр по скриншотам: https://vkvideo.ru/video-227821233_456239038

Дальше спойлеры.

Я изначально думал что Грок себя очень хорошо покажет и порвет всех, но вместо этого он оказался хуже и Геммы и Гигачата в определении игр. Но при этом когда ему удавалось определить игру он очень не плохо и интересно ее описывал. Видно что картинки это его слабя часть, но болтать он умеет, нужно будет его еще поизучать.
👍4🍌1
Forwarded from Сиолошная
Уже пару недель думаю над следующим лонгом про мою точку зрения на беспрецедентные инвестиции в OpenAI и инфраструктуру. Если делать TLDR идеи, то это звучит как «всё норм если модели продолжат расти в качестве, а Sama продолжит прогибать людей под себя». Однако важно, чтобы «расти в качестве» перерастало в выручку (не обязательно прибыль) — чтобы продолжать растить инфраструктуру датацентров.

У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.

Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.

Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).

Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.

План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.

На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.

В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.

Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2 😱). В долларовом выражении её выручка впервые превысила $10 млрд в 2019 году и достигла $100 млрд уже в 2024 году, то есть всего за пять лет.

Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).

Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.

Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2🤣2🤔1
👆думаю, от ОпенАи тут вообще-то, мало что зависит уже. Весь вопрос в том станут ли нейросети "новым электричеством", то есть чем-то без чего бизнес и люди просто не смогут существовать. Если станут, и если ОпенАи сохранят свою долю рынка то да, эти все инвестиции вполне оправданы.

Так что весь вопрос именно в этом, пока что еще никто не знает до какой степени нейросети станут важной частью жизни людей и компаний. ОпенАи понятное дело делают ставку на то что нейросети это новое электричество и они хотят стать главным поставщиком этого "электричества".
🤔7🤣2👍1
Про этот случай с кансалтинговой компанией Deloitte которая написала отсчет для правительства Австралии используя чатгпт (который много чего навыдумывал в этом отсчете): https://news.1rj.ru/str/groks/4611, ох как же ии-алармисты зацепились за этот кейс.

Да, нейросети врут и галлюцинируют, но вместо того что бы объявлять что раз они врут и галлюцинируют то значит они бесполезны, нужно учиться ими пользоваться, включать мозг, а не бездумно доверять ИИ. В шарашке Deloitte не смотрели мой видос про то что нейросети врут, ну вот и результат.

Человечество пока только адаптируется к тому что такое нейросети и как их использовать. На этом пути будет еще куча ошибок и фейлов.

Смертельно опасно засовывать пальцы в розетку, но это не значит что нужно отказываться от использования электричества.
❤‍🔥6👍5🤣2
Нравиться мне наша нейросетевая индустрия, это скриншот карточки модели DeepSeek Prover V2 в опенроутере: https://openrouter.ai/deepseek/deepseek-prover-v2

Там написано что "Скорее всего это улучшенная версия DeepSeek-Prover-V1.5, однако мало что известно об этой модели".

Как если бы это была какая-то археологическая находка, "скорее всего это фрагмент какой-то древней поэмы, но нам пока еще мало что известно".
🤣20😁2
Сегодня, в 20:00 по МСК я запущу стрим на Твиче: https://www.twitch.tv/tosternoscript

Сегодня у нас две новые нейросети, Клод (Anthropic Claude) и Квен (Qwen). Да, впервые на моей трансляции будет китайская модель!

Будем продолжать угадывать игры по скриншотам, ГигаЧат в прошлых играх оказался лучше Геммы и Грока, но сможет ли он победить или быть хотя бы на уровне Клода и Квена?

Я специально подобрал на сегодняшнюю игру более сложные скриншоты, посмотрим как они справятся.
👍9
Выложил запись последнего стрима: https://vkvideo.ru/video-227821233_456239039

Еще раз хотел бы сказать спасибо Казамаду за щедрые донаты во время этой трансляции 😊.

Из всех игр по отгадыванию игр по скриншоту это была пожалуй самая напряженная игра, до самого конца было не понятно кто победит. Ну и Квен меня конечно удивил, при чем как с хорошей так и с плохой точки зрения.
👍7
Media is too big
VIEW IN TELEGRAM
Сделал шорт про Грока по пред последнему стриму, прикрепил к сообщению, или можно еще посмотреть на ютубе: https://youtube.com/shorts/0fk6oi8RFPQ
👍9
Ловите свежую добавочку к системному промпту моих агентов

!!!!No fallbacks strict policy!!!: do not invent default values to mask missing data.
!!no try catch except on asynchronous requests!!!
No silent except: catch only expected exceptions, log with context, then re-raise.
No chained defaults in business logic: a or b or c only for UI labels; never for required config/data.
No hidden retries: allowed only if explicitly requested, idempotent, transient errors, bounded attempts, logged.
Fail fast: on invalid input or state — raise; do not continue with partial results.
Observability: include structured logging on failure; do not downgrade severity (no silent warning where error is due).

Так меня затрахали модели своими try catch по любому поводу.

Клянусь даже, я это сделал до свежего твита Карпатыча (вы конечно не поверите, но все же).

Он про то же самое вчера написал, так что решил поделиться и своим сниппетом под это 🙂
👍8🍓1
👆неплохой промт для ИИ для написания кода, хотя при этом лично мне нравиться что нейросети любят юзать try catch. Мне все время лень писать все эти трайкетчи, в лучше случае я оборачиваю какие-то особенно важные асинхронные функции в один try catch, а ИИ норм прописывает для каждой операции внутри каждой асинхронной функции try catch.

Но мало того, чатГПТ меня фактически научил паттерну с try catch finally, я конечно и до этого знал про finally, но я никогда его не использовал. А вот GPT-5 пишет, и я стал за ним повторять, finally это очень мощная штука когда работаешь с чем-то не определенным, а нейросети это всегда жуткая нестабильность.

Нейросетевые провайдеры то работают, то нет, то токены могут закончиться, то закончиться видео/оперативная память локальная, то ответ от нейросети пустой придет, то еще что-то, try catch finally помогает работать со всем этим.
👍10🍓3
Сегодня в 20:00 по МСК, как и всегда по воскресеньям, я запущу стрим.

Сегодня нейросети будут продолжать угадывать игры по скриншотам, Квен победил в прошлый раз, но сегодня у него будут очень сильные соперники.

Впервые на моем стриме появятся ЧатГПТ от ОпенАи и Гемини от Гугла! Эти двое это очень мощные нейросети, возможно самые мощные из существующих на данный момент.

Так как соперники у нас будут сильные то и скриншоты из игр я подобрал сложные, посмотрим как они справятся.

Стрим пройдет на Твиче, здесь: https://www.twitch.tv/tosternoscript
👍11
Forwarded from Krist/Blog
RuQualBench 🐸

Я сделал бенчмарк для оценки качества русского языка в LLM. Подробности:
- Набор из 100 (по умолчанию)/250/500 вопросов по general chat/creative writing доменам.
- LLM as a Judge, но с четкими критериями разметки ответов.
- Упор на типичные для LLM ошибки на русском (перепутанные рода, "китайщина", выдуманные слова).
- Всё под открытой лицензией!

Анализ результатов:
- Лучшими моделями всё еще остаются закрытые (в частности, Sonnet 4.5, Gemini, GPT-4o). Но некоторые открытые очень близки.
- GPT-5 ужасна. Я думал, что она лучше.
- Из открытых моделей Gemma-3-27b-it и Vistral-24B оказались вне конкуренции.
- Ruadapt значительно уменьшает количество ошибок относительно Qwen.
- Qwen3 и GPT-oss очень плохи. Даже хуже, чем я ожидал.
- Qwen3-Next лучше, чем Qwen3. Похоже, туда долили русского языка.
- У DeepSeek V3 мало ошибок, но актуальная V3.2-Exp почти в 2 раза хуже.

Лидерборд, код и данные
6👍4👏3
👆интересный лидерборд, хоть и есть странности.

C Qwen3 как-то странно, как будто размер модели никак не влияет на качество, 32b обходит и 235b и 8b. Но тут всякое может быть, если для разработчиков модели русский язык не приоритет то качество может скакать независимо от размера модели.

Больше всего меня смущают модели от OpenAi. Разве GPT-5 плох в русском языке? Я с ним все время разговариваю по русски и каких-то проблем не замечал. При этом GPT-4o на втором месте, до выхода GPT-5 я обычно только с ним и разговаривал, и какой-то особой разницы в "обычных" разговорах между GPT-4o и GPT-5 я не заметил. А судя по лидерборду разница должна была бы быть ощутимая.

Но в любом случае очень хорошо что такой лидерборд есть, да и код открытый: https://github.com/kristaller486/RuQualBench
👏5
Выложил запись вчерашнего стрима: https://vkvideo.ru/video-227821233_456239040

И да, спасибо moushgh за донат сделанный во время трансляции!

Думаю, мы пока закончим с отгадыванием игр по скриншотам, тем более что мы нашли сильнейшую в этом деле нейросеть. В это воскресенье займемся на стриме кое чем новым (но это новое еще нужно реализовать).
👏6👍2💋1
Forwarded from Krist/Blog
Дополнение по поводу качества русского языка в Qwen3.

Я добавил в лидерборд новую Qwen3-VL-32B и оказалось, что у неё в целом всё не так уж и плохо с русским языком (на уровне Haiku). Мне показалось это странным, потому что старший Qwen3-235B-A22B-2507-Instruct находится где-то совсем внизу списка. Потом я добавил старый Qwen3-32B и он тоже оказался выше, чем 235B-2507-Instruct. Напрашивается два вывода: бенчмарк не отражает качество русского языка или с API Alibaba, через который тестировалась модель (а точнее, через опенроутер с закрепленным провайдером) что-то не так. Поскольку по всем остальным моделям оценка вполне совпадает как с личными ощущениями, так и прочитанными логами бенчмарка, проблема с API Alibaba - главный подозреваемый.

Я перетестил Qwen3-235B-A22B-2507-Instruct через Google Vertex AI API и модель из конца списка поднялась в самое начало. Я почитал логи - ошибок стало значительно меньше и они менее критичные, то есть, всё совпало с оценкой бенчмарка.

Какие можно сделать выводы:

1. Нельзя слепо доверять официальному провайдеру модели, он тоже может быть плохим. Возможно это относится и к Qwen Chat.
2. Не стоит использовать Alibaba API, по крайней мере через openrouter. Лучше выбрать альтернативу или поднять модель локально.
3. Семь раз отмерь, один раз опубликуй.
🔥9
👆По своему опыту могу сказать - почему-то именно в случае с китайскими моделями качество очень сильно зависит от провайдера. Можно было бы предположить что дело в том что это у опенсорсных моделей качество зависит от провайдера, но почему-то с Gemma или с gpt-oss у меня в опенроутере проблем нет, а вот с китайскими Qwen или deepseek постоянно что-то не так.
👍61
Яндекс выкатил большой апдейт для Алисы - Алиса AI.

Давайте для начала расскажу, что рынок пользовательского AI – это игра в дистрибуцию, а не в технологии. Вот так.

Думаете, люди реально сравнивают ChatGPT и Claude? Пару человек может и сравнивает. Массово люди пробуют о чем услышали и до чего дотянулись, и если оно задачу решает, ему ок.

Deepseek в РФ имеет невероятную популярность, хотя он на две головы хуже.

История аналогична старому поиску. Выигрывает тот, кто встанет по-умолчанию на устройство, а не тот, у кого поиск лучше.

Конечно, нужен базовый технологический "достаточный" уровень. Это сложная задача, которая под силу только гигантам сейчас. Но коммодитизация уже происходит.

Яндекс в релизе много рассказывает что Алиса "умнее". Им нужно пройти барьер "люди считают что Алиса умная". Но реальная война начнется в дистрибуции – и у Яндекса здесь самые сильные позиции в РФ, включая 70% рынка поиска и 35% рынка браузеров. Можно обратить внимание "везде, бесплатно и без VPN" в конце лендинга.

Ещё из интересного:
1. Яндекс заранее бронирует территорию "делаем за вас" через агентов – хотя сейчас таких агентов нет совсем, всё "coming soon". Тут ждем хоть чего-нибудь работающего.
2. Наконец-то wearables наушник с AI! Меня послушали 💅

Самый большой риск для Яндекса, как я это вижу, это "границы откроются" и сюда полноценно придут Google и OpenAI. Дистрибуция это еще и бренд – и все знают про ChatGPT.
👍3