NEW BOT Телеграм, страница

Тостер Скрипт

Запись вчерашнего стрима с состязанием Грока, Геммы и Гигачата в определении игр по скриншотам: https://vkvideo.ru/video-227821233_456239038

Дальше спойлеры.

Я изначально думал что Грок себя очень хорошо покажет и порвет всех, но вместо этого он оказался хуже и Геммы и Гигачата в определении игр. Но при этом когда ему удавалось определить игру он очень не плохо и интересно ее описывал. Видно что картинки это его слабя часть, но болтать он умеет, нужно будет его еще поизучать.

VK Видео

Нейросети угадывают игры по скриншотам - стрим от 12 октября 2025

Что бы не пропустить будущие трансляции подпишись на канал: https://news.1rj.ru/str/TosterScript И подписывайтесь на мой Твич канал: https://www.twitch.tv/tosternoscript

👍4🍌1

1.2K views14:52

Тостер Скрипт

Forwarded from Сиолошная

Уже пару недель думаю над следующим лонгом про мою точку зрения на беспрецедентные инвестиции в OpenAI и инфраструктуру. Если делать TLDR идеи, то это звучит как «всё норм если модели продолжат расти в качестве, а Sama продолжит прогибать людей под себя». Однако важно, чтобы «расти в качестве» перерастало в выручку (не обязательно прибыль) — чтобы продолжать растить инфраструктуру датацентров.

У OpenAI очень амбициозный план роста выручки в ближайшие 5 лет. Epoch.AI в свежей рассылке постарались сравнить текущее положение и план с уже состоявшимися успешными компаниями.

Выручка OpenAI впервые превысила $1 млрд в 2023 году и превысит $10 млрд в 2025 году. Это впечатляющий, хотя и не беспрецедентный рост — несколько других компаний в истории демонстрировали сопоставимые темпы роста, см. картинку 1. Всего таких компаний было 4 за последние 50 лет истории рынка США, и OpenAI стали пятой.

Из этих четырёх компаний только Google смогла затем достичь уровня выручки в $100 млрд, в который целится OpenAI уже в 2028м году. Остальные даже не превысили порог в $40 млрд (каждая, не в сумме).

Сейчас, если делать оценку по буквально 3 точкам, OpenAI растёт в 3 раза в год, в то время как рост Google был около x2 в год в тот период, когда её выручка впервые превысила $10 млрд. Таким образом (если не учитывать Moderna и ковид) OpenAI может назвать самой быстрорастущей компанией, достигшей выручки в $10 млрд.

План OpenAI продолжить рост выручки в 2,3 раза в 2026 году, в 2 раза в 2027 году и в 1,6 раза в 2028 году. В истории пока не было примеров столь стремительного роста компаний с уже существенной выручкой.

На американском рынке есть 7 компаний, которые за последние 50 лет выросли до 100 миллиардов годовой выручки, и 6 из них сделали это в последние 15 лет (см. картинку). Самыми быстрыми компаниями, пересёкшими эту границу, были Tesla и Meta — за семь лет, за ними идут Nvidia, Apple и Amazon — за восемь лет, Walmart — за девять и Google — за десять лет. Среднегодовой коэффициент роста доходов этих компаний в период бурного роста составил x1,3.

В этом смысле цели OpenAI означают беспрецедентно высокие темпы роста.

Единственный пример более быстрого роста, который удалось найти автору — это ByteDance, материнская компания TikTok (привет, Sora 2 😱). В долларовом выражении её выручка впервые превысила $10 млрд в 2019 году и достигла $100 млрд уже в 2024 году, то есть всего за пять лет.

Кажется, что это не аргументы в пользу OpenAI, которые хотят совершить квантовый скачок 10 -> 100 за 3 года. Один из доводов в их поддержку заключается в том, что в экономике может существовать тенденция к ускорению таких достижений. По мере роста ВВП подобные результаты становятся всё более достижимыми. С 2015-го года ВВП вырос на 61% (охренел когда посчитал, но с учётом инфляции 25%).

Так что возможно, что если OpenAI достигнет «всего лишь» уровня в $50 млрд в 2028-м году — что само по себе впечатляющий результат — ей просто придётся замедлить темпы строительства дата-центров, а в остальном компания останется финансово здоровой. А может быть даже и этого не придётся делать, если часть подрядчиков не смогут выполнить свои обещания в срок и сдать датацентры.

Но главное запомнить сейчас, насколько невероятным кажется план OpenAI, чтобы с удивлением смотреть, когда в 2028-м году Васян будет говорить «ну так очевидно что они и 150 миллиардов сделают, с такой-то технологией любой дурак сможет, чё там».

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2🤣2🤔1

1.07K views20:37

Тостер Скрипт

👆думаю, от ОпенАи тут вообще-то, мало что зависит уже. Весь вопрос в том станут ли нейросети "новым электричеством", то есть чем-то без чего бизнес и люди просто не смогут существовать. Если станут, и если ОпенАи сохранят свою долю рынка то да, эти все инвестиции вполне оправданы.

Так что весь вопрос именно в этом, пока что еще никто не знает до какой степени нейросети станут важной частью жизни людей и компаний. ОпенАи понятное дело делают ставку на то что нейросети это новое электричество и они хотят стать главным поставщиком этого "электричества".

🤔7🤣2👍1

1.11K viewsedited 20:37

Тостер Скрипт

Про этот случай с кансалтинговой компанией Deloitte которая написала отсчет для правительства Австралии используя чатгпт (который много чего навыдумывал в этом отсчете): https://news.1rj.ru/str/groks/4611, ох как же ии-алармисты зацепились за этот кейс.

Да, нейросети врут и галлюцинируют, но вместо того что бы объявлять что раз они врут и галлюцинируют то значит они бесполезны, нужно учиться ими пользоваться, включать мозг, а не бездумно доверять ИИ. В шарашке Deloitte не смотрели мой видос про то что нейросети врут, ну вот и результат.

Человечество пока только адаптируется к тому что такое нейросети и как их использовать. На этом пути будет еще куча ошибок и фейлов.

Смертельно опасно засовывать пальцы в розетку, но это не значит что нужно отказываться от использования электричества.

Грокс

Одна из крупнейших международных аудиторских и консалтинговых компаний — Deloitte — частично возместит правительству Австралии затраты за предоставленные услуги. А виной всему оказался подготовленный с помощью искусственного интеллекта отчет о соблюдении…

❤‍🔥6👍5🤣2

1.15K views14:57

Тостер Скрипт

Нравиться мне наша нейросетевая индустрия, это скриншот карточки модели DeepSeek Prover V2 в опенроутере: https://openrouter.ai/deepseek/deepseek-prover-v2

Там написано что "Скорее всего это улучшенная версия DeepSeek-Prover-V1.5, однако мало что известно об этой модели".

Как если бы это была какая-то археологическая находка, "скорее всего это фрагмент какой-то древней поэмы, но нам пока еще мало что известно".

🤣20😁2

1.27K viewsedited 17:10

Тостер Скрипт

Сегодня, в 20:00 по МСК я запущу стрим на Твиче: https://www.twitch.tv/tosternoscript

Сегодня у нас две новые нейросети, Клод (Anthropic Claude) и Квен (Qwen). Да, впервые на моей трансляции будет китайская модель!

Будем продолжать угадывать игры по скриншотам, ГигаЧат в прошлых играх оказался лучше Геммы и Грока, но сможет ли он победить или быть хотя бы на уровне Клода и Квена?

Я специально подобрал на сегодняшнюю игру более сложные скриншоты, посмотрим как они справятся.

👍9

1.19K views14:22

Тостер Скрипт

Стрим начался! https://www.twitch.tv/tosternoscript - заходите.

Twitch

TosterScript - Twitch

Мафия с Нейросетями: Фэнтези Таверна

👌6

1.3K views17:02

Тостер Скрипт

Выложил запись последнего стрима: https://vkvideo.ru/video-227821233_456239039

Еще раз хотел бы сказать спасибо Казамаду за щедрые донаты во время этой трансляции 😊.

Из всех игр по отгадыванию игр по скриншоту это была пожалуй самая напряженная игра, до самого конца было не понятно кто победит. Ну и Квен меня конечно удивил, при чем как с хорошей так и с плохой точки зрения.

VK Видео

Нейросети угадывают игры по скриншотам. Запись стрима 19 октября

👍7

1.05K views13:48

Сделал шорт про Грока по пред последнему стриму, прикрепил к сообщению, или можно еще посмотреть на ютубе: https://youtube.com/shorts/0fk6oi8RFPQ

👍9

1.23K views20:13

Тостер Скрипт

Forwarded from Глеб Кудрявцев про AI кодинг

Ловите свежую добавочку к системному промпту моих агентов

!!!!No fallbacks strict policy!!!: do not invent default values to mask missing data.
!!no try catch except on asynchronous requests!!!
No silent except: catch only expected exceptions, log with context, then re-raise.
No chained defaults in business logic: a or b or c only for UI labels; never for required config/data.
No hidden retries: allowed only if explicitly requested, idempotent, transient errors, bounded attempts, logged.
Fail fast: on invalid input or state — raise; do not continue with partial results.
Observability: include structured logging on failure; do not downgrade severity (no silent warning where error is due).

Так меня затрахали модели своими try catch по любому поводу.

Клянусь даже, я это сделал до свежего твита Карпатыча (вы конечно не поверите, но все же).

Он про то же самое вчера написал, так что решил поделиться и своим сниппетом под это 🙂

👍8🍓1

1.14K views20:04

Тостер Скрипт

👆неплохой промт для ИИ для написания кода, хотя при этом лично мне нравиться что нейросети любят юзать try catch. Мне все время лень писать все эти трайкетчи, в лучше случае я оборачиваю какие-то особенно важные асинхронные функции в один try catch, а ИИ норм прописывает для каждой операции внутри каждой асинхронной функции try catch.

Но мало того, чатГПТ меня фактически научил паттерну с try catch finally, я конечно и до этого знал про finally, но я никогда его не использовал. А вот GPT-5 пишет, и я стал за ним повторять, finally это очень мощная штука когда работаешь с чем-то не определенным, а нейросети это всегда жуткая нестабильность.

Нейросетевые провайдеры то работают, то нет, то токены могут закончиться, то закончиться видео/оперативная память локальная, то ответ от нейросети пустой придет, то еще что-то, try catch finally помогает работать со всем этим.

👍10🍓3

1.29K viewsedited 20:04

Тостер Скрипт

Сегодня в 20:00 по МСК, как и всегда по воскресеньям, я запущу стрим.

Сегодня нейросети будут продолжать угадывать игры по скриншотам, Квен победил в прошлый раз, но сегодня у него будут очень сильные соперники.

Впервые на моем стриме появятся ЧатГПТ от ОпенАи и Гемини от Гугла! Эти двое это очень мощные нейросети, возможно самые мощные из существующих на данный момент.

Так как соперники у нас будут сильные то и скриншоты из игр я подобрал сложные, посмотрим как они справятся.

Стрим пройдет на Твиче, здесь: https://www.twitch.tv/tosternoscript

👍11

1.05K views14:17

Тостер Скрипт

Стрим начался, заходите: https://www.twitch.tv/tosternoscript

Twitch

TosterScript - Twitch

Мафия с Нейросетями: Фэнтези Таверна

🔥9

1.04K views16:59

Тостер Скрипт

Forwarded from Krist/Blog

RuQualBench 🐸

Я сделал бенчмарк для оценки качества русского языка в LLM. Подробности:
- Набор из 100 (по умолчанию)/250/500 вопросов по general chat/creative writing доменам.
- LLM as a Judge, но с четкими критериями разметки ответов.
- Упор на типичные для LLM ошибки на русском (перепутанные рода, "китайщина", выдуманные слова).
- Всё под открытой лицензией!

Анализ результатов:
- Лучшими моделями всё еще остаются закрытые (в частности, Sonnet 4.5, Gemini, GPT-4o). Но некоторые открытые очень близки.
- GPT-5 ужасна. Я думал, что она лучше.
- Из открытых моделей Gemma-3-27b-it и Vistral-24B оказались вне конкуренции.
- Ruadapt значительно уменьшает количество ошибок относительно Qwen.
- Qwen3 и GPT-oss очень плохи. Даже хуже, чем я ожидал.
- Qwen3-Next лучше, чем Qwen3. Похоже, туда долили русского языка.
- У DeepSeek V3 мало ошибок, но актуальная V3.2-Exp почти в 2 раза хуже.

Лидерборд, код и данные

❤6👍4👏3

1.01K views15:45

Тостер Скрипт

👆интересный лидерборд, хоть и есть странности.

C Qwen3 как-то странно, как будто размер модели никак не влияет на качество, 32b обходит и 235b и 8b. Но тут всякое может быть, если для разработчиков модели русский язык не приоритет то качество может скакать независимо от размера модели.

Больше всего меня смущают модели от OpenAi. Разве GPT-5 плох в русском языке? Я с ним все время разговариваю по русски и каких-то проблем не замечал. При этом GPT-4o на втором месте, до выхода GPT-5 я обычно только с ним и разговаривал, и какой-то особой разницы в "обычных" разговорах между GPT-4o и GPT-5 я не заметил. А судя по лидерборду разница должна была бы быть ощутимая.

Но в любом случае очень хорошо что такой лидерборд есть, да и код открытый: https://github.com/kristaller486/RuQualBench

GitHub

GitHub - kristaller486/RuQualBench: RuQualBench: A benchmark for evaluating the quality of the Russian language in LLM responses

RuQualBench: A benchmark for evaluating the quality of the Russian language in LLM responses - kristaller486/RuQualBench

👏5

1.01K viewsedited 15:59

Тостер Скрипт

Выложил запись вчерашнего стрима: https://vkvideo.ru/video-227821233_456239040

И да, спасибо moushgh за донат сделанный во время трансляции!

Думаю, мы пока закончим с отгадыванием игр по скриншотам, тем более что мы нашли сильнейшую в этом деле нейросеть. В это воскресенье займемся на стриме кое чем новым (но это новое еще нужно реализовать).

VK Видео

Нейросети угадывают игры по скриншотам. Запись стрима 26 октября

👏6👍2💋1

1K viewsedited 18:39

Тостер Скрипт

Forwarded from Krist/Blog

Дополнение по поводу качества русского языка в Qwen3.

Я добавил в лидерборд новую Qwen3-VL-32B и оказалось, что у неё в целом всё не так уж и плохо с русским языком (на уровне Haiku). Мне показалось это странным, потому что старший Qwen3-235B-A22B-2507-Instruct находится где-то совсем внизу списка. Потом я добавил старый Qwen3-32B и он тоже оказался выше, чем 235B-2507-Instruct. Напрашивается два вывода: бенчмарк не отражает качество русского языка или с API Alibaba, через который тестировалась модель (а точнее, через опенроутер с закрепленным провайдером) что-то не так. Поскольку по всем остальным моделям оценка вполне совпадает как с личными ощущениями, так и прочитанными логами бенчмарка, проблема с API Alibaba - главный подозреваемый.

Я перетестил Qwen3-235B-A22B-2507-Instruct через Google Vertex AI API и модель из конца списка поднялась в самое начало. Я почитал логи - ошибок стало значительно меньше и они менее критичные, то есть, всё совпало с оценкой бенчмарка.

Какие можно сделать выводы:

1. Нельзя слепо доверять официальному провайдеру модели, он тоже может быть плохим. Возможно это относится и к Qwen Chat.
2. Не стоит использовать Alibaba API, по крайней мере через openrouter. Лучше выбрать альтернативу или поднять модель локально.
3. Семь раз отмерь, один раз опубликуй.

🔥9

1.21K views13:58

Тостер Скрипт

👆По своему опыту могу сказать - почему-то именно в случае с китайскими моделями качество очень сильно зависит от провайдера. Можно было бы предположить что дело в том что это у опенсорсных моделей качество зависит от провайдера, но почему-то с Gemma или с gpt-oss у меня в опенроутере проблем нет, а вот с китайскими Qwen или deepseek постоянно что-то не так.

👍6❤1

1.1K views14:01

Тостер Скрипт

Forwarded from [31/100] Витя Тарнавский

Яндекс выкатил большой апдейт для Алисы - Алиса AI.

Давайте для начала расскажу, что рынок пользовательского AI – это игра в дистрибуцию, а не в технологии. Вот так.

Думаете, люди реально сравнивают ChatGPT и Claude? Пару человек может и сравнивает. Массово люди пробуют о чем услышали и до чего дотянулись, и если оно задачу решает, ему ок.

Deepseek в РФ имеет невероятную популярность, хотя он на две головы хуже.

История аналогична старому поиску. Выигрывает тот, кто встанет по-умолчанию на устройство, а не тот, у кого поиск лучше.

Конечно, нужен базовый технологический "достаточный" уровень. Это сложная задача, которая под силу только гигантам сейчас. Но коммодитизация уже происходит.

Яндекс в релизе много рассказывает что Алиса "умнее". Им нужно пройти барьер "люди считают что Алиса умная". Но реальная война начнется в дистрибуции – и у Яндекса здесь самые сильные позиции в РФ, включая 70% рынка поиска и 35% рынка браузеров. Можно обратить внимание "везде, бесплатно и без VPN" в конце лендинга.

Ещё из интересного:
1. Яндекс заранее бронирует территорию "делаем за вас" через агентов – хотя сейчас таких агентов нет совсем, всё "coming soon". Тут ждем хоть чего-нибудь работающего.
2. Наконец-то wearables наушник с AI! Меня послушали 💅

Самый большой риск для Яндекса, как я это вижу, это "границы откроются" и сюда полноценно придут Google и OpenAI. Дистрибуция это еще и бренд – и все знают про ChatGPT.

👍3

1.06K views05:11

About

Blog

Apps

Platform