NEW BOT Телеграм, страница

[31/100] Витя Тарнавский

FutureX – насколько AI-агенты способны предсказывать будущее?

Наткнулся на оч интересный live-бенчмарк FutureX, который пытается понять предсказательную способность AI-систем.

Идея такая:
- Берем события которые точно произойдут на следующей неделе с разным вердиктом
- Заставляем всех AI-агентов предсказать вердикт
- Через неделю считаем статистику и повторяем цикл

Это гарантирует что бенчмарк не скомпроментирован. Оч круто.

Задачи разной сложности и волатильности. Например:
- Кто победит в футбольном матче;
- Какие будут финансовые показатели компании при раскрытии;
- Кто победит на выборах куда-нибудь;
- Приземлится ли ракета с запуска Starship.

Всё автоматизировано: и генерация задач, и сбор результатов. Круто. Задач только маловато, около сотни каждую неделю.

По результатам: топовая модель выбивает в среднем 30% скора. Это примерно 30% верных предсказаний, взвешенных на сложность. Вообще-то довольно круто!

Результаты шатает от недели к неделе. Весь август Grok-4 был уверенно на первом месте, а вот в сентябре GPT-5 стабильно на первом месте. Ждем агрегатов.

Отдельно есть S&P500 Leaderboard, где AI-агенты предсказывают значение S&P500 в сравнении с экспертами-аналитиками и с фактом. Пока что получается значимо хуже.

Теперь знаем насколько предсказуем наш мир 🌟
Пока что на 30% 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥31❤14🤡6🥱1

5.81K views11:25

[31/100] Витя Тарнавский

T-ECD: E-commerce кросс-доменный датасет для рекомендательных систем

😚

А мы выложили в открытый доступ еще один датасет, на этот раз RecSys!

Один из самых больших индустриальных датасетов в открытом доступе. 44 млн уников, 135 млрд взаимодействий.

Датасет собран на основе пользователей нашей экосистемы. Кросс-доменный: разные категории покупок и типов данных. Естественно, все анонимизировано.

Пользуйтесь!

Habr
Huggingface

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤62🔥38💅6🤡1

7.01K views07:44

[31/100] Витя Тарнавский

Goodbye KPI

mariachiindie754

Вот вам пятничный бэнгер Гудбай KPI 🤡
Буду его завтра вечером играть на нашей конференции Продукты 24 x ffdd2d

А ещё получается оч крутой доклад, если не успели на регистрацию приходите послушать в онлайн!

Четыре всадника AI-апокалипсиса
15:00

2❤37🔥27🤡5🥱3

6.66K views16:44

[31/100] Витя Тарнавский

Потыкал ChatGPT Pulse

Оч понравилась настройка через промпт. Я надеюсь что таких интерфейсов будет все больше.

Считаю что настройка рекомендационных сервисов должна быть через голосовое сообщение. Я бы так себе и ютуб, и спотифай накрутил с удовольствием.

В статьях мне не хватает credibility: я хочу чтобы кто-то подписался под контентом кому жалко свой авторитет. Вроде интересные статьи, но кто свои яйца поставил? Сэм Альтман?

В Perplexity в таком же продукте вроде есть какие-то аватарки, но кто эти люди, я не знаю.

Overall: 4/10, proof of concept stage

❤17🤡5

6.97K views08:00

[31/100] Витя Тарнавский

Внимательно следим за ChatGPT Apps

Ребята делают операционную систему объединенную с классическим поиском внутри своего AI.

Бизнес-приложения можно вызывать как прямым запросом – booking, забронируй отель – так и контекстным – подскажи отель.

Помимо прочего, это новый маркетинг канал. Давно пора: текущие каналы мало интеллектуальны и неудобны как для юзера так и для бизнеса. Пробовали пластиковые окна в поиске искать? А продавать?

Про рекламу пока речи нет, но это вопрос времени.

Интересно, что политикам Apple и Google это пока не противоречит. Ты можешь создавать не-нативные миниаппы, если платежи делаются через родные инструменты с комиссией.

Но в отличие от обычных супераппов я вижу тут реальный риск для Apple и Google потерять пользователя и часть маржи.

Ждем войн и сражений. И телефон от OpenAI.

❤31🔥18🤔4🤡1

6.57K views07:25

[31/100] Витя Тарнавский

Talent Density

Каждый раз убеждаюсь – если хочешь строить сложные продукты и технологии, делай маленькие команды с максимальной плотностью крутых ребят. Этот концепт называется High Talent Density.

Если он понижается, у тебя создается луп негативной обратной связи. Растет количество коммуникаций, нужны процессы для более слабых людей, падает скорость, и в итоге нужно ещё больше людей. Ужас.

Для больших компаний это вынужденный компромисс роста. Хочешь быстро и предсказуемо нарастить throughput – приходится нанимать ребят послабей. Крутые спецы нанимаются медленно и непредсказуемо.

Но буквально все крутые технологии и сложные продукты которых я касался делались небольшими командами отобранных крутых и умных ребят.

Настоящая скорость – не в headcount, а в talent density.

7🔥137🥱17🤔7🤡7

7.27K views08:24

[31/100] Витя Тарнавский

На The Information вышла интересная статья про будущие планы OpenAI в финансовом смысле. Статья за paywall, картинка из неё. Расскажу что меня зацепило.

1. Стоимость обучения – половина и больше от инференса

Это индустрия с основными затратами на обучение. Это значит, что на оптимизацию инференса фокуса не было. Это подтверждается кейсом DeepSeek и инсайдерами.

Ситуация "беги или умрёшь": опенсорс догоняет за 6-12 месяцев, и нужно кидать больше дров в топку чтобы быть конкурентным по моделям.

Только за 2024 год OpenAI потратили $5B на обучение и только $2B на инференс (epoch ai). Соотношение изменится в пользу инференса, но не сильно, как видим.

2. OpenAI планирует зарабатывать на новых "не-классических" моделях. Видим желтый Monetizable compute?

Представитель OpenAI говорит что это новые revenue стримы. Sama часто говорит про "research breakthrough" которые сделает их супер-AI, это может быть монетизация таких прорывов.

Или реклама. Есть ожидание что OpenAI это кроме прочего "новый Google".

3. $100B это 0.1% от мирового GDP

Ну, это просто очень много. Например, это три мировых музыкальных индустрии. Или 5 SpaceX. Или GDP Морокко. Или 5% GDP России.

Статья, разбор сиолошной, прогнозы Epoch AI 1, 2

❤16🤔3🤡1

6.17K views11:15

[31/100] Витя Тарнавский

Когда появлялось электричество, люди догадывались, что это откроет доступное освещение и холодильники. Но сложно было предположить, что за этим последует ночная городская жизнь и совершенно другой подход к тому как люди едят. У меня давно зреет подобный доклад…

Четыре всадника AI-апокалипсиса

Вышла запись моего выступления на Продукты 24 x ffdd2d

Я рассказываю про четыре AI-технологии, которые неотвратимо изменят цифровой мир. Если хотите разобраться откуда придут непоправимые изменения, идите слушать. Простым языком, знания в AI не нужны.

Когда появлялось электричество, люди догадывались, что это откроет доступное освещение и холодильники. Но сложно было предположить, что за этим последует ночная городская жизнь и совершенно другой подход к тому как люди едят.

Мне кажется оч круто получилось, сильно кайфанул и при подготовке и рассказе. Заходите смотреть и слушать!

Youtube | VK

2🔥61❤21🤡6🥱4

7.24K views07:15

[31/100] Витя Тарнавский

AI в Customer Support: баланс межу экономией и качеством

Основной тренд применения AI в поддержке это побольше сэкономить за счёт AI. Это очень примитивный взгляд на вопрос.

Поддержка – это баланс между стоимостью и качеством. Можно подороже платить, качественней обслуживать. И наоборот. Это решение бизнеса, и оно может меняться во времени.

Правильная школа мысли – это кривые эластичности между стоимостью и качеством. При желании, бизнес имеет возможность двигаться по этой кривой: делать дороже и качественней или делать дешевле и хуже.

Технологии, включая AI, нужно рассматривать как сдвиг самой кривой. Из конкретной точки вы можете стать дешевле с тем же качеством или качественней с той же ценой. И потом ездить туда-сюда уже по новой кривой.

Хороший подход здесь это знать свою кривую эластичности – хотя бы три точки – и понимать куда мы её хотим сдвинуть.

❤43🔥18🤔5🤡3🥱3

5.73K views07:14

[31/100] Витя Тарнавский

AI в Customer Support: баланс межу экономией и качеством Основной тренд применения AI в поддержке это побольше сэкономить за счёт AI. Это очень примитивный взгляд на вопрос. Поддержка – это баланс между стоимостью и качеством. Можно подороже платить, качественней…

Год качества, год эффективности

В реальной работе движение по кривой лучше делать галсами, как в парусном спорте.

Фиксируем качество и делаем дешевле. Очень понятная задача для автоматизации через AI: автоматизируй больший процент обращений.

Или фиксируем стоимость и повышаем качество. Тоже понятная задача: вычищаем плохо работающие по качеству интенты, повышаем качество работы людей копилотами и так далее.

Прежде всего, это про понятные командные цели – ясно куда копать. Про кривую эластичности попробуй объясни. А так всё понятно: Год качества! Год эффективности!

Также, обе части метрик плохо прокрашиваются и довольно инертны. Стоимость завязана на живых людей и на сложные ретроспективные тесты. С метриками качества всё совсем плохо: они перекошенные, быстро не красятся, и прокси тоже делать сложно. Обычно лучшее что есть это CSAT, и её только ленивый не критикует 🥴

Понятийно договориться о фиксировании одной половинки на длинной дистанции помогает делать контролируемый процесс.

Го меняться в комментах у кого какой подход тут к формулировке задачи и к измерению качества!

❤20🤡8🤔2🔥1

5.79K views09:25

[31/100] Витя Тарнавский

Зачем они все делают браузеры

OpenAI и другие AI-компании хотят закрывать реальные задачи пользователей, а не просто советы раздавать.
Для этого AI-системам нужны "руки" – доступ к действиям.

Вариантов не так много:
1. Интеграция по API, включая MCP
2. Контроль браузера на своих серверах
3. Контроль браузера пользователя
4. Контроль устройства пользователя

AI-компании уверенно перебирают все эти подходы. Например: OpenAI Shopping, OpenAI Operator, OpenAI Atlas.

1. Интеграция требует интеграции со стороны бизнеса, это сложно и долго. Но можно сделать для конкретной вертикали. OpenAI Shopping это как раз оно – вертикальное решение для конкретного сегмента.

2. Браузер на сервере, хоть и выглядит простым решением проблемы, в реальности работает плохо. Передавать туда все логины-пароли-карты сложно и небезопасно. Интернет на серверах OpenAI и интернет на твоём устройстве это два разных интернета. В госуслугах же хотим заявки делать через AI?

3. Контроль браузера юзера выглядит как sweet spot. И реальные действия через интернет можно делать, и доступы уже есть, и для юзера понятно. Единственная проблема – нужно иметь свой браузер и его распространять. Через экстеншн такую сложную вещь технически не сделать.

4. Контроль устройства сложный с точки зрения приватности и разрешений системы. В режиме советчика это уже есть на мобилах и у Google и у OpenAI. А вот полноценный режим доступен только владельцам операционных систем. Google и Apple будут разыгрывать эту карту.

Кстати, ChatGPT Atlas успешно заказал мне на озоне мой клубничный протеин, это успех 💪🍓💅

💅27❤20🔥4🤔3🤡3

6.19K views05:35

[31/100] Витя Тарнавский

Разрыв ожиданий и практики в GenAI

В корпорациях есть дыра между ожиданиями и реальной практикой в GenAI.

Ожидания обычно космического характера. Агенты всех заменят, все рынки изменятся до неузнаваемости. И ощущение что оно уже у всех есть.

В Microsoft очередная волна увольнений из-за AI. Сосед по этажу мне рассказал что заменил продажников на агентов. А где-то в Албании целый AI-министр появился, слышали?

Космические ожидания вполне имеют основания. В профессиональном комьюнити есть "оптимисты" и "пессимисты", но уж точно нет "скептиков".

Но реальность для корпораций брутальна:
- доказанных экономических эффектов почти нет;
- агенты скорее не работают;
- модели вроде умные, но инфраструктурных слоёв нет;
- строить неожиданно сложно, нужны сильные команды;
- даже в разработке спорят – вредит оно или помогает.

Любой нормальный CFO на эти инициативы покрутит у виска и будет в своём контексте прав.

Внутри компаний это порождает клинч этих двух сил. Клинч падает на AI-департаменты и на тех кто запрашивает под это ресурсы. И приводит к проблемам.

Выход один: набирайте опыт в использовании технологий. Больше практики, меньше магии.

И не верьте тому что пишут в X. Там выдумщики ещё те.

❤81🔥16💅3

6.66K views05:34

[31/100] Витя Тарнавский

Яндекс выкатил большой апдейт для Алисы - Алиса AI.

Давайте для начала расскажу, что рынок пользовательского AI – это игра в дистрибуцию, а не в технологии. Вот так.

Думаете, люди реально сравнивают ChatGPT и Claude? Пару человек может и сравнивает. Массово люди пробуют о чем услышали и до чего дотянулись, и если оно задачу решает, ему ок.

Deepseek в РФ имеет невероятную популярность, хотя он на две головы хуже.

История аналогична старому поиску. Выигрывает тот, кто встанет по-умолчанию на устройство, а не тот, у кого поиск лучше.

Конечно, нужен базовый технологический "достаточный" уровень. Это сложная задача, которая под силу только гигантам сейчас. Но коммодитизация уже происходит.

Яндекс в релизе много рассказывает что Алиса "умнее". Им нужно пройти барьер "люди считают что Алиса умная". Но реальная война начнется в дистрибуции – и у Яндекса здесь самые сильные позиции в РФ, включая 70% рынка поиска и 35% рынка браузеров. Можно обратить внимание "везде, бесплатно и без VPN" в конце лендинга.

Ещё из интересного:
1. Яндекс заранее бронирует территорию "делаем за вас" через агентов – хотя сейчас таких агентов нет совсем, всё "coming soon". Тут ждем хоть чего-нибудь работающего.
2. Наконец-то wearables наушник с AI! Меня послушали 💅

Самый большой риск для Яндекса, как я это вижу, это "границы откроются" и сюда полноценно придут Google и OpenAI. Дистрибуция это еще и бренд – и все знают про ChatGPT.

5❤76🔥31🤡12💅8🥱2

8.25K viewsedited 08:43

[31/100] Витя Тарнавский

Channel name was changed to «[30/100] Витя Тарнавский»

18:47

[31/100] Витя Тарнавский

Я уже какое-то время интересуюсь домашними гуманоидными роботами, и вот отличный повод начать про это писать.

1x NEO запустился в предзаказ. По заверениям создателей, робот будет автономно делать домашние дела, развлекать вас разговорами и даже приносить пиво из холодильника. Всего за $20k или $499/mo, доставка в 2026 году.

В реальности, там внутри человек 🥴
В смысле управляет этой штукой удаленный оператор через VR-шлем, а не то что вы подумали. Надеюсь, все помнят робота Бориса на России-24 🤡

Фактически, это такая гувернантка на радио управлении. Компания обещает, что на момент релиза большинство операций робот будет делать автономно. Сейчас уровень автономности робота около нуля.

Смешно? На самом деле нет, это очень круто. Рассказываю почему.

Основной затык для создания такой автономной системы это данные для обучения. Это тысячи часов записей видео и датчиков реального выполнения задач. Этих часов сейчас никому не хватает. Самый понятный способ это сделать – управлять роботами через живых операторов at scale.

Ребята делают буквально это – раскатывают уже готовый для пользователя продукт (вам какая разница как задача решается?), который стоит для компании временно дороже в минуту, но это даёт им возможность обучить свой AI. И заодно создает площадку для тестирования и реальный финансовый поток.

Это переводит задачу из нерешаемой в масштабируемую. Human-in-the-loop: оператор подключается только когда нужно, и со временем всё меньше.

Или вы думаете, что роверы на улицах автономные? Это тоже human in the loop – операторы подключаются когда роверу сложно. А раньше – управляли 100% времени. Самоездящие машины обучаются похожим образом.

Всё ребята правильно делают, пожелаем им удачи. Надеюсь, робот скоро сможет поливать мои цветочки.

10🔥98❤17🤡7💅7

8.28K viewsedited 10:16

[31/100] Витя Тарнавский

Посмотрел Ex Machina – медитативный sci-fi про AGI. Секретный бункер, тьюринг тест и основатель Google прилагается.

Снят в 2014, но как будто всё более актуален. Я вот считаю что всё так и будет 🫠 Очень понравилось, рекомменд, смотрите!

IMDB | Netflix

1🔥29❤5

6.33K views10:36

[31/100] Витя Тарнавский

Производство чипов - мое образование и профессиональная область из прошлого, стараюсь следить за этим и сегодня. Сегодня история развивается вокруг регулирования видеокарт Nvidia для Китая.

На прошлой неделе США запретили поставлять в Китай даже урезанные B30A – карты, которые Nvidia специально проектировали для Китая под прошлые регуляции.

Jensen Huang – CEO Nvidia – всячески плюется ядом на эту тему. У него альтернативная позиция:
Все разработчики в мире должны использовать американский (e.g. Nvidia) стек, иначе они сделают свой и долгосрочно нам хана.

Позиция интересная и легко оспариваемая. Тут нужно заметить что Китай это 20-25% поставок Nvidia до регуляций. Значимый кусок оборота.

Китай и правда ускорился в производстве своих чипов. Текущий техпроцесс Huawei - 7 mm. Это примерно 2-4 года отрыва. Для такой индустрии это невероятный результат Китая, хотя еще догонять и догонять.

Напомню, что вся литография чипов держится на нидерландской ASML. Голландское правительство наследует часть регуляций США, поэтому Китай сидит без самых продвинутых машин для производства чипов.

Что мы точно наблюдаем: разделение этих двух миров. Долгосрочно, китайские чипы будут вариться в каком-то своём соку. Модели, возможно, будут послабей. Это вовсе не значит что они "проиграют".

Важен не рейтинг LLM Arena, а улучшение экономики за счет технологии. В этом Китаю равных нет. Машины вспомним?

1🔥50❤8🤔6

5.58K views07:13

[31/100] Витя Тарнавский

Играю в Detroit: Become Human, нашел стену на которой много раз написано:
RAG RAG RAG RAG RAG

Это же буквально любое техническое обсуждение AI-решений сейчас 🤡

Игра супер, очень актуальная 🤖

🔥90❤18🤡9💅5🤔3

6.26K views17:46

[31/100] Витя Тарнавский

@llm_arena не реви, ты тоже нужна ❤️

101❤41💅3

5.88K views13:33

[31/100] Витя Тарнавский

Википедия рассказала о падении трафика

8% падение год к году в просмотрах страниц, хотя раньше всегда росли. Кто виноват - мы знаем 🌚

Зачем нужна википедия в мире AI-систем – непонятно. У меня из мышечной памяти википедия давно исчезла. Нужны знания – иду в ChatGPT.

Для википедии это беда. Если не будет трафика, не будет и обновлений контента. Авторы контента википедии берутся из читателей – это такое большое коллаборативное творчество. Сейчас модель рассыпается.

Википедия сильно этим обеспокоена и прямо в документе требует упоминаний и трафика от AI-систем. Но реального рычага у них как будто нет.

Это всё довольно грустно, и не из-за ностальгических переживаний. Огромная работающая машина по созданию актуального среза знаний человечества под угрозой, и нет понимания что придет на замену.

Для чистоты замечу, что Википедия выделяет и вторую причину падения трафика – молодёжь предпочитает видео-форматы. Ну да, мои дети знания потребляют из тиктоков, а если есть конкретный запрос - из ютуба. Но это как будто бы всегда так было – у детей другие способы учиться.

Diff

New User Trends on Wikipedia

An update on user trends from the Wikimedia Foundation.

🤔23❤17🤡5💅2

7.02K views07:15

[31/100] Витя Тарнавский

Иду вчера по Льва Толстого, смотрю в случайное окно, а там...

Спасите роботов из офиса Яндекса! Свободу железным пацанам! 🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥90❤29🤡29💅31

6.68K views12:39

About

Blog

Apps

Platform