NEW BOT Телеграм, страница - 593651041

[31/100] Витя Тарнавский

6.97K subscribers

163 photos

28 videos

2 files

212 links

Head of AI в T-Bank
Канал про будущее продуктов в AI

Нет, я не скажу, что значит счетчик в названии

Рекламу не даю

@the_real_jkee

Download Telegram

About

Blog

Apps

Platform

[31/100] Витя Тарнавский

6.97K subscribers

[31/100] Витя Тарнавский

Как_создать_LLM_продукт.pdf

Как строить LLM продукты

Аня Подображных написала классную и лаконичную инструкцию для продактов о том как строить LLM-продукты. Выгрузил вам её в pdf.

Ключевое отличие от обычных продуктов – работа с метриками качества. Кратко, путь таков:

1. Строим метрику качества – бенчмарк из вопросов и способ проверить правильность ответа
2. Определяем baseline – сколько по этой метрике выбивают альтернативы, включая людей
3. Только теперь строим продукт и считаем сколько выбили по метрике качества
4. Улучшаем пока не побьем baseline
5. Определяем ограничивающие метрики и добиваемся результата по ним

Теперь ваш продукт действительно нормально решает задачу. Можно запускать.

Следование этим принципам отличает любителей поделать красивые демки от реальных ребят из мира LLM-инженерии. Можно спрашивать на собеседованиях, например.

1❤53🤡14🔥5🤔3

13.9K views07:26

[31/100] Витя Тарнавский

Когда появлялось электричество, люди догадывались, что это откроет доступное освещение и холодильники. Но сложно было предположить, что за этим последует ночная городская жизнь и совершенно другой подход к тому как люди едят.

У меня давно зреет подобный доклад про AI. То, что видно сейчас – только отблески больших изменений.

На нашей конференции Продукты 24 и ffdd2d расскажу свой взгляд на изменение digital мира под влиянием AI.

27 сентября, Суперметалл. Приходите!

❤50🔥23🤡7

6.18K views13:16

[31/100] Витя Тарнавский

Научные статьи на NeurlIPS с участием санкционных вузов и компаний РФ начали получать отказы.

Это подавляющее большинство статей из России. Статьи пишутся в коллаборации с МФТИ, Сколтехом и так далее. На картинке - реджект одной из наших статей.

Особенно грустно что к статьям прилагается комментарий «статья супер, вот почему» и потом legal reject.

As recently advised by legal counsel, the NeurIPS Foundation is unable to provide services, including the publication of academic articles, involving the technology sector of the Russian Federation's economy under a sanction order laid out in Executive Order (E.O.) 14024.

p.s. только не стоит обвинять организаторов конференции плз. у них не особо есть выбор.

NeurlIPS – топовая A* конференции по AI.

🤡69❤12🔥2

7.12K views06:37

[31/100] Витя Тарнавский

Вышел подкаст со мной в проекте Noosphere Project

Говорим про AI в экосистемах, роль AI в профессиональной и личной жизни людей, близкое и далёкое будущее. Если хотите мой взгляд на будущее про AI в нашей жизни, заходите послушать!

❤28🔥20🤡13

5.36K views07:37

[31/100] Витя Тарнавский

😳

😳

😳

Our vision is simple: we want to create a factory that can produce a gigawatt of new AI infrastructure every week.

https://blog.samaltman.com/abundant-intelligence

edit: 1GW это примерно десятая часть Москвы и примерно две Балашихи

Please open Telegram to view this post

VIEW IN TELEGRAM

Abundant Intelligence

Growth in the use of AI services has been astonishing; we expect it to be even more astonishing going forward. As AI gets smarter, access to AI will be a fundamental driver of the economy, and...

🤔9❤4🔥3🥱3

5.13K viewsedited 14:45

[31/100] Витя Тарнавский

FutureX – насколько AI-агенты способны предсказывать будущее?

Наткнулся на оч интересный live-бенчмарк FutureX, который пытается понять предсказательную способность AI-систем.

Идея такая:
- Берем события которые точно произойдут на следующей неделе с разным вердиктом
- Заставляем всех AI-агентов предсказать вердикт
- Через неделю считаем статистику и повторяем цикл

Это гарантирует что бенчмарк не скомпроментирован. Оч круто.

Задачи разной сложности и волатильности. Например:
- Кто победит в футбольном матче;
- Какие будут финансовые показатели компании при раскрытии;
- Кто победит на выборах куда-нибудь;
- Приземлится ли ракета с запуска Starship.

Всё автоматизировано: и генерация задач, и сбор результатов. Круто. Задач только маловато, около сотни каждую неделю.

По результатам: топовая модель выбивает в среднем 30% скора. Это примерно 30% верных предсказаний, взвешенных на сложность. Вообще-то довольно круто!

Результаты шатает от недели к неделе. Весь август Grok-4 был уверенно на первом месте, а вот в сентябре GPT-5 стабильно на первом месте. Ждем агрегатов.

Отдельно есть S&P500 Leaderboard, где AI-агенты предсказывают значение S&P500 в сравнении с экспертами-аналитиками и с фактом. Пока что получается значимо хуже.

Теперь знаем насколько предсказуем наш мир 🌟
Пока что на 30% 🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥31❤14🤡6🥱1

5.81K views11:25

[31/100] Витя Тарнавский

T-ECD: E-commerce кросс-доменный датасет для рекомендательных систем

😚

А мы выложили в открытый доступ еще один датасет, на этот раз RecSys!

Один из самых больших индустриальных датасетов в открытом доступе. 44 млн уников, 135 млрд взаимодействий.

Датасет собран на основе пользователей нашей экосистемы. Кросс-доменный: разные категории покупок и типов данных. Естественно, все анонимизировано.

Пользуйтесь!

Habr
Huggingface

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤62🔥38💅6🤡1

7.01K views07:44

[31/100] Витя Тарнавский

mariachiindie754

Вот вам пятничный бэнгер Гудбай KPI 🤡
Буду его завтра вечером играть на нашей конференции Продукты 24 x ffdd2d

А ещё получается оч крутой доклад, если не успели на регистрацию приходите послушать в онлайн!

Четыре всадника AI-апокалипсиса
15:00

2❤37🔥27🤡5🥱3

6.66K views16:44

[31/100] Витя Тарнавский

Потыкал ChatGPT Pulse

Оч понравилась настройка через промпт. Я надеюсь что таких интерфейсов будет все больше.

Считаю что настройка рекомендационных сервисов должна быть через голосовое сообщение. Я бы так себе и ютуб, и спотифай накрутил с удовольствием.

В статьях мне не хватает credibility: я хочу чтобы кто-то подписался под контентом кому жалко свой авторитет. Вроде интересные статьи, но кто свои яйца поставил? Сэм Альтман?

В Perplexity в таком же продукте вроде есть какие-то аватарки, но кто эти люди, я не знаю.

Overall: 4/10, proof of concept stage

❤17🤡5

6.97K views08:00

[31/100] Витя Тарнавский

Внимательно следим за ChatGPT Apps

Ребята делают операционную систему объединенную с классическим поиском внутри своего AI.

Бизнес-приложения можно вызывать как прямым запросом – booking, забронируй отель – так и контекстным – подскажи отель.

Помимо прочего, это новый маркетинг канал. Давно пора: текущие каналы мало интеллектуальны и неудобны как для юзера так и для бизнеса. Пробовали пластиковые окна в поиске искать? А продавать?

Про рекламу пока речи нет, но это вопрос времени.

Интересно, что политикам Apple и Google это пока не противоречит. Ты можешь создавать не-нативные миниаппы, если платежи делаются через родные инструменты с комиссией.

Но в отличие от обычных супераппов я вижу тут реальный риск для Apple и Google потерять пользователя и часть маржи.

Ждем войн и сражений. И телефон от OpenAI.

❤31🔥18🤔4🤡1

6.57K views07:25

[31/100] Витя Тарнавский

Talent Density

Каждый раз убеждаюсь – если хочешь строить сложные продукты и технологии, делай маленькие команды с максимальной плотностью крутых ребят. Этот концепт называется High Talent Density.

Если он понижается, у тебя создается луп негативной обратной связи. Растет количество коммуникаций, нужны процессы для более слабых людей, падает скорость, и в итоге нужно ещё больше людей. Ужас.

Для больших компаний это вынужденный компромисс роста. Хочешь быстро и предсказуемо нарастить throughput – приходится нанимать ребят послабей. Крутые спецы нанимаются медленно и непредсказуемо.

Но буквально все крутые технологии и сложные продукты которых я касался делались небольшими командами отобранных крутых и умных ребят.

Настоящая скорость – не в headcount, а в talent density.

7🔥137🥱17🤔7🤡7

7.27K views08:24

[31/100] Витя Тарнавский

На The Information вышла интересная статья про будущие планы OpenAI в финансовом смысле. Статья за paywall, картинка из неё. Расскажу что меня зацепило.

1. Стоимость обучения – половина и больше от инференса

Это индустрия с основными затратами на обучение. Это значит, что на оптимизацию инференса фокуса не было. Это подтверждается кейсом DeepSeek и инсайдерами.

Ситуация "беги или умрёшь": опенсорс догоняет за 6-12 месяцев, и нужно кидать больше дров в топку чтобы быть конкурентным по моделям.

Только за 2024 год OpenAI потратили $5B на обучение и только $2B на инференс (epoch ai). Соотношение изменится в пользу инференса, но не сильно, как видим.

2. OpenAI планирует зарабатывать на новых "не-классических" моделях. Видим желтый Monetizable compute?

Представитель OpenAI говорит что это новые revenue стримы. Sama часто говорит про "research breakthrough" которые сделает их супер-AI, это может быть монетизация таких прорывов.

Или реклама. Есть ожидание что OpenAI это кроме прочего "новый Google".

3. $100B это 0.1% от мирового GDP

Ну, это просто очень много. Например, это три мировых музыкальных индустрии. Или 5 SpaceX. Или GDP Морокко. Или 5% GDP России.

Статья, разбор сиолошной, прогнозы Epoch AI 1, 2

❤16🤔3🤡1

6.17K views11:15

[31/100] Витя Тарнавский

[31/100] Витя Тарнавский

Когда появлялось электричество, люди догадывались, что это откроет доступное освещение и холодильники. Но сложно было предположить, что за этим последует ночная городская жизнь и совершенно другой подход к тому как люди едят. У меня давно зреет подобный доклад…

Четыре всадника AI-апокалипсиса

Вышла запись моего выступления на Продукты 24 x ffdd2d

Я рассказываю про четыре AI-технологии, которые неотвратимо изменят цифровой мир. Если хотите разобраться откуда придут непоправимые изменения, идите слушать. Простым языком, знания в AI не нужны.

Когда появлялось электричество, люди догадывались, что это откроет доступное освещение и холодильники. Но сложно было предположить, что за этим последует ночная городская жизнь и совершенно другой подход к тому как люди едят.

Мне кажется оч круто получилось, сильно кайфанул и при подготовке и рассказе. Заходите смотреть и слушать!

Youtube | VK

2🔥61❤21🤡6🥱4

7.24K views07:15

[31/100] Витя Тарнавский

AI в Customer Support: баланс межу экономией и качеством

Основной тренд применения AI в поддержке это побольше сэкономить за счёт AI. Это очень примитивный взгляд на вопрос.

Поддержка – это баланс между стоимостью и качеством. Можно подороже платить, качественней обслуживать. И наоборот. Это решение бизнеса, и оно может меняться во времени.

Правильная школа мысли – это кривые эластичности между стоимостью и качеством. При желании, бизнес имеет возможность двигаться по этой кривой: делать дороже и качественней или делать дешевле и хуже.

Технологии, включая AI, нужно рассматривать как сдвиг самой кривой. Из конкретной точки вы можете стать дешевле с тем же качеством или качественней с той же ценой. И потом ездить туда-сюда уже по новой кривой.

Хороший подход здесь это знать свою кривую эластичности – хотя бы три точки – и понимать куда мы её хотим сдвинуть.

❤43🔥18🤔5🤡3🥱3

5.73K views07:14

[31/100] Витя Тарнавский

[31/100] Витя Тарнавский

AI в Customer Support: баланс межу экономией и качеством Основной тренд применения AI в поддержке это побольше сэкономить за счёт AI. Это очень примитивный взгляд на вопрос. Поддержка – это баланс между стоимостью и качеством. Можно подороже платить, качественней…

Год качества, год эффективности

В реальной работе движение по кривой лучше делать галсами, как в парусном спорте.

Фиксируем качество и делаем дешевле. Очень понятная задача для автоматизации через AI: автоматизируй больший процент обращений.

Или фиксируем стоимость и повышаем качество. Тоже понятная задача: вычищаем плохо работающие по качеству интенты, повышаем качество работы людей копилотами и так далее.

Прежде всего, это про понятные командные цели – ясно куда копать. Про кривую эластичности попробуй объясни. А так всё понятно: Год качества! Год эффективности!

Также, обе части метрик плохо прокрашиваются и довольно инертны. Стоимость завязана на живых людей и на сложные ретроспективные тесты. С метриками качества всё совсем плохо: они перекошенные, быстро не красятся, и прокси тоже делать сложно. Обычно лучшее что есть это CSAT, и её только ленивый не критикует 🥴

Понятийно договориться о фиксировании одной половинки на длинной дистанции помогает делать контролируемый процесс.

Го меняться в комментах у кого какой подход тут к формулировке задачи и к измерению качества!

❤20🤡8🤔2🔥1

5.79K views09:25

[31/100] Витя Тарнавский

Зачем они все делают браузеры

OpenAI и другие AI-компании хотят закрывать реальные задачи пользователей, а не просто советы раздавать.
Для этого AI-системам нужны "руки" – доступ к действиям.

Вариантов не так много:
1. Интеграция по API, включая MCP
2. Контроль браузера на своих серверах
3. Контроль браузера пользователя
4. Контроль устройства пользователя

AI-компании уверенно перебирают все эти подходы. Например: OpenAI Shopping, OpenAI Operator, OpenAI Atlas.

1. Интеграция требует интеграции со стороны бизнеса, это сложно и долго. Но можно сделать для конкретной вертикали. OpenAI Shopping это как раз оно – вертикальное решение для конкретного сегмента.

2. Браузер на сервере, хоть и выглядит простым решением проблемы, в реальности работает плохо. Передавать туда все логины-пароли-карты сложно и небезопасно. Интернет на серверах OpenAI и интернет на твоём устройстве это два разных интернета. В госуслугах же хотим заявки делать через AI?

3. Контроль браузера юзера выглядит как sweet spot. И реальные действия через интернет можно делать, и доступы уже есть, и для юзера понятно. Единственная проблема – нужно иметь свой браузер и его распространять. Через экстеншн такую сложную вещь технически не сделать.

4. Контроль устройства сложный с точки зрения приватности и разрешений системы. В режиме советчика это уже есть на мобилах и у Google и у OpenAI. А вот полноценный режим доступен только владельцам операционных систем. Google и Apple будут разыгрывать эту карту.

Кстати, ChatGPT Atlas успешно заказал мне на озоне мой клубничный протеин, это успех 💪🍓💅

💅27❤20🔥4🤔3🤡3

6.19K views05:35

[31/100] Витя Тарнавский

Разрыв ожиданий и практики в GenAI

В корпорациях есть дыра между ожиданиями и реальной практикой в GenAI.

Ожидания обычно космического характера. Агенты всех заменят, все рынки изменятся до неузнаваемости. И ощущение что оно уже у всех есть.

В Microsoft очередная волна увольнений из-за AI. Сосед по этажу мне рассказал что заменил продажников на агентов. А где-то в Албании целый AI-министр появился, слышали?

Космические ожидания вполне имеют основания. В профессиональном комьюнити есть "оптимисты" и "пессимисты", но уж точно нет "скептиков".

Но реальность для корпораций брутальна:
- доказанных экономических эффектов почти нет;
- агенты скорее не работают;
- модели вроде умные, но инфраструктурных слоёв нет;
- строить неожиданно сложно, нужны сильные команды;
- даже в разработке спорят – вредит оно или помогает.

Любой нормальный CFO на эти инициативы покрутит у виска и будет в своём контексте прав.

Внутри компаний это порождает клинч этих двух сил. Клинч падает на AI-департаменты и на тех кто запрашивает под это ресурсы. И приводит к проблемам.

Выход один: набирайте опыт в использовании технологий. Больше практики, меньше магии.

И не верьте тому что пишут в X. Там выдумщики ещё те.

❤81🔥16💅3

6.66K views05:34

[31/100] Витя Тарнавский

Яндекс выкатил большой апдейт для Алисы - Алиса AI.

Давайте для начала расскажу, что рынок пользовательского AI – это игра в дистрибуцию, а не в технологии. Вот так.

Думаете, люди реально сравнивают ChatGPT и Claude? Пару человек может и сравнивает. Массово люди пробуют о чем услышали и до чего дотянулись, и если оно задачу решает, ему ок.

Deepseek в РФ имеет невероятную популярность, хотя он на две головы хуже.

История аналогична старому поиску. Выигрывает тот, кто встанет по-умолчанию на устройство, а не тот, у кого поиск лучше.

Конечно, нужен базовый технологический "достаточный" уровень. Это сложная задача, которая под силу только гигантам сейчас. Но коммодитизация уже происходит.

Яндекс в релизе много рассказывает что Алиса "умнее". Им нужно пройти барьер "люди считают что Алиса умная". Но реальная война начнется в дистрибуции – и у Яндекса здесь самые сильные позиции в РФ, включая 70% рынка поиска и 35% рынка браузеров. Можно обратить внимание "везде, бесплатно и без VPN" в конце лендинга.

Ещё из интересного:
1. Яндекс заранее бронирует территорию "делаем за вас" через агентов – хотя сейчас таких агентов нет совсем, всё "coming soon". Тут ждем хоть чего-нибудь работающего.
2. Наконец-то wearables наушник с AI! Меня послушали 💅

Самый большой риск для Яндекса, как я это вижу, это "границы откроются" и сюда полноценно придут Google и OpenAI. Дистрибуция это еще и бренд – и все знают про ChatGPT.

5❤76🔥31🤡12💅8🥱2

8.25K viewsedited 08:43

[31/100] Витя Тарнавский

Channel name was changed to «[30/100] Витя Тарнавский»

18:47

[31/100] Витя Тарнавский

Я уже какое-то время интересуюсь домашними гуманоидными роботами, и вот отличный повод начать про это писать.

1x NEO запустился в предзаказ. По заверениям создателей, робот будет автономно делать домашние дела, развлекать вас разговорами и даже приносить пиво из холодильника. Всего за $20k или $499/mo, доставка в 2026 году.

В реальности, там внутри человек 🥴
В смысле управляет этой штукой удаленный оператор через VR-шлем, а не то что вы подумали. Надеюсь, все помнят робота Бориса на России-24 🤡

Фактически, это такая гувернантка на радио управлении. Компания обещает, что на момент релиза большинство операций робот будет делать автономно. Сейчас уровень автономности робота около нуля.

Смешно? На самом деле нет, это очень круто. Рассказываю почему.

Основной затык для создания такой автономной системы это данные для обучения. Это тысячи часов записей видео и датчиков реального выполнения задач. Этих часов сейчас никому не хватает. Самый понятный способ это сделать – управлять роботами через живых операторов at scale.

Ребята делают буквально это – раскатывают уже готовый для пользователя продукт (вам какая разница как задача решается?), который стоит для компании временно дороже в минуту, но это даёт им возможность обучить свой AI. И заодно создает площадку для тестирования и реальный финансовый поток.

Это переводит задачу из нерешаемой в масштабируемую. Human-in-the-loop: оператор подключается только когда нужно, и со временем всё меньше.

Или вы думаете, что роверы на улицах автономные? Это тоже human in the loop – операторы подключаются когда роверу сложно. А раньше – управляли 100% времени. Самоездящие машины обучаются похожим образом.

Всё ребята правильно делают, пожелаем им удачи. Надеюсь, робот скоро сможет поливать мои цветочки.

10🔥98❤17🤡7💅7

8.28K viewsedited 10:16

[31/100] Витя Тарнавский

Посмотрел Ex Machina – медитативный sci-fi про AGI. Секретный бункер, тьюринг тест и основатель Google прилагается.

Снят в 2014, но как будто всё более актуален. Я вот считаю что всё так и будет 🫠 Очень понравилось, рекомменд, смотрите!

IMDB | Netflix

1🔥29❤5

6.33K views10:36