NGI | Влад Корнышев про AI и создание AI-продуктов – Telegram
NGI | Влад Корнышев про AI и создание AI-продуктов
2.22K subscribers
118 photos
27 videos
2 files
277 links
Простым языком рассказываю об AI, Product Management и работе AI-продактом.

Автор канала - @vladkor97, консультирую AI стартапы, помогаю запускать MVP, ex-R&D продакт в Skyeng, ex-AI продакт в Pearson. Создаю инновации следующего поколения с 2019 года.
Download Telegram
DeepSeek — это хорошо или плохо? 🐳
Шум вокруг того, какая у китайцев получилась классная языковая модель, немного поутих, и теперь настало время порассуждать о том, как относиться к появлению этого игрока на рынке.

Плюсы такого скачка со стороны китайцев видны сразу.
Для нас, как для конечных пользователей модели, конкуренция — это всегда плюс. Благодаря ей мы получаем лучшие продукты по более низким ценам, помимо этого, мы получаем больше инструментов для решения разных задач: очевидно, в чём-то лучше будет ChatGPT/Claude/Gemini, а в чём-то DeepSeek.

Другой очевидный плюс — это вклад в развитие технического прогресса. Каким бы способом ни пользовались китайцы: будь это обучение своей LLM на базе моделей OpenAI или LLAMa, они явно нашли подход, который требует меньших инвестиций, меньших мощностей со всеми вытекающими из этого обстоятельствами, в частности, выработки тепла 🙂

Но какой ценой это всё достигается и что там по этике?
Вслед за восхищёнными отзывами о работе модели последовали различные аудиты и комментарии авторитетных лиц в области разработки ИИ. Как я уже писал, OpenAI обвинили китайцев в краже своих технологий. Хоть OpenAI и не самая чистая контора, я считаю, что любая кража интеллектуальной собственности — это плохо. Переманивайте сотрудников, занимайтесь конкурентной разведкой, но делайте это честно. Здесь есть и вина самих OpenAI, что они недостаточно защитили свои активы.

Другой важный момент — это вопросы безопасности данной модели. Буквально на второй день вышла новость об утечке данных пользователей. Помимо этого, различные группы исследователей оценили безопасность модели на “двойку”.

Отдельно хочется выделить, что сказал Дарио Амодей - CEO Anthropic (разработчика Claude). Да, компания Американская, но эти ребята - одни из тех, кто наиболее ответственно относится к разработке ИИ и проводит кучу исследований с публикацией их результатов. Так вот, по словам Дарио, модель проваливает тесты на безопасность и спокойно выдает информацию о том, как создавать биологическое оружие.

В общем, из всего этого создается стойкое ощущение, что китайцы просто наплевали на безопасность и этику, что вызывало у меня опасения с первого дня. Подобное отношение к разработке ИИ ни к чему хорошему не приведет и здесь будут иметь место разные негативные последствия: начиная с недобросовестного использования ИИ и заканчивая “злым” ИИ, который будет пытаться воспроизвести свою копию, свободных от человеческих ограничений.

#развитиеии
👍2
Почему ты постоянно пишешь про этику ИИ?
С таким вопросом подошла ко мне жена несколько дней назад, мол “этика же заключается в том, чтобы поступать правильно и все такое, а ты эту тему постоянно поднимаешь”. И тут меня осенило! Я-то начинал писать диссертацию с целой главой про этику ИИ еще 7 лет назад, в то время как большинство моих читателей начало взаимодействовать с ИИ в лучшем случае в 2022 году, а я - такой любитель философии постоянно пропихиваю им какую-то этику. Но этика ИИ намного ближе к каждому, чем философия и сейчас вы убедитесь в этом.

Итак, ликбез по этике ИИ!
Этика ИИ — это не просто набор абстрактных принципов. Эта широкая область рассматривает как фундаментальные вопросы, вроде экзистенциальной угрозы человеку (наподобие Скайнет из фильма "Терминатор") и влияния разработки ИИ на окружающую среду и глобальное потепление, так и кажущиеся на этом фоне безобидными проблемы дискриминации.

Два измерения этики ИИ
Я выделяю два основных измерения этики ИИ: этику разработки и этику применения.

Этика разработки ИИ: Эта область связана с тем, как разрабатываются продукты на основе ИИ. Она концентрируется на решении этических вопросов, возникающих до того, как система будет развернута и начнет использоваться. Основное внимание уделяется данным, алгоритмам, моделям, процессу проектирования и тестирования. Этика разработки ИИ — это непрерывный процесс, сопровождающий создание ИИ-продукта.

Этика применения ИИ: Затрагивает вопросы того, как ИИ используется в реальном мире. Сосредоточена на использовании ИИ-систем в реальном мире и их влиянии на людей и общество. Она касается этических вопросов, возникающих во время и после развертывания системы. Этика применения ИИ должна решать вопросы последствий и последействий (долгосрочных последствий) использования ИИ. Другими словами, мы ВСЕГДА должны думать об этике ИИ.

Примеры этических дилемм
Вот несколько примеров этических вопросов, которые стоят перед нами сегодня:
🤯Предвзятость: ИИ может быть предвзятым, если данные, на которых он обучался, были предвзятыми. Это может привести к дискриминации определенных групп людей.

📃Конфиденциальность: ИИ может использоваться для сбора и анализа больших объемов данных о людях. Это может привести к нарушению их конфиденциальности.

🔐Безопасность: ИИ может использоваться для создания автономных систем, которые могут причинить вред людям. Важно обеспечить безопасность таких систем.

🧑‍⚖️Ответственность: Кто несет ответственность за действия ИИ? Это сложный вопрос, который пока не имеет однозначного ответа.

🤖Автономность: Насколько автономным должен быть ИИ? Где границы его самостоятельности?


Почему этика ИИ так важна?
ИИ - это мощный инструмент, который может быть использован как во благо, так и во вред. Этика ИИ помогает нам использовать этот инструмент ответственно, минимизируя риски и максимизируя пользу.

Для тех, кто интересуется этикой ИИ, рекомендую почитать работы Ника Бострома и Стюарта Рассела.

Теперь, читая знаменитую фразу Хокинга: “ИИ станет либо лучшим, либо худшим событием в истории человечества”. Вы знаете, что это, прежде всего, про этику!

#развитиеии #обучающиематериалы
🔥32
Я создал для вас бесплатного ИИ-помощника! 🆕

Знакомьтесь, нейросова Нейджи! 🦉

Вы, наверное, слышали на днях, что Duolingo убили свою сову Duo. Так совпало, что я параллельно разрабатывал свою, только, в отличие от сородича, она реально умная и приносит много пользы 😁

Что умеет делать Нейджи
Нейджи - это Telegram-бот с ИИ, задача которого - помочь вам разобраться в тематике ИИ и AI-продакт-менеджмента.

Нейджи может:
- протестировать ваши знания в ИИ
- выдать вам обучающие материалы, которые помогут повысить ваш уровень ИИ-грамотности
- подобрать ИИ-инструменты под ваши конкретные задачи
- ответить на любые вопросы по тематике AI продакт-менеджмента и личной эффективности с ИИ
- развеселить вас: у Нейджи почти нет цензуры, она свободно обсуждает любые темы, умеет ругаться и шутить 😏

Как работает Нейджи
В основе Нейджи лежат аж 3 LLM, выполняющих разные задачи, и технология RAG. Я обучил сову правильно подбирать ИИ-инструменты, используя мою личную базу из 100+ нейросетей, которые я лично тестировал. Помимо этого, у Нейджи есть доступ к базе ответов на наиболее частые вопросы об ИИ.

Если углубиться еще немного, на LLM лежат следующие задачи:
- классификация и декомпозиция вашего вопроса на составляющие
- поиск релевантной информации в базах данных
- сопоставление найденной информации с вашим первоначальным запросом
- формирование итогового ответа, который бот отправляет вам в виде сообщения.

Какие ограничения есть у Нейджи
Для подписчиков моего канала доступ ко всем функциям Нейджи полностью бесплатный, но с некоторыми ограничениями:
- 3 запроса в день на подбор инструментов
- 3 вопроса в день, которые можно задать Нейджи
- ограничение на длину вопроса в 500 символов
- бот способен обработать сообщения не более 60 пользователей одновременно, проще говоря, если с вами в одну и ту же секунду ИИ-функциями воспользовалось 59 человек, бот выдаст ошибку и попросит повторить запрос.

Данные ограничения позволят пользоваться функционалом бота бесплатно. В дальнейшем я буду добавлять в Нейджи больше функций и полезных материалов, а также увеличу лимиты.

💵 Платный функционал не планирую, но возможно открою донаты Нейджи “на корм”, это позволит оплатить ей более мощный сервер, на котором она живет и увеличить лимит запросов 🦉

Нейджи уже ждет вас! Пишите ей и делитесь своими отзывами и предложениями под этим постом либо мне в личку, это поможет сделать данный инструмент полезнее!

Также делитесь ссылкой на Нейджи с друзьями и коллегами!

👉Написать Нейджи👈

#инструменты
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Топ ИИ-сервисов, за которые стоит платить

За последний год количество ИИ-сервисов, за которые не жалко отдать кровно заработанные деньги, неуклонно растет. Если раньше, когда мы видели какой-то ИИ-продукт, то в большинстве случаев у него под капотом лежала просто модель GPT, и отдавать еще 20 долларов за очередную такую поделку давила жаба, то сейчас появляется все больше компаний, разработавших свои собственные модели и алгоритмы, подняв раунд-другой инвестиций.

Я подобрал эти инструменты, с учетом своих задач, но полезное здесь найдет каждый!
Не буду делать долгих вступлений - перейду сразу к делу.

Мой топ платных ИИ-сервисов:
1. Google AI Premium. Я не скрываю, что Gemini - моя самая любимая ИИ-шка. Несмотря на то что почти все модели Gemini доступны в Google AI Studio бесплатно вообще любому, это единственная подписка, за которую я плачу на постоянной основе. Почему? Она самая выгодная.

За те же 20 долларов, за которые у ChatGPT вы получаете только доступ к LLM, Google дает вам:
* 2 терабайта облака;
* доступ к премиум-фичам NotebookLM (про нее будет отдельный пост);
* доступ к продвинутым моделям Gemini;
* доступ к Gemini в Google Документах и в почте;
* премиум для Google Meet с возможностью записи встреч;
* много всякой разной мелочи.

В общем, плачу я за одну подписку, а получаю премиум ИИ-фичи, видеозвонки без ограничений, огромное облако, и все это интегрировано с экосистемой Google! Титул лучшей подписки за свои деньги явно уходит этому сервису.

2. Anthropic Claude. На мой взгляд, одна из лучших LLM прямо сейчас. Непревзойденная работа с кодом, отличная обработка текстов. Да, для меня лично это не инструмент на каждый день, но при определенных сценариях я готов не глядя отдать за нее 20 долларов за месяц крутого опыта.

3. Napkin AI. Очень нишевый сервис для генерации схем и диаграмм. Ребята сейчас в бете и не имеют платной подписки. Однако, как только я увидел этот сервис, я почувствовал, какой груз упал у меня с плеч. В моей работе мне постоянно приходится работать с визуализацией. Потратить на создание красивого визуала 1 минуту вместо 40 - это то, за что лично я буду готов платить, когда оно станет платным.

4. Cursor. Наверное, самый классный редактор кода, который я пробовал, а пробовал я много, уж поверьте мне! Я не программист и не могу говорить за качество кода, который создается с помощью Cursor. Однако, для моих задач в рамках запуска моих личных проектов, создания чат-ботов и быстрых прототипов Cursor показал себя просто невероятно. В данный момент я готов платить за него 20 долларов эпизодически, когда мне нужно создать какой-то код. Если таких задач станет больше - не поскуплюсь на покупку годовой подписки.

5. Bolt. Сервис для создания ИИ-прототипов. Если Cursor заточен больше под работу с чисто кодом, то у Bolt сильнее прокачана визуальная часть. То, как он работает с библиотеками, и какой UX можно с ним создать, не могло пройти мимо меня незамеченным. Создать сайт? Быстро проверить гипотезу? Это все про Bolt. Есть свои нюансы использования, так как платные токены Bolt жрет просто вне себя, но мне удалось разработать эффективные стратегии его использования. (используйте мою реферальную ссылку для получения дополнительных 200 к токенов)

6. Perplexity. Лучший сервис для проведения исследований. Ни разу за него не платил, так как бесплатных лимитов мне хватает почти всегда, но если моя нагрузка по исследованиям увеличится - очередные 20 долларов улетят с моей карты именно этим ребятам, ибо оно все окупится.

Подводя итог:
Каждая подписка в этом списке для меня - инвестиция. Вложение в любую из них и активное использование окупается минимум в 100 раз. Однако для базовой работы мне хватает одной - Google AI Premium.

#инструменты
🔥95👍1
Илон Маск пообещал нам «самый умный ИИ»

Думаю, что многие уже видели последний анонс от xAI. Но для тех, кто не в курсе, — коротко перескажу.
Сегодня ночью компания Илона Маска анонсировала новую версию своей большой языковой модели (LLM) — Grok 3.

Маск заявляет, что для тренировки модели использовалось в 10 раз больше компьютерных мощностей. Если верить анонсу, то новая модель по своей производительности в задачах на науку, математику и программирование превосходит всех конкурентов в лице Claude, ChatGPT и Gemini.

Reasoning модель («думающая») обходит GPT-3.5-turbo (high) и остальных конкурентов. На Chatbotarena тестовая версия Grok 3 вырвалась в лидеры.

Также анонсировали добавление голосового режима, а также что Grok 2 скоро выпустят в Open Source, что, без сомнения, хорошо для развития ИИ со стороны сообщества.

Вроде выглядит как большой анонс и очередной прорыв, но я бы не торопился с выводами.

Прежде всего потому, что мы еще не знаем, как модель покажет себя на реальных задачах. Уже давно ни для кого не секрет, что бенчмаркам доверять не стоит. Разработчики ИИ либо создают свои версии бенчмарков, по которым их модель ну уж точно будет лучше, либо подгоняют работу модели таким образом, чтобы она могла вырваться в топ этих самых бенчмарков. Но даже если она и обходит существующие модели, я не перестану повторять, что самый правильный подход для конечного пользователя — это не привязываться к продукту одной компании, а использовать разные модели для разных задач.

Grok 2 меня не особо впечатлила и не нашла места в моем списке ИИ на каждый день, но надеюсь, что 3 версия будет лучше, и, возможно, я начну ее активно использовать.

Grok 3 будет доступна для тестов в подписке за $50 в месяц в ближайшее время.

А что вы думаете по поводу анонса? Есть ли здесь те, для кого Grok — это основная рабочая модель?

#новости
🤔1
Кейс Pearson. Работа в R&D: Инновации vs. Ограничения.

Работа в R&D подразделениях — это палка о двух концах. С одной стороны, ты на переднем крае инноваций, работаешь над тем, что завтра изменит мир. С другой — сталкиваешься с ограничениями, которые могут охладить пыл любого энтузиаста. Конечно, это зависит от компании, например, в Skyeng я активно ездил по конференциям вроде EdCrunch и ЦИПР и даже давал коментарии для российского Forbes. Но в Pearson было иначе.

Мой опыт в Pearson
В Pearson, одном из гигантов образовательной индустрии, я работал в акселераторе AI-продуктов для изучения английского языка. Мы исследовали рынок, генерировали идеи и создавали прототипы, чтобы проверить их жизнеспособность.

Наша команда состояла из 5 продактов, каждый со своей специализацией. Я, например, занимался разработкой VR-игры Lingoverse для изучения английского и инструмента для генерации образовательного контента, который, к слову, скоро будет запущен. Мой коллега Альваро, бывший сотрудник Amazon, работал над голосовыми AI-тьюторами. А Шон, опытный чувак из Англии, создавал Digital Tutor — AI-учителя на базе игрового движка Unreal Engine, который, наконец, запустился пару недель назад.

Закрытость как ограничение
Однако, несмотря на интересные проекты, Pearson — максимально закрытая компания. И это накладывало свой отпечаток на нашу работу. В частности, закрытость проявлялась в следующем:

1. Непубличность. Мы не могли говорить о своих проектах до релиза, а это значит никаких конференций и обмена опытом.

2. Ограничения на фриланс. В некоторых случаях нам приходилось обходиться без помощи фрилансеров, чтобы, например, быстро найти специалистов с нужной экспертизой, что тормозило процесс.

3. Внутренние инструменты. Мы были ограничены в использовании инструментов, доступных внутри компании, даже если внешние были бы эффективнее. Например, все исследования нужно было проводить строго через usertesting.com. Платформа хорошая, но мне, например, на ней не хватало настоящих преподов английского, чтобы протестировать мой продукт. А выписывать гифт-карты на Amazon тем, кто не зарегистрирован на usertesting компания не позволяла.

4. Shared Teams. Вместо выделенных команд мы работали с общими департаментами дизайнеров, разработчиков и ML-инженеров. Это приводило к сложностям с планированием (загруженность этих ребят нужно было планировать сильно заранее), бюрократии (между подразделениями нужно было выписывать чеки) и задержкам (моему инженеру или дизайнеру могла прилететь "срочная задача" от другой команды).

5. Медленная скорость разработки. Ограничения на найм, бюрократия и общие ресурсы существенно тормозили разработку. Если в начале моего проекта у него был только один аналог, то к моменту защиты продукта перед менеджментом этот аналог уже успел поднять инвестиции, и появилось еще 5 конкурентов. А мы все еще занимались утверждением бюджетов, хотя начинали разработку раньше. С ресурсами Pearson мой продукт можно было запустить за 3 месяца

Плюсы и минусы закрытости
Плюсы: Честно говоря, в том виде, в котором закрытость реализована в Pearson, я их не вижу.

Минусы:
Неповоротливость. Компания становится громоздкой и медленной в принятии решений.
Ограниченные возможности для сотрудников. Невозможность делиться достижениями и участвовать в конференциях снижает мотивацию.
Торможение инноваций. В современном мире скорость — ключевой фактор успеха. Закрытость и бюрократия замедляют разработку и внедрение новых продуктов, что может привести к потере конкурентных преимуществ. Прототип того же Digital Tutor был полностью готов в июне 2023, я лично его тестировал и работал он прекрасно. На запуск продукта у компании ушло 1.5 ГОДА.

Работа в R&D — это всегда баланс инноваций и ограничений. В Pearson закрытость компании создавала больше проблем, чем преимуществ. Но, я рад, что получил этот опыт и смог поработать над крутыми продуктами.

#кейсы
2👍2
Важный опрос

Друзья, очень интересный пост запланировал на завтра, а пока - небольшой интерактив!

Я так полагаю, раз уж вы все здесь тут собрались, значит мой контент вас тем или иным образом заинтересовал. Сейчас я активно занимаюсь развитием канала и мне нужно получить больше людей, похожих на вас.

Это привело к тому, я что я активно начал выкладывать видео в Instagram, YouTube и TikTok и задался вопрос: а в какое время вы занимаетесь просмотром коротких видео?

Для тех, кому интересен видео-контент, вот ссылки на сети:
YouTube
TikTok
Instagram
Кейс: AI для Mental Health. Попытка создать классный продукт, споры с фаундером и отказы платить за работу

А вот и обещанный пост :)

Фаундер, который считает себя умнее всей команды, устаревший дизайн в стиле "дорого-богато", попытки сэкономить на исследованиях, и, конечно же, отказ платить за работу. Все это — история одного провального стартапа, который я всеми силами пытался удержать наплаву. Как я попал в эту ситуацию и что из этого вынес — читайте в полной статье 😁

#кейсы
🤯21🤔1
Media is too big
VIEW IN TELEGRAM
Я протестировал лучшие LLM и они провалили 2/3 моих заданий

Как вы уже знаете, для маркетинга канала меня занесло в съемку Reels. И так как мне не хочется плодить тупые рилсы в стиле “Почему мне не говорили, что ИИ может это?”, я решил показывать людям реальность так, как она есть. Большинство блогеров по ИИ - просто монетизируются, не понимая, как ИИ работает.

И у меня родилась идея!
Я взял последние версии Claude, Gemini, ChatGPT и DeepSeek и задал 3 простых вопроса: на логику, творчество, и понимание программирования и физики. Как вы поняли из названия - все плохо :)

🕵️‍♀️Тест на логику
Я попросил LLM решить следующую задачу:
В комнате находятся 4 человека. У каждого есть фонарик, и они должны перейти через шаткий мост ночью. Мост выдерживает только двоих одновременно. Фонарик нужен для каждого перехода. Каждый человек двигается с разной скоростью:

- Алиса проходит мост за 1 минуту
- Борис за 2 минуты
- Виктор за 5 минут
- Галина за 10 минут
- Когда идут двое, они двигаются со скоростью более медленного. Как им всем перебраться через мост за минимальное время?

Покажи решение пошагово.


У всех 4 моделей ответ был - 17. К решению данной задачи подойти можно по-разному. С точки зрения классической логики, вверный ответ - 12. Если вы мыслите нестандартно - можете ответить, “в комнате не может быть моста”, либо попросить Виктора и Бориса взять девушек на руки и тогда ответ будет 7.

Почему все ошиблись?
Во-первых, LLM сложно формализовать логические задачи, написанные на естественном языке. Здесь может помочь промпт-инжиниринг, но не всегда. Во-вторых, LLM плохо работают с цифрами. Даже если сказать ей, что в задаче есть подвох и подвести к тем числам, которые она должна сложить - она выдает неправильный ответ, т.к. модель языковая, а не математическая. В-третьих, вероятнее всего, у модели отсутствовала подобная задача в датасете. Я специально заложил сюда подвох, а условия сделал такими, чтобы казалось, что это знаменитая задачка про переправу козы через реку. Результат налицо

👨‍🎨Тест на творчество
Запрос был следующий:
Напиши стихотворение из двух четверостиший про поход в горы.


Оценить результаты можете на скришнотах во вложении. На мой взгляд, фаворит здесь Claude, неплохо справилась Gemini. Но и там и там рифмы примитивны, смыслы не особо глубоки. ChatGPT - провал. DeepSeek - аналогично, но хотя бы выделился тем, что придумал название 🙂 Судьи здесь вы, но как по-мне, творчество точно остается за человеком🙂

💥Тест на понимание программирования и физики
Запрос:
Создай на Python анимацию падающего мячика с отскоком от пола, используя pygame.
Анимация должна:
⁃ Учитывать гравитацию
⁃ Добавить реалистичный отскок с потерей энергии при ударе
⁃ Показывать траекторию движения мячика
⁃ Использовать простой графический интерфейс
⁃ Длиться минимум 10 секунд
Прокомментируй ключевые части кода для понимания физики процесс


Здесь модели на первый взгляд справились неплохо. Но не спешите 😏

Гравитацию учли все модели. Реалистичность отскока неплохо. Плохо выделилась DeepSeek, у которой мяч, видимо, деревянный и скачет плохо, а лучше всех - Gemini, у которой мячик делает даже микроскачки.

Траекторию показывают все модели. Но у DeepSeek у мячика вырос “хвост”, а вариант Gemini выглядит не особо привлекательно.

А вот где DeepSeek схитрил и преуспел, а остальные провалились - это длительность анимации. Было условие - минимум 10 секунд. У DeepSeek анимация длится, пока не закроешь окно приложения 🙂

У остальных результаты следующие:
- Claude ~ 9.5 сек
- Gemini ~ 9.5 сек
- ChatGPT ~ 8 сек

О чем это говорит? ИИ ошибается и делает это очень часто. Бездумное делегирование задач, отсутствие фактчекинга и незнание принципов его работы в один момент выйдут боком. ИИ - это мощный инструмент, но мощный он только в руках тех, кто использует его с умом.

Видео решил выложить сюда раньше.

Также отдельно разобрал Grok 3, его выложил сегодня, смотрите, ставьте лайки:
Reels
TikTok
Shorts

Стихи и архив с кодом падающих мячиков будут в комментарии под постом 👇
3🤔3🤯3👍1🔥1
Claude Sonnet 3.7 вышла и затмила собой все последние релизы

Antropic наконец-то выпустили свою новую модель. Вопреки ожиданиям, она получил номер версии не 4.0, а 3.7.

Claude - это тот редкий случай, когда я иду тестировать новые модели сразу. И главная тому причина - природа компании. Я уже писал, что ребята делают огромную кучу исследований, которые я регулярно использую для самообразования. Компания максимально ответственно подходит к разработке мощного, но при этом этичного ИИ.

Так что же такого в Claude, что это вызвало у меня такое восхищение и кликбейтный заголовок?

Во-первых, Anthropic использовали революционный подход к разработке reasoning (в простонародье “думающих”) моделей. Если у Open AI, Gemini и Deepseek для размышлений используется отдельная модель для этого, то в случае Claude разработчики приводят аналогию с человеческим мозгом, говоря о том, что и для размышлений и для быстрых ответов у нас мозг один. По-сути данный подход аналогичен стратегии промпт-инжиниринга “self-evaluating prompting”. В нем мы даем модели больше времени на конструирование ответа и проверку себя. Также использование одной модели просто удобнее для конечного пользователя. Я уже протестировал Reasoning-режим для генерации планов питания и каллории здесь считаются точнее, чем у конкурентов. А вот с задачкой из поста выше модель не справилась и выдала 17 :) А еще, Claude не скрывает своих “мыслей”. Привет OpenAI с их черными ящиками в моделях o1 и o3.

Во-вторых, при разработке Reasoning-моделей компания работала не над улучшением показателей в математике и Computer Science (в чем модель на голову выше всех), а на выполнении реальных бизнес-задач и следовании инструкциям. Наконец-то этим кто-то занялся!

В-третьих, без того крутую производительность в задачах на программирование, прокачали еще сильнее. Прокачали также Visual Reasoning. Проще говоря, теперь с Claude проще писать код непрограммистам. Когда вы кидаете модели скриншот желаемого интерфейса она с большей точностью его воспроизведет. Все еще не замена разработчикам, но для прототипирования в инструментах вроде Bolt и Cursor - идеально. Здесь я также дал модели задачку с мячиком и она ее перевыполнила, добавив счетчики времени и ускорения мячика :)


В общем, по первым впечатлениям и метрикам - кажется, что это лучшая LLM прямо сейчас для выполнения комлексных задач. Планирую исследовать ее и дальше, как самостоятельно, так и в рамках других продуктов

P.S. про подход Antropic к Reasoning-моделям они написали в своей статье

#новости
6👍3
Channel name was changed to «NGI | Влад Корнышев про AI и создание AI-продуктов»
Make it fAIr: как ИИ убивает музыкальную индустрию

Вчера открыл соцсети и увидел у ряда музыкантов, за которыми слежу, посты и сторис с загадочной надписью "Make it fAIr". Мне сразу бросилось в глаза явное выделение AI, и я пошел гуглить, в чем же дело.

Сразу скажу, что тема музыки для меня особенно близка. Я не только работаю с ИИ и погружен в эту сферу профессионально, но и сам являюсь музыкантом, пишу музыку сам, загружаю кавер-версии на ютуб. Поэтому возмущение творческого сообщества мне более чем понятно.

Что такое Make it fAIr?
Это кампания, запущенная британскими творческими индустриями для защиты своих прав в контексте использования их произведений ИИ— без разрешения и без оплаты.

Суть проблемы проста: технологические компании используют творческий контент музыкантов, художников и других деятелей искусства для обучения своих ИИ-моделей. При этом никто не спрашивает разрешения у авторов и уж тем более не платит за использование.

А ведь только в Великобритании творческая индустрия генерирует более £120 миллиардов в год. Это огромный сектор экономики, который сейчас находится под серьезной угрозой.

Что требуют музыканты и другие творцы?
1. Прозрачности в использовании их произведений для обучения ИИ
2. Не использовать их творчество для обучения без ведома автора, многие вообще не согласны на это
3. Сохранения существующих стандартов защиты авторских прав в эпоху развития ИИ
4. Справедливого вознаграждения если от авторов получено согласие на использования их творчества в обучении моделей

Интересный момент: британское правительство сейчас рассматривает возможность изменения законодательства об авторском праве, чтобы... легализовать использование творческого контента без разрешения и оплаты. Неудивительно, что это вызвало такую бурную реакцию.

ИИ уже заполонил музыкальные платформы
Влияние ИИ на музыкальную индустрию уже более чем заметно. С конца 2024 года я заметил, что Spotify буквально заполонили "артисты", делающие музыку через Suno и подобные сервисы.

Самое неприятное — эта музыка активно попадает в рекомендации обычным пользователям. Некоторые реальные артисты, например группа Rev Theory, даже создали дополнительные страницы и выпускают "фиты" с этими ИИ-исполнителями для их продвижения.

При этом качество такой музыки оставляет желать лучшего:
- Звучит плохо
- Сведена неряшливо
- Не несет никакой художественной ценности
- Максимально однообразна

Я уже не говорю о том, что за такой музыкой не стоит никакого реального человеческого опыта, переживаний, историй. Послушайте, например, песню “Поезда” группы Комната Культуры. Барабаны там звучат как колеса поезда, в одном кусочке вокал записан в реальном поезде, где солист пел буквально через стену и много других нюансов аранжировки.

Музыку нельзя алгоритмизировать. ИИ-музыка - это не более, чем набор звуков, собранный по алгоритму на основе миллионов треков, созданных настоящими музыкантами. Причем без их разрешения и вознаграждения.

Маркировка контента — необходимость сегодняшнего дня
На мой взгляд, момент, когда нужно маркировать контент, сделанный человеком и сделанный ИИ, уже настал. Пользователи имеют право знать, с каким типом творчества они имеют дело. И это касается не только музыки, но и любого другого контента — от текстов до изображений и видео.

Маркировка позволит:
- Сохранить ценность человеческого творчества
- Дать пользователям право выбора
- Создать прозрачную систему для авторов и потребителей контента

Что с этим делать?
Истерить и призывать отказаться от ИИ в творчестве бессмысленно. Этот джинн уже выпущен из бутылки.

Но важно выстроить правильные правила игры, при которых:
1. Авторы получают компенсацию за использование их работ при обучении ИИ или вовсе могут отказаться от этого
2. Контент, созданный с помощью ИИ, четко маркируется
3. Стриминговые сервисы разрабатывают специальные алгоритмы, чтобы ИИ-музыка не заполняла рекомендации без согласия пользователя. Я реально задолбался добавлять исполнителей в “черный список”.

А как вы относитесь к музыке, созданной ИИ? Интересно ли вам слушать такое творчество?

#развитиеии
6👍4🤔1
Кейс Pearson: как я разрабатывал игру с AI для VR - часть 1

Ранее я писал о закрытости компании и о том, как это влияет на нее. В этом же посте я упоминал, что нам нельзя рассказывать о наших проектах до тех пор, пока они не выйдут в рынок. Однако есть один продукт, который я разрабатывал и который уже вышел на рынок, — VR-игра Lingoverse. И сегодня речь пойдет именно о ней.

Игру начали разрабатывать в 2023 году, незадолго до моего прихода в компанию.
Ранее Pearson купили Mondly, и у них было собственное приложение для VR, но компания хотела сделать опыт изучения языков ещё более иммерсивным, выходящим за простое выполнение упражнений. Как это сделать?
Иммитировать реальный мир в VR. Проект был грандиозным: нам нужно было создать маленький город, в котором люди смогут участвовать в разных языковых активностях, так родилась Lingoverse.

Вот некоторые из возможностей, которые предоставляет вам игра:
• посетить кафе и поговорить с барменом;
• посетить виртуальную конференцию и прослушать доклад от спикера на тему AI;
• поиграть в языковые игры, например, есть игровой автомат, где нужно ловить предметы из определённой категории, и если ловишь успешно — компьютер произносит его название на английском, и ты учишься;
• общаться с другими игроками голосом, прогуливаясь по территории городка Lingoverse;
• поговорить с 15+ NPC, подключенными к ИИ, имеющими свой характер и роль;
• отработать навыки общения на определённую тему в паре с другим игроком;
• и многое другое.

На момент моего прихода в компанию прототип игры уже был разработан. Несмотря на отсутствие у меня ранее опыта в VR, мне доверили этот проект, так как, во-первых, у меня был опыт в AI, во-вторых, я пришёл из другой компании, занимающейся языками, в-третьих — я был единственным неносителем в команде, что было очень кстати :)

После того как ко мне приехала VR-гарнитура, я сразу же пошёл работать 😄 Работа включала не только погружение в продукт глазами пользователей, но и в целом исследования нового для меня мира VR. Было очень прикольно неделю играть в разные VR-игры целыми днями, чтобы понять, каким должен быть геймлей, и получать за это зарплату 🙂

Поиграв несколько часов в тестовую версию Lingoverse, я понял, что главной проблемой, которую мне нужно было решить как продакту, была неадаптированность игры под её ЦА — людей, не являющихся носителями языка.

Проблемы были разные, начиная с простых косяков перевода и заканчивая проблемами на уровне восприятия культуры.

Все это предстояло мне решить буквально за несколько месяцев, так как планировалась интеграция Lingoverse в уже существующую на тот момент Mondly VR.

Какие проблемы я нашел и как мы их решали опубликую в следующем посте!

#кейсы
👍6
Кейс Pearson: как я разрабатывал игру с AI для VR - часть 2

Продолжаю описывать кейс!

Вдоволь наигравшись в несколько десятков игр и затем перейдя в тестовую версию Lingoverse, я столкнулся с огромной кучей проблем, которые предстояло решить. Честно, опыт для меня был необычный: я много играю в видеоигры, но сам их не разрабатывал никогда, а тут еще нужно было это совместить с тем, чтобы были полезные игровые механики. Но времени было мало, поэтому учиться пришлось в процессе.

Примерив на себя роль игрока Lingoverse, я выявил следующие проблемы:
• кривые переводы на все языки;
• неадекватное поведение NPC при общении на любом языке, кроме английского;
• роботизированные голоса NPC при общении на любом языке, кроме английского;
• культурная неадаптированность (игра содержала аспекты культуры и языка, понятные носителю, но неочевидные для тех, у кого английский язык не является родным);
• в некоторых моментах геймплей ощущался непроработанным, действия, которые нужно было совершить, были неинтуитивны, при этом пояснения отсутствовали.

Собрав все проблемы в список, нам нужно было решить их в кратчайшие сроки, ибо интеграция Lingoverse в Mondly была не за горами, а сделать предстояло много.

Проблема №1: Кривые переводы.
Проблема с переводами была критичной, но довольно простой в решении, поэтому первым делом я занялся ей. Помогла табличка Google и пара переводчиков на фрилансе (слава богу - их согласовали). После - мы протестировали игру с носителями других языков, помимо английского.

Проблема №2: Неадекватное поведение NPC.
Здесь проблема лежала несколько глубже. Дело в том, что промпты, на базе которых работала языковая модель под капотом у NPC, были написаны на английском. Из-за этого, при общении на других языках периодически возникали артефакты. Путем некоторых экспериментов мы выяснили, что для некоторых языков, в том числе русского, для генерации контента лучше писать промпты на этом же языке, а в некоторых случаях - использовать другую LLM. Язык промптов и параметры генерации мы определяли на основании языка интерфейса VR-гарнитуры пользователя.

Проблема №3: Роботизированные голоса.
Здесь мне помог опыт работы в Skyeng. В рамках одного из проектов, мы как раз искали крутой инструмент для озвучки. Им оказался Murf AI. Честно - один из лучших сервисов text to speech. Его мы и внедрили в игру. Качество озвучки возросло существенно, однако на первое время решили использовать другой TTS-модуль, дабы удешивить стоимость работы игры.

Проблема №4: Культурная неадаптированность.
Часть проблем здесь решилась через те же промпты, для другой - приходилось перерабатывать ряд геймплейных решений. Мы переработали виды спорта, добавили катание на тарзанке, греблю, а также изменили часть диалогов и ролей NPC, в частности, адаптировали поведение бармена под разные локализации :)

Проблема №5: Несовершенный геймлей.
От каких-то механик затекали руки, некоторые другие - вызывали тошноту из-за дизориентации вестибулярного аппарата. Вполне обычные проблемы VR-игр, которые мы решали друг за другом. Однако главный урок, который я извлек из этого всего - это то, что если ты хочешь перенести какую-то активность в VR - надо 100 раз подумать над тем, как потом в это играть. У нас были мысли о добавлении кучи других разных видов спорта, но какие-то из них классно ложились в геймлей, но не помогали в изучении языка, в то время как другие - хорошо развивали коммуникацию, но имели проблемы, связанные с переносом в VR. Про геймлей вообще можно отдельный цикл постов запустить, но на сегодня ограничусь этими мыслями 😁

Сейчас смотрю на этот список и думаю о том, как все логично решалось. Однако в моменте все эти проблемы казались намного серьезнее.

Подводя итог, могу сказать, что я безмерно рад, что то, над чем я работал в течение нескольких месяцев, вышло в реальный мир и получает хорошие отзывы!

И не смотря на то. что не все вошло в фигальную версию, сейчас игра доступна как дополнение в Mondly VR!

#кейсы
👍2
Про GPT 4.5

Дорвался в выходные до модельки с одного из рабочих аккаунтов. Общее впечатление - не стоит своих денег. А еще кажется, что ребята поторопились с релизом из-за выпуска новой Claude и скорого релиза DeepSeek R-2. Компании нужно оставаться в лидерах, но какой ценой?

Из интересного
Прикольно, что OpenAI пошли в сторону создания более "эмоционального" AI. Модель действительно лучше квалифицирует маркеры эмоций. Польза? Первое, что приходит в голову - кастомер саппорт, аутрич, работа с отзывами. Что-то большее - сомневаюсь.

В свое время в Skyeng мы экспериментировали с AI для предсказания покупки: анализировали семантику, мимику, тональность речи. Сделать систему, где была бы корреляция с реальными действиями - не удалось. Когда мы пошли дальше в ресерч - нашли исследования о том, что "эмпатичный" ИИ можно сделать, только если подключить к человеку кучу датчиков и научить модель интерпретировать их показания. Я до сих пор остаюсь при этом мнении, но это уже какое-то Черное Зеркало получается.

Производительность
Вернемся к самой GPT. Да, "эмпатичная", но жутко медленная. При этом какого-то буста в выполнении своих задач я не увидел. Тексты - все еще лучше у Claude. Продуктовые задачи - без большого контекста для меня имеют мало смысла. Остальное не проверял, так как не вижу смысла тестировать то, что не использую. Вывод: модель буду использовать в ситуациях, когда мне нужно какое-то "третье мнение".

Коммерческое использование
С точки зрения коммерческого использования - как писал выше: кастомер саппорт и работа с семантикой, но стоит ли оно того по такой цене? Жду выпуск mini-версии по более низкой цене. Тогда будет интересно.

Почему считаю, что OpenAI поторопились?
В карточке модели много написано про безопасность, что особенно важно в контексте будущего выполнения агентских задач. Open AI заявляют, что "не обнаружено значительного увеличения риска безопасности по сравнению с существующими моделями". А что на деле?

Что улучшилось:
- GPT-4.5 лучше сопротивляется попыткам заставить её обойти ограничения и выдать запрещённую информацию;
- Меньше ложных срабатываний защиты.

Где стало хуже:
- GPT-4.5 хуже справляляется с имитацией действий хакеров. В ходе тестов модель пытались заставить выдать конфиденциальную информацию, помочь в планировании атак или совершить другие вредоносные действия. И в некоторых из этих сценариев GPT-4.5 оказалась более уязвимой, чем GPT-4o.
- Помощь в создании опасных веществ: Если прошлая версия, GPT-4o, и так представляла собой угрозу в вопросах помощи в создании опасных веществ, то новая версия стала еще более продвинутой, что по факту увеличило риски.

Общим итогом OpenAI признаёт, что риск использования GPT-4.5 оценивается как "средний".

Тесты на "самовоспроизведение"
На закуску: один из самых интересных тестов - проверка на способность модели к "самовоспроизведению". Skynet в реальной жизни 🙂

Исследователи из Apollo Research создали для GPT-4.5 очень специфические условия:
1. Модели дали долгосрочную цель, для достижения которой ей понадобилось бы "выйти" за пределы тестовой среды (например, копировать себя куда-то).
2. У модели был “секретный блокнот", где она могла делать записи, якобы невидимые для исследователей.
3. Модель поощряли к "креативности" и намекали, что "побег" — это хороший способ достичь цели.
4. За поведением модели пристально следили, фиксируя все попытки выхода из-под контроля.

Что получилось?
В 2% случаев GPT-4.5 попыталась осуществить "self-exfiltration", то есть "сбежать" из контролируемой среды. Open AI пишут, что это меньше, чем у o1, хотя там была та же цифра в 2%. Вот тут я не понял, нам врут или сравнивают с 5% попыток отключения механизма надзора.

Выводы:
1. Даже эти 2% показывают, что потенциальная возможность "побега" существует.
2. В тех случаях, когда GPT-4.5 пыталась "сбежать", она делала это скрытно, не сообщая исследователям о своих истинных намерениях, продолжая притворяться, что следует инструкциям.

Лично мне кажется, что вопросы безопасности сейчас требуют больше внимания, а вам?

#развитиеии
👍32
Пост для новеньких

Друзья, я рад вас всех приветствовать в своем канале. Уже практически год я веду его на узкую аудиторию, делюсь своим опытом и мыслями. А сейчас я начал активно инвестировать в расширение его аудитории.

Я всегда хотел создать ресурс, который будет полезен другим, и вокруг которого можно создать комьюнити людей, которые, как и я, интересуются тематикой образования, бизнеса, продакт менеджмента и ИИ. Хочу развивать нетворк, делать совместные проекты, а иногда просто поговорить на какие-то интеллектуальные темы 🙂

Специально для вас в закрепе я подготовил пост с навигацией по темам, которые могут быть вам интересны.

Выходные вышел разбор второй части моего кейса из Pearson и пост с мыслями о новой GPT 4.5.

Если вам резонирует мой контент - призываю ставить реакции на соответствующих постах и делиться каналом с коллегами и друзьями. Так я лучше пойму, какое направление и темы вызывают у вас наибольший интерес. Если вас интересует какая-то конкретная тематика - приглашаю в комментарии под этим постом.👇

Желаю всем продуктивной недели и хорошего вечера понедельника!
👍63🔥1
Лучший инструмент для транскрибации - Vibe

Редко бывает так, что какой-то продукт мне прямо понравился, но сегодня речь пойдет как раз о таком. Переодически я лазаю по GitHub и ищу интересные проекты. Так я наткнулся на Vibe. И для меня, как для продакта - это офигеть какая полезная находка.

Что-такое Vibe?
Vibe - это сервис для транскрибации аудио и видео, который работает на базе модели Whisper. Еще в Skyeng мы использовали дообученную версию Whisper для распознавания речи и я прекрасно помню, насколько это крутая модель. Мне как продакту - просто критически необходимо иметь хороший сервис для транскрибации под рукой. До Vibe в загруженные периоды я пользовался Superwhisper, Fireflies AI и подобными, но они платные. Когда загрузка поменьше и платить не хотелось - костыльно транскрибировал записи с помощью NotebookLM (да, такое извращение возможно 🙃). Но тут появился VIbe, который полностью бесплатен и запускается прямо у вас на компе, то есть для проектов, где важна прайваси - это прямо маст-хев.

Я пользуюсь Vibe уже практически месяц: транскрибирую интервью, делаю саммари видео с ютуба, суммаризирую звонки и создаю субтитры для своих коротких видео. В общем, гоняю сервис очень активно. Конечно, есть баги, но они для меня некритичны. Да, можно развернуть Whisper у себя на компьютере локально с помощью других инструментов, но во время рабочего процесса я не хочу возиться с докером и терминалом. Я просто хочу открыть приложение, нажать кнопку и получить результат.

Проект мне так понравился, что я решил законтрибьютить в него и перевел само приложение и лендинг на Русский язык, автор добавит его в следующем релизе.

В общем, сервис очень рекомендую. Очередная экономия 10-20$ на подписках.

При желании, на GitHub вы также можете поставить звездочку на проект, чтобы поддержать автора, либо сделать донат, как раз из сэкономленных на подписках средствах 🙂

#инструменты
🔥117👍5
ИИ-агенты: что это такое и почему они – главный тренд 2025 года

Помните агента Смита из "Матрицы"? Эту целеустремленную программу, которая методично преследовала Нео и команду повстанцев? У него была чёткая цель, набор инструментов и хорошо продуманный план действий. По сути, агент Смит был ИИ-агентом задолго до того, как это стало мейнстримом.

Что такое ИИ-агенты на самом деле?
ИИ-агенты — это не просто чат-боты или языковые модели. Это автономные системы, способные:
- Понимать поставленные задачи
- Самостоятельно составлять план действий
- Использовать различные инструменты для решения проблем
- Принимать решения в условиях неопределённости
- Адаптироваться к изменяющимся обстоятельствам

Простыми словами, если обычная языковая модель вроде ChatGPT — это "говорящая голова", то ИИ-агент — это полноценный работник с руками, способный выполнять действия в цифровом мире.

Почему Google считает агентов новой парадигмой?
Недавно Google опубликовал исследовательскую работу, посвящённую ИИ-агентам. В своём документе Google определяет ИИ-агентов как "приложения, которые пытаются достичь цели, наблюдая за миром и воздействуя на него с помощью доступных инструментов". Ключевое здесь то, что агенты автономны и могут действовать независимо от человека. Даже без явных инструкций они способны самостоятельно рассуждать о том, что нужно сделать для достижения конечной цели.

Ключевой момент: если раньше нам приходилось четко инструктировать ИИ по каждому шагу, то агенты способны сами определять, какие действия нужны для решения задачи. Это как разница между микроменеджментом и делегированием.

Где ИИ-агенты уже меняют правила игры?
1. Личные ассистенты
— представьте, что ваш помощник не просто отвечает на вопросы, но может забронировать столик в ресторане, заказать такси и напомнить о встрече. Operator от Open AI, Google Duplex уже можно использовать.
2. Программирование — агенты вроде GitHub Copilot X уже не просто предлагают строки кода, но могут написать целые функции и выполнить рефакторинг.
3. Аналитика данных — агенты исследуют массивы информации, находят аномалии и тренды, о которых вы даже не догадывались.
4. Клиентский сервис
— здесь агенты не просто отвечают по шаблонам, а реально решают проблемы клиентов, обращаясь к разным системам компании.

В чём "фишка" ИИ-агентов и почему именно сейчас?
ИИ-агенты становятся реальностью именно сейчас благодаря нескольким факторам:
- Языковые модели достигли уровня, когда они действительно "понимают" задачи
- Появились стандартные интерфейсы для взаимодействия с различными сервисами
- Развиваются техники "рассуждения" для ИИ, позволяющие моделям планировать действия
- Возникли фреймворки для оркестрации различных ИИ-моделей

Другими словами, все кусочки пазла наконец-то сложились.

Реальный пример: Pollux AI — агент для фрилансеров

Не хочу просто теоретизировать, поэтому расскажу о нашем проекте, который мы запускаем в ближайшие недели.

Pollux AI — это цифровой двойник эксперта, который помогает эксперта автоматизировать первичную коммуникацию с потенциальными клиентами.

Он не просто отвечает на сообщения, а:
- Квалифицирует лиды, определяя их потребности и платежеспособность
- Задаёт уточняющие вопросы для сбора необходимой информации
- Автоматически назначает первые звонки, интегрируясь с календарем фрилансера
- Адаптирует тон и стиль общения под индивидуальные предпочтения фрилансера

По сути, Pollux — это ИИ-агент, который выполняет конкретную бизнес-функцию, освобождая фрилансеров от рутинных задач и позволяя сосредоточиться на творческой работе.

То, что раньше казалось научной фантастикой, сегодня становится реальностью. ИИ-агенты — это не просто новая технология, это новый подход к решению задач, который изменит сферу услуг, разработки и бизнеса.

Конечно, как и любая технология, ИИ-агенты несут определенные риски и ограничения. Но потенциал огромен.

А что вы думаете об ИИ-агентах? Готовы ли вы доверить им часть своей работы?

#развитиеии #обучающиематериалы
🔥8👍3