История о том, как НЕ стоит делать свои продукты
Всего пару постов назад я делился расширением PrettyPrompt, которое позволяет улучшать промпты по клику. И казалось бы: ну, поделился и поделился, чё бухтеть тут. И бухтеть было бы не о чем, если бы ребята, которые создают это расширение не были бы мамкиными стартаперами. Я думаю, что это было понятно уже из того факта, что они за своё расширение просят $12. Но как оказалось, это только вершина айсберга...
Почему я изначально поделился этим расширением?
Да, потому что оно тупо удобное! Я прекрасно знаю, что тоже самое можно сделать в любой LLM, но... я просто ленивый, а это расширение просто удобное — у нас произошел мэтч!
Собственно, поэтому я оформил 3-х дневную пробную подписку на PrettyPrompt с неограниченным количеством улучшений промптов. Всё шло классно: промпты улучшались, задачи решались.
Правда, позже оказалось, что ребята прикрутили Stripe, сделали лендинг, сделали пространство в Slack с десятком каналов и модерацией, записали видосики на YouTube, интегрировали расширение прямо в интерфейс популярных LLM, да и ещё кучу всего «полезного», но как-то забыли о кнопке «отписаться»...
И когда с меня списали $12 прекрасным субботним утром мой гнев было не остановить. Я тут же написал ребятам на почту о том, какие они «молодцы», что забыли добавить эту кнопку, а также оставил им гневный комментарий в магазине расширений.
Не прошло и трёх минут, как на моей карте снова оказались родные $12, на почте был ответ, а в магазине приложений был произведён дэмэдж-контрол с упоминанием того, что всё уже решено, а отписаться можно написав им на почту. Отдаю должное — отвечают ребята супер-быстро.
Ну, я не гордый, извинился за то, что вспылил, удалил гневный отзыв с магазина расширений и даже предложил поболтать в формате интервью с CEO этой доморощенной компашки. И помимо этого напрямую сказал, что их продукт слишком дорогой, и что я был бы не против купить подписку за $5 в месяц.
В своём ответном письме CEO мне сказал, что готов пообщаться и будет рад предоставить мне промокод на скидку 25% на 6 месяцев.
Стоп. Что? ПРОМОКОД?! Ещё раз: у вас нет кнопки отписаться, но вы реализовали даже промокоды?!
Здесь я уже не выдержал и пошёл писать своё расширение, идентичное по функционалу PrettyPrompt.
Так чуть меньше чем за два дня и $10.60 (которые пошли на комиссию Chrome Web Store и оплату OpenAI API) появилась Looma ✨.
Looma решает ту же задачу, что и PrettyPrompt, но использует для этого более продвинутую модель — gpt-5-mini, а также абсолютна бесплатна!
Кстати, думаю вам интересно сколько запросов могут проглотить $12, которые авторы PrettyPrompt просят за свой сервис. Так вот, за эти деньги можно сделать 12 000 обращений к gpt-5-mini. Это просто безумное число запросов, которое почти нереально потратить за месяц...
И даже при всём при этом ребята под капотом используют какую-то дешевую модель без thinking. Выводы делайте сами)
А Looma доступна для установки прямо сейчас! 😉
Всего пару постов назад я делился расширением PrettyPrompt, которое позволяет улучшать промпты по клику. И казалось бы: ну, поделился и поделился, чё бухтеть тут. И бухтеть было бы не о чем, если бы ребята, которые создают это расширение не были бы мамкиными стартаперами. Я думаю, что это было понятно уже из того факта, что они за своё расширение просят $12. Но как оказалось, это только вершина айсберга...
Почему я изначально поделился этим расширением?
Да, потому что оно тупо удобное! Я прекрасно знаю, что тоже самое можно сделать в любой LLM, но... я просто ленивый, а это расширение просто удобное — у нас произошел мэтч!
Собственно, поэтому я оформил 3-х дневную пробную подписку на PrettyPrompt с неограниченным количеством улучшений промптов. Всё шло классно: промпты улучшались, задачи решались.
Правда, позже оказалось, что ребята прикрутили Stripe, сделали лендинг, сделали пространство в Slack с десятком каналов и модерацией, записали видосики на YouTube, интегрировали расширение прямо в интерфейс популярных LLM, да и ещё кучу всего «полезного», но как-то забыли о кнопке «отписаться»...
И когда с меня списали $12 прекрасным субботним утром мой гнев было не остановить. Я тут же написал ребятам на почту о том, какие они «молодцы», что забыли добавить эту кнопку, а также оставил им гневный комментарий в магазине расширений.
Не прошло и трёх минут, как на моей карте снова оказались родные $12, на почте был ответ, а в магазине приложений был произведён дэмэдж-контрол с упоминанием того, что всё уже решено, а отписаться можно написав им на почту. Отдаю должное — отвечают ребята супер-быстро.
Ну, я не гордый, извинился за то, что вспылил, удалил гневный отзыв с магазина расширений и даже предложил поболтать в формате интервью с CEO этой доморощенной компашки. И помимо этого напрямую сказал, что их продукт слишком дорогой, и что я был бы не против купить подписку за $5 в месяц.
В своём ответном письме CEO мне сказал, что готов пообщаться и будет рад предоставить мне промокод на скидку 25% на 6 месяцев.
Стоп. Что? ПРОМОКОД?! Ещё раз: у вас нет кнопки отписаться, но вы реализовали даже промокоды?!
Здесь я уже не выдержал и пошёл писать своё расширение, идентичное по функционалу PrettyPrompt.
Так чуть меньше чем за два дня и $10.60 (которые пошли на комиссию Chrome Web Store и оплату OpenAI API) появилась Looma ✨.
Looma решает ту же задачу, что и PrettyPrompt, но использует для этого более продвинутую модель — gpt-5-mini, а также абсолютна бесплатна!
Кстати, думаю вам интересно сколько запросов могут проглотить $12, которые авторы PrettyPrompt просят за свой сервис. Так вот, за эти деньги можно сделать 12 000 обращений к gpt-5-mini. Это просто безумное число запросов, которое почти нереально потратить за месяц...
И даже при всём при этом ребята под капотом используют какую-то дешевую модель без thinking. Выводы делайте сами)
А Looma доступна для установки прямо сейчас! 😉
🔥4❤2👏1
Никогда не думал, что напишу что-то подобное... но попробуйте новый Grok 4 Fast!
Эта модель по сути GPT-5 на спидах. И это огромный комплимент для любой модели, но для Grok... это даже не комплимент, а просто что-то невообразимое.
Кто ещё полтора месяца назад, когда вышла GPT-5, мог подумать, что именно xAI сделают следующий прорыв в этой области, по сути выпустив скоростную и очень дешевую GPT-5? Точно не я. Тем не менее имеем, что имеем.
Модель прямо сейчас доступна на официальном сайте, а также во всех AI IDE под именем code-supernova. Модель настолько дешевая, что по сути бесплатная, а в AI IDE прямо сейчас, ограниченное время, реально бесплатная.
И всё-таки немного оговорюсь:
— Модель почти такая же умная как GPT-5, но учитывая насколько она быстрая и дешевая, этот небольшой разрыв в интеллекте с лихвой окупается;
— Также нигде не подтверждено, что code-supernova это именно Grok 4 Fast, но по совокупности факторов я на 99% уверен, что это она.
Эта модель по сути GPT-5 на спидах. И это огромный комплимент для любой модели, но для Grok... это даже не комплимент, а просто что-то невообразимое.
Кто ещё полтора месяца назад, когда вышла GPT-5, мог подумать, что именно xAI сделают следующий прорыв в этой области, по сути выпустив скоростную и очень дешевую GPT-5? Точно не я. Тем не менее имеем, что имеем.
Модель прямо сейчас доступна на официальном сайте, а также во всех AI IDE под именем code-supernova. Модель настолько дешевая, что по сути бесплатная, а в AI IDE прямо сейчас, ограниченное время, реально бесплатная.
И всё-таки немного оговорюсь:
— Модель почти такая же умная как GPT-5, но учитывая насколько она быстрая и дешевая, этот небольшой разрыв в интеллекте с лихвой окупается;
— Также нигде не подтверждено, что code-supernova это именно Grok 4 Fast, но по совокупности факторов я на 99% уверен, что это она.
❤2🔥2👏1
Две проблемы с Grok 4 Fast
Прежде всего, модель действительно топовая, но GPT-5 меняиспортил приучил к хорошему, поэтому о проблемах Grok 4 Fast
1. Модель любит делать то, что ты её не просишь.
GPT-5 это как твой личный помощник, который внимает каждому твоему слову, нежно записывает это всё в «тетрадочку», а потом слово в слово следует твоим указаниям, помня что ты его попросил (ведь всё записано в тетрадочке, всегда есть куда подсмотреть).
Grok 4 Fast в этом плане обычная модель. Такая же как и все остальные, типа Claude 4.1 Opus или Gemini 2.5 Pro. Его можно сравнить с помощником-стажером: он тебя послушает, но потом сделает немного по-своему. Заказал латте на кокосовом? Он принесёт тебе латте на кокосовом с веточкой ванили. Разница особенно заметна, когда ты просишь его сделать большие изменения. С другой стороны, в этих изменениях зачастую он не делает ничего плохого, частенько даже полезное, но, когда ты хочешь свой латте на кокосовом, эта веточка ванили может не входить в твои планы.
2. Модель не даёт информацию о размышлениях
Да, и если честно, то вообще никакую информацию о промежуточных шагах, только саммари в конце, поэтому не понятно а в каком направлении сейчас вообще идёт работа, сложно отловить когда нужно вернуть её обратно на рельсы. Вероятно, это эффект стелс-модели и на полноценном релизе она будет делиться размышлениями, но пока как есть.
В противовес GPT-5 даёт тебе, наверное, слишком много информации о размышлениях, но лучше так, чем совсем ничего.
При этом модель всё ещё огонь! Токены генерирует как бешенная. За три дня, что я её использую она сожгла токенов больше, чем GPT-5 за 3 недели использования.
Удивительно, но плохие стороны модели значительно меньше заметны, учитывая насколько быстро она работает.
Плохой ответ? Да, пофиг. Дополнил контекст, закинул новый запрос, через минуту получил новый ответ.
В то время как с GPT-5 ты пишешь в параллель несколько запросов, потому что пока выполняется один, ты можешь сделать второй, написать код для решения третьей задачи самостоятельно и ещё попить кофе с друзьями. Тем не менее GPT-5 всё ещё огромный прорыв, пускай и медленный.
Прежде всего, модель действительно топовая, но GPT-5 меня
1. Модель любит делать то, что ты её не просишь.
GPT-5 это как твой личный помощник, который внимает каждому твоему слову, нежно записывает это всё в «тетрадочку», а потом слово в слово следует твоим указаниям, помня что ты его попросил (ведь всё записано в тетрадочке, всегда есть куда подсмотреть).
Grok 4 Fast в этом плане обычная модель. Такая же как и все остальные, типа Claude 4.1 Opus или Gemini 2.5 Pro. Его можно сравнить с помощником-стажером: он тебя послушает, но потом сделает немного по-своему. Заказал латте на кокосовом? Он принесёт тебе латте на кокосовом с веточкой ванили. Разница особенно заметна, когда ты просишь его сделать большие изменения. С другой стороны, в этих изменениях зачастую он не делает ничего плохого, частенько даже полезное, но, когда ты хочешь свой латте на кокосовом, эта веточка ванили может не входить в твои планы.
2. Модель не даёт информацию о размышлениях
Да, и если честно, то вообще никакую информацию о промежуточных шагах, только саммари в конце, поэтому не понятно а в каком направлении сейчас вообще идёт работа, сложно отловить когда нужно вернуть её обратно на рельсы. Вероятно, это эффект стелс-модели и на полноценном релизе она будет делиться размышлениями, но пока как есть.
В противовес GPT-5 даёт тебе, наверное, слишком много информации о размышлениях, но лучше так, чем совсем ничего.
При этом модель всё ещё огонь! Токены генерирует как бешенная. За три дня, что я её использую она сожгла токенов больше, чем GPT-5 за 3 недели использования.
Удивительно, но плохие стороны модели значительно меньше заметны, учитывая насколько быстро она работает.
Плохой ответ? Да, пофиг. Дополнил контекст, закинул новый запрос, через минуту получил новый ответ.
В то время как с GPT-5 ты пишешь в параллель несколько запросов, потому что пока выполняется один, ты можешь сделать второй, написать код для решения третьей задачи самостоятельно и ещё попить кофе с друзьями. Тем не менее GPT-5 всё ещё огромный прорыв, пускай и медленный.
🔥4❤2👍1
Использование AI замедляет разработку
Я недоумеваю каждый раз, когда слышу этот тейк. В этот четверг на нашем внутреннем митапе в Додо, во время обсуждения доклада, я в очередной раз услышал эту мысль — от тех же людей и с той же аргументацией, что и раньше. И если раньше я пытался «бороться» с этим, показать им красоту и эффективность такого подхода, то сейчас я уже просто принял это.
Сначала я искренне полагал, что дело в тулах — типа технологии ещё не настолько продвинуты, чтобы угодить запросам некоторых людей. И я их прекрасно понимал, пока state-of-the-art моделями были дорогие и непослушные Claude.
Правда, после выхода GPT-5 ничего не поменялось: те, кто успешно применял AI в разработке, продолжили применять его, а те, кто не использовал — продолжили бухтеть, только теперь уже на GPT-5.
Почему так? Почему одни трубят о том, что AI-assisted разработка ускоряет их, а другие либо утверждают, что с таким подходом невозможно решить ни одну задачу, либо говорят, что код на выходе неподдерживаемый, либо же ссылаются на «те самые исследования», в которых говорится, что подобная разработка на самом деле снижает производительность разработчиков?
Лично я пришёл к выводу, что это просто skill issue конкретных людей. Если даже Линус Торвальдс согласен принимать код, сгенерированный AI, то оправдания насчёт качества такого кода кажутся мне абсолютно неуместными (и нет, это не значит, что любой сгенерированный код можно не глядя пушить в прод). А что касается «тех самых исследований» — у меня ещё запланирован большой пост на эту тему. А если бы AI действительно не был способен решать задачи, мы бы с вами вообще не собрались здесь.
Причём я считаю, что самое важное преимущество использования AI — это даже не усиление уже имеющихся навыков, а то, что он позволяет тебе стать:
немного девопсом,
немного бэкендером,
немного фронтендером,
немного дизайнером,
немного менеджером,
немного (подставь своё).
Мне сложно даже перечислить, сколько улучшений AI принёс в мой Developer Experience: позволил локально запускать E2E-тесты, помог перевезти легаси-фронтенд написанный Angular (с которым я знаком только благодаря поддержке этого самого проекта) на современный стек (речь об обновлении 50+ зависимостей, некоторые из которых перестали существовать, пока проект не поддерживали, и семи мажорных версий Angular), а также улучшить имеющиеся и создать новые GitHub-джобы.
И ни одно из этих улучшений не было бы возможно, если бы я занимался ими самостоятельно. Одни — потому что я не знал, как это сделать, а обучение заняло бы кучу времени. Другие — потому что они просто требовали бы слишком много времени на реализацию. В продуктовой разработке зачастую просто не хватает ресурсов, чтобы закрывать такие задачи (хотя менее важными они от этого не становятся).
Если подводить итог:
1. Да, использовать AI нужно уметь. Это полноценный отдельный скилл, и качество ответов напрямую зависит от уровня вашего понимания LLM.
2. Да, со временем ситуация будет улучшаться: LLM будут становиться умнее, а значит — будут выдавать более толковые ответы, вне зависимости от вашего уровня владения LLM. Но есть проблемы, которые в ближайшее время решены не будут, и главная из них — проблема контекста (речь как об обогащении запроса контекстом, так и о размере контекстного окна, а также о росте количества галлюцинаций с увеличением контекста в рамках чата).
Проблемы работы с контекстом сейчас полностью лежат на пользователе. И умение работать с контекстом — это базовый минимум, которому нужно обучиться, чтобы успешно использовать AI для решения своих задач.
Я недоумеваю каждый раз, когда слышу этот тейк. В этот четверг на нашем внутреннем митапе в Додо, во время обсуждения доклада, я в очередной раз услышал эту мысль — от тех же людей и с той же аргументацией, что и раньше. И если раньше я пытался «бороться» с этим, показать им красоту и эффективность такого подхода, то сейчас я уже просто принял это.
Сначала я искренне полагал, что дело в тулах — типа технологии ещё не настолько продвинуты, чтобы угодить запросам некоторых людей. И я их прекрасно понимал, пока state-of-the-art моделями были дорогие и непослушные Claude.
Правда, после выхода GPT-5 ничего не поменялось: те, кто успешно применял AI в разработке, продолжили применять его, а те, кто не использовал — продолжили бухтеть, только теперь уже на GPT-5.
Почему так? Почему одни трубят о том, что AI-assisted разработка ускоряет их, а другие либо утверждают, что с таким подходом невозможно решить ни одну задачу, либо говорят, что код на выходе неподдерживаемый, либо же ссылаются на «те самые исследования», в которых говорится, что подобная разработка на самом деле снижает производительность разработчиков?
Лично я пришёл к выводу, что это просто skill issue конкретных людей. Если даже Линус Торвальдс согласен принимать код, сгенерированный AI, то оправдания насчёт качества такого кода кажутся мне абсолютно неуместными (и нет, это не значит, что любой сгенерированный код можно не глядя пушить в прод). А что касается «тех самых исследований» — у меня ещё запланирован большой пост на эту тему. А если бы AI действительно не был способен решать задачи, мы бы с вами вообще не собрались здесь.
Причём я считаю, что самое важное преимущество использования AI — это даже не усиление уже имеющихся навыков, а то, что он позволяет тебе стать:
немного девопсом,
немного бэкендером,
немного фронтендером,
немного дизайнером,
немного менеджером,
немного (подставь своё).
Мне сложно даже перечислить, сколько улучшений AI принёс в мой Developer Experience: позволил локально запускать E2E-тесты, помог перевезти легаси-фронтенд написанный Angular (с которым я знаком только благодаря поддержке этого самого проекта) на современный стек (речь об обновлении 50+ зависимостей, некоторые из которых перестали существовать, пока проект не поддерживали, и семи мажорных версий Angular), а также улучшить имеющиеся и создать новые GitHub-джобы.
И ни одно из этих улучшений не было бы возможно, если бы я занимался ими самостоятельно. Одни — потому что я не знал, как это сделать, а обучение заняло бы кучу времени. Другие — потому что они просто требовали бы слишком много времени на реализацию. В продуктовой разработке зачастую просто не хватает ресурсов, чтобы закрывать такие задачи (хотя менее важными они от этого не становятся).
Если подводить итог:
1. Да, использовать AI нужно уметь. Это полноценный отдельный скилл, и качество ответов напрямую зависит от уровня вашего понимания LLM.
2. Да, со временем ситуация будет улучшаться: LLM будут становиться умнее, а значит — будут выдавать более толковые ответы, вне зависимости от вашего уровня владения LLM. Но есть проблемы, которые в ближайшее время решены не будут, и главная из них — проблема контекста (речь как об обогащении запроса контекстом, так и о размере контекстного окна, а также о росте количества галлюцинаций с увеличением контекста в рамках чата).
Проблемы работы с контекстом сейчас полностью лежат на пользователе. И умение работать с контекстом — это базовый минимум, которому нужно обучиться, чтобы успешно использовать AI для решения своих задач.
YouTube
Torvalds Speaks: Impact of Artificial Intelligence on Programming
🚀 Torvalds delves into the transformative influence of Artificial Intelligence on the world of coding.
🚀 Key Topics:
* Evolution of programming languages in the era of AI.
* Enhancements in development workflows through machine learning.
* Predictions for…
🚀 Key Topics:
* Evolution of programming languages in the era of AI.
* Enhancements in development workflows through machine learning.
* Predictions for…
🔥2❤1👍1🥰1
Cursor 2.0
Немного потыкал обновление, пока ничего революционного не заметил. Немного страшно наблюдать за тем, как Cursor с каждым обновлением из «IDE с чатиком» превращается в монструозный комбайн, в котором уже сложно ориентироваться.
Что интересного в обнове?
• В Cursor теперь есть встроенный браузер! Через него можно буквально указывать, в какой части интерфейса нужно сделать правки. Круто! Правда, он какой-то порезанный и не смог справиться с первой же задачей, которую я ему поставил... ну, будем надеяться, что в будущем поправят.
• Code Review от Cursor. Ребята выкатили свой ответ CodeRabbit, но получился скорее ответ ревью от GitHub Copilot, потому что для диффа на 1000+ строк он не оставил ни одного комментария. Опять есть ощущение довольно сырой фичи, за которую, само собой, тоже просят плату.
• Новая модель «Composer 1». Пока рано делать выводы, но моделька классная, когда нужно что-то очень простое, очень быстро сделать. По скорости обгоняет даже Grok 4 Fast и стоит примерно столько же, так что для самых элементарных задач сейчас использую её.
После обновления в моём пуле активно используемых моделей произошли подвижки:
1. Что-то очень мелкое и предсказуемое уходит в Composer 1. По ощущениям, работает она раза в 3 быстрее Grok 4 Fast, а это, между прочим, дофига быстро!
2. Большинство задач по-прежнему отдаю Grok 4 Fast (и он с ними прекрасно справляется);
3. Тяжеловесные задачи или просто те, с которыми не справился Grok, отдаю GPT-5 Codex.
Вообще интересно наблюдать за тем, как со временем я всё меньше и меньше пишу код ручками. Я всё ещё высокоуровнево представляю код у себя в голове, но теперь не перевожу его в конкретные команды, а отдаю высокоуровневую задачу дешёвой модельке, что на одной-двух задачах может показаться незначительным, но в долгосрочной перспективе значительно экономит время.
Немного потыкал обновление, пока ничего революционного не заметил. Немного страшно наблюдать за тем, как Cursor с каждым обновлением из «IDE с чатиком» превращается в монструозный комбайн, в котором уже сложно ориентироваться.
Что интересного в обнове?
• В Cursor теперь есть встроенный браузер! Через него можно буквально указывать, в какой части интерфейса нужно сделать правки. Круто! Правда, он какой-то порезанный и не смог справиться с первой же задачей, которую я ему поставил... ну, будем надеяться, что в будущем поправят.
• Code Review от Cursor. Ребята выкатили свой ответ CodeRabbit, но получился скорее ответ ревью от GitHub Copilot, потому что для диффа на 1000+ строк он не оставил ни одного комментария. Опять есть ощущение довольно сырой фичи, за которую, само собой, тоже просят плату.
• Новая модель «Composer 1». Пока рано делать выводы, но моделька классная, когда нужно что-то очень простое, очень быстро сделать. По скорости обгоняет даже Grok 4 Fast и стоит примерно столько же, так что для самых элементарных задач сейчас использую её.
После обновления в моём пуле активно используемых моделей произошли подвижки:
1. Что-то очень мелкое и предсказуемое уходит в Composer 1. По ощущениям, работает она раза в 3 быстрее Grok 4 Fast, а это, между прочим, дофига быстро!
2. Большинство задач по-прежнему отдаю Grok 4 Fast (и он с ними прекрасно справляется);
3. Тяжеловесные задачи или просто те, с которыми не справился Grok, отдаю GPT-5 Codex.
Вообще интересно наблюдать за тем, как со временем я всё меньше и меньше пишу код ручками. Я всё ещё высокоуровнево представляю код у себя в голове, но теперь не перевожу его в конкретные команды, а отдаю высокоуровневую задачу дешёвой модельке, что на одной-двух задачах может показаться незначительным, но в долгосрочной перспективе значительно экономит время.
❤4👍1🔥1
Почти час бился над багом. И так его покрутил, и сяк. Во все возможные LLM его засунул, сам голову сломал что там не так. Потратил $5 на запросы. В конце концов дошло, что просто залагал ESLint и нужно было перезагрузить редактор 🤦♂️
Такая пятница 🤷♂️
А завтра ещё рабочий день🫠
Такая пятница 🤷♂️
А завтра ещё рабочий день
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯4❤2😱1
Женя, расскажи про AI
Cursor 2.0 Немного потыкал обновление, пока ничего революционного не заметил. Немного страшно наблюдать за тем, как Cursor с каждым обновлением из «IDE с чатиком» превращается в монструозный комбайн, в котором уже сложно ориентироваться. Что интересного…
Кстати, в Cursor пофиксили встроенный браузер. Во всяком случае те баги, что я ловил раньше больше не воспроизводятся. Можно пользоваться!
❤2
Composer 1 — SOTA для поиска по коду
Последние пару недель я активно использую Composer 1. За это время я дропнул из своего арсенала Grok 4 Fast, так как Composer 1 делает всё тоже самое, но лучше и сильно быстрее.
И Composer 1 просто летает! Ответ генерируется за считанные секунды и за этим так приятно наблюдать после 30-40 минутных ранов GPT-5 (оно всё ещё того стоит, особенно когда GPT-5 думает минут 20 и потом исправляет всего одну строчку в коде, которая ломало абсолютно всё).
И вот что интересное я заметил для себя: Composer 1 в задаче поиска кода обгоняет вообще всё, что представлено на рынке. Для одного из проектов (о котором расскажу в одном из следующих постов) мне нужно было написать много, много, оооочень много тестов (более 2 тысяч тест кейсов). Но вот проблема: я не знаю какие файлы не протестированы, какие протестированы но не полностью, для каких нужны юнит-тесты, а для каких не обойтись без E2E.
И так как я активно пользуюсь Composer 1 она и стала моим поисковым движком. Я буквально спрашивал её: «а вот этот файл протестирован? а вот этот? а вон тот?!». И каждый божий раз она мне за секунды выдавала максимально точную информацию по каждому из файлов. Ни одного ложного срабатывания или галлюцинации. Это ощущалось как если бы тулы, которые проверяют покрытие кода тестами были бы реально полезными.
Я стал использовать её для всех операций поиска по коду и она до сих пор не выдала мне ни единой ошибки: всё в точку.
Но с Composer 1 есть другая проблема: она плоха примерно во всём остальном. Я её использую только для мелких, предсказуемых задач по типу исправления небольших ошибок линта или тайпскрипта, и как сказал выше — поиска по коду.
Поэтому, когда передо мной встала задача глобального поиска с аналитикой по всем файлам я всё-таки решил обратиться к GPT-5.1 Codex... И она успешно провалила задачу: переусложнила поиск (я запускал его дважды) и придумала кучу несуществующих фактов о покрытии кода тестами.
Я уже было подумал, что с этой задачей мне придётся возиться вручную, но закинул тот же самый промпт в Composer 1 и оно сработало! Причём сильно лучше, чем я того ожидал.
В общем, я в глобальном шоке от того, насколько Composer 1 рвёт всех остальных в поиске. Безумно интересно узнать как ребята из Cursor добились этого.
Последние пару недель я активно использую Composer 1. За это время я дропнул из своего арсенала Grok 4 Fast, так как Composer 1 делает всё тоже самое, но лучше и сильно быстрее.
И Composer 1 просто летает! Ответ генерируется за считанные секунды и за этим так приятно наблюдать после 30-40 минутных ранов GPT-5 (оно всё ещё того стоит, особенно когда GPT-5 думает минут 20 и потом исправляет всего одну строчку в коде, которая ломало абсолютно всё).
И вот что интересное я заметил для себя: Composer 1 в задаче поиска кода обгоняет вообще всё, что представлено на рынке. Для одного из проектов (о котором расскажу в одном из следующих постов) мне нужно было написать много, много, оооочень много тестов (более 2 тысяч тест кейсов). Но вот проблема: я не знаю какие файлы не протестированы, какие протестированы но не полностью, для каких нужны юнит-тесты, а для каких не обойтись без E2E.
И так как я активно пользуюсь Composer 1 она и стала моим поисковым движком. Я буквально спрашивал её: «а вот этот файл протестирован? а вот этот? а вон тот?!». И каждый божий раз она мне за секунды выдавала максимально точную информацию по каждому из файлов. Ни одного ложного срабатывания или галлюцинации. Это ощущалось как если бы тулы, которые проверяют покрытие кода тестами были бы реально полезными.
Я стал использовать её для всех операций поиска по коду и она до сих пор не выдала мне ни единой ошибки: всё в точку.
Но с Composer 1 есть другая проблема: она плоха примерно во всём остальном. Я её использую только для мелких, предсказуемых задач по типу исправления небольших ошибок линта или тайпскрипта, и как сказал выше — поиска по коду.
Поэтому, когда передо мной встала задача глобального поиска с аналитикой по всем файлам я всё-таки решил обратиться к GPT-5.1 Codex... И она успешно провалила задачу: переусложнила поиск (я запускал его дважды) и придумала кучу несуществующих фактов о покрытии кода тестами.
Я уже было подумал, что с этой задачей мне придётся возиться вручную, но закинул тот же самый промпт в Composer 1 и оно сработало! Причём сильно лучше, чем я того ожидал.
В общем, я в глобальном шоке от того, насколько Composer 1 рвёт всех остальных в поиске. Безумно интересно узнать как ребята из Cursor добились этого.
🔥4❤1👏1
Gemini 3 Pro уже на этой неделе!!1!!
...говорят уже несколько месяцев. Но судя по тому как то тут, то там люди последние полторы недели «случайно» получают доступ к превью Gemini 3 Pro, который затем обрубают через пару часов, то чувствую, что модель действительно скоро выйдет.
Цифры на скриншоте, конечно, поражают воображение, но как показывает практика они ничего не значат. Согласно некоторым метрикам Claude 4.5 Sonnet и Kimi K2 обгоняют GPT-5 в задаче написания кода, что настолько же близко к правде как то, что до луны можно добраться пешком.
В любом случае очень жду этот релиз, хотя бы чтобы проверить насколько Google близки к OpenAI. Правда, судя по тем же циферкам со скриншота модель дешевой не будет...
...говорят уже несколько месяцев. Но судя по тому как то тут, то там люди последние полторы недели «случайно» получают доступ к превью Gemini 3 Pro, который затем обрубают через пару часов, то чувствую, что модель действительно скоро выйдет.
Цифры на скриншоте, конечно, поражают воображение, но как показывает практика они ничего не значат. Согласно некоторым метрикам Claude 4.5 Sonnet и Kimi K2 обгоняют GPT-5 в задаче написания кода, что настолько же близко к правде как то, что до луны можно добраться пешком.
В любом случае очень жду этот релиз, хотя бы чтобы проверить насколько Google близки к OpenAI. Правда, судя по тем же циферкам со скриншота модель дешевой не будет...
❤6🔥2👍1
Пока пишу полноценный обзор на Gemini 3 Pro (там всё оказалось сложнее, чем хотелось бы) столкнулся с двумя вещами:
• Gemini 3 Pro просто отвратительно работает в Cursor/Windsurf, а в Copilot мне пока не раскатили доступ;
• Google Antigravity очень сложно воспользоваться на территории РФ — нужно подтвердить, что ты живёшь не в России, Беларуси, Китае и так далее.
Собственно, есть способ убить двух зайцев сразу. Для этого нужно всего лишь... получить нигерийский аккаунт😧
В общем, заходим сюда, покупаем аккаунт, логинимся с европейским/американским VPN, сразу меняем данные аккаунта и уже с этими данными логинимся в Antigravity. Вуаля, у вас есть доступ!
Для тех, кто находится на разрешенных территориях, но в Antigravity всё равно не пускает — можно просто сменить регион аккаунта здесь
По первым ощущениям Gemini 3 Pro в Antigravity работает стабильнее, но есть ощущение, что сервера Google всё равно не выдерживают такой нагрузки и запросы каждые пару минут стабильно падают с ошибкой и приходится промптить модель, чтобы она продолжала работать
• Gemini 3 Pro просто отвратительно работает в Cursor/Windsurf, а в Copilot мне пока не раскатили доступ;
• Google Antigravity очень сложно воспользоваться на территории РФ — нужно подтвердить, что ты живёшь не в России, Беларуси, Китае и так далее.
Собственно, есть способ убить двух зайцев сразу. Для этого нужно всего лишь... получить нигерийский аккаунт
В общем, заходим сюда, покупаем аккаунт, логинимся с европейским/американским VPN, сразу меняем данные аккаунта и уже с этими данными логинимся в Antigravity. Вуаля, у вас есть доступ!
Для тех, кто находится на разрешенных территориях, но в Antigravity всё равно не пускает — можно просто сменить регион аккаунта здесь
По первым ощущениям Gemini 3 Pro в Antigravity работает стабильнее, но есть ощущение, что сервера Google всё равно не выдерживают такой нагрузки и запросы каждые пару минут стабильно падают с ошибкой и приходится промптить модель, чтобы она продолжала работать
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍1🔥1
Буквально только что у меня закончились лимиты на Gemini 3 Pro в Antigravity... во время выполнения первого промпта 😂
Это всё ещё те самые Google, которые обещали щедрые лимиты внутри их IDE?
Видимо AI-революция с нами пока не в одной комнате
Это всё ещё те самые Google, которые обещали щедрые лимиты внутри их IDE?
Видимо AI-революция с нами пока не в одной комнате
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3🤯1👀1
Gemini 3 Pro наконец пофиксили!
Она стабильно работает в Cursor, Windsurf и Antigravity (возможно ещё в Copilot, но мне пока ещё не раскатили доступ): запросы почти не падают из-за нагрузки на сервера Google, также стало меньше внутренних ошибок, они ещё присутствуют, но уже юзабельно.
Если не хотите натыкаться на ошибки, то лучше подождать ещё недельку, а всем остальным советую заценить уже сейчас)
Она стабильно работает в Cursor, Windsurf и Antigravity (возможно ещё в Copilot, но мне пока ещё не раскатили доступ): запросы почти не падают из-за нагрузки на сервера Google, также стало меньше внутренних ошибок, они ещё присутствуют, но уже юзабельно.
Если не хотите натыкаться на ошибки, то лучше подождать ещё недельку, а всем остальным советую заценить уже сейчас)
🔥2❤1👍1
Также потестил Nano Banana Pro для генерации графики для моего доклада и это тоже просто нечто!
Что уже понял:
— Модель очень чётко следует твоим инструкциям (возможно даже слишком чётко, поэтому порой приходится говорить, чтобы модель проявила немного воображения);
— Сильно улучшилась генерация текста. Пока не заметил ни одного артефакта, даже если просишь Nano Banana переделать изображение, где много различного текста;
— Изображения на выходе совсем не выглядят сгенерированными;
— Модель работает не моментально, но в разы быстрее какой-нибудь генерации в ChatGPT;
Модель уже сейчас доступна как на сайте Google Gemini, так и в Google AI Studio (там требуют API ключ).
В комментариях накидаю что ещё получилось (всё в одном стиле, так как готовлю графиук для доклада).
Что уже понял:
— Модель очень чётко следует твоим инструкциям (возможно даже слишком чётко, поэтому порой приходится говорить, чтобы модель проявила немного воображения);
— Сильно улучшилась генерация текста. Пока не заметил ни одного артефакта, даже если просишь Nano Banana переделать изображение, где много различного текста;
— Изображения на выходе совсем не выглядят сгенерированными;
— Модель работает не моментально, но в разы быстрее какой-нибудь генерации в ChatGPT;
Модель уже сейчас доступна как на сайте Google Gemini, так и в Google AI Studio (там требуют API ключ).
В комментариях накидаю что ещё получилось (всё в одном стиле, так как готовлю графиук для доклада).
❤2🔥2👍1
Эволюция запуска E2E-тестов в нашем проекте
Пора признаться: в нашем проекте есть проблема — мы не успеваем писать E2E-тесты... так как мы не успеваем писать E2E-тесты, за нас их пишут LLM, и они справляются лучше человека!
Также у нас в проекте используется Editor.js, и если вы знаете, то знаете: тестировать Editor.js — боль. Большинство элементов просто не имеют селекторов, их приходится находить по CSS классам, а при запуске в Playwright эти самые элементы ведут самым непредсказуемым образом, отлично от того, как они ведут себя в браузере: могут не появиться, либо появиться с большой задержкой, либо появиться, но Playwright почему-то не будет в упор видеть их и подобных проблем огромное количество. Благо можно дать задачу LLM по-умнее и она за тебя сделает всю грязную работу: потыкает, найдёт почему не работает и исправит (само собой обычных возможностей LLM будет недостаточно, нужно подключать Playwright MCP, чтобы моделька творила свои непотребства в браузере самостоятельно — если нужно раскрыть эту тему подробнее, дайте знать).
Но до выхода Gemini 3 Pro LLM не могли решить одну нашу проблему: корректно написать локальный запуск E2E-тестов с поднятием всех необходимых зависимостей. Да, чего уж греха таить, мы и сами не могли справиться с этой задачей из-за сложности системы и ограниченного количества времени. Теоретически, если бы мы потратили целый спринт на эту задачу, то мы бы с ней разобрались, но в ситуации, где бизнес ожидает от вас продукт ещё вчера эта, ситуация только и остаётся теоретической.
Как мы писали запуск E2E-тестов в хронологическом порядке:
— Разработчик и тестировщик (февраль 2025): научились запускать тесты, но только в CI/CD, а данные для запуска тестов подтягивалсь с прода т.е. отследить баг, который возник при разработке можно было только ретроспективно, из-за чего тесты во многом теряли свой смысл;
— Claude Sonnet 4 (июнь 2025): LLM дала нам несколько подсказок (но не решение), которое помогло самим реализовать подтягивание данных не с прода, а с конкретного рана в CI/CD. Тесты стали полезнее, но до сих пор оставалась фрустрация в связи с тем, что для написания тестов приходилось постоянно пушить коммиты в ветку;
— GPT-5 (8 августа 2025): она позволила создать нам отдельный скрипт, который в свою очередь позволил запускать тесты локально. Да, работало оно криво-косо, руками ничего не поправить, так как в файле было спагетти, но локальный запуск тестов позволил нам сильно увеличить количество покрытых сценариев, а также избавить от фрустрирующих пушей в ветки для запуска тестов;
— Gemini 3 Pro (ноябрь 2025): к этому моменту в целом всё уже стабильно работало. Было всего пару претензий: невозможно что-то исправить в скрипте для запуска, так как 100% что-то поломаешь, сам запуск был долгим, а также тесты запускались только в UI-оболочке т.е. LLM не могли нормально их гонять из терминала. Со всем этим можно было жить и мы так бы и жили, но Gemini 3 Pro перевернула игру и всего за один промпт решила все три проблемы. Запуск стал мгновенным, от костыльного скрипта не осталось и следа, а сама конфигурация расползлась по нужным файлам, где изначально и должна была жить.
Мне очень нравится вся эта ситуация, так как она наглядно показывает как то, насколько модели продвинулись за столь короткий промежуток времени, так и то, где LLM показывают себя лучше всего: на стыке, где человек знает, что ему нужно и как это сделать, но при этом задача всё равно никогда не была бы закрыта из-за внешних факторов.
Пора признаться: в нашем проекте есть проблема — мы не успеваем писать E2E-тесты... так как мы не успеваем писать E2E-тесты, за нас их пишут LLM, и они справляются лучше человека!
Также у нас в проекте используется Editor.js, и если вы знаете, то знаете: тестировать Editor.js — боль. Большинство элементов просто не имеют селекторов, их приходится находить по CSS классам, а при запуске в Playwright эти самые элементы ведут самым непредсказуемым образом, отлично от того, как они ведут себя в браузере: могут не появиться, либо появиться с большой задержкой, либо появиться, но Playwright почему-то не будет в упор видеть их и подобных проблем огромное количество. Благо можно дать задачу LLM по-умнее и она за тебя сделает всю грязную работу: потыкает, найдёт почему не работает и исправит (само собой обычных возможностей LLM будет недостаточно, нужно подключать Playwright MCP, чтобы моделька творила свои непотребства в браузере самостоятельно — если нужно раскрыть эту тему подробнее, дайте знать).
Но до выхода Gemini 3 Pro LLM не могли решить одну нашу проблему: корректно написать локальный запуск E2E-тестов с поднятием всех необходимых зависимостей. Да, чего уж греха таить, мы и сами не могли справиться с этой задачей из-за сложности системы и ограниченного количества времени. Теоретически, если бы мы потратили целый спринт на эту задачу, то мы бы с ней разобрались, но в ситуации, где бизнес ожидает от вас продукт ещё вчера эта, ситуация только и остаётся теоретической.
Как мы писали запуск E2E-тестов в хронологическом порядке:
— Разработчик и тестировщик (февраль 2025): научились запускать тесты, но только в CI/CD, а данные для запуска тестов подтягивалсь с прода т.е. отследить баг, который возник при разработке можно было только ретроспективно, из-за чего тесты во многом теряли свой смысл;
— Claude Sonnet 4 (июнь 2025): LLM дала нам несколько подсказок (но не решение), которое помогло самим реализовать подтягивание данных не с прода, а с конкретного рана в CI/CD. Тесты стали полезнее, но до сих пор оставалась фрустрация в связи с тем, что для написания тестов приходилось постоянно пушить коммиты в ветку;
— GPT-5 (8 августа 2025): она позволила создать нам отдельный скрипт, который в свою очередь позволил запускать тесты локально. Да, работало оно криво-косо, руками ничего не поправить, так как в файле было спагетти, но локальный запуск тестов позволил нам сильно увеличить количество покрытых сценариев, а также избавить от фрустрирующих пушей в ветки для запуска тестов;
— Gemini 3 Pro (ноябрь 2025): к этому моменту в целом всё уже стабильно работало. Было всего пару претензий: невозможно что-то исправить в скрипте для запуска, так как 100% что-то поломаешь, сам запуск был долгим, а также тесты запускались только в UI-оболочке т.е. LLM не могли нормально их гонять из терминала. Со всем этим можно было жить и мы так бы и жили, но Gemini 3 Pro перевернула игру и всего за один промпт решила все три проблемы. Запуск стал мгновенным, от костыльного скрипта не осталось и следа, а сама конфигурация расползлась по нужным файлам, где изначально и должна была жить.
Мне очень нравится вся эта ситуация, так как она наглядно показывает как то, насколько модели продвинулись за столь короткий промежуток времени, так и то, где LLM показывают себя лучше всего: на стыке, где человек знает, что ему нужно и как это сделать, но при этом задача всё равно никогда не была бы закрыта из-за внешних факторов.
🔥2❤1👍1
Знакомьтесь, Blok!
Blok — это блочный, визуальный open-source редактор типа Notion.
В основу Blok лёг Editor.js — прекрасный визуальный редактор, который в своём развитии остановился где-то в 2018-м году, где было приемлемо иметь средненький UX, плохую документацию и решение не поддерживающее современные фреймворки.
Blok призван решить все эти проблемы и стать тем самым визуальным редактором, который вы искали.
Уже сейчас в Blok, в отличие от Editor.js, исправлены многие баги и проблемы безопасности, повышена стабильность и тестируемость редактора, а также появилась возможность перетаскивать блоки с помощью drag&drop!
В ближайших обновлениях Blok станет React-first для максимально удобной интеграции с вашими приложениями.
Blok доступен бесплатно прямо сейчас!
Blok — это блочный, визуальный open-source редактор типа Notion.
В основу Blok лёг Editor.js — прекрасный визуальный редактор, который в своём развитии остановился где-то в 2018-м году, где было приемлемо иметь средненький UX, плохую документацию и решение не поддерживающее современные фреймворки.
Blok призван решить все эти проблемы и стать тем самым визуальным редактором, который вы искали.
Уже сейчас в Blok, в отличие от Editor.js, исправлены многие баги и проблемы безопасности, повышена стабильность и тестируемость редактора, а также появилась возможность перетаскивать блоки с помощью drag&drop!
В ближайших обновлениях Blok станет React-first для максимально удобной интеграции с вашими приложениями.
Blok доступен бесплатно прямо сейчас!
❤3🔥3👍2
Забавно, что ещё до всех анонсов репозиторию поставил звёздочку один из core-мэйнтейнеров Summernote — редактора, из-за которого и появился Blok.
Ещё до того, как я попал в Додо, ребята затащили в Базу знаний Summernote, и он настолько не подходил для создания сложных статей для Базы знаний, что первое же, что мы сделали при планировании обновления Базы знаний, — начали искать новую основу для редактора.
Чудеса:)
Ещё до того, как я попал в Додо, ребята затащили в Базу знаний Summernote, и он настолько не подходил для создания сложных статей для Базы знаний, что первое же, что мы сделали при планировании обновления Базы знаний, — начали искать новую основу для редактора.
Чудеса:)
❤4😁1🌚1
Да, чо вообще происходит...
Почему Anthropic вдруг выпустили топовую модель и сделали её в 5 раз дешевле, чем их предыдущий Opus... я ещё даже не успел дописать статью про Gemini 3 Pro... АААААА
Чувствую себя буквально как на картинке. Но, да, идите попробуйте Claude 4.5 Opus. Она в моих тестах порвала как GPT-5.1 Codex Max, так и Gemini 3 Pro. А я пока пойду глубже разбираться с новой моделькой.
Я уже даже не знаю, что тут ещё сказать:)
Кажется, что где-то в Калифорнии разбился грузовик с классными большими языковыми моделями)
Почему Anthropic вдруг выпустили топовую модель и сделали её в 5 раз дешевле, чем их предыдущий Opus... я ещё даже не успел дописать статью про Gemini 3 Pro... АААААА
Чувствую себя буквально как на картинке. Но, да, идите попробуйте Claude 4.5 Opus. Она в моих тестах порвала как GPT-5.1 Codex Max, так и Gemini 3 Pro. А я пока пойду глубже разбираться с новой моделькой.
Я уже даже не знаю, что тут ещё сказать:)
Кажется, что где-то в Калифорнии разбился грузовик с классными большими языковыми моделями)
❤2😁2😱1
The State of AI в разработке (модели)
С учётом того, как быстро всё движется последнюю неделю, кажется, что нужно сделать какой-то чекпоинт, чтобы уложить всё немного в голове. В списке чем выше цифра у модели, тем она умнее/круче.
1️⃣ GPT-5.1 Codex ($1.25/$10)
Была лучшей моделью для кодинга две недели назад (лол), возьмём её как отправную точку.
2️⃣ Gemini 3 Pro ($2/$12)
Прекрасная модель, вероятно, умнее GPT-5.1 Codex Max и Claude Opus 4.5, но какая же она нестабильная... Ни с одной моделью мне не приходилось писать «Continue» по несколько раз за один запрос (особенно больно с этим в Windsurf, но о нём чуть позже). Также модель ужасно быстро тупеет с ростом контекстного окна. Да, в задачах «сгенерируй картинку» или «напиши компонент» она показывает себя, вероятно, лучше любой другой модели прямо сейчас, но в реальных бизнесовых задачах, где запрос выполняется 15+ минут, она быстро начинает теряться.
3️⃣ GPT-5.1 Codex Max ($1.25/$10)
Те задачи, с которыми не мог справиться Gemini 3 Pro, я отдавал GPT-5.1 Codex Max Extra High (господи, OpenAI, какого хера) и со всеми, кроме одной задачи, она справилась. В целом, отличная модель, к которой почти нет претензий, кроме того, что она медленная (хотя она стала быстрее GPT-5.1 Codex за счёт уменьшения количества генерируемых токенов), а также она иногда зарывается в размышления и просто тратит всё контекстное окно на размышления, не выдавая никакого ответа.
4️⃣ Claude Opus 4.5 ($5/$25)
Ту самую задачу, которую не смогла решить GPT-5.1 Codex Max XHigh (надеюсь, мне больше не придётся писать это название), я сегодня отдал Claude Opus 4.5, и она с ней на удивление быстро разобралась! Вообще, Anthropic — короли тул-колов, и с этой моделью они подтвердили это звание и даже превзошли сами себя. Теперь, если у модели не получается сделать тул-кол, она не валится с ошибкой (привет, Gemini 3 Pro), а выполняет ту же операцию, используя возможности LLM. Просто и гениально!
Поэтому прямо сейчас это самая стабильная модель (она стабильна даже в Windsurf, а это о многом, очень о многом говорит). Не буду скрывать: я сильно удивлён тому, что Anthropic выпустили такую умную и, относительно их ценообразования, дешёвую модель. Думаю, что по крайней мере до конца года Claude Opus 4.5 будет лучшей моделью для агентного кодинга, и можно будет немного поработать вместо того, чтобы тестировать новые модели 🙈
🏆 GPT-5.1 Pro ($15/$120)
Фактически GPT-5.1 Pro не в этой гонке, так как она крайне дорогая и доступна только на сайте ChatGPT, но она вышла на прошлой неделе, так что не упомянуть её не могу.
Это единственная модель из перечисленных, которой я не пользовался, потому что она доступна только в $200 тире, но очень рекомендую посмотреть это видео — оно того стоит, потому что модель удивительная, вероятно это именно то, что нужно вам, если вы проводите масштабные исследования.
Продолжим во второй части, где я расскажу про текущее состояние агентных IDE.
С учётом того, как быстро всё движется последнюю неделю, кажется, что нужно сделать какой-то чекпоинт, чтобы уложить всё немного в голове. В списке чем выше цифра у модели, тем она умнее/круче.
1️⃣ GPT-5.1 Codex ($1.25/$10)
Была лучшей моделью для кодинга две недели назад (лол), возьмём её как отправную точку.
2️⃣ Gemini 3 Pro ($2/$12)
Прекрасная модель, вероятно, умнее GPT-5.1 Codex Max и Claude Opus 4.5, но какая же она нестабильная... Ни с одной моделью мне не приходилось писать «Continue» по несколько раз за один запрос (особенно больно с этим в Windsurf, но о нём чуть позже). Также модель ужасно быстро тупеет с ростом контекстного окна. Да, в задачах «сгенерируй картинку» или «напиши компонент» она показывает себя, вероятно, лучше любой другой модели прямо сейчас, но в реальных бизнесовых задачах, где запрос выполняется 15+ минут, она быстро начинает теряться.
3️⃣ GPT-5.1 Codex Max ($1.25/$10)
Те задачи, с которыми не мог справиться Gemini 3 Pro, я отдавал GPT-5.1 Codex Max Extra High (господи, OpenAI, какого хера) и со всеми, кроме одной задачи, она справилась. В целом, отличная модель, к которой почти нет претензий, кроме того, что она медленная (хотя она стала быстрее GPT-5.1 Codex за счёт уменьшения количества генерируемых токенов), а также она иногда зарывается в размышления и просто тратит всё контекстное окно на размышления, не выдавая никакого ответа.
4️⃣ Claude Opus 4.5 ($5/$25)
Ту самую задачу, которую не смогла решить GPT-5.1 Codex Max XHigh (надеюсь, мне больше не придётся писать это название), я сегодня отдал Claude Opus 4.5, и она с ней на удивление быстро разобралась! Вообще, Anthropic — короли тул-колов, и с этой моделью они подтвердили это звание и даже превзошли сами себя. Теперь, если у модели не получается сделать тул-кол, она не валится с ошибкой (привет, Gemini 3 Pro), а выполняет ту же операцию, используя возможности LLM. Просто и гениально!
Поэтому прямо сейчас это самая стабильная модель (она стабильна даже в Windsurf, а это о многом, очень о многом говорит). Не буду скрывать: я сильно удивлён тому, что Anthropic выпустили такую умную и, относительно их ценообразования, дешёвую модель. Думаю, что по крайней мере до конца года Claude Opus 4.5 будет лучшей моделью для агентного кодинга, и можно будет немного поработать вместо того, чтобы тестировать новые модели 🙈
🏆 GPT-5.1 Pro ($15/$120)
Фактически GPT-5.1 Pro не в этой гонке, так как она крайне дорогая и доступна только на сайте ChatGPT, но она вышла на прошлой неделе, так что не упомянуть её не могу.
Это единственная модель из перечисленных, которой я не пользовался, потому что она доступна только в $200 тире, но очень рекомендую посмотреть это видео — оно того стоит, потому что модель удивительная, вероятно это именно то, что нужно вам, если вы проводите масштабные исследования.
Продолжим во второй части, где я расскажу про текущее состояние агентных IDE.
🔥5👏4❤1
Claude Opus 4.5 — лучшая модель для написания кода
Но при этом не самая умная... давайте разбираться как так произошло и почему более умная модель от Google хуже пишет код.
Но для начала разберём что такое тул-кол и компьютер-юз:
• тул-кол — это когда модель может вызвать заранее определенный инструмент, который позволяет совершить ей какое-либо действие, например, найти информацию в интернете, сделать скриншот или накликать что-то в браузере;
• компьютер-юз — это режим в котором модель может полноценно управлять компьютером: любой программой, файловой системой, процессами и так далее (по сути следующий шаг в развитии тул-кола).
Может показаться, в текущей ситуации с моделями всё сложно, но всё до банальности просто: Claude Opus 4.5 просто невероятно хороша в тул-колах, а это самое важное в задаче написания кода (во всяком случае на данный момент).
Вообще, если всё и дальше так пойдёт, то именно Anthropic возглавит AI гонку в ближайшие несколько лет за счёт того, что их модели самые стабильные, а также за счёт их достижений в тул-коле и компьютер-юзе. Уже совсем скоро эти достижения позволят давать задачу не чатику где-то в браузере, самому браузеру или IDE, а сразу операционной системе, которая сама установит весь нужный софт, откроет все нужные программы и не поможет решить задачу вам, а решит её сама.
Anthropic также выпустили большую статью про advanced tool use в Opus 4.5, которая подробнее раскрывает эту тему (если лень читать статью, то можно посмотреть короткий видосик, он наглядно показывает преимущества программного тул-кола).
Получается, что более умные модели больше не нужны? Нужны, конечно... но мы уже на том этапе, когда AI достаточно умный, чтобы решать большинство задач (если у него есть достаточно времени и контекста). В связи с этим на первый план выходит развитие тул-кола, компьютер-юза и долгосрочной работы модели.
Моя ставка на 2026 год: всем взорвёт мозг модель от Anthropic, которая будет ловко обращаться с компьютером и будет выполнять задачи, которые мы даже не надеялись автоматизировать в ближайшее время.
Но при этом не самая умная... давайте разбираться как так произошло и почему более умная модель от Google хуже пишет код.
Но для начала разберём что такое тул-кол и компьютер-юз:
• тул-кол — это когда модель может вызвать заранее определенный инструмент, который позволяет совершить ей какое-либо действие, например, найти информацию в интернете, сделать скриншот или накликать что-то в браузере;
• компьютер-юз — это режим в котором модель может полноценно управлять компьютером: любой программой, файловой системой, процессами и так далее (по сути следующий шаг в развитии тул-кола).
Может показаться, в текущей ситуации с моделями всё сложно, но всё до банальности просто: Claude Opus 4.5 просто невероятно хороша в тул-колах, а это самое важное в задаче написания кода (во всяком случае на данный момент).
Вообще, если всё и дальше так пойдёт, то именно Anthropic возглавит AI гонку в ближайшие несколько лет за счёт того, что их модели самые стабильные, а также за счёт их достижений в тул-коле и компьютер-юзе. Уже совсем скоро эти достижения позволят давать задачу не чатику где-то в браузере, самому браузеру или IDE, а сразу операционной системе, которая сама установит весь нужный софт, откроет все нужные программы и не поможет решить задачу вам, а решит её сама.
Anthropic также выпустили большую статью про advanced tool use в Opus 4.5, которая подробнее раскрывает эту тему (если лень читать статью, то можно посмотреть короткий видосик, он наглядно показывает преимущества программного тул-кола).
Получается, что более умные модели больше не нужны? Нужны, конечно... но мы уже на том этапе, когда AI достаточно умный, чтобы решать большинство задач (если у него есть достаточно времени и контекста). В связи с этим на первый план выходит развитие тул-кола, компьютер-юза и долгосрочной работы модели.
Моя ставка на 2026 год: всем взорвёт мозг модель от Anthropic, которая будет ловко обращаться с компьютером и будет выполнять задачи, которые мы даже не надеялись автоматизировать в ближайшее время.
Anthropic
Introducing advanced tool use on the Claude Developer Platform
Claude can now discover, learn, and execute tools dynamically to enable agents that take action in the real world. Here’s how.
👍2🔥2❤1
Теперь, когда меня будут спрашивать про то, стоит ли того «вайб-кодинг» я буду показывать им эту картинку.
Месяц работы, 150к строк кода, $2000, 3300+ тестов и полностью переписанный EditorJS, который потихоньку превращается в полноценный open-source клон Notion со всеми его маленькими деталями, которые делают Ноушен Ноушеном.
Очень рад, что события сложились так, что я начал создавать Blok т.к. я жёстко угараю как по редакторам, так и по крутому UX и понимаю как сделать реально крутой и удобный редактор, а в мире вайб-кодинга видение — это основное, что тебе нужно, чтобы воплотить свою идею в жизнь.
P.S.
По факту на весь проект ушло ~$300, оставшиеся $1700 набежали с халявных и полу-халявных подписок.
Месяц работы, 150к строк кода, $2000, 3300+ тестов и полностью переписанный EditorJS, который потихоньку превращается в полноценный open-source клон Notion со всеми его маленькими деталями, которые делают Ноушен Ноушеном.
Очень рад, что события сложились так, что я начал создавать Blok т.к. я жёстко угараю как по редакторам, так и по крутому UX и понимаю как сделать реально крутой и удобный редактор, а в мире вайб-кодинга видение — это основное, что тебе нужно, чтобы воплотить свою идею в жизнь.
P.S.
По факту на весь проект ушло ~$300, оставшиеся $1700 набежали с халявных и полу-халявных подписок.
🔥5❤1👍1
