AI-Driven Development. Родион Мостовой – Telegram
AI-Driven Development. Родион Мостовой
4.15K subscribers
87 photos
3 videos
1 file
82 links
Увлекательно рассказываю про AI в разработке, про построение продуктов с LLM под капотом и иногда про .NET.
Связь: @rodion_m_tg
Чат: @ai_driven_chat
Download Telegram
DeepSeek-R1 - аналог o1, только для всех и бесплатно

Не успел я вчера запоздало рассказать про reasoning модели и упомянуть модель DeepSeek-R1-Lite, так сегодня ребята из DeepSeek не только релизнули полную версию DeepSeek-R1, но и вместе с ней выпустили целую вереницу моделей поменьше (на основе Llama3, Qwen2.5), которые, если верить бенчмаркам, в задачах на написание кода работают не хуже GPT-4o и Sonnet 3.5 (даже 8b модели!). Надо проверять, т. к. с трудом верится.
Ну, я не удержался и задал эту же задачу из поста про o1-pro (только в упрощенном виде) DeepSeek-R1. Любопытно, что она ее решила через System.Threading.Channels - один producer записывает все элементы, и множество consumer'ов (воркеров) эти элементы читают и обрабатывают. Код тут (не проверял).
По API моделька так же доступна по ценам в разы ниже, чем у OpenAI. Веса тоже в опенсорсе, да еще и с открытой лицензией - то есть, при наличии железа достаточной мощности ваша организация теперь может разместить у себя в закрытом контуре модель, вероятно, сопоставимую по качеству с o1.

Сейчас модель доступна всем и бесплатно тут (после регистрации). Не забудьте включить DeepThink.
🔥191
DeepInfra выпустили свой "аналог" ChatGPT с доступом к Qwen-72B, к DeepSeek R1 и другим открытым LLM

Фактически, ребята из DeepInfra просто сделали веб интерфейс для некоторых популярных OpenSource моделей - в принципе, ничего нового, но некоторые из топовых моделей можно поюзать бесплатно: Qwen2.5-72B, Llama 3.3 70B и новенькую DeepSeek R1 Distill Llama 70B - эта модель обходит Claude Sonnet 3.5 в LCB довольно существенно и почти в 2 раза на задачах CodeForces.
DeepSeek R1 доступна по подписке за 3$ в месяц.

Больше всего люблю DeepInfra за их щедрые лимиты по API (200 параллельных запросов и больше по заявке), за богатый выбор моделей и за их цены.

Небольшое бизнесовое отступление
Почему DeepInfra решили выпустить такой, казалось бы, лежащий на поверхности, продукт именно сейчас? Я подозреваю, что это напрямую связано с двумя факторами:
1. Существенное удешевление LLM (за 2024-й год цены на API многих моделей упали в разы)
2. Бурный рост качества открытых моделей и появление реальных конкурентов у лидирующий gpt-4o и sonnet 3.5: DeepSeek V3, Qwen 72B, ну и, конечно, R1 - как вишенка на торте.
То есть, сейчас появилась реальная возможность делать условного конкурента ChatGPT, но полностью основанного на открытых моделях.
Более того, я убежден, что если добавить определенной доли агентности в открытые модели (такие как банальное подтягивание актуального контекста из интернета - grounding, или агрегация ответа из нескольких разных LLM), то можно даже сделать лучше - чуть позже я расскажу как можно сделать условную R1-Pro :)
И тут, конечно, успех подобного проекта будет упираться в первую очередь в степень талантливости его маркетологов и продажников.

Кстати, напомню, что бесплатно поюзать мощные модели позволяют так же devv.ai (Gemini Pro) и blackbox.ai (GPT-4o, Gemini Pro, Sonnet 3.5).
🔥9🤝1
Кстати, в бенчмарке aider появилась мощная связка, обходящая o1: DeepSeek R1 в качестве архитектора и Sonnet 3.5 в качестве редактора. Что уж говорить, что такая связка в итоге еще и сильно дешевле.

Напомню, что aider это инструмент для парного программирования с использованием языковых моделей (LLM), позволяющий редактировать код в вашем локальном git-репозитории. Про aider подробнее я рассказывал и показывал в этом посте.
👍8🔥3
AI-Driven Development. Родион Мостовой
Кстати, в бенчмарке aider появилась мощная связка, обходящая o1: DeepSeek R1 в качестве архитектора и Sonnet 3.5 в качестве редактора. Что уж говорить, что такая связка в итоге еще и сильно дешевле. Напомню, что aider это инструмент для парного программирования…
Подписчик в комментариях поделился интересной связкой для доступа к Sonnet 3.5 в Roo Code (соннет все еще наиболее оптимальная моделька для повседневных [не сильно сложных] задач):
В VS Code ставим Roo Сode расширение и Copilot расширение. В Roo Code добавляем профайл для DeepSeek-R1 и апи ключ к его сервису, и claude-sonnet, но не напрямую с его апи ключом, а через VS Code LM Api, благодаря чему мы подключимся к модели claude-sonnet через Copilot, который бесплатный. В итоге платить будем только за DeepSeek.

Работает такой хак при наличии подписки на GitHub Copilot.

Пару слов про Roo Code - раз уж зашла речь.
В общем, многие из нас уже знают про Aider, так вот у айдера есть два брата - это Cline и Roo Code, то есть, изначально, это такие мощные консольные копайлоты для программистов. Но Cline и Roo Code решили пойти дальше и помимо консольного интерфейса (который, справедливо, многих отпугивает) стали добавлять UI - расширения для IDE.
В общем, хоть они и появились сильно позже, чем aider, им удалось завоевать довольно большую популярность (ну, один из секретов успеха Cline в том, что они по дефолту используют бесплатные модели с OpenRouter). В итоге, оба эти расширения наиболее популярны в рейтинге OpenRouter (сжигают больше всех токенов - Cline почти пол триллиона в месяц!). Глубже я пока не успел их копнуть, да и aider в последнее время использую меньше, но похоже, что тулзы интересные - если у вас есть опыт работы с ними, поделитесь плиз в комментариях - особенно интересно сравнить их с aider.
Кстати, на сколько мне известно, сейчас уже все трое поддерживают автономность (aka "агентность"), т. е. умеют сами по шагам выполнять ту или иную задачу.

NB. Сделал небольшой ренейминг, т. к. смысл Пробелов.NET уже слегка утерялся. Продолжу постить и про LLM в разработке и про LLM в продуктах и про .NET.
🔥15👍2
Channel name was changed to «AI-Driven Development. Родион Мостовой»
Ребят, судя по цифрам из OpenRouter, скорость генерации DeepSeek-R1 по API сейчас существенно деградировала. Если кто-то из моих читателей уже начал внедрять в свои рабочие пайплайны DeepSeek-R1, то обратите внимание на провайдера DeepInfra - на текущий момент R1 генерирует ответ на скорости 10 токенов в секунду (что в разы быстрее провайдеров в OR), только обратите внимание на ограничение контекста в 16к токенов.
Обычный DeepSeek V3 в DeepInfra тоже доступен по скорости около 10 tok/s.

Из веб интерфейса (не по API) DeepSeek по-прежнему доступен:
1. Бесплатно на официальном сайте.
2. Бесплатно в blackbox - тут надо выбрать модель DeepSeek-R1 (работает быстро, но ответ может оборваться по середине).
3. В сервисе DeepGPT по цене от 3$ в месяц.
👍6
DeepSeek-R1 online + еще больше вариантов инференса

Perplexity молодцы - выпустили свою DeepSeek-R1 based ризонинг модель с доступом к интернету - на первый взгляд работает прям хорошо - она и шустрая и с доступом к онлайн данным - перспективная штука, попробуйте:
1. В Perplexity в Pro режиме выбрать R1 (бесплатно 3 запроса в день)
2. В OpenRouter модель perplexity/sonar-reasoning - если кто-нибудь проведет эксперимент и поставит эту модельку в Cline/aider/Roo Code в кач-ве архитектора - возможно, результат будет великолепен (из-за мощной связки reasoning + online data). Отпишитесь тут если попробуете.

Фишка в том, что она умеет не только сложные задачи решать (приятно, что она додумалась, что async не проканает внутри Parallel.ForEach), но и актуальный API подтягивать из интернета в реальном времени. Вот что получилось по моему, уже классическому запросу, Create an API client in .NET for OpenAI that supports parallel embeddings generation with a configurable dop - считаю, что хорошо справилась. Update: хорошо справилась только с логикой параллелизма, что касается API библиотеки OpenAI, то в нем она запуталась (вот мой коммент с пояснением). Спасибо многоуважаемому Владимиру Хорикову (кстати, его книгу по юнит-тестированию могу всем горячо рекомендовать) за то, что указал на неточность.

Совершенно новый игрок появился в игре сервисов для инференса: Chutes.ai (чатик и API доступны прямо на их сайте, и отдеально по API можно юзать из OpenRouter, при чем пока бесплатно).
Отличаются они довольно богатым набором разных моделек, в т. ч. embedding models (bge-m3, например).
Там какая-то хитрая схема оплаты за секунды инференса, а не за токены (непонятно пока, на сколько это выгодно). Но интересно, что на текущий момент инференс в чате и в Playground работает бесплатно и без регистрации.
Еще интересно, что там можно поэксперементировать с более мелкими reasoning DeepSeek моделями - например, с deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.

И еще Nebius.ai (подсмотрел тут):
Поскольку официальное API Deepseek лежит уже 2 дня, поделюсь тем что Nebius добавил себе r1 с очень приятными ценами :
$2.4 за миллион токенов на выходе («Война и Мир» на английском – 765 904 токенов, я проверил), при реге дают 1$ на баланс бесплатно

Я проверил - действительно работает бодро, аж 25 токенов в секунду.
Кстати, судя по статам из OpenRouter, Fireworks тоже разогнали R1 до 17 токенов в секунду.

Update: В Azure AI Foundry тоже новый дипсик подвезли. И в GitHub Models (с доступом по API в том числе): https://github.com/marketplace/models/azureml-deepseek/DeepSeek-R1/playground

Ну и варианты из предыдущего поста тоже не исключаем.

В ближайших планах: обзор критики DeepSeek и мое мнение об этом, а также пост и код с "R1-Pro" на коленке.
А расскажите в комментариях про свой опыт использования DeepSeek-R1 - мне пригодятся разные мнения для поста.
👍10🔥4
А почему бы вам не сделать стартап или хотя бы пет-проект?

Я убежден, что современные LLM и инструменты поверх них открывают огромные возможности не только для сиюминутного заработка, но и для построения на их основе крутых, дорогостоящих стартапов. С развитием reasoning моделей, участие специалиста в решении разного рода, в т. ч. нетривиальных задач, резко сокращается - т. е., условно говоря, % хорошего, правильного выхлопа из LLM становится все выше, а reasoning модели способы его повысить в разы. Именно поэтому, модель типа DeepSeek-R1 или даже QwQ-32b - это большой шаг вперед и куча новых, уникальных возможностей для бизнеса - прежде всего, всевозможные задачи на анализ чего-либо теперь решаются сильно качественнее. Ну а то, что теперь есть open source reasoning модели означает, что всю работу можно выполнять в рамках закрытого контура - что очень важно для энтерпрайзов.

В общем, к чему я это все? К тому, что если вам вдруг захочется попробовать что-нибудь сделать (стартап, пет-проект, какое-то полезное решение для вашего текущего места работы, whatever based on AI), добавляйтесь в чатик @ai_driven_chat, делитесь там своей идеей или спрашивайте идею и ищите единомышленников - приветствуются как люди из бизнеса, так и технические специалисты. Я постараюсь в этом чатик отвечать на ваши вопросы про создание продуктов с LLM под капотом и делиться своим опытом по построению стартапов. Кроме того, есть подозрение, что у меня накопилось куча лайф-хаков, существенно ускоряющих разработку, про которые я просто не успеваю структурировано рассказать в канале, но смогу рассказать в чате, отвечая на конкретные запросы.

А пост этот меня побудило написать во-первых появление OpenAI DeepResearch - качественно нового инструмента не только для ресерча в интернете, но и для создания сложного кода, я позже расскажу как мне эта штука сама библиотеку написала - вещь мощнейшая, всем рекомендую к изучению уже сейчас, "день другой" и увидим опенсорсные аналоги с той же R1 под капотом. Во-вторых, вот этот пост Степана Гершуни из канала @cryptoEssay - всем энтузиастам рекомендую прочитать.

Ну и, напоследок, оставлю здесь ссылку на свежий список от Y Combinator (акселератор №1) с их хит парадом перспективных идей для стартапов на весну 2025 - оттуда можно почерпнуть много интересного.
👍95
AI-Driven Development. Родион Мостовой pinned «А почему бы вам не сделать стартап или хотя бы пет-проект? Я убежден, что современные LLM и инструменты поверх них открывают огромные возможности не только для сиюминутного заработка, но и для построения на их основе крутых, дорогостоящих стартапов. С развитием…»
Сегодня отмечает свой день рождения замечательный человек Лекс АйТиБорода. Успеху этого канала, а также нашему проекту CodeAlive во многом поспособствовал именно Лекс. За что ему бесконечная благодарность.
Напомню, что Лекс делает довольного много классного контента на YouTube, из которого мне лично особенно заходят его интервью с интересными людьми. Здесь отдельно выделю и всем порекомендую интервью с непревзойденным и всегда светящимся от позитива и жизнелюбия Тимофеем Хирьяновым - когда я преподавал и "менторствовал", Тимофей был для меня эталонным преподавателем и лектором, да и просто интереснейшим человеком и, конечно, остается таким по сей день. В общем, если вы еще не видели это интервью, не пожалеете: https://youtu.be/uyS4rj9mvKE
Лексу, как интервьюеру, браво, что сумел так хорошо раскрыть гостя, да и многих других гостей.

Еще, Лекс одним из первых поверил в большой потенциал AI в программировании и организовал по этому поводу клуб Эволюция Кода, в котором регулярно проходят интервью с интересными людьми и тематические воркшопы. Кроме того, в рамках клуба проходят онлайн встречи с обсуждением нашумевших статей и книг в сфере AI - например, было несколько обсуждений громкой статьи SITUATIONAL AWARENESS (кстати, кажется, что пока прогнозы из этой статьи стремительно сбываются). Клуб очень живой, так что всем могу горячо рекомендовать (там есть небольшая плата за членство).
А еще, как раз в рамках клуба мы делали воркшоп про aider с моим участием, который до сих пор актуален. Кроме того, еще раньше Лекс сделал небольшое интервью со мной, в котором я поделился своим "джентльменским набором" AI-тулинга (почти за год все-таки многое успело устареть), а также обсуждаем классный кейс применения AI для общение с кодовой базой проекта (это до сих пор супер актуально).

Upd: В комментариях еще напомнили, что Лекс с Володей ведут регулярный подкаст про AI: AIA Podcast.

С днем рождения, Лекс! Продолжай творить и делать для нас шикарный контент, получая от этого максимум удовольствия.
🔥73
Forwarded from АйТиБорода
Ну-с, 33, полёт нормальный!

Вспоминая себя в 22, понимаю, что в целом я не сильно-то изменился, но скажи мне тогдашнему, что за эти одиннадцать лет произойдёт, — я, начинающий программист Лёша, покрутил бы у виска и сказал бы, что это какое-то кино то ли Кубрика, то ли Тарантино 😅

Короче, тут, в Послетридцатьтретьеве, жить можно: кислород имеется, земля под ногами есть, здоровье менеджебл, родные рядом, друзья на месте, хотя и не все... В общем, условия нормальные, есть где и разгуляться и разогнаться!

Если хочется меня поздравить, то просто сходите под любое видео на АйТиБороде, и напишите что-то хорошее, что случилось с вами за последний год, этого будет достаточно 😊

Ну а если уж совсем сильно захочется поздравить, то лучший вариант - это подписка на мой главный проект, «Эволюцию Кода»! Там же можно просто поддержать донатом :)

P.S. Леся заказала праздничный торт с лого клуба, лол 😁❤️
🔥31
А как там наша старая добрая Sonnet 3.5 поживает?

Новый интересный лидерборд появился, в котором люди голосуют за лучшие LLM (такие рейтинги обычно называют ареной): https://web.lmarena.ai/leaderboard
Конкретно на этой арене люди оценивают способность разных моделей к написанию Web UI на React, иначе говоря, тест на правильность API UI фреймворка и на визуальную эстетику - UI/UX. Округленно, можно сказать, что это тест на лучшую модель AI-фронтэндщика. В этом бенче лидирует уже относительно старенькая Sonnet 3.5, чему я не удивлён, т. к. с моим опытом этот результат тоже бьётся. В Эволюции кода меня как раз спрашивали недавно про нее, процитирую свой ответ:
Я на C# пишу в основном, а его поддержка хромает в Cursor в сравнении с Rider, поэтому я курсором почти не пользуюсь.
После появления o1-mini и o1 я почти перестал использовать Sonnet - как правило, у меня возникают сложные задачки на продвинутый ризонинг и требующие максимальной внимательности к деталям контекста (а в этом о1, кажется, пока нет равных). В итоге к услугам Sonnet могу прибегать, например, когда нужно красиво отрефакторить код, либо вот недавно соннет меня удивила тем, что исправила хитрую ошибку в сложном алгоритме на графы, в то время, как о1-про с этой проблемой по 10 минут билась и предлагала неадекватное решение.
В целом, для меня Sonnet сейчас играет больше роль стилиста, нежели проектировщика. Она похожа на эстетичного программиста, который очень чтит code style и лучшие практики, но при этом не очень умный.


Так что ризонинг ризонингом, а эстетика отдельно. И у меня есть подозрения, что эти результаты можно экстраполировать на любой UI, не только на веб.
Так что, Claude все ещё рано списывать со счетов.

А ещё, вышли новые LLMки от Google - вообще, по моему опыту, Gemini и ее разновидности, вероятно, наиболее оптимальный и экономичный выбор для бизнес кейсов.

NB. Неожиданно DeepSeek-R1 в этом списке занимает второе место. А если посмотреть на лицензии, то в первой десятке DeepSeek вообще единственная опесорс модель, вот и делайте выводы. Жаль, что создатели решили не делать нормализацию времени ожидания (результаты от моделей получаем неравномерно), у меня есть подозрение, что это может влиять на результаты.

Интересно, какие модели и для каких кейсов используете вы? Все ли заметили, что Sonnet 3.5 пишет более красивый код и UI? Напишите в комментариях.
🔥5👍3
Сколько времени вы тратите на изучение кодовой базы в проектах?

Ребята разработчики, есть хорошая возможность помочь нам в создании инструмента для самых точных ответов по кодовым базам. Как это сделать? Всего лишь ответить на несколько вопросов из опросника ниже, буквально на минуту вашего времени: https://forms.gle/G5nhQ7bETcTnrNnc7
Опрос анонимный. Заранее благодарю всех за участие!
👍10
А кто-то еще помнит про ассемблер и машинный код?

Наверное, уже ни для кого не секрет, что программирование с каждым годом трансформируется в сторону все более и более высокоуровневого - и вот, в 2023, с появлением GPT-3.5, мы подошли к моменту, когда естественный язык фактически стал еще одним языком программирования - и эта тенденция, как известно, продолжает развиваться.

Тем не менее, давайте вспомним, что объединяет всех программистов? DDD? нет, по-моему от этих трех букв до сих пор многие шарахаются. SOLID? тоже не очень - разумные синьоры все больше ставят непоколибимость этих принципов под сомнение (см., например, одно из недавних интервью Сергея Теплякова). А что тогда? Машинный код! Да да, многие уже и забыли, но ведь именно в него компилируются все наши программы в конечно итоге после всяких интепретаций и IL'ов. В общем, до сих пор порой возникает потребность в том, чтобы посмотреть а что же там за код-то зашит в бинарнике - в особенности это актуально для антивирусных компаний, которые кроме "экзешника" обычно ничего и не имеют для анализа. И тут на помощь приходят всякие дизассемблеры и декомпиляторы типа IDA, Ghidra и т. д. Вот только проблема декомпиляторов в том, что восстановленный код на выходе получается мягко-говоря слабо читаемым.
В общем, хорошая новость для вирусоборцев и других реверсеров в том, что теперь такой восстановленный код можно отправить в LLM и пропросить ее аккуратно переписать его на понятный язык (можно даже закинуть весь проект файликом или папкой* в Gemini). Проблема только в том, что даже мощные LLM все еще не очень хорошо это делают - ну и, конечно, на больших файлах, это может быть дороговато.

LLM4Decompile
И тут на сцену выходят наши любимые китайцы, которую сделали специализированную модельку LLM4Decompile, заточенную именно на восстановление декомпилированного кода и, удивительное дело, им удалось чуть ли ни в два раза по Re-executability обскакать GPT-4o. Молодцы, что тут сказать!
Видео-демка тут.
Ссылки на модели разных размеров тут.
Еще, прикольно, что можно посмотреть датасет, на котором моделька обучалась (первый столбец - сырой код из Ghidra, второй столбец - изначальный код).

Вообще, это очень интересный тренд - кажется, что еще немного и появятся готовые приложения, способные "переварить" любой скомпилированный "экзешник", "апкашку", "дллку" и прочие бинарники и выдать почти оригинальный код. Поэтому, как никогда важно делать тонкие клиенты и выводить критический функционал на серверную сторону (хотя! и тут LLMки уже пытаются имитировать бекенд эндпоинты - да что ж ты будешь делать!). В общем, как обычно, в интересное время живем.

Возможности?
Для тех, самых амбициозных из моих читателей, кто все еще думает над своим стартапом: вот вам супер интересная тема - создать такой тулинг (декомпилятор всего) и продавать его за большие деньги антивирусным компаниям - интересных челленджей я тут предвижу прям вагон. Только сначала обязательно пообщайтесь с ними и подсчитайте рынок.

А есть у нас тут живые реверсеры? Расскажите в комментариях как вы используете LLMки в своей работе.

* Кстати, да, хорошая новость для любителей пообщаться с кодом - Gemini теперь умеет принимать на вход целые папки.

NB. Я проделывал этот фокус с восстановлением кода через LLM еще год назад в своей статье про асинхронную машину состояний в C#, если вы вдруг ее пропустили, то вот она.
👍8🔥8
VSCode догоняет Cursor, а o3-mini и o1 становятся доступнее

GitHub Copilot анонсировали две больших важных фичи для своего для VSCode:
1. Copilot Agent - очередной AI-агент для программирования, наделённый волей самостоятельно принимать решения о том, какой шаг нужно сделать дальше для решения поставленной задачи, в т ч, гипотетически, он может сам, например, сбилдить программу и написать тесты. Кстати, в Cursor подобный агент доступен уже пару месяцев. Я лично пока не очень доверяю таким агентам и максимум иногда через aider могу пачку файлов прогнать. Если кто-то уже заценил агента в курсоре или в Copilot - поделитесь плиз своим опытом в комментариях.
2. Next Edit - это такой автокомплишн на стероидах, когда после какого изменения в коде Copilot пытается предугадать а какие ещё изменения могут последовать вслед за вашим (в примере показывают как разработчик просто меняем название класса Point на Point3D и копайлот тут же проставляет во все методы новый параметр z, точнее он деликатно предлагает это сделать. Фича пока в превью, так что убедитесь, что вы ее включили в настройках.

Упрощённый доступ к o* моделькам
Самые крутые (и очень быстрые) reasoning модельки для кодирования теперь доступны через OpenRouter для всех (ранее было ограничено):
o3-mini-high:
https://openrouter.ai/openai/o3-mini-high
o1: https://openrouter.ai/openai/o1

Также o3-mini доступна в GitHub Copilot Models даже пользователям бесплатного Copilot.

Ну, а OpenAI расщедрились и подняли всем Plus пользователям лимиты на o3-mini-high до 50 запросов в день. Так что больше не придется переживать за лимиты.

Ещё, Сэм Альтман заинсайтил, что новую GPT-4.5 мы увидим в течение нескольких недель, а GPT-5 будет включать в себя полную o3 и будет сама определять когда надо подумать, а когда можно и сразу выпалить ответ. Ждёмс.

---

Кстати, давно обратил внимание, что Copilot в VSCode сильно круче, чем в Rider (и других "идеях"), но я все ещё кодю в райдере, из-за привычки, его шикарных рефакторингов и отладки. А какой у вас опыт? Кто-нибудь переезжал с IDE от JetBrains на VSCode? Оправдался ли переезд и на сколько это было больно?
👍7🤝3