NEW BOT Телеграм, страница

AI-Driven Development. Родион Мостовой

Строго типизированные языки программирования могут стать популярнее благодаря LLM

Есть такой подкаст «Бреслав и Ложечкин».
Андрей Бреслав - фактически, основатель языка Kotlin. Во-первых, мне нравится Kotlin (когда-то мы делали мобильное приложения на нем), во-вторых, мне нравится как мыслит сам Бреслав, поэтому я стараюсь следить за его творчеством. Я думаю, что осмысленно слушая умных людей, мы сами становимся умнее.
В своем канале я пишу на разные темы, которые мне интересны, и сегодня речь снова пойдет про AI, только на этот раз в более глобальном, а может даже и философском ключе.
Собственно, не так давно ребята поговорили на тему "Про AI, LLM, AGI, ChatGPT, сингулярность и про то, заменит ли это всё программистов". У них получился совершенно великолепный разговор в тему программисты + AI. Рекомендую к просмотру.
Я выделю здесь несколько ключевых тезисов из подкаста, которые мне показались наиболее интересными:
1) Языки программирования с динамической типизацией (Python, Javanoscript) хорошо подходят для обучения программированию и для быстрой разработки, но для крупных проектов вред от динамической типизации начинает перевешивать пользу от скорости разработки. На ЯП с динамической типизацией проще писать код, но сложнее читать (просто потому, что далеко не всегда понятно с чем мы вообще работаем сейчас). Так вот, Бреслав предполагает, что поскольку для LLM тоже лучше, когда код написан более явно (с указанием типов), может случится так, что ЯП с динамической типизацией могут начать терять свою популярность и уступать языкам со строгой, статической типизацией. Идея интересная и весьма контринтуитивная, с учетом того, что сейчас, насколько мне известно, LLM наоборот могут давать лучшие решения именно на Python и JavaScript просто потому, что кода на этих языках было больше в обучающей выборке. Тем не менее, это хороший повод задуматься о том, чтобы использовать везде явную типизацию просто потому, что для LLM так понятнее.
И хочу еще отметить неочевидную вещь. В языках со статической типизацией мы часто используем var (это называется "вывод типа", Rider даже обычно предлагает использовать var вместо явного указания типа по умолчанию). Идея в том, что на месте var компилятор автоматически определит тип и подставит правильный. В общем, даже несмотря на то, что var в C#, конечно, же не является динамической типизацией, используя var мы можем слегка усложнять LLMке задачу, ведь она не компилятор и не умеет нормально в вывод типов (особенно в том случае, когда в отправленном контексте просто отсутствует код объявления вызываемых методов). Речь, конечно, о подобных вызовах:

var bonus = GetBonus(); // что тут за тип: CutomerBonus, EmployeeBonus или еще какой-то третий? непонятно.

var result = Init(); // а вот тут что есть result в принципе догадаться очень сложно (да, в т. ч. и из-за нейминга)

Короче, вероятно, будет предусмотрительнее уже сейчас опцию csharp_style_var_elsewhere в вашем .editorconfig задать в false. В этом состоянии она активирует необходимость указывать тип явно в случае когда тип переменной не явный (например, в не new случаях). Скорее всего, LLMкам будет проще обрабатывать такой код, а результат на выходе будет качественнее. Ну, и про nullable/non-nullable аннотации, конечно, тоже не стоит забывать (?).

Еще интересные тезисы из подкаста и свои размышления о них запощу чуть позже, а то итак много получилось)

—
Пробелов.NET. Спасибо, что читаете :)

YouTube

Про AI, LLM, AGI, ChatGPT, сингулярность и про то, заменит ли это всё программистов

Андрей Бреслав (ex-JetBrains, а теперь основатель стартапа) и Александр Ложечкин (ex-Microsoft, ex-Amazon, а теперь CIO в банке) рассуждают, спорят, делятся опытом, и просто болтают на темы развития людей, руководства, технологий и всего остального.

Сайт…

👍5🔥4

771 viewsRodion M, edited 18:36

AI-Driven Development. Родион Мостовой

Нешаблонное собеседование Junior .NET разработчика без опыта работы

Ненадолго отступлю от темы AI и вернусь к теме .NET и собеседований.
Известное дело, что Junior разработчикам сейчас наиболее трудно найти работу, особенно если они без опыта. Какой есть выход? (помимо очевидного накручивания опыта в резюме) Опенсорс! Делать свои проекты и контрибьютить в популярные чужие. Это отличный способ получить конкурентное преимущество (по моему опыту редкий джун заморачивается над прокачкой своего гитхаба).
Так вот, ко мне обратились из Solvery с предложением провести моковое собеседование на их канале. Я устал от шаблонных собеседований в духе "в чем разница между ref/val типами и что такое наследование", поэтому решил сделать это интервью в совершенно нешаблонном стиле, основанном на обсуждении проектов кандидата и тех технических решений, которые он в них реализовал. В итоге получилось довольно живо, интересно для меня, как для собеседующего, и полезно для кандидата. В принципе, я попытался показать пример того, как может проходить собеседование с джуниор-кандидатом, у которого из опыта есть только проекты на GitHub. Есть небольшая надежда на то, что такой вариант собеса увидит кто-то из собеседующих и задумаются над внедрением чего-то похоже в свои процессы собеседований.
Ссылка на запись: https://youtu.be/K4X4I-k_Hj4
Непосредственно опрашивание начинается с 24-й минуты.

Знаю, что в моем канале есть и опытные дотнетчики-аксакалы, что вы думаете о таком подходе?

PS. Работа с ментором - вообще отдельная история, я немного осветил ее в видео, но, вероятно, сделаю об этом отдельный пост со сравнением работы с ментором и IT-курсов (если это интересно, можете намекнуть мне комментарием под этим постом). Пока просто оставлю здесь ссылочку на еще один крутой сервис по поиску ментора GetMentor.dev (проект некоммерческий и в отличие от Solvery, они не берут никаких комиссий).
PS2. Любопытно, кстати, что кандидат из интервью умудрился законтрибьютить в один из проектов @fvnever. Мы подробнее это обсуждаем в начале.

—
Пробелов.NET. Спасибо, что читаете :)

YouTube

Нешаблонное собеседование C# разработчика

Промокод BACK20 - 20% скидка на первое занятие с любым ментором по разработке! Действует до 26.05.2024

Партнерский стрим с моковым собеседованием по C# для бэкендеров в рамках Backend Fest.

Официальный партнер трансляции — .NET Разработчик (https://t.m…

👍7

1.05K viewsRodion M, edited 10:48

AI-Driven Development. Родион Мостовой

Ключевые навыки в программировании с использованием ChatGPT

Дмитрий Нестерук записал получасовой ролик про использование нейронок в программировании - получился эдакий базовый курс для программистов.
Кому подойдет?
1. Тем, кто по той или иной причине еще толком не успел попробовать AI в разработке.
2. Тем, кто уже успел попробовать ChatGPT или другую LLM, но ничего путного у вас из этого не вышло.

Ссылка на видео: https://youtu.be/y6VVnZs1bnE

YouTube

Ключевые навыки в программировании с использованием ChatGPT

Рассказываю о ключевых навыках которыми стоит пользоваться при написании систем с использованием языковых моделей вроде ChatGPT.

🔥11👍3

1.28K viewsRodion M, edited 08:46

AI-Driven Development. Родион Мостовой

Гибкая генерация JSON DTO'шек из json файла на любом ЯП через ChatGPT

Обнаружил очередной классный юзкейс применения ChatGPT. Берем JSON файл (можно даже большой) затем скармливаем этот JSON файл ChatGPT и просим сгенерить модельку, на которую будет мапиться JSON (например, на C#).
В чем преимущество в сравнении с готовыми статическими генераторами? В гибкости. Мы можем задать в промпте любые правила генерации DTO'шек (к примеру, для C# это може быть поддержка Nullable Reference Types в моделях или написать XMLDOC с примерами значений).
Диалог из ChatGPT для примера: https://chatgpt.com/share/172d156f-96bc-4dad-bc72-d04cfadd693f

Ну, и здесь же поделюсь ссылкой на сервис, который я раньше использовал для этой задачи: https://app.quicktype.io/

—
Пробелов.NET. Спасибо, что читаете :)

👍8👎2

1.24K viewsRodion M, edited 09:19

AI-Driven Development. Родион Мостовой

Лучшая модель для кодирования - Claude Sonnet 3.5

Вы уже наверняка слышали, что Anthropic на днях выпустили новую LLM, которая во многих бенчмарках обходит gpt-4o. Таким образом, Claude Sonnet 3.5 становится лучшей моделей для написания кода на сегодня.

Действительно ли лучшая?

Скорее всего, да. Я уже писал о своем любимом бенчмарке на кодирование LiveCodeBench - это набор задач а-ля литкод разной сложности.
Так вот, в LCB в задачках средней сложности новая Sonnet примерно на четверть обходит gpt-4o, а вот в Hard задачки она решает аж в 2 раза лучше! (даже чуть больше). Теперь понятно почему у людей новая соннет действительно решает принципиально более сложные задачи лучше, чем gpt-4o.

Кстати, неожиданные результаты в

бенчмарке aider

- обычные правки новая Sonnet действительно делает лучше всех с отрывом от GPT-4o на 5.3% (и то при формате редактирования whole, но это уже детали). При этом сразу за Sonnet идёт новая DeepSeek Coder V2, слегка опережая GPT-4o - видимо, из-за лучшего следования инструкциям.
А вот, в задачах на рефакторинг (с большим контекстом), новая Sonnet заметно проседает и отстаёт от Opus на 17.2%, и от GPT-4o на 7.8%.

Мой опыт
1. Мою сложную задачу на вычисление максимальной глубины проекта в зависимостях в итоге смогла решить только новая Sonnet, остальные не вывозили, как я их ни мучал.
2. Новая Sonnet смогла полностью реализовать программу для мерджа множество .NET солюшенов в один большой солюшн (правда, с моими подсказками). Об этом я напишу в отдельном посте.

Так что, рекомендую попробовать (особенно скептикам) - возможно, нейросети вам откроются с новой стороны.

Как воспользоваться?
A) На сайте Claude новая моделька доступна даже в бесплатной версии (с определенными лимитами).
B) Через OpenRouter (после регистрации).

—
Пробелов.NET. Спасибо, что читаете :)

🔥9❤3

2.09K viewsRodion M, edited 10:10

AI-Driven Development. Родион Мостовой

Учимся промптить, генерировать картинки видео и музыку и все это за 3 часа

Не совсем про программирование, но очень интересно. Сегодня YouTube со своей прекрасной системной рекомендаций подсказал мне видео "Как войти в топ 1% по использованию ChatGPT и других ИИ-инструментов?" - это новое интервью на канале Армана Сулейманова, которое сделано в формате скринкаста и обучающей форме. За 3 часа ребята довольно подробно разобрали наиболее популярные и широкие нейросети:
🔸 ChatGPT для текстогенерации
🔸 Perplexity для поиска
🔸 GPTs для специфичных задач
🔸 DALL-E, Midjourney и Stable Diffusion для генерации изображений
🔸 Suno, Udio, Sounddraw для генерации музыки
🔸 Pika, Runway для генерации видео
🔸 HeyGen для создания цифрового двойника

В общем, получился эдакий бесплатный практический вводный курс по современным нейросетям за 3 часа. Ах да, Руслан Сыздыков - Prompt Engineer из компании Higgsfield.ai. Весь ролик я посмотреть пока не успел, но часть про промптинг мне зашла.
От себя дополню в тему промптингу - Antropic недавно выпустили прекрасный инструмент для генерации промптов Prompt Generator. Еще, важный нюанс в том, что у Claude моделей контекст менее дырявый, чем у gpt-4o (см. бенчмарк BABIlong и paper про Sonnet 3.5).

Кстати, на неделе вышло несколько новых мощных нейросетей, в т. ч. для кодинга - если кому-то интересен краткий обзор этих нейросетей в задачах на программирование (основанный не code-бенчмарках) - скажите и я постараюсь найти время на соотв. пост.

—
Пробелов.NET. Спасибо, что читаете :)

YouTube

Как войти в топ 1% по использованию ChatGPT и других ИИ-инструментов? - Руслан Сыздыков, Higgsfield

nFactorial Club - это invite-only сообщество предпринимателей, фаундеров, инвесторов, топ-менеджеров и экспертов. Подать заявку: https://nfactorialschool.typeform.com/to/LybSrqwc

Объявляем новый поток на онлайн-курс «‎Генеративный ИИ: от нуля до профи за…

🔥15👍6

2.16K viewsRodion M, edited 17:43

AI-Driven Development. Родион Мостовой

Текущая картина по моделькам для кодинга, мое грядущее выступление на DotNext и... конкурс

Но начну вот с чего: набрел тут на сервис https://glhf.chat/ - он позволяет в один клик запускать разные модели с HF, а по запросу могут даже включить API доступ к развернутым вами моделькам. Сервис пока в бете, поэтому доступ бесплатный (после регистрации). В лимиты пока не успел упереться, так что неизвестно, есть ли они вообще.
Быстрый чек показал, что модели похожи на настоящие (ну кто ж знает, вдруг, обманывают). Во всяком случае, по запросу Create API client in .NET for OpenAI that supports parallel embeddings generation with configurable dop что-то адекватное выдала только самая большая ллама на 405b. Хваленая Reflection, кстати, без подсказок не реализует адекватный параллелизм.
А на скриншоте ключевой кусочек корректной реализации задачки на параллелизм от llama-3.1-405b (в котором моделька выбрала "продвинутый" метод из TPL, появившийся в .NET 6 - кажется, о нем разработчики-то не все еще знают).

Собственно, уже давно был запрос написать что-то про новую большую лламу на 400b параметров. Вот, пишу.
Опираясь на мой любимый LiveCodeBench (задачки а-ля литкод дают более-менее объективнумю картину), видно, что LLama3.1-405b-Ins-FP8 хорошая модель, но не лучшая. Что касается моего (небольшого) субъективного опыта применения этой модели в .NET-specified задачах, то могу лишь сказать, что мне ответы Sonnet 3.5 и gpt-4o нравятся больше.

Кстати, пощупать новую большую лламу помимо glhf.chat можно еще и на https://hyperbolic.xyz/ (при регистрации они дают халявные 10$ - этого должно хватить примерно на 2 млн токенов).

Далее, из интересных актуальных моделек хочу отдельно выделить Yi-Coder-9B-Chat - судя по LiveCodeBench на текущий момент это единственная открытая 9B модель, которая перегнала gpt-3.5 в кодинге. Напомню, что 9B модели можно запускать на M1,2,3 макбуках с 32 GB shared memory, а если они квантизованные, то и 18 GB будет достаточно.

Еще, 11 сентября в 11:30 (по МСК) я буду выступать с очередным докладом про применения LLM в разработке (онлайн с Бали).
Кроме меня на конференции, как обычно, выступает множество спикеров, в т. ч. многоуважаемый Евгений Пешков (@epeshkblog) с докладом про сравнение реализаций асинхронности в разных платформах: .NET, Java и Go - это одна из моих любимых тем (после AI, конечно), так что должно быть очень интересно. Кстати, конкретно доклад Жени будет транслироваться для всех безоплатно.

🔥Конкурс🔥
Я люблю коллекционировать классные кейсы применения LLM в разработке, а потом о самых удачных рассказывать другим разработчикам. Поэтому, если у вас есть крутые кейсы из практики - предлагаю поделиться ими в комментариях к этому посту. А автору самого интересного кейса достанется билет на этот DotNext (онлайн или оффлайн).

—
Пробелов.NET. Спасибо, что читаете :)

🔥14👍6

8.78K viewsRodion M, 17:59

AI-Driven Development. Родион Мостовой

1:51:17

Media is too big

VIEW IN TELEGRAM

aider — AI-Junior разработчик, доступный из вашей любимой IDE

Друзья, совместно с клубом Эволюция Кода публикуем воркшоп по (субъективно) наиболее удобному и мощному инструменту для разработки, доступному из любой IDE.
По-моему, на текущий момент это единственный воркшоп по aider в открытом интернете.

А что вообще за aider такой?
aider это инструмент для парного программирования с использованием языковых моделей (LLM), позволяющий редактировать код в вашем локальном git-репозитории. С его помощью вы можете начать новый проект или работать с существующим git-репозиторием. Aider наиболее эффективен при использовании GPT-4o и Claude 3.5 Sonnet, но также совместим практически с любыми другими языковыми моделями (официальное описание).

От себя добавлю, что aider — это действительно прекрасный инструмент, который, фактически, служит клеем между IDE и LLM; в консоли разработчик на естественном языке описывает то, что нужно исправить/создать, aider обрабатывает это сообщение, сам патчит необходимые исходные файлы, (если надо) запускает команды в консоли (типа dotnet install) и коммитит изменения в репозиторий. В общем, инструмент мощнейшний.
Единственная проблема aider в том, что с ходу его вряд ли получится использовать эффективно. По-хорошему, нужно будет посвятить какое-то время на его изучение. Именно поэтому мы записали воркшоп, в котором на примере конкретной задачи демонстрируем установку, настройку и использование aider.

Кстати, на днях в соседнем канале LLM под капотом Ринат опубликовал свой воркфлоу разработки, в который входит и aider, там же есть инструкция о том, как можно хорошо сэкономить на его использовании (включить кеширование).

Пользуясь случаем подробнее расскажу про клуб Эволюция кода.
В клубе регулярно проводятся тематические созвоны и воркшопы, а его участники регулярно делятся полезными инструментами - например, недавно запостили ссылочку на открытый инструмент для чата с репозиторием (поиск по коду на естественном языке).
Еще, доступна открытая коллекция юзкейсов от участников клуба.
В общем, горячо рекомендую Эволюцию Кода.

Отдельно хочу поблагодарить Лекса @itbeard, который организовал этот воркшоп.

Upd: залили на YouTube: https://youtu.be/NXwWLNPHd38

—
Пробелов.NET совместно с клубом Эволюция кода. Спасибо, что читаете :)

🔥14👍1

8.49K viewsRodion M, edited 15:33

AI-Driven Development. Родион Мостовой

🍓o1 — Новая прорывная модель для кодинга от OpenAI

Не успел я выступить на DotNext с докладом про использование LLM в разработке (слайды тут) и хвалами в адрес Claude Sonnet 3.5, как OpenAI выпустили новую модель для программирования, которая по их же описанию оставила далеко позади все остальные модели в задачах на программирование и математику.
Результаты у этих моделей, судя по анонсу OpenAI, действительно прорывные. Я не буду здесь пересказывать анонс OpenAI, т. к. это уже многие сделали (раз, два, три).

Результаты моделей o1 в задачах на программирование
Собственно, перейду сразу к результатам. Я предлагаю сразу смотреть на мой любимый LiveCodeBench, т. к. кажется, что остальные бенчмарки по программированию с выходом Sonnet 3.5 и o1 уже не очень показательны (например, HumanEval).
Сосредоточим внимание на колонке Hard и Medium (т. к. в. категории Easy там уже почти некуда соревноваться). Если включить все задачки (оттянуть ползунок влево), то мы увидим картинку как на скриншоте. Видно, что в категории задач уровня Hard (требующих наилучшего reasoning), модель O1-Preview опережает Sonnet 3.5 почти на 30%, а вот модель O1-Mini на сложных задачах оказалось умнее, чем Sonnet 3.5 аж более, чем в 3 раза!

Кроме того, на свеженькие вопросы со StackOverflow новые модели отвечают на 30% лучше.

Отмечу, что размер контекстного окна на output существенно расширен (для o1-preview до 32к токенов, а для o1-mini до 65к). При этом, общий размер контекстного окна (вход + выход) 128к токенов (тут, увы, не удивили).

Как это работает?
Есть такой интересный прием CoT (Chain of thought) - это когда в конце промпта мы просто добавлявляем "Думай шаг за шагом". Удивительно, но этот подход существенно улучшает способности модели к решению сложных задач - он универсален, т. е. применим чуть ли не к любым LLM. Так вот, OpenAI каким-то образом приучили свои новые модели всегда использовать этот подход, наделив их, по сути, нативными способностями к декомпозиции и подробному, многошаговому анализу задачу. Примечательно, что новые модели даже иногда могут прийти к некому промежуточному выводу, затем поймать себя на ошибке исправиться. Всю инфу по o1 OpenAI собрали в хабе o1.

А еще, ребята из GitHub Copilot тоже подсуетились и, похоже, совсем скоро мы увидим новые модели и там.

Как попробовать?
1) В интерфейсе ChatGPT с подпиской ChatGPT Plus.
2) Через API OpenAI (но для этого пока нужен ~~аж 5-й tier~~ upd: уже 3-й tier)
3) Через API OpenRouter - я тестировал именно так, работает действительно отлично.
4) Через API Azure OpenAI (но сначала нужно оставить заявку на доступ)
5) Бесплатно из плагина Double для VSCode (спасибо автору канала Not Boring Tech за инструкцию)
6) Через телеграм-бот Ильи Гусева (бесплатно всего 2 запроса в день)

P.S. Рад видеть новых подписчиков в своем канале - спасибо всем, кто присоединился! Чуть позже будет пост-навигатор по самым интересным материалам канала, а также мощный воркшоп про смысл асинхронности в .NET.

—
Пробелов.NET. Спасибо, что читаете :)

🔥19👍8

2.1K viewsRodion M, 08:58

AI-Driven Development. Родион Мостовой

Актуальная картина по LLM для разработки на октябрь

Звезда недели — Claude Sonnet 3.5 v2 — самая практичная модель для кодинга
Многие ждали новую Opus, но Anthropic всех удивили слегка улучшенной Sonnet. И действительно, если посмотреть на мой любимый бенчмарк LCB, то там новая Sonnet и вовсе оказалась даже чуть хуже своего предка (50.2 vs 50.8 на всей выборке). А вот если посмотреть LiveBench (они расширили секцию кодинга задачами на заполнение недостающего кода, а также добавили несколько других секция, включая Reasoning).
claude-3-5-sonnet-20241022 - это и есть Claude 3.5 Sonnet v2.
Можно было бы и на этом закончить, но давайте пойдем дальше. Я иногда люблю поглядывать бенчмарк от aider - из него уже можно получить более практичную картину по LLMкам в программистских задачах, требующих работы с несколькими файлами одновременно или даже рефакторингов. Так вот, в aider новая соннет показывает результаты даже круче, чем o1 (o1 очень "умная", но у нее проблемы с соблюдением форматов). Особенно существенный прирост (почти 30%) мы видим как раз в задачах на рефакторинг (у меня, например, таких больше всего в реальной разработке).
Так что, работу ребята из Anthropic проделали существенную, за что им и спасибо.

Кстати, самое интересное, что Anthropic со своей новой моделью с ходу залетели в лидерборд бенчмарка по разработке ПО SWE-bench Verified, еще и сразу с лучшим результатом (49%). Тут я обращаю внимание на то, что они использовали не чистую модель, а некий Tools (в посте ниже описываю как они этого добились) - результат потрясающий. Еще, отрадно видеть в этом лидерборде весьма неплохие результаты от команды nFactorial AI (ребята из Казахстана).

Как попробовать обновленную Sonnet?
1) В веб интерфейсе Anthropic (после регистрации и с лимитами)
2) Через API Anthropic (платно)
3) Через веб интерфейс или API OpenRouter (платно)
4) Через Blackbox (слева сверху нужно выбрать модель Sonnet (работает хорошо, но нет 100%-й уверенности, что это именно новая Sonnet).
5) Через LLM Playground (бесплатно и с лимитом до 1000 символов)
6) Через телеграм-бот Ильи Гусева (бесплатно всего 3 запроса в день)

Qwen 2.5 Ins 72B - открытая модель уровня GPT-4o в кодинге
Что еще случилось за этот месяц? Ребята из Alibaba Cloud выпустили очередное обновление своей линейки Qwen до версии 2.5. Теперь их самая большая моделька Qwen2.5-72B-Instruct кодит на уровне самых топовых закрытых моделей, на уровне GPT-4o (судя по LCB). Эта модель доступна через OpenRouter по цене в несколько раз ниже GPT-4o.
~~Ну и последний фаворит (точнее, фаворитка) - модель~~ ~~Qwen 2.5 Coder Ins 7B~~, показывающая в LCB результаты в кодинге, сопоставимые с одной из первых версий gpt-4 (а это очень достойный уровень). В действительности, именно с этой моделью все сложнее, т. к. если выборку начать с 4/1/2024, то в рейтинге эта модель сильно падает аж до уровня Claude 3 Haiku. Так что, возможно, ее как-то очень по хитрому обучили на задачах из бенчмарка. Но если вы любитель локальных моделей, то попробовать стоит в любом случае.

А вот нашумевшая модель llama-3.1-nemotron-70b оказалось не такой уж и выдающейся (Qwen 2.5 72B показывает существенно лучшие результаты).

—
Еще одна хорошая новость - я расширяю команду проекта CodeAlive, в котором мы делаем поиск по коду на естественном языке, существенно превосходящий аналогичные решения в качестве и кое-что большее. Waitlist здесь.

Еще, у меня за последние пару месяцев накопилось с десяток разных идей продуктов с GenAI под капотом, но времени на их реализацию нет совершенно. Поэтому, если у кого-то из вас давно чесались руки сделать GenAI пет-проект - напишите мне, я поделюсь идеями и, возможно, даже своими представлениями по реализации.

—
Пробелов.NET. Спасибо, что читаете :)

🔥15👍4

1.6K viewsRodion M [UTC+8], 16:24

AI-Driven Development. Родион Мостовой

Как устроен лучший автономный AI-разработчик на сегодня (публично доступный)

Anthropic сделали большое дело — опубликовали статью о том, как им удалось добиться лучшего результата в бенчмарке AI-агентов-программистов SWE-bench (см. Verified). Почему дело большое? Потому, что SWE-bench — это поле битвы автономных AI-агентов-программистов, в котором разные компании пытаются зарезловить как можно больше Issues из определенного списка OpenSource проектов. Так вот, Anthropic с их Claude 3.5 Sonnet v2 действительно удалось добиться выдающегося результата, сместив всех предыдущих "Senior AI-инженеров" с пьедестала.
А про SWE-bench недавно был хороший пост в канале Сиолошная (последняя новость в посте). Вот, кстати, емкое определение оттуда же, оно мне понравилось:

SWE-bench — Это бенчмарк оценки способностей LLM по внесению изменений, описанных текстом, в кодовую базу большого существующего проекта (одни из самых популярных Python-фреймворков, например, Django).

В каждом задании бенчмарка ИИ предоставляется настроенная среда Python и копия репозитория в состоянии перед тем, как ошибка была устранена. Модель должна проанализировать, изменить и протестировать код, а затем предложить своё решение.

Для тех, кто хочет глубже, вот подробное описание SWE-bench Verified.

Как это работает
Высокоуровнево, они это сделали через Tool Use (function calling) — это когда разработчик описывает для нейросети список доступных функций и просит ее, когда это уместно, вызывать одну (или несколько) из описанных функций. Например, можно объявить функцию получения текущей даты и времени и когда пользователь спросит текущее время у LLM, она "вызовет" функцию и ответит ему правильно.
Ребята реализовали две функции:
1. Bash Tool для запуска bash комманд.
2. Edit Tool для просмотра, создания и редакирования файлов. А Edit Tool, в свою очередь, состоит из 5-х команд: view, create, str_replace, insert, undo_edit.

Отдельный интерес представляют промпты (в т. ч. описание тулинга) — только посмотрите на сколько они подробные.
В главном промпте хочу обратить внимание на предложение к LLM сначала воспроизвести баг локально (изолированно) и только после этого решать проблему.
Челленджы такого подхода в статье описаны отдельно. Пример так же есть в статье.

Эти 2 функции LLM выполняет последовательно в том порядке и с теми аргументами, которые считает нужными, а результат выполнения передается обратно в LLM и, таким образом, итеративно накапливается довольно большой контекст, состоящий из messages к LLM (для Claude 3.5 контекст все еще ограничен 200к токенами). Если задача решена, либо модель вышла за пределы контекста, цикл останавливается.

Что нам с этого?
В принципе, такой подход можно применить и для решения рабочих задач — взять какой-нибудь баг или даже небольшую фичу из таск трекера и делегировать реализацию описанному агенту. Кстати, вместо Sonnet 3.5 v2 можно использовать и другую LLM, поддерживающую function calling.

Ну что, будем ждать новый еще более мощный тулинг (а-ля aider), реализованный по статье. Еще, опять же, в кач-ве пет проекта можно повторить описанный подход и самостоятельно.

—
Пробелов.NET. Спасибо, что читаете :)

Anthropic

Claude SWE-Bench Performance

Explore Claude's breakthrough performance on SWE-Bench, demonstrating advanced software engineering capabilities and code generation accuracy. Learn about our technical evaluation methods.

🔥13👍7

1.41K viewsRodion M [UTC+8], edited 12:39

AI-Driven Development. Родион Мостовой

SearchGPT для задач программирования

Новая функция поиска в ChatGPT — вещь потрясающая и для задач на программирование тоже. Рисовал только что графы через React Flow, и GPT никак не мог изменить background color графа — но стоило лишь активировать поиск и он тут же справился с задачей. Для этого я включил функцию поиска (внизу под чатом) и просто отправил сообщение "Still (not working). Try to search in the internet.".
Что отдельно радует — так это то, что работает поиск очень быстро (по ощущениям менее секунды).

Похоже, что вот оно и долгожданное решение проблемы неактуальных версий и API.
Браво, OpenAI!

Доступна новая фича пока только по подписке Plus, но в будущем обещают и бесплатным пользователям выдать доступ.

Кстати, уже давно есть бесплатные суррогаты а-ля GPT с поиском для программистов. Например, на devv.ai или blackbox.ai. Но лучше оригинальный SearchGPT, конечно.

А у вас какой опыт использования нового поиска?

🔥10👍4

7.72K viewsRodion M [UTC+8], 12:11

About

Blog

Apps

Platform