Архитектура Стартапа - Anton Skogorev Engineering & AI – Telegram
Архитектура Стартапа - Anton Skogorev Engineering & AI
2.1K subscribers
49 photos
1 video
2 files
109 links
Канал про архитектуру быстрорастущего бизнеса.

Привет, меня зовут Антон @skogorev.
Я - Технический Директор AI Center Tinkoff, ex Yandex Go Senior EM.

В переписках остается много полезных материалов, теперь я собираю их на этом канале.
Download Telegram
Системный дизайн будущего: от микросервисов к AI-архитектуре.

Собрал сегодня зал в MTS True Tech с рассказом о том, как меняется парадигма проектирования. Как бизнес-логика становится вероятностной, какие компоненты приходят на смену привычным микросервисам и как должен выглядеть технологический стек AI-компании.

Принес вам основные мысли в четырех слайдах.
🔥223💯2👎1
Forwarded from EasySwift iOS🍏 (Ilia)
Meet the Foundation Models framework

WWDC прошел и, как обычно, показали много нового и интересного (нет, особенно ужасен новый дизайн Liquid Glass). Для меня самое интересное – это новые AI инструменты и возможности и тут на самом деле было много интересного.

Apple показали фрейморк Foundation Models для работы с llm on-device в приложениях. Из основного:
- полностью нативная реализация и интеграция со swift'ом. Сама модель адаптирована под работу на Apple процессорах
- модель: 3B квантизованная до 2х бит модель: создать полноценного чат бота с ней не выйдет, но с задачами суммаризации, генерацией / понимаем текста и другими несложными llm-based задачами она более чем может справится
- есть возможность не промптом, а с помощью макросов управлять и структурировать формат ответа модели. Этот подход назвали "guided generation". Если кратко, то мы описываем энамы и структуры, и говорим, что хотим от модели в таком формате получать ответ и будем его именно так и получать
- появится новый инструмент отладки и тестирования работы с моделью
- самое важное и крутое на мой взгляд: "Tool calling": мы можем "зарегистрировать" функции приложения и сказать модели, что она может к ним обращаться и получать из них информации. Это крутое новшество, которое тянет на отдельный пост, который мы позже принесем

Отдельным пунктом хочу еще выделить, что наконец-то Xcode получит интеграцию с chatgpt и другими llm, в том числе и локально запущенными 🔥

Если хотите глубже погрузиться в архитектуру, узнать больше про пост/пре-трейн и оптимизации моделей, на каких данных и как обучалась, то вам точно нужно зайти сюда. Еще завезли отдельный HIG, посвященный генеративным AI.

#wwdc2025
👍61🔥1
Тут выяснилось, что я достаточно большой адепт вайб-кодинга. В пятницу на мастер-классе собрал 1200+ человек аудитории. Принёс вам инсайты и лайфхаки.

Давайте сразу поясним за терминологию:
Вайб-кодинг — использование естественного языка для написания ПО.

— На replit.com можно собирать достаточно сложные штуки end-to-end. Прототипировать — best of the best.
— Ассистент Replit-а реализован в виде достаточно классического агента с планированием, сбором контекста с web-IDE и запросом в LLM.
— Агент Replit-а не умеет ходить в интернет, но ему можно подсунуть в каком-то виде базу на старте (например, прикрепить CSV).
— Replit может поднять PG в AWS и проинтегрировать в ваш прототип.
— Мы собирали лендинг инфографики анализа зарплат (перед этим O3 мне собрал из открытых источников таблицу зарплат) и телеграм-бота — скраппера сайтов из личных сообщений (промпты оставлю в комментариях к посту). Первое — отлично собралось, второе — почти ожило.
— Сравнение инструментов для вайб-кодинга — тут.
— Если что-то не собирается с трёх чекпоинтов — лучше перезапустить создание проекта с новым промптом.
— Подписка стоит $25, бесплатно можно создать 3 приложения, чего вполне хватает, чтобы пощупать инструмент.
— Телеграм-бот будет стоить примерно $2 квоты.

Несколько лет назад у нас в команде были споры. Я говорил, что через пару лет все будут писать на джаваскрипте. Прав я был в том, что повышается уровень абстракции программирования. Сейчас странно писать код на ассемблере. Ещё через пару лет будет странно учить синтаксис языка.
💩8🔥4👎3🤔21
Несколько дней читаю "12‑Factor Agents" — понравился инженерный фреймворк из 12 практических пунктов, адаптированный для создания надёжных, масштабируемых и управляемых AI-агентов.

Система предлагает воспринимать LLM-агентов не как магические фреймворки, а как хорошо инженерно спроектированные сервисы с контролируемым потоком, состоянием и надёжным взаимодействием с пользователем.

Кликабельные пункты:
How We Got Here: A Brief History of Software
Factor 1: Natural Language to Tool Calls
Factor 2: Own your prompts
Factor 3: Own your context window
Factor 4: Tools are just structured outputs
Factor 5: Unify execution state and business state
Factor 6: Launch/Pause/Resume with simple APIs
Factor 7: Contact humans with tool calls
Factor 8: Own your control flow
Factor 9: Compact Errors into Context Window
Factor 10: Small, Focused Agents
Factor 11: Trigger from anywhere, meet users where they are
Factor 12: Make your agent a stateless reducer
👍101
T-pro 2.0 – с гибридным ризонингом 🥳

Лучшая модель в своём весе среди всех открытых моделей по широкому ряду русскоязычных бенчмарков. В два раза более быстрая и дешевая чем аналоги по качеству.

Модель с рассуждениями, создана для построения сложных систем и решения сложных задач. Модель в открытом доступе, качай да используй.

– Qwen3 32B based
– Гибридный ризонинг
– Уплотненный токенайзер на русском
– Спекулятивный декодер в комплекте
– Apache 2.0 – используй как хочешь

Больше подробностей выложим в тех репорте – с бенчмарками и накопленными знаниями.

Сама модель и основные бенчмарки
Спекулятивный декодер
Новость
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9
Только вернулся из Сириуса. Посчастливилось побыть в жюри конкурса «Большие вызовы». Это когда берут лучших школьников со всей страны, и они за 3 недели делают проекты, которые в индустрии обычно пилят годами. И хотя последнюю ночь нас эвакуировали из отеля из-за атак беспилотников, это не перекрыло впечатлений. Энергия команд была запредельной.

Принёс вам мой субъективный топ проектов:

— Датасет для OCR, созданный на основе генеративных сетей и рендеров из Unreal Engine. Ребята рендерили поезда и генерировали окружение чтобы улучшить качество распознавания составов РЖД.
— Мультиагентная система для решения научных задач в области искусственного интеллекта. Ребята сделали свой мультиагентный Deep Research.
— RL для планирования бурения скважин и оптимизации движения буровых и ремонтных бригад.
— Ну и, конечно, в сердечке — Джуниор-ассистент.

А чем вы занимались в 15 лет?
🔥184
Как избежать кризиса архитектуры AI.
Avoiding a Future AI Architecture Crisis; What the 2025 Numbers Mean for Enterprise AI Strategy

Отличная статья про будущие риски корпоративных AI-архитектур. Интересно, что её выводы сильно совпадают с нашими — хотя мы пришли к ним своим путём. Принёс вам краткие тезисы, но рекомендую прочитать статью полностью.

Проблемы:
— Крупнейшие AI-компании не являются устойчивыми бизнесами (например, OpenAI — убытки на 50% выручки).
— Цены на AI-сервисы занижены субсидиями. Пример: Doubao от ByteDance — $0.0001 за 1k токенов (на 99.8% дешевле GPT‑4).
— Потенциальный вендор-лок: архитектура, промпты, пайплайны и данные часто «зашиваются» под конкретную модель.
— Энергопотребление — слон в комнате. Один запрос в ChatGPT ≈ 0.34 Вт*ч. Общий суточный расход — ~340 МВт*ч (как у небольшого государства).

Что делать:
Архитектурная независимость: Проектируйте с учётом независимости от конкретной модели с самого начала. Тестируйте критичные запросы на разных провайдерах.
Гибридный подход: используйте open-source модели локально для ключевых функций, а внешние API — для некритичных задач. Это позволяет объединить преимущества обоих подходов и одновременно управлять рисками.
Инфраструктура контроля: встраивайте гейтвеи для мониторинга нагрузки, затрат и энергопотребления. Это станет важным параметром SLO.
👍103
Давно хотел поделиться тем, что происходит под капотом LLM Platform, которую мы строим внутри ТБанка.
Пост на грани NDA.

В какой-то момент мы осознали, что без цельного платформенного слоя любые инициативы с GenAI будут буксовать. На схеме — как раз тот каркас, который у нас сложился и который мы продолжаем развивать.
И если ещё год назад мы спорили об отдельных «кубиках», то сегодня то, что мы строим, — де-факто канонический GenAI-стек. (вот тут ещё интересная статья)

Из чего он состоит на высоком уровне:

LLM API Gateway — единая точка доступа до внутренних (qwen?) и внешних (deepseek?) моделей,
RAG Platform — конвейер для превращения любых данных в пайплайн Retrieval-Augmented Generation,
Observability Platform — прозрачность всех LLM-процессов в реальном времени,
Orchestration & automation — набор инструментов построения произвольных GenAI-пайплайнов с минимум кода,
LLM Sec — модули безопасности, политик и аудирования,
Assistant Runtime Platform — среда выполнения произвольных AI-ассистентов.

И если LLM Gateway — это нифига себе высоконагруженный модуль, на базе которого построены как внутренние, так и внешние продукты, то вот как конкретно построить единый Tools Registry, мы всё ещё размышляем и экспериментируем.
51🔥213💩1
Давайте завайбкодим аналог Reddit r/place.

Так как я большой адепт вайб-кодинга, у меня есть цель сделать так, чтобы максимально большое число людей осознало, что можно делать сложные вещи, не написав ни единой строчки кода. Рано или поздно эти инструменты перерастут из нишевых «можно быстро собрать прототип на коленке» в enterprise-среды больших компаний.

Провёл на днях воркшоп, который получился настолько эпичным, что решил принести его сюда. Пятнично.

Знаете ли вы, что такое Reddit r/place?
В 2017 году, Reddit запустил социальный эксперимент:
— огромное онлайн-полотно
— каждый пользователь редактирует его по пикселям
— из миллионов точек складывается общая картина в реальном времени

В чём состоял феномен r/place?
— r/place стал цифровым зеркалом, культурным кодом: мемы, флаги, бренды и искусство.
— люди объединялись в группы, чтобы «отвоёвывать территории» или защищать рисунки.
— в реальном времени возникали альянсы, войны и дипломатия — как в миниатюрном мире.
— 2022: 6+ млн участников, 160 млн пикселей (!).

Воркшоп.

Я предварительно завайбкодил серверную часть — онлайн-полотно:
https://place.skogorev.com

По ссылке доступен UI, и по ней же доступен REST API.
(если вы всё ещё не верите в вайбкодинг, только вдумайтесь — целый сервис с одного промпта).

Теперь ваша очередь — на нём что-то нарисовать! Давайте завайбкодим клиентскую часть.

1) Логинимся в любой инструмент вайбкодинга: Lovable, Replit или, например, в Cursor.
2) Берём промпт отсюда, редактируем его как-нибудь (или берём как есть) и вставляем в выбранный инструмент.
3) Запускаем и смотрим.

Присылайте в комментарии, что получилось. Посмотрим, какой культурный код у этого канала.
🔥12💩73👎1