AI.Insaf – Telegram
AI.Insaf
1.15K subscribers
144 photos
1 file
45 links
Личный канал Инсафа Ашрапова
Исполнительный директор по исследованию данных в банке (aka Lead DS) — @insafq
Здесь про AI, менеджмент, личные истории и многое другое
Download Telegram
В октябре проходила конференция Avito.tech.conf for leads & managers. Было приглашение, но посмотрел я только в записи. Непросто сделать интересные доклады на нетехнические тему, но достойное были

Про запуск GenAI-решений - перед запуском проекта нужно оценить затраты, сделать Proof of Concept, а затем MVP. База.

• Дискуссия про калибровки в бигтехе - кажется, везде всё очень похоже, или, по крайней мере, компании к этому стремятся

Но особенно рекомендую следующие доклады:

Принятие решений и принципы управления в Tech. Доклад начался с проблем больших компаний, где процессы принятия решений очень долгие. Решение - выстраивать вертикали в компании, сами команды и процессы. Например, на встречах люди понимают свои роли и кто должен принять решение. Руководство должно не участвовать в принятии всех решений, а создавать такие правила и культуру, чтобы на местах принимались правильные решения. Если решение некритичное, не нужно обсуждать его как стратегическое. Интересно про автономность команд: если команды как один большой монолит, то принятие решений потребует вовлечения большого количества других команд, а так делать не надо.

Найм руководителей. Ключевое — это развивать навыки интервьюера и придумывать хорошие тестовые кейсы, приближенные к предстоящей работе.

Вертикальный рост менеджера. Тема разбиралась на большом гипотетическом кейсе. Резюмируя: это не просто исполнение обязанностей, а системный путь с обучением, который нужно пройти, зачастую проявляя компетенции следующего грейда
👍10🔥74🤝1
Три дня назад на Reddit вышел пост, что Perplexity очень часто рероутит запросы на более дешевые модели. Прогрев при этом начался еще 1го ноября, оказывается все это можно увидеть через devtools браузера (я уже не смог). Я как пользователь pro-версии замечал, что gpt5 там ненастоящий и слабее, чем если использовать напрямую, но Gemini Pro 2.5 - ок, хотя отвечает слишком быстро

И уже вчера вмешался сам CEO - всё исправили, переборщили с решением пиковых нагрузок. Верим 🤨
Please open Telegram to view this post
VIEW IN TELEGRAM
5🫡5😁2
Structured output с помощью схем Pydantic в агентах - уже давно база. Но оказывается тут пошли дальше: с его помощью управляют и ризонингом, и роутингом, и оркестрацией. Подход назвали Schema-Guided Reasoning (SGR). Как бонус, за счёт более строгого управления процессом, чем простым промптом, получаются более надёжные пайплайны. Очень хорошо описано здесь (там цикл статей). Удивительно, но статью на arxiv не нашёл
👍9🔥5🤔1
В начале октября удалось съездить в Армению 🇦🇲 и Черногорию 🇲🇪

Армения запомнилась горой Арарат, которая видна, наверное, отовсюду, а также своими церквями и осколками Римской империи (этого на фото не будет). Съездить на 3–4 дня оптимально: как раз есть возможность посмотреть город и поездить по окрестностям.

В Черногории жили сразу в трёх прибрежных городах, где, конечно же, очень красиво, особенно в старых городах Будвы и Котора (снова римский след). Люди там живут на вечном чилле (не мы)
13🔥11💘8👍3
Достойный блог для досуга от бывшего CTO noname компании, хотя он много где работал, включая Uber, Digg и Yahoo

Moving from an orchestration-heavy to leadership-heavy management role
Анализирует переход менеджера от роли, где он просто распределяет задачи (orchestration), к роли, где он активно участвует в выявлении проблем, их решении и построении стратегии. (problem discovery/selection с solution discovery помимо solution selection и execution с ongoing revision)

Good engineering management is a fad (fad = прогрев) и Career Advice 2025
Атрибуты хорошего менеджера меняются в зависимости от потребностей бизнеса, и здесь важно подстраиваться (см история с LLM). Эта идея перекликается с советами из статьи про карьерные советы о необходимости меняться, так как рынок уже не такой, как 10 лет назад

Components of engineering strategy
Инженерная стратегия создается не интуитивно, а путем последовательного выполнения шагов: исследования, оценки текущего состояния, тестирования, финализации решения с учетом компромиссов, и внедрение. Но странно, что сюда не добавили эффекты/измерения, иначе зачем строить вундервафлю, сразу видно инженерный подход

Productivity in the Age of Hypergrowth / How to evolve an engineering organization / Engineering cost model
Как строить структуры компаний, оценивать людей и т.д. Автор пушит стратегию найма на уровень N-1 при уходе сильных специалистов, но с учетом веса для соблюдения заложенного баланса людей разного уровня. При этом принятие решений по структуре должно исходить из оценки влияния на бизнесовые показатели.
👍4🔥2🤔1
Открытые сезона новогодних корпоративов 🎉

Серьезная подготовка, ребята закодили аналог игры 100к1 с llm’ми чтобы объединять похожие ответы 😎
👍6😁1🤝1
Вчера от Авито проводили мероприятие-вечеринку для DS тимлидов и менеджеров. Было много друзей и знакомых, много с кем познакомился впервые.

Сразу хочу извиниться, что кого-то не позвали. Собирать гостей на ивенты без открытой регистрации дело не самое простое.

Душевный получился вечер. Одной из наших целей было создавать сильное комьюнити вокруг нас, и я считаю это удалось.

#lifestyle@big_ledovsky
🔥134👍2
AI.Insaf
Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3…
Follow-up статья: что придумали помимо базовых декодерных авторегрессионных моделей в современных LLM. Спойлер: не особо много чего.

Linear Attention Hybrids – замена базового квадратичного аттеншена на линейный. KV-кэш оптимизирован лучше, но метрики немного просели. Первые вариации придумали еще в 2020, хех (см. Qwen3-Next, DeepSeek V3.2 и т.д.).

Text Diffusion Models – теоретически дают выигрыш за счёт параллельной генерации, но на практике результаты хуже из-за проблем с моделированием сложных условных вероятностей. К тому же не работает Chain of Thought, про который рассказывают уже даже на бизнесовых докладах.

Small Recursive Transformers – красиво решают головоломки. Возможно, будут использоваться как тулзы для больших моделей, но пока это больше красивая история – хотя модели сильно меньше 100млн

Code World Models – LLM для кодинга, которые внутри себя моделируют то, как будет работать код. На деле – увеличение compute, и результат выходит то на то по сравнению с классическими подходами, но звучит красиво
👍73🔥2🙏1
Глобальная память в LLM

Память нужна ai агентам, чтобы сохранять долгосрочный контекст из прошлых и текущих взаимодействий, учитывая, что при раздувании контекстного окна факты начинают забываться

1. Обзор подходов
Отличный вводный доклад от dealerAI о том, как работать с памятью, можно посмотреть здесь. По сути, есть несколько ключевых способов с своими +/-:
• Суммаризация с помощью LLM
• NER
• Agentic memory
• Длинный контекст
• RAG как память
• Function calling

В целом, с суммаризацией возникает проблема промптинга: сложно определить, что именно хранить в памяти. NER и Agentic memory сложны в реализации. Длинный контекст страдает от проблем со скоростью и забыванием. У RAG те же проблемы, что и у обычного поиска (объем данных, релевантность), но потенциал есть.
В докладе фокус сделан на Function calling с памятью, организованной как Key-Value хранилище, в которое можно добавлять, обновлять или удалять записи. Правда, для этого потребовалось дообучать модель через LoRA`у. Важно покрыть все этапы метриками и тестами. Иначе можно построить сложное решение там, где более простой подход работал бы быстрее и, возможно, качественнее

2. Индустриальные решения: MemGPT arxiv -> Letta github link

По сути, это фреймворк, где память разделяют на два блока: быструю (Core Memory), которая as is идет в контекст с фокусом на последние взаимодействия, и медленную (Archival Memory), к которой обращаются при необходимости. Также предусмотрены функции забывания. Если документов мало (до 10), это не так критично, но если данных много (100x), такая умная память не деградирует в точности. Решение в опенсорсе, но интересно скорее как архитектурный концепт

3. A-Mem: Agentic Memory for LLM Agents arxiv link

Это можно считать идейным продолжением MemGPT. Фокус сделан на имитации человеческой памяти: при появлении нового факта он не просто добавляется к старому, а модифицирует его. Например, если в памяти было "Живу в Казани", а пришло "Живу в Москве", эти факты объединяются в конструкцию: "Жил в Казани, а теперь в Москве". Звучит красиво как дополнение/альтернатива RAG.
Итог: x3 по метрике F1 и в 16 раз меньше токенов при работе с памятью.

4. Реализация лучше через LangMem
В доках разбираются разные виды памяти, работа с ней, хранение (storage) и тд. Память - это дорого и долго, поэтому лучше обрабатывать её асинхронно, в идеале - после завершения диалога.


Выводы: всё это звучит как большая инженерная задача. Описанные выше методы ориентированы в основном на chat-like решения. Для специфических задач, скорее всего, придется ориентироваться на кастомное решение или в будущем будет какое-то встроенное решения в api
12👍7🔥7🤯1