AI.Insaf – Telegram
AI.Insaf
1.15K subscribers
144 photos
1 file
45 links
Личный канал Инсафа Ашрапова
Исполнительный директор по исследованию данных в банке (aka Lead DS) — @insafq
Здесь про AI, менеджмент, личные истории и многое другое
Download Telegram
В начале октября удалось съездить в Армению 🇦🇲 и Черногорию 🇲🇪

Армения запомнилась горой Арарат, которая видна, наверное, отовсюду, а также своими церквями и осколками Римской империи (этого на фото не будет). Съездить на 3–4 дня оптимально: как раз есть возможность посмотреть город и поездить по окрестностям.

В Черногории жили сразу в трёх прибрежных городах, где, конечно же, очень красиво, особенно в старых городах Будвы и Котора (снова римский след). Люди там живут на вечном чилле (не мы)
13🔥11💘8👍3
Достойный блог для досуга от бывшего CTO noname компании, хотя он много где работал, включая Uber, Digg и Yahoo

Moving from an orchestration-heavy to leadership-heavy management role
Анализирует переход менеджера от роли, где он просто распределяет задачи (orchestration), к роли, где он активно участвует в выявлении проблем, их решении и построении стратегии. (problem discovery/selection с solution discovery помимо solution selection и execution с ongoing revision)

Good engineering management is a fad (fad = прогрев) и Career Advice 2025
Атрибуты хорошего менеджера меняются в зависимости от потребностей бизнеса, и здесь важно подстраиваться (см история с LLM). Эта идея перекликается с советами из статьи про карьерные советы о необходимости меняться, так как рынок уже не такой, как 10 лет назад

Components of engineering strategy
Инженерная стратегия создается не интуитивно, а путем последовательного выполнения шагов: исследования, оценки текущего состояния, тестирования, финализации решения с учетом компромиссов, и внедрение. Но странно, что сюда не добавили эффекты/измерения, иначе зачем строить вундервафлю, сразу видно инженерный подход

Productivity in the Age of Hypergrowth / How to evolve an engineering organization / Engineering cost model
Как строить структуры компаний, оценивать людей и т.д. Автор пушит стратегию найма на уровень N-1 при уходе сильных специалистов, но с учетом веса для соблюдения заложенного баланса людей разного уровня. При этом принятие решений по структуре должно исходить из оценки влияния на бизнесовые показатели.
👍4🔥2🤔1
Открытые сезона новогодних корпоративов 🎉

Серьезная подготовка, ребята закодили аналог игры 100к1 с llm’ми чтобы объединять похожие ответы 😎
👍6😁1🤝1
Вчера от Авито проводили мероприятие-вечеринку для DS тимлидов и менеджеров. Было много друзей и знакомых, много с кем познакомился впервые.

Сразу хочу извиниться, что кого-то не позвали. Собирать гостей на ивенты без открытой регистрации дело не самое простое.

Душевный получился вечер. Одной из наших целей было создавать сильное комьюнити вокруг нас, и я считаю это удалось.

#lifestyle@big_ledovsky
🔥134👍2
AI.Insaf
Интересный обзор архитектур open-source LLM за 2025г The Big LLM Architecture Comparison Забавно, как каждая из моделей по-своему комбинирует уже известные подходы, придуманные еще в прошлых года, при этом получая разнонаправленное влияние на метрики (Qwen3…
Follow-up статья: что придумали помимо базовых декодерных авторегрессионных моделей в современных LLM. Спойлер: не особо много чего.

Linear Attention Hybrids – замена базового квадратичного аттеншена на линейный. KV-кэш оптимизирован лучше, но метрики немного просели. Первые вариации придумали еще в 2020, хех (см. Qwen3-Next, DeepSeek V3.2 и т.д.).

Text Diffusion Models – теоретически дают выигрыш за счёт параллельной генерации, но на практике результаты хуже из-за проблем с моделированием сложных условных вероятностей. К тому же не работает Chain of Thought, про который рассказывают уже даже на бизнесовых докладах.

Small Recursive Transformers – красиво решают головоломки. Возможно, будут использоваться как тулзы для больших моделей, но пока это больше красивая история – хотя модели сильно меньше 100млн

Code World Models – LLM для кодинга, которые внутри себя моделируют то, как будет работать код. На деле – увеличение compute, и результат выходит то на то по сравнению с классическими подходами, но звучит красиво
👍73🔥2🙏1
Глобальная память в LLM

Память нужна ai агентам, чтобы сохранять долгосрочный контекст из прошлых и текущих взаимодействий, учитывая, что при раздувании контекстного окна факты начинают забываться

1. Обзор подходов
Отличный вводный доклад от dealerAI о том, как работать с памятью, можно посмотреть здесь. По сути, есть несколько ключевых способов с своими +/-:
• Суммаризация с помощью LLM
• NER
• Agentic memory
• Длинный контекст
• RAG как память
• Function calling

В целом, с суммаризацией возникает проблема промптинга: сложно определить, что именно хранить в памяти. NER и Agentic memory сложны в реализации. Длинный контекст страдает от проблем со скоростью и забыванием. У RAG те же проблемы, что и у обычного поиска (объем данных, релевантность), но потенциал есть.
В докладе фокус сделан на Function calling с памятью, организованной как Key-Value хранилище, в которое можно добавлять, обновлять или удалять записи. Правда, для этого потребовалось дообучать модель через LoRA`у. Важно покрыть все этапы метриками и тестами. Иначе можно построить сложное решение там, где более простой подход работал бы быстрее и, возможно, качественнее

2. Индустриальные решения: MemGPT arxiv -> Letta github link

По сути, это фреймворк, где память разделяют на два блока: быструю (Core Memory), которая as is идет в контекст с фокусом на последние взаимодействия, и медленную (Archival Memory), к которой обращаются при необходимости. Также предусмотрены функции забывания. Если документов мало (до 10), это не так критично, но если данных много (100x), такая умная память не деградирует в точности. Решение в опенсорсе, но интересно скорее как архитектурный концепт

3. A-Mem: Agentic Memory for LLM Agents arxiv link

Это можно считать идейным продолжением MemGPT. Фокус сделан на имитации человеческой памяти: при появлении нового факта он не просто добавляется к старому, а модифицирует его. Например, если в памяти было "Живу в Казани", а пришло "Живу в Москве", эти факты объединяются в конструкцию: "Жил в Казани, а теперь в Москве". Звучит красиво как дополнение/альтернатива RAG.
Итог: x3 по метрике F1 и в 16 раз меньше токенов при работе с памятью.

4. Реализация лучше через LangMem
В доках разбираются разные виды памяти, работа с ней, хранение (storage) и тд. Память - это дорого и долго, поэтому лучше обрабатывать её асинхронно, в идеале - после завершения диалога.


Выводы: всё это звучит как большая инженерная задача. Описанные выше методы ориентированы в основном на chat-like решения. Для специфических задач, скорее всего, придется ориентироваться на кастомное решение или в будущем будет какое-то встроенное решения в api
12👍7🔥7🤯1
AI.Insaf
Глобальная память в LLM Память нужна ai агентам, чтобы сохранять долгосрочный контекст из прошлых и текущих взаимодействий, учитывая, что при раздувании контекстного окна факты начинают забываться 1. Обзор подходов Отличный вводный доклад от dealerAI о том…
Недавно завершилось соревнование по памяти в LLM для диалогов – GigaMemory: global memory for LLM (хабр)

Основной метрикой выступала Accuracy.

1-е место (86,6%) Вместо классического RAG для каждого чанка текста модели отдельно задают вопрос: Релевантен ли этот текст заданному вопросу?. Модель должна ответить токеном Да или Нет. По logprobs этих токенов рассчитывается уровень уверенности. В итоге возвращается список чанков, где уверенность выше порога 0.5. На основе этой информации формируется первичный ответ, который затем используется для итогового решения.

2-е место (84,5%) Подход технически сложнее, но концептуально похож на решение победителя.

3-е место (74,5%) Классический RAG с энкодером bge-m3 – этого оказалось достаточно для призового места.

Решения звучат интересно, но кажется в топ 2 решениях, под каждый запрос все прошлые диалоги перечитываются заново, а не берутся из уже готовой краткой выжимки 🤔
6🔥5👍1