Интересное что-то – Telegram
Интересное что-то
518 subscribers
2.71K photos
252 videos
138 files
4.5K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
Forwarded from AI и грабли
Делать прогнозы – дело неблагодарное. Но полезное. Заставляет оглянуться назад и отделить хайп от долгосрочных трендов. Пока катался по горам на байке, наформулировал три прогноза, которые меняют мои планы в 2026ом

1️⃣ Claude Code как агентное ядро для любой нишевой херни.

Что произошло ближе к концу 2025 года – агентность моделей прокачалась достаточно, чтобы уйти от фиксированных воркфлоу к гибким агентным системам. Теперь системы принимают решения о следующем шаге на основе инфы с предыдущего. И это наконец-то работает не только в презентациях

Вот только делать свою агентную систему – запарно. А хорошую агентную систему – еще запарнее. И особенно бомбит от осознания, что повторяешь все шишки, которые уже набили разработчики топового general-purpose агента – Claude Code

Вы скажете, что это специализированный агент для кодинга, но это не так. Любой кастомный агент так же обрастает вызовом тулов, сэндбоксом для запуска скриптов и динамическими промптами aka skills

Все больше команд вместо костыляния своих агентнов, будут брать Claude Agent SDK, докидывать ему нужные скиллы, MCP, рулсы и оборачивать в понятный простому пользователю UI вместо терминала. В конце поста – ссылка на крутой кейс от Рефата

2️⃣ Skills станут более популярными, чем MCP

Для меня и MCP выглядел странно как стандарт. Типа, просто зафиксировали формат вызова внешнего API в виде function calling. А где рокет саенс?

Но это дало простой унифицированный способ подключать внешние инструменты к LLMкам. А во многих компаниях "мы делаем свой MCP" вообще стало самым простым способом для топов отчитаться о наличии "AI стратегии" 📈

Skills – еще более простая штука. По сути – просто папочка с промптами + набор скриптов. У большинства опытных пользователей это и так было – помогает не засирать контекст сотней тулов какого-нибудь github mcp, а просто описать как пользоваться такой волшебной командой как git. А в большинстве случаев даже детали не нужны – ведь агент может просто вызвать <command> --help

А тот факт, что они подгружаются динамически (в зависимости от текущей задачи) – убирает главное ограничение MCP

3️⃣ Стандартный работающий подход к архитектуре постоянной памяти агентов

Это прям новый тейк, родившийся во время разбора лидерборда ERC-3 (соревнование по построению агентских систем)

Я если честно думал, что мы еще далеко от самообучающихся систем. Да, что-то понемногу начинает работать, и даже Claude Code может сам корректировать свой CLAUDE.md, но это детский сад, если честно.

А тут кейс, где цифры говорят сами за себя. В ERC-3 с отрывом аж в 10 процентных пунктов (71.8% vs 62.1%) побеждает решение, где агент сам обучается и "запоминает" результаты предыдущих неудачных попыток.

Да, там это скорее хак – агент делает выводы по прогону сразу на всей паре сотен задач, а не на каждой индивидуально, но это не важно. Важно – что система вообще сходится к оптимуму, сама переписывая свой промпт. В 2024ом у меня такое не работало – ее болтало из стороны в сторону.

Значит, сейчас боттлнек агентских систем смещается – в область того, а что запомнить из предыдущих попыток, какие выводы сделать и как поменять поведение, чтобы не совершать одних и тех же прыжков по граблям при каждом запуске.

4️⃣ (бонус)

Нормальные Tools уже есть – модели уже берут инфу из внешнего мира (и помещают в него обратно). Если будет нормальная внешняя память, то собственные знания модели обо всем на свете – не нужны.

Даже маленькая модель, которая почти ничего не знает, но умеет обращаться с тулами, выявлять паттерны и запоминать точечную информацию – будет эффективнее, чем жирная модель без всего этого. Жду появления быстрых и дешевых LLMок на 1-2b параметров, в которых большая часть весов – не знания, а навыки. Такие execution engine

Ставим ставки?
Если есть другие любопытные прогнозы – делитесь в комментах, интересно, что думаете

Почитать:
- Пост Рефата про Claude Code в качестве agentic core
- Лидерборд соревнования ERC3 с описанием архитектур
Гайд по выходу из жопы: Стратегия жизни на 10 лет 😎

Возьмём двух челиксов: оба не глупые, оба пашут, у обоих по 24 часа в сутках. Но проходит 3 года: Первый уже живет у океана, у него системный бизнес и капитал, он пришел к цели быстро и словно по прямой. Второй всё так же в какашках: тушит пожары, вечно занят, устал, а по деньгам - тот же уровень, что и был 😢

В чем может быть магия? В богатых родителях? Нет, вся разница - в дисциплине и механике постановки цели. Я был таким вторым, мне надоело быть челом, который плывёт по течению, хочется ставить долгосрочные цели и бить прям точно в них, понимая весь свой путь. Сегодня речь пойдёт про постановку личных целей на жизнь. Вам может показаться, что оно нахой вам и не надо, вы всё знаете. В таком случае я могу вам пожелать только удачи в жизни, а для остальных - текст ниже 🚬

Как не надо ставить цели? Второй (который буксует) мыслит из «сегодня» в «завтра»: «надо заработать кеш, что бы поделать? Запущу эту темку, потом эту». Это движение в тумане и движение в никуда.

И тут главный вопрос: Если ты идешь к новой жизни, используя свои старые паттерны мышления - как ты собираешься туда дойти? Твои старые паттерны привели тебя ровно туда, где ты сейчас сидишь. Они не могут привести тебя в новое место. Нельзя старыми ключами открыть новые двери.

Чтобы сделать прорыв, нужны совершенно новые паттерны. А где их взять? Только из будущего, надо ставить цель не «от забора до обеда», а из точки С (твоего идеала) - декомпозируя путь назад к сегодняшнему дню. Вот как это работает по шагам (сохраняй, это твоя инструкция на этот год) 🤪

ШАГ 1. Точка А (Где я сейчас?)
Самый больной, но самый важный этап, лично мне было тяжело его делать. Навигатор не построит маршрут в Дубай, если он думает, что ты в Париже, а ты в Суздали. В Точке А без иллюзий признаем, в каком мы состоянии прямо сейчас (по деньгам, энергии и отношениям).
Что тут важно: сначала мы пишем про духовность, здоровье, внешность, отношения и тд, а только в самом конце про деньги/доход. Так как деньги/доход - это всего лишь инструмент к достижению вещей выше ☝️

ШАГ 2. Точка С (Видение на 10+ лет)
Зачем она нужна? Точка С - твой маяк, в котором ты должен прям почувствовать, что это твоё. У меня была картинка, что я в своём доме, где моя семья, хуячу какой-то пиздатый бизнес с видом на горы/лес/море. Меня окружают дети/жена/семья, моя тусовка - предприниматели, а друзья всегда на подхвате, чтобы сходить в баньку или поиграть в плойку. Хочу, чтобы вы тоже представили каждую мелочь из своей точки С на 10 лет вперёд 😄

ШАГ 3. Точка Б (Твердая цель на 2-3 года)
Это уже не мечты, а промежуточный проект к достижению Точки С. Мы берем энергию из точки С и приземляем её в цифры.

Критерии Точки Б:
🔵 Роль: Не "делаю бизнес", а "CEO IT-компании, вышел из операционки".
🟢 Активы: Что у меня в собственности?
🟡 Конкретика: Не "много денег", а "Чистая прибыль 6 млн/мес".

Шаблон к табличке, чтобы вы заполнили, там кста будет автор данной методологии.

ШАГ 4. Обратная Декомпозиция
Вот здесь ломаются старые паттерны, и мои сломались тоже.

Мы не думаем: "Что мне поделать завтра?". Мы встаем в Точку Б (2028 год), где у нас уже всё есть, и смотрим НАЗАД.

Пример, как это выглядит:
🔵2028 (Точка Б): У меня $60k/мес, SaaS в США.
🟢Чтобы это случилось, в 2027 (год Масштаба): Продукт уже должен работать и приносить $15k. Команда нанята.
🟡Чтобы это случилось, в 2026 (СЕЙЧАС): Я должен уволиться из найма, собрать MVP и сделать первые продажи.
🟣Чтобы это случилось, в Мае 2026: Мне нужна подушка безопасности 1.5 млн.
🔵 Значит, СЕГОДНЯ: Я не "суечусь", а откладываю 100% свободных денег на подушку.

Видите разницу? Каждое действие сегодня - это неизбежный шаг, продиктованный будущим, а не хаотичная попытка "что-то сделать" 🎙

Поэтому я вам искренне желаю сделать свою личную стратегию на 10 лет вперёд и увидеть чёткий план на 2026 год. Я составлял её 2 дня, было больно, руки опускались, но результат себя не составил долго ждать ⌨️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Бигтех бигтеху рознь

Три года назад, когда я менял работу, мне хотелось понять, насколько мне будет подходить работа в бигтехе, поэтому я целенаправленно ходил на собеседования именно в такие организации.

Теперь-то я понимаю, что на самом деле, хоть и общие принципы работы в крупных компаниях едины: все эти пайплайны собеседований, планирования, перф-ревью, любовь к циферкам-метричкам-дашикам, внутренние коммуникации и прочие штуки, — НО бигтехи в частностях ОЧЕНЬ разные.

Я пишу этот пост по двум причинам:
1. Вдруг кто-то, как и я 3 года назад, думал, что есть какой-то абстрактный бигтех и оно всё везде похоже.
2. Я слушал одну книгу (потом отдельным постом её обязательно принесу, ибо она замечательная) и там описывалась идея «транзакционного налога» в крупных компаниях, которого нет в мелких. И вот у меня как раз был противоположный опыт, поэтому я решил с вами этим поделиться.

Сегодня я попробую просто порефлексировать о некоторых своих местах работы и посмотреть, где было дольше и тягомотнее.

Сисадмин в небольшой региональной компании (5-10 человек)
Мало людей, много объектов обслуживания, 1 тимлид. Так он там не назывался, но по факту делал всё, что делает тимлид, и даже больше. До сих пор является для меня одним из лучших примеров руководителей. Поймал себя сейчас на мысли, что ведь тогда он был моложе, чем я сейчас. Удивительный человек, конечно.

Всё делалось и решалось максимально быстро, согласований минимум.

Разработчик и тимлид в веб-студии (около 50 человек)
Тоже всё решалось быстро. Или через проектного менеджера, или напрямую с клиентом. До сих пор использую как шутку историю, когда меня добавил ПМ в чатик с клиентом. Посидел в этом чате недельку-две и со словами «ну вроде у вас и так всё нормально получается» вышел оттуда :)

Разработчик и тимлид в среднего размера продуктовой компании (700-1000 человек)
После десяти лет опыта очень динамичной работы я попадаю в компанию, где всё оооочень долго. Многоступенчатые согласования длятся месяцами. Это не прикол.

Однажды я был в цепочке писем с 10+ людьми в копии, где я как тимлид был самым младшим по иерархии. Там и руководители отделов и департаментов, и даже один топ был. Решали, какие написать буквы в названии продукта на разных платформах. Решали очень долго, хотя многократно были предупреждены, что покуда это не решится, не будет работать одна важная интеграция, которая оооочень много мильенов денег приносила.

Тимлид и технический менеджер проектов в крупной компании (10-20к+ людей)
Не уверен, сколько сейчас разработчиков в Яндексе, но мне кажется, где-то между 10 и 20 тысяч. Казалось бы, вот тут-то и должна быть еще бОльшая тягомотина. И внезапно всё оказалось довольно быстро. Много простора для инициативы, создания, изменения, а согласовывать каждый чих не нужно. Какие-то особо важные и крупные чихи нужно, конечно, но в целом довольно много можно запилить на уровне команды или даже одного человека.

(Чужой опыт) менеджер проектов в крупной компании (20к+ людей)
Общался месяц-два назад со своим товарищем, который в еще одном бигтехе работает. Обсуждали примерно одинаковые вещи, и вот у него опыт совершенно другой. Говорит, некоторые даже небольшие вещи надо месяцами согласовывать с ЛПР, комитетами, подкомитетами, уполномоченными ответственными, службой безопасности и прочее прочее.

(Чужой опыт) менеджер проектов в крупной компании (10к людей)
Другой мой товарищ в середине между «быстро» и «медленно». Темп бодрый, согласования, комитеты, обоснования и прочее подобное ярко выражено, но процессы так отлажены, что оно по конвейеру бежит довольно быстро.

Итог
Поработав в одном бигтехе, вы точно будете иметь представление об общих процессах. Но в темпе и деталях они очень сильно различаются. А внутри бигтеха отдельные подразделения тоже сильно отличаются, но уже в рамках культуры этой компании.
#визуализация
Ещё одна электронная книга (небольшая) с визуализацией концепций ML. Сделано аккуратно: приводятся формулы, код и доводится до красивой картинки (или видео). Правда, всего 4 главы: оптимизация, кластеризация, линейные модели и нейросети. Материал "начального уровня" (но удобно, что он тут собран).
https://ml-visualized.com/
Новый кейс - автоматический перевод YouTube с озвучкой и AI Researcher

Мой давний друг и коллега Айгиз Кунафин как раз закончил проект по автоматическому переводу YouTube видео с русского на башкирский язык. Под капотом - ASR и диаризация, перевод, подбор голосов и синтез речи, которая синхронизирована с оригинальной дорожкой.

Самое классное в этом проекте - использование AI coding агентов в режиме автоматической постановки экспериментов с Feedback Loop (про это - ниже).

LLM под капотом проекта:

- ASR (Speech Recognition) - Сберовская gigaam-v3-ctc
- Диаризация (разбор голосов) - DiariZen
- Перевод на башкирский - Gemini-3 flash со своим контекстом
- TTS (сама озвучка) - две модели: своя с клонированием RVC для детских голосов, Silero - для взрослых.

При переводе видео у системы есть библиотека из ~80 голосов (в 6 группах), которые автоматически получают фиксированные роли в видео.

Это Chrome/Firefox Extension, который заменяет аудио при проигрывании в YouTube. Дорожки генерируются пайплайном заранее на серверах (по запросу), а потом подбираются расширением. Всего три сервера, которые связаны напрямую через P2P HTTPS:

- Hetzner (для доступа к Gemini + YouTube), там же на CPU крутится и ASR.
- Свой GPU - для запуска моделей - диаризации, синтеза речи.
- 1GB - для хранения готовых аудио-дорожек.

Самое сложное в проекте - экспериментальный подбор правильных моделей в пайплайн с точки зрения ресурсоемкости, качества и стоимости. Целевой язык - башкирский, поэтому некоторые вещи приходилось реализовывать самостоятельно. Но у Айгиза уже есть многолетный опыт работы с голосовыми проектами (например, умная колонка Homai), что сэкономило много времени.

Система разрабатывалась при помощи агентов - Claude Code для UI и OpenAI Codex CLI с Feedback Loop.

Feedback Loop - когда у агента есть исходный код, Ground Truth цель/метрика/тесты для контроля качества и благословение на автономную работу. Причем, в AGENTS.MD прописан протокол написания экспериментов:

(1) Запускаем make eval, чтобы выяснить текущий score, который записываем в experiments/007-experiment.md
(2) Анализируем код, проглядываем журнал экспериментов и в файл experiments/007-experiment.md дописываем план для улучшения текущего score
(3) реализуем код и запускаем make eval. Если score стал лучше, то отправляем все в коммит с описанием
(4) если score стал хуже, то откатываем код, но сохраняем описание эксперимента, чтобы в будущем агент не повторял старых ошибок.

Все это запускается с полными правами и задачей “копай отсюда и до обеда” в цикле. Например:


PROMPT_TEMPLATE="запусти следующий эксперимент, который оптимизирует код генрации wav файла"

for ((start_index=0; start_index<=50; start_index+=1)); do
codex exec --sandbox danger-full-access "$PROMPT_TEMPLATE"
done


Такой AI Researcher, может стабильно работать часами в автономе (пример git log - в комментариях). Этот же подход использовался в ERC3 для автоматической оптимизации кода базового NextStep SGR агента до 9 места в Prize Leaderboard.

Айгиз открыт для коммерческих предложений. Если вам нужна консультация или участие в проекте, можно написать ему лично в Телеграм @AigizK или по контактам RU / EN.

Ваш, @llm_under_hood 🤗

PS: Список всех кейсов канала
A/B Testing & Experimentation Roadmap

This roadmap is for analysts, data scientists, and product folks who want to go from “I know what an A/B test is” to running trustworthy, advanced online experiments (CUPED, sequential testing, quasi-experiments, Bayesian, etc.).

It’s organized by topics. You don’t have to go strictly top-to-bottom, but earlier sections are foundations for later ones.

Link: GitHub

Navigational hashtags: #armknowledgesharing #armtutorials
General hashtags: #statistics #abtesting #ab

@data_science_weekly
Forwarded from Борис опять
#дайджест

Дайджест ML/AI за неделю 5 - 11 Января 2026

Lightricks: LTX-2
Open-weight видео foundation-модель с синхронной генерацией 4K/50fps видео. Модель заточена под длинные клипы до 20 сек, нативный звук. На artificialanalysis в общем зачете занимает почетное 21-е место и первое среди моделей с открытыми весами.
Блогпост, HF, Статья, Код

OpenAI: ChatGPT Health
OpenAI запустили ChatGPT Health - отдельный режим для работы с медицинскими данными. Можно загружать анализы, снимки, отчёты врачей, данные из фитнес-трекеров и MyFitnessPal. Доступно даже бесплатным пользователям через вэйтлист (записаться здесь) и пока, как обычно, без EU/UK.
Блогпост

Tencent: Hunyuan HY-MT1.5-1.8B
Tencent выпустили компактную модель для машинного перевода HY-MT1.5-1.8B. Обещают лучший перформанс в своем весе. Поддерживает 33 языка, оптимизирована под on-device и дешёвый inference.
HF, Код , Карточка, Статья

ByteDance: DreamID-V
ByteDance выпустили DreamID-V - модель для замены лиц на видео по фото-референсу через трансформер-диффузию. Обещают устойчивость к разному освещению, прическам и тд. Черри-пики выглядят хорошо.
Примеры и проект, GitHub, Статья

NVIDIA: Vera Rubin
NVIDIA представили платформу Vera Rubin для датацентров - next-gen архитектуру для AI-вычислений, которая придёт на смену Blackwell. Простым людям пообещали игровые видеокарты RTX 60xx на базе Vera Rubin во второй половине 2027 года. Как обычно все в несколько раз быстрее, выше, сильнее. Готовый сервер NVL144 будет иметь в три раза больше exaFLOPS, чем NVL72 GB300.
Из прекрасного: параллельно с трансляцией Nvidia кто-то запустил трансляцию на Youtube, где Дип-фейк Хуанг продавал крипу. Она собрала в 10 раз больше зрителей.
Пресс-релиз NVIDIA, Про фейк-крипто-хуанга, разбор Сиолошной
Forwarded from Борис опять
Очень хороший практический гайд по всем трюкам, велосипедам и костылям для построения RAG систем:
https://habr.com/ru/articles/893356/

В продакшне часть из описанного можно упростить (с точки зрения реализации) подключив любимый агентский фреймворк, но суть особо не меняется