max.sh – Telegram
max.sh
2.34K subscribers
70 photos
6 videos
95 links
Карьера, образование и исследования в мире AI через призму собственного опыта.


Канал ведет Макс Шапошников, ex Applied Scientist в FAANG. Профессионально ловлю CUDA OOM.

Cвязь в тг - @PorcelainFox
Linkedin - https://www.linkedin.com/in/maxshapp
Download Telegram
🤗 Hugging Face обновили лендинг с курсами, теперь все в одном месте.

9 курсов от HF по разным DL темам. Ссылка

Заинтересовали ML for Games и ML for 3D. Судя по плану обучения курсы короткие, скорее чтобы просто пощупать какие есть инструменты. На пару вечеров может быть самое то.

p.s. первый раз увидел тут в линкедине
🔥22542👍2
Сегодня разбираем относительно свежую cтатью про новый метод Спекулятивного Декодинга (далее SD).

Кстати, в числе соавторов статьи автор тг канала @ai_newz, Staff Research Scientist в Meta. Про анонс публикации можно прочитать у него в посте (я здесь и сам узнал про эту работу). Там еще и драма с публикацией на конференцию ICLR была. Побольше бы закулисных историй 🙂
И если вдруг кто-то не видел канал, то рекомендую.
Please open Telegram to view this post
VIEW IN TELEGRAM
👀521👏1
JUDGE DECODING - новая вариация Спекулятивного Декодинга от Gen AI команды Ⓜ️ может ускорить инференс модели в 9X раз

Статья

📍TL;DR Вариация Speculative Decoding (SD) с Target и Draft моделями. Вместо верификации через совпадение вероятностей, как в классическом SD, используется оценка качества токенов в контексте - идея вдохновлена подходом LLM-as-a-judge. На паре моделей Llama 3.1 405B / 8B удаётся достичь впечатляющего ускорения в 9× (против ~2× у обычного SD) без потерь в качестве. Для запуска метода под свою задачу потребуется собрать немного качественных данных и провести разметку.

📍Интро. Классический Speculative Decoding работает так: маленькая и быстрая, но менее точная Draft модель авторегрессионно генерирует M токенов, после чего большая и медленная, но очень умная Target модель параллельно проверяет их. Токен принимается, если все предыдущие были приняты и вероятность от Target превышает вероятность от Draft с учётом случайного порога. В худшем случае сгенерируем только один токен. Если что, интуитивный гайд про SD.

📍Инсайт. Схема верификации в стандартном SD учитывает только то, насколько вероятности draft токенов совпадают (align) с вероятностными оценками target модели. А контекстная корректность (или качество) самих токенов игнорируется. Поэтому на практике потолок accepted токенов в самом лучшем случае 6-7, а реально около 2. В статье проводят интересный эксперимент, чтобы исследовать эту гипотезу. Берут заведомо мощную большую draft модель, GPT-4o и target LLama-405B. Так как доступа к logit-ам draft-а нет, то используется Greedy Decoding. В итоге наблюдаем acceptance rate в районе 2 токенов. (картинка 1, первый столбик). Делают еще один эксперимент где в качестве draft-а высококачественные тексты написанные людьми. Результаты такие же - примерно 3 токена (картинка 2, первый столбик).

🔘Вывод - качество ответов draft-а не увеличивает acceptance rate. Поэтому хочется научиться как-то оценивать качество токенов, чтобы не отклонять слишком много полезных. Нужно найти источник полезного сигнала о draft токенах в target модели.

📍Суть метода. Собирают датасет из вопросов публичных датасетов(ARC, Alpaca). Дальше генерируют к этим вопросам правильные и неправильные ответы разными моделями (и Mistral-ями, и Llam-ами). Затем проверяют пары (question, response) вручную. Для каждого правильного ответа помечают все токены в ответе единичками. А в неправильных ответах помечают токены единичками до тех пор, пока не начинается генерация ошибочных токенов, их помечают уже ноликами. Таким путем собрали датасет из 500 пар с маской правильных/неправильных токенов.

Затем, обучают линейный слой для классификации токенов правильный/неправильный на основе эмбеддингов последнего слоя Llama 405B (она будет target моделью) на собранном датасете. Отсюда и возникает “Judge” в названии статьи - этот линейный слой во время инференса будет определять принять токен или отклонить. Так как эмбеддинг контекстный, то отсюда и получаем учет качества токенов.

📍Как устроен инференс. Как и в обычном SD генерируют M токенов draft моделью. Валидируют токены target моделью. Запускают judge голову и одновременно ванильный верификатор из классического SD. Получаем две маски из M токенов. Применяем Логическое “OR” и получаем итоговую маску принятых токенов (Картинка 3). Может возникнуть вопрос, почему OR, а не AND. Показывают, что изредка может произойти так, что классический SD принял токен, а Judge голова - нет. Все потому что Judge слой оптимизирован на минимизацию False Positives. Но так как Target модель в любом случае приняла бы этот токен, нет смысла обрубать принятие токенов на этом шаге.

📍Результаты. Замеряют скорость для пары LLama 405B / 8B, получают acceptance rate ~20 токенов, транслируется в 9X ускорение инференса при запуске из HF (картинка 4). Так как метод декодирования может внести регрессию в качество ответов, то отдельно репортят метрики качества на бенчмарках. Получают почти полный паритет с инференсом без draft модели.

#статья

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍6👏3
⭐️ ML Breadth Interview Deep Dive

Давно хотел сделать лонг рид про ML Breadth секцию на собеседованиях и вот наконец-то дошли руки.

Полный текст прочитать можно тут.

Все еще самый популярный раунд ML-интервью даже в 2025. Этот этап встречается в компаниях любого уровня — от стартапов до FAANG-ов, от джунов до стаффов — как в западных компаниях, так и отечественных. Очень часто секцию Breadth ставят на этапах скрининга или на ранних интервью, где самая большая воронка кандидатов и нужно отфильтровать кандидатов.

В лонг риде сделал фокус на самые важные моменты:

🔘Типы вопросов — попытка категоризации вопросов на большие темы, которые могут встретиться на интервью

🔘Разница в ML Breadth секции для стажера и сеньора; для рисерчера и ML инженера

🔘Примеры кусочков ML Breadth секции реальных компаний: от Mistral AI до DeepMind.

И еще небольшой список ресурсов для подготовки к такому собеседованию.

Если оказалось полезно и хотите еще подобного контента, накидайте 🔥❤️
Своим опытом, мнением, вопросами делитесь в комментариях

@max_dot_sh

#карьера
Please open Telegram to view this post
VIEW IN TELEGRAM
32🔥25👍141😁1🏆1
💼 Senior ML Engineer в Meta, London. Отзыв на Интервью.

Сегодня совсем свежий отзыв на собеседование в Ⓜ️

Авторская орфография сохранена

#интервью

➡️ Ник автора в тг - N/A

➡️ Название комании, можете указать ссылку или коротко описать что за место - Meta

➡️Расскажите про свой бэкграунд - Senior CV Engineer, в стартапе, Global Talent Visa Uk
➡️ Как подались на вакансию - рекрутер вышел на меня в Linkedin

🔥 Субъективно Сложность процесса по 10 бальной шкале - 7


➡️Когда начали процесс - в конце марта этого года
➡️Когда закончили процесс - в конце апреля этого года


➡️Позиция, на которую собеседовались - Senior MLE. Конкретный тим мэтч происходит только при успешном он сайте. Рекрутер говорила в целом, что найм идет в несколько команд, вроде бы все связаны с рекламой
➡️Грейд на который собеседовались (если известно) E5
➡️Локация вакансии - Лондон

🔥 Расскажите про этапы собеседований

Созвон с HR. Поговорили про опыт. Объяснили формат. Говорили, что найм идет в несколько Ads команд, заниматься ранжированием и рекомендациями в ленте.

Скрин. Созвон с их инженером. 2 Лит код задачи уровня медиум. Одна на обход дерева, find total sum of all root-to-leaf numbers. Другая про merge k сортированных списков. Интервьюер душнил с тем, чтобы я убедился, что код работает правильно. Делал step by step валидацию. Мне показалось это очень странным. Еле успел написать код второй задачи.

On-site раунд

1) Бихейв интервью. Один вопрос на то, как лидил команду или направление. Вопрос про то, как отстаивал свое мнение, когда команда не была согласна с решением. Еще что-то по мелочи про менторство джунов и урегулирование конфликтов в команде.

2) Кодинг интервью. Снова 2 медиум лит код задачи. Binary tree vertical traversal. Я тупил и интервьюер неохотно подсказывал. В итоге решил. Вторая была на стек про упрощение unix пути. Я быстро описал решение но написал как-то слишком сложно и потратил еще времени на то чтобы упростить, как хотел интервьюер.

3) Кодинг интервью. Снова 2 медиум лит код задачи. Одна про поиск максимума в скользящем окне. Вторая про бин поиск в повернутом отсортированном массиве. Я тут долго тупил и решил с подсказкой.

4) ML Дизайн. Нужно было спроектировать систему предсказания того, что пользователь фэйсбука посетит офлайн мероприятие. Фокус был на масштабе. Нужно предложить решение, которое бы могло проскорить 3MM пользователей. Раунд сразу как-то не задался, не знал за что зацепиться. Интервьюер был пассивен. Я закопался в генерацию фичей, а ему кажется по итогу нужно было больше услышать про архитектуру: как будем хранить фичи, online feature store или батч, как будет скорить моделью, какие гарантии по времени можем дать, как оценивать качество. Голова совсем не работала чтобы уловить эти сигналы от собеседующего.

После не очень сильного кодинга и уж тем более слабой мл дизайн секции особо надежд не питал. ожидал отказ, через неделю пришел.


Что понравилось:

Отзывчивые рекрутеры. Удобный портал кандидата.

Что не понравилось:

Прошлый опыт по факту, кроме как в бихейв части никак не пригодился. Я не очень понял, где меня реально проверяли бы по ML знаниям. По ощущениям один лит код. Интервьюеры не зашли. То они просят чтобы рассуждал подробно, то обязательно надо 2 задачи решить.

➡️ Итоги собеседования, например оффер или отказ, или что-то другое: Отказ
➡️ Информация про Total Compensation (если желаете): Рекрутер говорил про £200-£240 тотал комп в зависимости от того, как оценили

Риторический вопрос от автора канала: Как-то одна секция на ML для ML позиций и такой упор на литкод - это грустно, нет?

В
комментарии пришел опытный ML инженер Меты, много инсайтов на их процесс и работу. Рекомендую почитать 🔽

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥8🤡42😭2😁1
👥 Бесплатные мини-курсы про AI Агентов, LLM и трансформеры на платформе DeepLearning.AI

Ссылка

Платформа от создатея курсеры Andrew Ng. Почти каждые 2-3 недели выходят мини-курсы по разным AI темам: про векторные базы данных, про RAG-и, ризонинг, память моделей, etc.

Сегодня запустили курс от Антропиков про устройство MCP. Ссылка. От кого еще узнавать про MCP, если не от тех, кто разработал этот стандарт. Не от скам ютуберов же, правильно?

Каждый курс устроен примерно одинаково: 1) видео с очень простенькой теоретической частью, 2) видео с запуском кода и какими-то комментариями лектора. В среднем курсы по 1-2 часа. Курсы выпускаются от лица довольно именитых компаний (OpenAI, HF, Meta, ...) и затрагивают актуальные практичесские темы.

Но есть нюанс.

На мой взгляд, ценность большинства таких курсов стремится к нулю (я сужу по ~13 курсам, которые просмотрел сам). Во-первых, почти все курсы лишены какой-либо интересной теоретической базы и просо заавязаны на прокликавание клеток и вызов методов в том или ином фреймворке. Во-вторых, лекторы далеко не самые лучшие, иногда ощущение что пишутся с одного дубля. Наконец, во многих курсах сквозит реклама. Чувство, что курс записан только чтобы пропиарить фреймворк / стартап / компанию, а не интересно рассказать на заданную тему. Короче говоря, анонсы всегда цепляют, но содержание страдает.

Жаль, что ушла эпоха продуманных длинных курсов по типу специализаций с курсеры про Deep Learning построенных не на рассказе о фреймворках, а фокусе на устройстве технологий. 😐

Но иногда попадаются прям классные мини-курсы. Например, про эффективный сервинг LLM в проде, или методы retrieval-а из векторых баз, или генерацию structured outputs моделей.

Так что да, учитывая что все выкладывается в открытый доступ совершенно бесплатно, грех жаловаться. А периодические так и вообще очень годные курсы появляются.

Happy Learning !

#образование

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
21🔥9👏2😁2
Рецепты обучения Reasoning моделей от💻

Сразу 2 публикации:

Phi-4-reasoning (14B) - основная модель - статья.
Phi-4-mini-reasoning (3.8B) - маленькая модель - статья.

Веса моделей доступны по хорошей лицензии. За пределами английского ризонинг сильно хуже (об этом пишут и авторы), и скорее всего из коробки бесполезен (сужу сам по работе просто с Phi-4 instruct).

📌 Почему стоит прочитать? Рабочих робастных рецептов обучения ризонинг моделей все еще не очень много, поэтому любая работа с подробным описанием сетапа, удачными и неудачными экспериментами, рассказом о сборе данных и любыми другими практическими lessons learned несет большую ценность для всех, кто пытается завести ризонинг на практике. По метрикам модель не обгоняет проприетарные модели, уступая o3-мини почти везде, но уверенно тягается с опенсоурсными решениями, которые в разы больше. Вся ценность в подробном hands-on репорте, а не самой модели как таковой.

Картинка 1 для саммри перформанса на ключевых бенчмарках.

📌Как устроена Phi-4-reasoning. Берут предобученную instruct tuned 14B Phi-4 (тык ). Ризонинг способности внедряются в нее через SFT на датасете длинных цепочек из разных доменов.

Датасет собирался аккуратно. В основном путем скрэпинга и валидации разных ресурсов из сети с фокусом на математику и код. Отдельно отбирали с помощью прокси моделей только сложные задачи. Сами же цепочки рассуждений генерировали с помощью o3-mini в “medium” / “hard” рассуждающих режимах.

Во время обучения авторы столкнулись с тем, что гиперпараметры рецепта Phi-4 не работают для ризонинг модели.

Поэтому ввели стадию коротких экспериментов на сабсете данных. Назвали это Exploration Stage, чтобы подобрать оптимальные настройки:

🔘 Выбрали оптимальный LR как 1e-5
🔘 Нашли оптимальную композицию микса обучающих данных. Для начала кластеризовали данные по доменам (математика, код, …). Дальше подобрали веса к датасетам внутри конкретного домена в зависимости от качества / источника данных. То есть, отдельно учили на данных по математике, оптимизируя микс данных чисто под данные математики; отдельно для кода; А потом просто все объединили в один общий пул, переиспользуя ранее подобранные веса.
🔘Добавили синтетических данных в строгом формате CoT -> summary -> final response. Обнаружили, что это дает буст, на AIME до 10%.

Далее, во второй фазе, Scaling Stage, запустили обучение на всех данных, 16B токенов. У модели так же расширили размер контекста с 16K до 32K.

Таким образом, получился Phi-4-reasoning.

📌Еще больше reasoning способностей через RL. Далее бустят способности модели к размышлению еще больше. Делают GRPO RL, но только на задачах математики. Собрали свою reward функцию. Довольно инженерная и интуитивная. Если ответ правильный, но очень длинный - понижаем награду; если неправильный и короткий - еще сильнее штрафуем. Таким образом, побуждаем генерировать модель разумно длинные цепочки. После такого RL тюна получают Phi-4-reasoning-plus, которая в среднем показывает себя еще лучше на различных бенчмарках (не математических тоже).

📌RL-reasoning маленьких моделей. Очень круто, что авторы пробуют ризонинг способности на маленьких моделях тоже. При RL обучении модели на 3.8B сталкиваются с большим количеством сложностей, предполагая, что все дело в размере модели:
🔘Во время обучения сгенерированные ответы сильно различаются по длине на одном и том же промпте.
🔘Батчи могут целиком состоять из отрицательных наград
🔘SFT на ризонинг данных (типа S1K) ухудшает итоговое качество

По итогу все равно подбирают рабочий рецепт для мини версии модели для математики, получая улучшения относительно аналогов похожего размера (7B, 8B). Но с гигантами тягаться все равно сложно.

📎Итого. Полезное чтение для практикующих обучение ризонигу. Мы в команде сталикались с очень похожими сложностями при RL стадии маленьких моделей. До закрытых моделей далеко, но зон для надстроек над базовым рецептом много.

#статья

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍5💯4👏32🔥2🆒1
🔷Лекции от топовых лаб про агентные мультимодальные системы

Все видео и слайды в свободном доступе, можно найти здесь.

У университета Берлки недавно завершилась лекционная часть весеннего MOOC курса про LLM агентов (сейчас в самом разгаре онлайн хакатон с разными треками).

Назвать это полноценным курсом сложно. Скорее набор независимых лекций от разных исследовательских групп (как университетов, так и больших компаний типа DeepMind, Meta) про рисерч, которым они занимаются. Контент адаптирован под более-менее широкую аудиторию с крутыми слайдами и интересными спикерами. Лучше всего воспринимать каждую лекцию, как литературный обзор одной конкретной темы.

Сам посмотрел несколько лекций на интересные для себя темы и остался доволен:

⚫️Multimodal Autonomous AI Agents от CMU, по большом счету экскурс в последние работы про веб-агентов

⚫️Abstraction and Discovery with Large Language Model Agents от UT Austin, тут про AlphaProof и системы для построения формальных математических доказательств - может быть полезно тем, кто копается в AlphaEvolve


У курса, кстати, две части. Прошлогодний запуск можно найти тут.

Happy Learning!

#образование

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥6👏3👨‍💻3
🧑‍💻 Devstral - модель для кодинга от Mistral

Блогпост

Веса доступны на HF с лицензией Apache 2.0, что супер для коммерческого использования.

Относительно компактная, 24B, можно поднять у себя локально.

На SWE-Bench Verfified (бенчмарк для оценки кодинговых агентов на GitHub issues) модель заметно обходит многих проприетарных конкурентов (haiku, gpt 4.1 mini), а так же модели большего размера (DeepSeek-R1, Qwen3). Но эти модели, к слову, и не были оптимизированы специаильно для coding-assitance.

Важное уточнение: Devstral показывает такие результаты через scaffolding OpenHands от компании All Hands AI 🙌.

Скаффолдинг в контексте кодинговых агентов - это среда, которая предоставляет утилиты, тулзы, другие полезные инструменты, которые упрощают жизнь агенту. Например, тул поиска по классам в проекте, доступ к grep команде, web search - короче говоря все, чтобы использует реальный разработчик, но только в удобном формате для AI агента. Eсли поднимаете у себя Devstral локально, то чтобы максимизировать пользу от агента, нужна еще и подобная среда.

Поэтому такие метрики могут быть в целом, из-за того что Devstral был натюнен под работу с OpenHands средой (скорее всего именно это), или потому что набор доступных инструментов в этой среде лучше, чем у других подобных сред.

А вообще All Hands AI 🙌 классные. Двигают опенсоурс, выкладывают своих агентов, опенсоурсят код скаффолд среды.

А кому интересно как работают такие агенты в приницпе, как их дизайнить, оценивать и куда двигается прогресс дальше - можете посмотерть лекцию тут.

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥105
Research Engineer в 🌐 DeepMind, London. Отзыв на Интервью.

Пополняем копилку свежей историей. Буду рад видеть новые от читателей, гугл форма тут.

➡️ Ник автора в тг - N/A
➡️ Название комании, можете указать ссылку или коротко описать что за место - DeepMind

➡️Расскажите про свой бэкграунд - Amazon AWS, Senior ML SDE
➡️ Как подались на вакансию - рекрутер написал в LI

➡️ Субъективно Сложность процесса по 10 бальной шкале - 6


➡️Когда начали процесс - начало марта
➡️Когда закончили процесс - апрель


➡️Позиция, на которую собеседовались - Research Engineer в Gemini research
➡️Грейд на который собеседовались (если известно) N/A
➡️Локация вакансии - Лондон

🔥 Расскажите про этапы собеседований

Подавался в DeepMind каждый год с 2020. Вообще ни разу никто не ответил. Абсолютный ноль. И тут вдруг, в марте, HR сам стучится — мол, привет, давай поболтаем, профиль крутой. Ну, думаю, понеслась.

На звонке рассказал про свой опыт. HR сонно кивает, все вопросы по скрипту на автопилоте. Может таких кадров как я просматривает каждый день десятки и уже утомился слышать +- одно и то же. Спрашивает: почему хочешь к нам? Говорю: блять, каждый год к вам подаю. Смотерл документалку AlphaGo как кино, хочу тоже делать крутые штуки.

Через пару дней прислал описание вакансии в Gemini research команду. Сейчас конкретно одной команде интересен мой опыт. Работают над проектом, который покажут на Google I/O. Сейчас это уже не секрет, так что могу сказать. Речь шла про работу над text diffusion. Ее представили недавно на гугловсокй конференции. Команде срочно нужно нанять несколько инженеров поэтому активно собеседуют. Времени на подготовку не давали, просили двигаться в плотном темпе по 1-2 раунда в неделю, чтобы закрыть весь процесс. Поставили первый собес через неделю.

Раунд 1. Две задачи на код. Одна — про two pointers, вторая — на hash set. Времени не было, пришлось срочно реанимировать скиллы: 7–10 задач в день, купил premium подписку. Интервью ок, обе решил.

Раунд 2. LeetCode. 2 задачи, но у каждой был еще follow-up на подумать. Попался душный интервьюер, доматывался до каждого момента. Одна задача про K ближайших точек к заданной точке (примечание автора: вероятно речь про следующую задачу c литкода). Я ему все объясняю, знаю, что решение самое эффективное, знаю что все верно говорю за сложность, за логику и за идею. Но нет, все спрашивает и спрашивает. Мне то ок, а время тикает, нужно еще вторую задачу решать, из-за этого нервничаю. Думал, могут не позовать дальше, хотя обе задачи решил. Проскочил.

Раунд 3. Тут у меня и времени не было и я еще болел, а переносить не хотелось. Пошел как есть. Все вопросы на математику или базовый МЛ. Меня сразу предупреждали, что будет такой формат, поэтому сам виноват. Первая часть — формула Байеса, задача на условные вероятности. С трудом довёл до конца, с подсказками. Потом еще серия вопросов. Можно ли преобразовать случайную величину из произвольного распределения в нормальное и как? Еще одна задачка на биномиальное распределение. Все время чувствовал, как моя жопа тонет в невнятных воспоминаниях из далекого прошлого в универе. Интервьюер, к слову, норм — не душнил, помогал. Но общее ощущение: тонем, капитан. Дальше пошли вопросы по МЛ — тут уже хоть чуть-чуть всплыл. Про активации, зачем регуляризация, что не так с сигмоидой — тут уже говорил увереннее. Мелькнула надежда, но слабая.

Через пару дней от рекрутера письмо про формат следующего раунда — надо будет рассказать про свой опыт и заодно поболтать на тему “а как ты вообще делаешь ресёрч”. Подумал, вот тут-то и отыграюсь. Но спустя ещё несколько дней фидбэк: не прошёл МЛ секцию, спасибо, удачи, до свидания.

Если по делу — процесс несложный. Литкодишь, освежаешь в памяти универские знания. При норм подготовке можно пройти. Я вот времени не нашёл на важный собес.

Написал напоследок рекрутеру — может, есть что-то поближе к SWE. Если появится, будут рады пособесить.

➡️ Итоги собеседования, например оффер или отказ, или что-то другое: Отказ
➡️ Информация про Total Compensation: N/A

#интервью

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
😢3512🔥11😁6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
⌨️ Text Diffusion от DeepMind

По горячим следам поста выше с отзывом на интервью в команду, которая занималась текстовой диффузией, короткий новостной обзор модели.

DeepMind как раз пару часов назад обновил лэндинг c анонсом модели. Ссылка

📌Что такое текстовая диффузия? Авторегрессионные модели генерируют поcледовательно по одному токену (Speculative Decoding опускаем). Это медленно (и это главная причина), плюс может потеряться согласованность (coherence). Диффузионные модели устроены иначе: они не предсказывают токены напрямую, а постепенно превращают шум в осмысленный текст. Это позволяет быстро находить решения и потенциально исправлять ошибки на ходу (а не генерировать много токенов рассуждений, как это делается сейчас в авторегрессионных моделях) — особенно эффективно при редактировании, в том числе кода и математики. Сама по себе идея не супер новая, одна такая работа с работающим прототипом была уже 23 году (ссылка).

📌Преимущества модели. В первую очередь скорость. ДипМайнд репортит 1479 tokens / sec. Второй потенциальный плюс - это более высокая согласованность сгенерированного текста. Происходит за счет того, что модель генерирует сразу блоки токенов, а не токен за токеном.

📌Бенчмарки. На сайте приводят сравнение текстовой диффузии, модель называют Gemini Diffusion, против Gemini 2.0 Flash-Lite. Про последнюю говорят, что она сильно больше в размерах (так ли это?). На бенчах диффузионка в среднем либо хуже, либо на уровне Gemini 2.0 Flash-Lite. На том же SWE-Bench Verified 22.9% против 28.5% в пользу Gemini 2.0 Flash-Lite (это к слову про тезис, что дифуззионной моделью удобнее редактировать код).

Можно объяснить такие метрики тем, что модель очень ранняя, экспериментальная и дальше будет точно лучше. Звучит очень правдоподобно. Сам факт того, что есть первый сопоставимый результат - это очень круто.

👥 Записаться в waitlist ожидания доступа к модели можно тут

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
👍196🔥5🤩2👏1🐳1
❤️ Вайбкодим сайт-портфолио

Заголовок кликбейтный да и слово "вайбкодинг" не люблю, но все так и есть. Собрал лендинг для портфолио, написав 5-6 строк на TypeScript. В остальном наблюдал, что делает AI и корректировал.

Давно хотел попробовать lovable.dev, продукт шведского early stage стартапа. Команда делает платформу, где в пару кликов можно собрать web-приложение с фронтендом, бэкендом, интеграциями с бд (по крайней мере так команда продает себя) и все задеплоить. Подумал, что хорошая возможность сделать себе сайт-визитку и посмотреть, как их сервис работает на практике.

🔘Результат - maxsh.live. Статический сайт на react с базовыми анимациями и cсылками на разные профили в соц сетях.
🔘Цена - 5$ (за домен на год), сама разработка - бесплатно (детали ниже)
🔘Время - 1 час 15 минут, четверть ушла на деплой.

📌Процесс создания

1️⃣Создал бесплатный аккаунт на lovable.dev, дал доступ к своему гитхабу. В бесплатной подписке дается всего 5 кредитов в день на их сервис. Не густо. А платить 25$ не хочется.

2️⃣По максимум запихнул в первый кредит все ожидания от сайта. Закинул картинку своего блога в тг, дал инструкций:
* I'm looking to create a portfolio website inspired by the logo of my personal blog (attached in the image)

* The site should have a visually appealing design.

* The "max.sh" panel should feature a 3D hover effect, allowing it to move interactively when hovered over.
...

3️⃣Он сверстал сразу в целом неплохой вариант. 80% работы было сделано. Остались те самые 20%, где нужно подкрутить пару деталей в каждом блоке, уточняя, как именно все расположить. К слову, в платформу встроен удобный редактор: можно выделить конкретную секцию, div, и описать что именно с ней сделать.

4️⃣Кредиты моментально закончились. Я синхронизировал промежуточный результат с гитхабом. Далее склонировал репозиторий локально. Открыл Windsurf Editor (это примерно как Cursor. Свой редактор, fork vscode-а, в который встроен UI для взаимодействия с агентом). У Windsurf-а за бесплатно можно получить адекватные лимиты на Claude 3.7. Чем я и воспользовался.

5️⃣До-вайбкодил локально вместе с Windsurf-ом. Где-то агент упорно отказывался делать простую вещь, пришлось открыть скрипт самому и по старой доброй традиции зарешать вместе с stackoverflow. Вышло 6 строк. Локально сайт был готов. Осталось задеплоить.

6️⃣Через lovable.dev доступен автодеплой с помощью Netlify (площадка для деплоя react-приложений). Но только в платной подписке. Извините, но я и сам могу так. Бесплатно.

7️⃣Создал аккаунт на Netlify. Купил через них доменное имя для сайта. Дал доступ на чтение в репозиторий проекта на гитхатбе, нажал автодеплой

8️⃣Ждем пока обновятся DNS записи для домена и подцепится сертификат. Все готово.

9️⃣Теперь можно в таком же режиме вайбкодить остальные секции страницы. Чем и займусь. Когда-нибудь.

📌Итоги и впечатления

🔘вся ценность lovable.dev в том, что с пары запросов дает визуально удовлетворительное первое впечатление от сайта. Скорее всего это достигается за счет тулзов у их агента, адаптированных под шаблоны реакта. Другой плюс, то что есть визуальный редактор, где можно выделить конкретный элемент, который хочется пофиксить. Для прикола попробовал с нуля сделать все тоже самое через windsurf редактор, но получил кривую версию, которую бы редактировал вайбкодом точно еще несколько часов.
🔘Цена в 25$ за подписку, где есть 100 кредитов на месяц, возможность создавать приватные проекты и автодеплоить - сомнительно. Платить не готов, учитывая что все равно тут и там нужно дошлифовывать.
🔘Что lovable.dev, что агенты общего назначения для кодинга типа windusrf все еще с трудом делают сложную логику. Например, я хотел на бэкраунд себе красивую матрицу из мерцающих огоньков (типа как тут). Но 4 попытки не увенчались успехом, становилось только хуже. В конечном итоге Claude 3.7 сам себя сломал. Вмешательство и фиксы нужны регулярно.

Накидайте 🔥❤️ если откликается такой тип контента в канале в стиле DIY, и рады были бы почитать в будущем еще 😃

И делитесь в комментариях своими поделками ☺️

#проекты

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3913❤‍🔥5👍2🙏2👏1😁1
Сегодня в бразовательном карьерном посте поделюсь каналом faang_me.

Канал ведет Вика Бородина. Рекомендую, потому что сам давно слежу за ее контентом. У Вики довольно большой Ютуб Канал, где она берет интервью у разных интересных людей, работающих над интересными вещами в очень интересных местах. Здесь и истории стаффоф, и принципалов, и сеньоров, и мидлов, и их путь в разных зарубежных компаниях. Когда был студентом второго курса баклавриата, то рассказы ребят из Lyft, Нетфликса, Амазона и других мест хорошо мотивировали. Забавно, что недавно вышло интервью с одним из моих коллег про запуск Alexa+ (удалось поучаствовать в разработке лично, писал здесь)

Сейчас Вика запускает сообщество с общим чатом участников, вебинарами с экспертами, групповыми практиками, English speaking клубом и многими другими активностями, которые могут помочь вырасти в карьере, деньгах, опыте и нетворке IT-специалистам.

Поэтому если хочется покачать софт-скилы, побороть сииндром самозванца, посмотреть, какие есть стратегии при переговорах об офферах, найти ментора/рефера/ко-фаундера для будущего стартапа, то рекомендую.

#карьера #образование
👍96👏2🔥1🤡1
🔊 Chatterbox TTS —Yet Another Opensource TTS SoTA

Компания resemble.ai выложили в опенсоурс Chatterbox TTS. 0.5B модель на основе LLama3 backbone, обучена на 0.5M часов чистых данных. Данные высокого качества и разной природы. Модель поддерживает контроль экспрессивности синтеза через гипер-параметры (выкручивание exaggeration приводит к ускорению речи, понижение — к большей драме).

Репортят latency в 200ms, что делает модель довольно удобной для интерактивных голосовых приложений, real time ассистентов.

Наконец, пишут, что модель - SoTA. За бейзлайн берут решение от 11Labs и сообщают, что в side-by-side Chatterbox TTS strongly preffered. К слову, впервые вижу, что честно выкладывают все детали evaluation репорта и дают на него ссылку. A/B Тест слишком скромный (больше выглядит как черри пик честно), по 8 сэмплов на систему. В тесте просят асессоров оценить zero-shot сэмплы длиной от 7 до 20 секунд на предмет Naturalness и общего качества.

Попробовал в Gradio на HF. Нравится, что хорошо берет дыхание и паузы. Клонирование тембра с дефолтными настройками на моем голосе не очень. Скорее сказал бы, что это плохой voice clone. У Llasa-3B из опенсоурсных гораздо лучше. На реддите пишут, что при некоторых значениях параметров модель сходит с ума.

Cводка:

🔘Лицензия - MIT
🔘GitHub - тут
🔘Веса - тут
🔘Онлайн Демо поиграться самому - тут
🔘Реддит тред с мнениями по модели - тут
🔘Языки - пока только английский, обещают добавить файн-тюн для других языков в скором времени

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥654👏1🤗1
Модель с контекстом 100M токенов от стартапа Magic 🔮

Сегодня новых историй от подписчиков про собесы нет (а форма есть здесь), поэтому рассказываю историю сам.

Речь ппойдет про стартап magic.dev. По описанию стартап занимается:
frontier code models to automate software engineering and research

Cтартапов с таким описанием наберется куча. А вот то, что за вторую половину 2024 года, компания в двадцать с лишним человек подняла примерно полмиллиарда долларов инвестиций (цифры немного разнятся, но источники TechCrunch и блог самой компании) от разных инвесторов и фондов (среди них и Nvidia, и Google) — это интересно.

Наверное, ребята делают что-то большое и прорывное. И судя по блогу компании — это действительно так. В сентябре прошлого года анонсировали, что обучили первую модель с длиной контекста 100M токенов (почитать немного подробностей можно тут, но если коротко то используют reasoning над хэшами).

В демо делают упор на способность модели без дополнительных инструментов, RAG-ов и прочего агентного скаффолдинга (что это, разбираю тут), только за счет того, что в контекст подается весь исходный код GUI фрэймворка, написать интерфейс для... калькулятора.

Пример не сложный, но демонстрация, что модель "на лету" может выучить фреймворк на сотни тысяч строк и строго использовать знания о нем в существующей кодовой базе впечатляет.

И вот после этого анонса следует новость — magic.dev коллаборируется с Google Cloud, чтобы построить мегакластер на кучу тысяч H100 GPU, чтобы обучать вторую итерацию моделей.

Дальше новостей вроде как нет. Тишина.

Но на самом деле они очень активно нанимают. Недавно со мной связывался рекрутер. Предлагают разнообразные роли: от рисерчера до performance инженера на оптимизацию CUDA kernel-ов. Помогают с релокацией в Штаты (SF, New York). Так как мне сейчас географию менять не хочется, то я отказался. А вот мой хороший коллега, с огромным опытом в оптимизации моделей и 14 годами опыта с железом (участвовал в разработке чипов Inferentia 1 и 2 для AWS) решил, что это может быть новым вызовом. И начал процесс.

Ниже то, что я запомнил из его рассказа про интервью:

🔘 Нанимают на роль Software Engineer - Supercomputing Platform & Infrastructure - короче говоря скейлить и учить модели на огромных кластерах
🔘Техчническое интервью с бывшим лидом из OpenAI. Весь разговор был построен вокруг темы параллелизации вычислений: почему FSDP плох, в чем tensor parallelism имеет недостатки, как реализовывать Pipeline Parallelism. По отзыву, довольно глубокая беседа о том, что важно на практике.
🔘Home work assignment. Дали доступ к своей кодовой базе и кластеру на несколько GPU. В коде намеренно оставили разные несовершенства: от неэффективностей в использовании торча до выбора неэффективных кернелов. Так как пишут свои кастомные кернелы, то дали доступ еще и к своей библиотеке, где были спрятаны самые большие боттлнеки. Коллега говорит, что словил чистый кайф от домашки и не заметил, как потратил на ее решение 30 часов (то есть буквально решал всю неделю, бесплатно).
🔘Виртуальный онсайт с разбором домашки. Так же к онсайту просили сделать разбор актуальных работ по теме long context и подготовить презентацию.
🔘Дальше, судя по рассказу, вроде бы были готовы двинуться к офферу. Но как говорит коллега, предложили не очень убедительный total comp, и если бы он переезжал из Лондона в Сиэттл с Амазоном по внутреннему трансферу, то было бы выгоднее. Укажу, что в вакансии пишут, что вилка на такого инженера $100K - $550K и сверху equity.

Такая пятничная история. От меня следующие мысли:

1) Про параллелизм и скелйинг моделей можно хорошо послушать в свежем курсе по LLM от Стэнфорда в лекции тут

2) Компания мне кажется мутной. Cмотрю на фаундеров и не доверяю им. Но кто я такой, чтобы судить, если вливают столько денег, может что-то там и есть.

3) Очень нравится, как устроен найм в стартапы: глубокие технические разговоры, домашки, через которые можно прокачать свои навыки. Еще одна мотивация для меня дописать лонгрид про Детали интервью в стартапы и почему стоит идти в них поработать 🔥

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥12👍51🐳1
🏝 Автор в отпуске

Исследую Национальный парк Brecon Beacons — недалеко от Кардиффа, Уэльс.

Катаюсь на велосипеде по проселочным дорогам (а иногда еду сковзь лес) среди овечек, лошадей и тишины — в поисках запрятанных в горы водопадов

@max_dot_sh
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
36👍11🤩7👏1🆒1