NEW BOT Телеграм, страница

Forwarded from max.sh

Год подходит к концу, поэтому самое время подводить итоги.

В этом посте разбираю одну из центральных тем блога в этом году: собеседования на ML/Research роли.

⚫️В первой половине года я много собеседовал и понял, что хочется делиться тем, что может помочь соискателям. Так появились эти тексты. Они разные по формату и теме, все субъективные и основаны на личном опыте. А теплые сообщения в личку о пользе текстов только мотивируют стараться ✨

Типы вопросов на собеседованиях про Трансформеры
Подборка ресурсов для изучения RL в контексте LLM
Лонгрид ML Breadth Interview Deep Dive

Как готовиться к Coding Interview
Как готовиться к ML Design Interview
Как готовиться к ML Depth Interview

Рисерч стажировки в биг техе. Часть 1. Как попасть на собеседование
Рисерч стажировки в биг техе. Часть 2. Структура Интервью

⚫️Потом я оказался по другую сторону и начал собеседоваться сам. Собесы – это во многом рандом, поэтому любая информация помогает хоть немного увеличить шансы в этой лотерее. А реальные отзывы других людей так тем более. Я начал собирать истории подписчиков канала и делиться ими здесь. В итоге получилась солидная коллекция интервью-историй за 2025 год.

Все отзывы можно найти по тегу #интервью. А здесь оставлю ссылки на истории в зарубежные компании:

🌐

Research Engineer в Google DeepMind
🍏Senior ML Engineer в Apple Music
💻Performance Engineer в Nvidia, Munich

💻

OpenAI, Solutions Architect, Generative AI Deployment, London

Ⓜ️

Senior ML Engineer в Meta

🖥

Research Fellowship в Anthropic

🛒

Applied Scientist, Amazon

🎧

Senior DL Engineer в Spotify, Personalization, London

Senior ML Engineer в Waymo, Perception Team, California
Solutions Architect в ByteDance, Дубай.
VP of AI ML в J.P. Morgan Chase, London
AI Engineer в Mistral.AI

🔥 Буду рад если поддержите пост репостами или поделитесь с друзьями. И забирайте себе в коллекцию, если готовитесь к новому приключению в следующем году!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤4👀1

693 views13:30

Data, Stories and Languages

Полгода работы в Meta

Вот уже полгода как я переехал в Лондон и работаю на новом месте, пришло время подвести промежуточные итоги. В работе, конечно, есть свои особенности, но очень многое похоже на компании не из BigTech.

Я работаю в команде look alike (возможно меня взяли потому, что я делал подобное лет 7 назад, когда работал в Tele2), но мой проект отдельный, чему я рад. В старых проектах полно легаси, например, у нас только недавно мигрировали с Caffe2 на Pytorch. В команде 15-20 человек, больше половины - MLE, остальное - инженеры. Как-то получилось так, что в команде нет "старичков" MLE. В начале этого года трое людей ушли по разным причинам (в другие команды или в другие компании), в итоге максимум, что есть - парень с 1-1.5 года стажа в нашей команде. Команда инженеров работает здесь намного дольше, так что это помогает.

Наша команда - часть направления targeting (реклама), и почему-то в нём очень мало ml-команд. Так что начиная с этого годы мы решает задачи не только look-alike, но и другие вещи. Подробно рассказывать про проект пока не могу, но суть в том, чтобы делать предсказания некоторых характеристик юзеров. Делаю это для всех юзеров Instagram. В легаси, конечно, копаться приходится. Например, недавно изучал код 10-летней давности на местном диалекте PHP :see Заодно пару багов нашли :) Но зато данные собираю сам с нуля, модельки тоже можно выбирать. Тренирую старые добрые бустинги. Нейронки пробовал - не докидывало (но будем ещё пробовать). Внутренних фреймворков полно, по факту все решения кастомые.
Первый запущенный a/b тест дал положительные, но не статистически значимые результаты. По его итогам посидели, подумали о том, что могло пойти не так, запланировали следующий эксперимент - радует, что процесс обсуждения спокойный.

Теперь про работу в целом.
Переработки у нас редко, за полгода работы я редко видел, чтобы коллеги в команде писали что-то в рабочем чате ночью, если не считать oncall. Некоторые по своей инициативе могут работать в нерабочее время, но подавляющее большинство - нет. Возможно одна из причин: пять человек в команде - французы, поэтому не дают на себя давить.

Я уже успел пережить 3 реорга (сменился skip-1, команда пивотнулась, на высоком уровне сменились приоритеры и названия команд).

У нас есть целая куча своих AI-помощников: в чат-интерфейсе, агенты для кодинга и так далее. По моим ощущениям, они на 1-2 поколения хуже современного состояния мира, даже когда под капотом используется последний opus/chatgpt. С одной стороны, ai-помощники хорошо помогают с поиском инфы, но они слишком часто галлюцинируют факты и api, генерят идеи хуже gpt-5, просто тупят и так далее. Но признаю, что без них было бы значительно хуже. Сейчас использование AI сделали обязательным для всех, поэтому метрики использования AI напоминают мем с экстраполяцией по количеству мужей.

Позитивное: здесь есть программа dogfooding, всем желающим выдают VR headset Meta Quest Pro. Я подобное никогда раньше не использовал, испытал полный восторг. Теперь занимаюсь dogfooding, получаю плюшки (футболку, толстовку, всякое по мелочи), просто играю в VR игры. VR очки пока не получил, жду своей очереди.

Ещё один большой аспект работы в этой компании: у всех команд, главная цель - увеличение выручки, это называется iRev (incremental revenue). Команды из-за того временами прям грызутся. Как-нибудь потом расскажу пару историю :)

👍14🔥9

885 viewsedited 11:33

Data, Stories and Languages

Последнее интересное:
Конец года, время писать self-review. Написал черновик, перечитал и думаю о том, что наверное многовато написал и слишком много всего. Попросил фидбек у своего ментора. Созвонились, я рассказал о сделанном за год и показал написанный текст. Он подумал и сказал, что я слишком скромный и надо больше писать о том, что я сделал. Ибо я сделал много всего, что не написал в документе (мне казалось это мелочи).
И мол, то, что я сам собрал датасеты для тренировки с нуля, это круто, ибо многие mle в мете просто тренируют модельки на принесенных им данных (вот с этого я выпал - у меня такого ни в одной компании не было).
Надо будет калибровать свои ожидания под то, что ожидается в компании.

#career #life

❤13👍7

938 views11:33

Data, Stories and Languages via @TGStat_Bot

Итоги года для канала "Data, Stories and Languages" от @TGStat

👍8🔥7

888 views12:27

Data, Stories and Languages

Итоги года: книги

Под конец года принято подводить итоги, и на этот раз я хочу поговорить о книгах. Чтение книг - одно из моих основных хобби, поэтому хочу поделиться книгами, которые меня особо впечатлили в этом году. Заодно Goodreads поделился красивой иконографикой, которой грех не поделиться.

Часть 1. Профессиональные книги.

В этом году мне прислали 5+ книг на самые разные темы для ревью, запомнилась только одна: Python Object-Oriented Programming - она была насыщенной и неплохо написаной, можно использовать как референс по конкретным вопросам.

Часть 2. Книги на иностранных языках.

В этом году я решил попробовать почитать классику на испанском и немецком - и для практики языка, и для расширения кругозора. Результаты получились смешанные.

Steppenwolf. Много рассуждений на тему личности и того, что она состоит из многих частей; началась с мыслей героя о самоубийстве и пошло к самопознанию; рассуждения о том, что нельзя воспринимать жизнь и вообще всё слишком серьёзно; важно быть креативным; важно не упиваться самобичеванием.

La Casa en Mango Street - интересная, но грустная история о девочке из бедной семьи. Формат - мини-истории из её жизни. Первые рассказы простенькие, но с возрастом героини тон и содержание меняются.

Дальше я пробовал читать La Casa de los Espíritus и House of Spirits, но бросил, ибо почти все персонажы неприятны или отвратительны, а во второй книге часто описываются вещи, от которых хочется вырвать себе глаза. Мне это напоминает классику русской литературы - чтобы страдал не только герой, но и читатель.

Помимо этого я прочитал ещё несколько книг из классики и решил, что лучше уж я буду читать то, что мне интересно.

На испанском я прочёл фанфик по покемонам. Длина - 2.2 млн слов. Начиналось незатейливо, но потом пошла эпичная история о людях и не только.

На немецком прочёл серию Der 13. Paladin. Она мне понравилась настолько, что я прочёл её дважды. Её можно описать как "классическая история на новый лад" - есть избранный герой, есть явный враг и путешествие для победы над ним. Но довольно быстро мы встречаем много вопросов, которые редко освещаются в классическом фентези: что если бессмертные воины "добра" устают от бесконечных сражений и начинают творить всякое? Что если концепция fated mates срабатывает "неправильно" и один из mates уже состоит в счастливом браке?
Помимо этого книги в целом написаны отлично, герои получились запоминающиеся, история интересная, эпилог хороший. Теперь эта серия в моём личном топ-5 фентези книг.

Не забыл я и японский: прочитал 2 тома 狼と香辛料, 2 тома 蜘蛛ですが、なにか, 1 том 沈黙の魔女 и всякое другое по мелочи. 狼と香辛料 и 沈黙の魔女 продолжу читать в следующем году.

🔥8❤7

919 views19:13

Data, Stories and Languages

Часть 3. Фентези.

Все прочитанные книги перечислять будет слишком долго, назову лишь несколько:

Inheritance by Ilona Andrews - новая серия от одного из моих любимых авторов (точнее это пара). На нашей планете открылись ворота в другой мир, ведущие в подземелья, люди получили особые способности, бла-бла-бла. Вот только героиня - женщина в среднем возрасте с двумя детьми, которая скорее занимается полевыми исследованиями. Ей не повезло угодить в неудачное подземелье, где из её спутников в живых осталась только собака. Миссия - выжить и вернуться к детям.
LitRPG The Grand Game - на удивление хорошо написанная история и система.
Bard (Ghost Mountain Wolf Shifters) - прекрасная серия о доброте и восстановлении от психологических травм.
The Raven Scholar - очень интересная история с интригами, расследованиями и секретами. Я бы поставил ей 5/5, но был ряд проблем, которые просто не дали это сделать: большинству героев должно быть за 30, но ощущение, что читаешь про школьную/университетскую драму; некоторые герои совершали поступки, противоречащие их характеру; некоторые герои были слишком легко прощены за непрощаемые веши.
Yumi and nightmare painter - очередная прекрасная новелла от Brandon Sanderson. История о креативе и любви.
Red Winter trilogy - интересные персонажи, интересная мифология и душевная романтика.

#books

❤7🔥5

1.12K views19:13

Data, Stories and Languages

Кто о чём, а он о старом. Итоги года: опять у него всю славу украли.

😁15

1.09K views15:44

Data, Stories and Languages

Итоги года: остальное

Карьерные итоги я уже подвёл, итоги по книгам тоже. Кратко напишу про остальное:

• Собственно говоря, переехал в Лондон. В первый раз живу в Европе, так что много интересного. Если сравнивать с Азией, основные плюсы: чистота воздуха, больше возможностей для карьеры, больше мест и мероприятий которые можно посетить, возможность получить гражданство. По другим критериям Азия, всё же, выигрывает :)
• Открыл для себя VR. Очень удобный вариант подвигаться дома, особенно когда снаружи плохая погода.
• В иностранных языках прогресс есть, но меньше, чем хотелось бы (из-за переезда).
• Стараюсь заниматься спортом
• Меня постиг распространённый бич: сессии компании D&D (в которую играл пару лет) в этом году очень часто отменялись

Всех с Новым Годом!

#life

❤10🔥4

1.08K viewsedited 17:12

Data, Stories and Languages

Best Japanese Learning Tools 2025

Пару недель назад я натолкнулся на замечательный блогпост. В нём подборка инструментов для изучения японского; или, точнее, инструменты для упрощения поглощения разнообразного контента.

Большинство программ я знал, но были и новые для меня. Хочу поделиться самым интересным из списка:

• Yomitan позволяет смотреть перевод слов в любом браузере (включая мобильные браузеры), можно добавлять свои словари, можно делать интеграцию с Anki и всякое другое. Это актуальная замена старенькому Yomichan, который уже давно не поддерживается. Использую и рекомендую.
• Anki - лучшая программа для flashcards.
• Game Sentence Miner (GSM) - новинка для меня. Позволяет играть в игры, читать мангу, смотреть аниме и с помощью OCR смотреть переводы слов/предложений. Можно создавать карточки в Anki с аудио и даже гифками. Работает не только для японского языка и других. Единственный минус - сложно настраивать.
• Renshuu - это как Duolingo, но лучше во всём. Есть практика слов, предложений, иероглифов и грамматики. Вариантов практики много. Можно добавлять свои списки. Я использую уже год и очень доволен.
• Jidoujisho - для чтения на android девайсах.
• Manabi Reader - примерно тоже самое, но для iOS. Если хочется погружаться в книги, аниме, мангу, игры на iPhone/iPad - самое то.
•Migaku - платно. Есть курсы для изучения японского, есть своя система flashcards, можно смотреть видео с нетфликса и создавать карточки.
• Я долгое время использовать старенький Textextractor для выхватывания текста из visual novels, теперь перешёл на Luna Translator - примерно тоже самое, но активно поддерживается, выглядит получше, больше возможностей настраивания.
• Я уже как-то давно жаловался на неудобство чтения манги. Мне посоветовали Mokuro, но это вызывало мучения. Благо, что появилась альтернатива - Mangatan. Настройка чтения манги с моего ноута у меня заняла меньше получаса. Оно просто работает, не надо тратить часы на конвертацию манги, как с Mokuro.
• Для чтения книг на ноуте я использую ttsu reader + Yomitan. Просто и удобно. Есть чуть более красивая альтернатива Lumi Reader, но с ограничениями, за снятие которых надо платить.

Очень радует, что в наше время полно таких годных инструментов.

И поделюсь забавным: я нашёл дискорд-канал по изучению японского, кто-то говорил, что он прям серьёзный. Открываю его... и мне предлагается пройти quiz на знание языка.
Можно выбрать уровни сложности. На самом простом уровне попытки неограничены, все остальные можно пробовать лишь один раз в неделю.
Тебе показываются слова, надо написать их вариант в kana (romaji не принимается). Даётся 5 секунд, если не успел - ошибка. Для прохождения quiz надо дать 50 (!) правильных ответов, при этом, если ошибок больше 10 - fail.
Кажется только изучающие японский язык настолько хардкордны :)

#languages

Skerritt.blog

Best Japanese Learning Tools 2025 Award Show 🏆

Welcome to the award show everyone! Hosted by your favourite bee... Bee! 🥳

I wanted to summarise the best tools etc out there in 2025, and what better way then to put on a fake award show!

And like all true award shows and Christmas themed events, let's…

❤6🔥3

933 views10:10

Data, Stories and Languages

Чудеса AI агентов

Мой опыт работы с AI агентами имеет переменный успех. Иногда получается быстро сделать нужное и агенты сильно упрощают работу, иногда агенты никак не справляются с задачей, и проще сделать самому.

Но иногда бывают моменты, когда реально впечатляешься возможностям. У нас на работе с недавних пор стало можно официально использовать Claude Code, и люди стали активно допиливать его. Один из способов расширения возможностей - создание skills. По факту, это инструкции для выполнения каких-то конкретных задач.

Сегодня мне надо было обновить ранее сделанные мной диаграммы Excalidraw. Я их рисовал вручную, на основе моих пайпланов (sql-запросы с разными обёртками). Снова делать это вручную стало лень, и я стал искать другие варианты. Буквально случайно обнаружил, что несколько недель назад кто-то сделал skill для создания диаграмм Excalidraw.

Я установил skill, написал команду типа "Generate the excalidraw diagram for the dataflow in this file", подождал минут 5, и получил файлик. Открыл его... и реально - красиво нарисованная диаграмма, со стрелочками, разными цветами, комментариями. Всё было нарисовано из коробки отлично, даже не пришлось ничего исправлять. Это был взрыв мозга.

P. S. Потом правда оказалось, что если попросить его нарисовать диаграмму по нескольким большим скриптам, он ломается с ошибкой 504, ибо превышает лимиты :) Так что создавал дальше диаграммы по отдельности для каждого файла.

#datascience

Claude Code Docs

Extend Claude with skills - Claude Code Docs

Create, manage, and share skills to extend Claude's capabilities in Claude Code. Includes custom slash commands.

👍8😁3👀1

1.08K views19:34

Data, Stories and Languages

О насущном

🤣9

1.17K views20:32

Data, Stories and Languages

The Kaggle Book, 2nd Edition

https://news.1rj.ru/str/datastorieslanguages/569

Наконец-то и ко мне самому приехала эта книжка. Kaggle играл большую роль в начале моей карьеры, и я до сих пор время от времени использую идеи оттуда.

🔥16

1.24K views09:07

Data, Stories and Languages

Book Review: Time-Series Analysis with Python Cookbook

Очередная книжка от Packt. Очень годная.

Автор чуть ли не половину книги посвятил работе с данными - чтение, сохранение, работа с базами данных, заполнение пропусков, работа с календарями и так далее.
Потом модельки - начал с классики типа ARIMA, дошёл до Prophet и бустингов, про нейронки было уже в конце.

Много хороших объяснений, понятных примеров и кода. Мне особенно понравилось: складывание в pickle функций и графиков (по фиг на безопасность, зато удобно), кастомный календарь для Jordan, использование Hodrick-Prescott фильтра для выделения циклических компонент, прикольное объяснение разницы между KNN и LOF на примере очереди в кафе.

Рекомендую.

Мой пост на Linkedin.

https://www.amazon.com/Time-Analysis-Python-Cookbook-exploratory/dp/1805124285/

#books

Time-Series Analysis with Python Cookbook by Tarek A. Atwan Review | Andrey Lukyanenko posted on the topic | LinkedIn

I have read the book "Time-Series Analysis with Python Cookbook" by Tarek A. Atwan, and I can recommend reading it to those who want to acquire or enrich their toolset for working with Time-Series.

The book is very clearly written for practitioners rather…

👍12❤1

1.18K viewsedited 17:56

Data, Stories and Languages

Book Review: Asynchronous Programming in Python

На этот раз мне предолжили книжку чисто по программированию, никакого ML. Она довольна жесткая и детальная - автор начинает с базовой информации про операционные системы, потом объясняет корутины, concurrency vs. parallelism, blocking vs. non-blocking I/O и. так далее.

Весьма приятно, что автор использует прикольные проекты для демонстрации идей: веб-скрейпинг поняшек из My Little Pony, работа с графовыми датасетами, симуляции агентов (не ии-агенты).

В общем рекомендую к прочтению.

Мой пост на Linkedin.

Книжка сейчас стоит 10 долларов.

#books

I have read the book "Asynchronous Programming in Python" by Nicolas Bohorquez, and I can recommend it to those who want to expand…

I have read the book "Asynchronous Programming in Python" by Nicolas Bohorquez, and I can recommend it to those who want to expand or enhance their toolset for working with asynchronous programming.

The book starts by introducing operating system fundamentals…

❤4🔥2

982 views12:58

Data, Stories and Languages

LLM problems observed in humans

Я наткнулся на великолепный ироничный блогпост.

Мы всё ещё обсуждаем могут ли LLM пройти тест Тюринга, но если так задуматься, модели постепенно улучшаются, а люди... нет.

Автор привёл список LLM failure mode, которые во многом ещё решены, но всё ещё актуальны... в людях:
• Не знают когда прекратить вещать, даже когда ответ на вопрос уже дан
• Маленькое окно контекста - легко отвлекаются и забывают о чём шла речь
• Слишком узкий тренировочный датасет - сложновато найти собеседника, у которого достаточно глубокие знания во всех сферах твоих интересов
• Повторение одних и тех же ошибок - не всегда учатся на ошибках
• Фейл с генерализацией - "но это же другое" (с)
• Галлюцинации или просто рассказы о том, что не существует - например про религию.

Вроде это и смешно, но заставляет задуматься.

#datascience

embd.cc

LLM problems observed in humans

A reflective essay exploring how classic LLM failure modes---limited context, overgeneration, poor generalization, and hallucination---are increasingly recognizable in everyday human conversation.

😁19👍4🔥2

1.11K views16:51

Data, Stories and Languages

Oakley Meta HSTN

Я уже писал, что в моей компании можно заниматься dogfooding. Всем желающим выдают headset Quest Pro при найме - он мне очень понравился.
В рамках dogfooding можно зарабатывать баллы - за выполнение заданий, репорт багов, участие в ивентах. За полгода я постепенно дошёл до топ-2 tier, дальше остался лишь лишь последний уровень. За каждый уровень дают плюшки, но, что главное, чем выше уровень, тем выше твой приоритет на доступ к другим девайсам.

Я недавно подал заявку на тестирование AI Glasses, и вот получил Oakley Meta HSTN. Первый день с ними прошёл... неудачно :) Я не смог подключить их к своему телефону - как раз в это время были масштабные проблемы с подключением тестовых версий AI Glasses. Сегодня тоже. Пусть выдадут ачивку за то, что брикнул девайс ещё до того, как начал его использовать :)

Первые впечатления - прикольно, наверное надо будет их на улице потестить. Главное удивление - по виду очки ну очень похожи на обычные. Если не заметить камеры рядом с линзами, но может быть впечатление, что это просто стильные тёмные очки.
До чего дошёл прогресс...

🔥5😁2🎉2

746 views12:29

Data, Stories and Languages

Мой первый опыт tech review или как я привёл к отмене написания книги

Я уже много раз писал ревью на книги Packt в обмен на бесплатную копию книги. Недавно они мне предложили делать полноценное техническое ревью за плату. Это меня заинтересовало, и я согласился. Книга должна была быть про машинное обучение для финансовой сферы. Как они подчеркнули, моя роль - именно техническое ревью, не ревью стиля или прочего, и мне не надо обращать внимания на грамматические и орфографические ошибки.

Мне прислали первые две главы, и я начал их читать.

Первая глава, введение, на 21 страниц. Я что-то заподозрил от такого объёма. С первого же абзаца стало понятно, что там полно AI-slop: много воды, полно оборотов "not just, but", полно обтекаемых формулировок без деталей. Самое смешное - были артефакты типа "//Text" - явные следы промптинга.
Ну и просто накидано всё вподряд: введение и мотивация, общая информация про ML, статистические проверки, AI и агенты. Вроде отдельные куски осмысленны, но всё в сумме - поток мысли.

Процитирую одну фразу
"Social media and online forums are another goldmine, giving a direct line to what regular investors are thinking and how trends build up. Then there’s the really cool stuff: satellite images that show how full parking lots are (maybe a store is doing well!), or pictures of shipping ports that hint at supply chain problems."

"the really cool stuff" - отличный стиль для книги про ML в финансах.

Ну да ладно, это можно исправить. Если сократить текст раза в 2, убрать некоторые мелкие неточности и пошлифовать - будет в целом приемлемо для нашей эпохи AI.

Но вторая глава оказалась на порядки хуже. Началось с того, что первые два абзаца - практически одинаковые. Такое ощущение, что автор два раза запромптил LLM и скопировал оба результата. Причём я даже не знаю, что за LLM он использовал, ибо в тексте полно орфографических ошибок. Он что, брал сетку натренированную на reddit и квантизировал до 1 бита?
Он попытался запихнуть в одну главу информацию по терверу, базе машинного обучения, PCA и всякое другое. Было полно очень странных и непонятных утверждений типа "Dropout... is kind of Bayesian thinking" без каких-либо пояснений. Были описания диаграмм без самих диаграмм. Были просто промпты того, что должно быть на диаграмме. Были обрывающиеся на полуслове предложения. Были куски кода с пропущенными строками. И в целом была полная неконсистентность материала - какие-то параграфы описывали идеи в общих словах, какие-то с формулами, какие-то с кодом (поломанным).

Я вначале это всерьёз ревьювил, потом плюнул и прекратил. Написал гневный текст, о том, что эта книга - треш. Потом переписал вежливее. Потом попросил ChatGPT переписать ещё вежливее.

К моему удивлению, мой контакт в Packt весьма серьёзно отнёсся к моему письму. Уже через пару дней мне сказали, что работа над книгой приостановлена. А теперь мне сообщили, что скорее всего книгу отменят и будут искать другого автора, чтобы писать текст на эту тему. Уважаю их за то, что могут признавать ошибки и делать правильное, а не публиковать ai-slop.

Теперь мне предлагают делать техническое ревью другой книги или писать свою. Но писать свою книгу я вряд ли буду - слишком много сил и времени на это надо, а выхлоп не понятен.

#books #datascience #life

🔥15🤣7👍5😁1

696 views17:03

Data, Stories and Languages

mHC: Manifold-Constrained Hyper-Connections

Первый обзор статьи в этом году. Авторы DeepSeek явно готовятся к новому релизу - обновили статью про DeepSeek-R1, я её ещё не смотрел, но мой обзор на оригинальную версию можно почитать тут, а также выпустили пару новых статей. mHC - одна из них.

Hyper-Connections (HC) расширяют residual stream и дают прирост качества, но ломают identity mapping, из-за чего обучение становится нестабильным, плохо масштабируется и упирается в memory overhead. В новой статье исследователи предлагают Manifold-Constrained Hyper-Connections (mHC): residual-смешивание проецируют на специальный manifold, чтобы восстановить identity mapping, и дополняют это серьёзными инфраструктурными оптимизациями. В итоге mHC сохраняет expressivity HC, резко улучшает стабильность обучения и лучше масштабируется на больших моделях — хороший шаг к более осмысленному дизайну архитектур для foundation models.

В статье много математики, осилил не всё. Но и без этого много интересного.

Paper

Мои обзоры:
Personal blog
Medium
Linkedin

#paperreview

❤3👍3🔥1

697 viewsedited 08:27

Data, Stories and Languages

Про сложности предсказания поведения конкретных пользователей

ML решает много проблем, среди них массовое предсказание действий пользователей - отток, планируемые покупки, склонность к рекламе и многое другое. Качество бывает разным, но по моему опыту, предсказание действий отдельных пользователей всё ещё решается с трудом, особенно когда существует много вариантов действий и контекста вокруг.

То есть, если у человека есть лишь два возможных поведения (отток или нет), ситуация ещё не такая тяжелая, но когда поведений много - сложность растёт экспоненциально. Если же добавить контекст, становится совсем плохо. Слишком много людей с нестабильными паттернами.

Почему я вообще об этом задумался? После того как Apple выкатила версию 26 своей операционной системы для всех девайсов, мои Apple Watch время от времени стали показывать маленький виджет внизу экрана, который показывает какую тренировку я скорее всего захочу делать в ближайшее время. Работает это... так себе.

Я много хожу и включаю режим ходьбы - часы ни разу это не предлагали. Я регулярно тренируюсь в VR, это предсказывается довольно редко. Хожу 5 раз в неделю в бассейн - это предсказывается примерно в половине раз. И что смешно - вот собираюсь я в бассейн и вижу этот виджет, вроде он правильно появился. Но я обычно не беру с собой телефон, в итоге когда я уже готов начинать плавать, виджет уже пропадает.

В тему этого вспомнился проект с прошлой работы - мы пытались предсказывать регулярные маршруты клиентов такси и показывать релевантный виджет. Это тоже работало со скрипом - если посмотреть в данные, можно найти немало людей, которые ездят на работу в такси 2-3 дня в неделю без каких-либо выявляемых паттернов. И вот что делать в таком случае? Либо показывать виджет только при полной уверенности - и он будет очень редким, либо показывать его чаще - и он будет раздражающим.

#datascience

👍4😁2❤1

392 views09:01

About

Blog

Apps

Platform