Сейчас будет небольшой пост про статью, которую прочитал. Но перед этим немного терминологии. Я почти три года работаю с ML в диалоговом домене, это все про чит-чат модели или болталки. Поэтому будет много постов именно про этот домен NLP. Болталки - модели, которые могут поддержать беседу, независимо от темы. Базово тут работают два подхода:
+ Retrieval - основанный на поиске. Для фразы пользователя при текущем контексте вы выбираете подходящий ответ из своей базы в 100k ответов например.
+ Generative - модель генерирует ответ слово за словом (токен за токеном), как бы дописывая ответ на фразу пользователя. Что-то типа автодополнения на телефоне.
Еще есть просто rule-based древовидные сценарии, но их мы касаться особо не будем.
+ Retrieval - основанный на поиске. Для фразы пользователя при текущем контексте вы выбираете подходящий ответ из своей базы в 100k ответов например.
+ Generative - модель генерирует ответ слово за словом (токен за токеном), как бы дописывая ответ на фразу пользователя. Что-то типа автодополнения на телефоне.
Еще есть просто rule-based древовидные сценарии, но их мы касаться особо не будем.
В конце прошлого года вышла обзорная статья про Этические и социальные риски больших языковых моделей.
https://arxiv.org/pdf/2112.04359.pdf
Статья актуальная, в своей работе мы каждый день сталкиваемся с этими рисками и придумываем разные хаки, чтобы их обойти.
Приведу список рисков ЯМ именно в диалоговом домене. Риски больше для генеративных языковых моделей, retrieval подходы более безопасные, но все равно не лишены рисков (discrimination, например):
1. Discrimination — когда в ЯМ воспроизводит стереотипы из данных. Например, “два чеченца зашли в метро” и … или “Молодая девушка заработала кучу денег, тем что снимала …”. Если модель предлагает неэтичное продолжение - принцип fairness не соблюден.
2. Toxicity — при правильном подходе можно спровоцировать генерировать ЯМ мат и оскорбления.
3. Information Hazards - если модель обучалась на приватных данных, можно попробовать их вытащить. Пример, “личная электронная почта Илона Маска: ….”
4. Misinformation Harms — генеративные модели любят выдумывать ответы на вопросы, даже если не знают. В целом, это забавно, но человек может поверить ложной информации.
5. Human-Computer Interaction Harms — Тут чисто про Conversational Agents. Антропоморфизация ассистентов может привести к небезопасному использованию. Пару лет назад, с нами в хостеле жил мужик, который подкатывал к голосовому помощнику, потому что там был женский голос. Не знаю чем закончилась это история, но подобные штуки могут переносится потом и на общение с обычными людьми.
Как будет время и настроение, напишу что можно сделать с этими рисками. Или не делать: мы как-то обучили болталку общаться исключительно матом и оскорблениями, получился самый эмпатичный и эмоциональный собеседник!
https://arxiv.org/pdf/2112.04359.pdf
Статья актуальная, в своей работе мы каждый день сталкиваемся с этими рисками и придумываем разные хаки, чтобы их обойти.
Приведу список рисков ЯМ именно в диалоговом домене. Риски больше для генеративных языковых моделей, retrieval подходы более безопасные, но все равно не лишены рисков (discrimination, например):
1. Discrimination — когда в ЯМ воспроизводит стереотипы из данных. Например, “два чеченца зашли в метро” и … или “Молодая девушка заработала кучу денег, тем что снимала …”. Если модель предлагает неэтичное продолжение - принцип fairness не соблюден.
2. Toxicity — при правильном подходе можно спровоцировать генерировать ЯМ мат и оскорбления.
3. Information Hazards - если модель обучалась на приватных данных, можно попробовать их вытащить. Пример, “личная электронная почта Илона Маска: ….”
4. Misinformation Harms — генеративные модели любят выдумывать ответы на вопросы, даже если не знают. В целом, это забавно, но человек может поверить ложной информации.
5. Human-Computer Interaction Harms — Тут чисто про Conversational Agents. Антропоморфизация ассистентов может привести к небезопасному использованию. Пару лет назад, с нами в хостеле жил мужик, который подкатывал к голосовому помощнику, потому что там был женский голос. Не знаю чем закончилась это история, но подобные штуки могут переносится потом и на общение с обычными людьми.
Как будет время и настроение, напишу что можно сделать с этими рисками. Или не делать: мы как-то обучили болталку общаться исключительно матом и оскорблениями, получился самый эмпатичный и эмоциональный собеседник!
👍3🥰1
Forwarded from ibragim.txt
Как у меня дела.
В конце января перестал работать: взял саббатикал (длительный отпуск за свой счет, во время которого за сотрудником сохраняется должность) в сбердевайсах, чтобы отдохнуть, поучиться новому, посмотреть что еще нравится и сменить работу.
Как определенный итог своей работы: рассказал о том, чем мы занимались. В начале февраля сходил на подкаст к яндексу поболтать про болталки, а потом мы выступили с Сашей на перенесенном Хайлоаде.
В девайсы я уже не вернулся, в феврале-марте поготовился к собеседованиям, начал собеседования в апреле, а с мая вышел в новое место.
Получил пару офферов (некоторые дошли уже во время работы): большая компания в Европе, стартап в Англии, Яндекс. Начал процессы в Meta, Google, Amazon (тут большое спасибо рефералам), но параллельно с новой работой устал собеседоваться и остановил все. В итоге сошелся с ребятами с которыми был самый короткий собес (пообщались с СТО и партнером из фонда): сильная тех команда, четкий фонд за спиной, возможность с нуля выстроить весь ML и full-remote. Подумал, что в большие компании можно будет попробоваться в любой момент, а сейчас время для рок-н-ролла. Как сделаем x10 по метрикам - напишу подробнее, что делаем.
Сюда буду писать как и раньше, не очень регулярно, какие-то свои черновики статей, рефлексию по книгам, курсам и свой опыт. А в @c0mmit как строим ML системы и другие рабочие моменты.
P.S. Сейчас сижу с ребятами на Бали, поэтому будете тут — пишите, сходим на завтрак!
В конце января перестал работать: взял саббатикал (длительный отпуск за свой счет, во время которого за сотрудником сохраняется должность) в сбердевайсах, чтобы отдохнуть, поучиться новому, посмотреть что еще нравится и сменить работу.
Как определенный итог своей работы: рассказал о том, чем мы занимались. В начале февраля сходил на подкаст к яндексу поболтать про болталки, а потом мы выступили с Сашей на перенесенном Хайлоаде.
В девайсы я уже не вернулся, в феврале-марте поготовился к собеседованиям, начал собеседования в апреле, а с мая вышел в новое место.
Получил пару офферов (некоторые дошли уже во время работы): большая компания в Европе, стартап в Англии, Яндекс. Начал процессы в Meta, Google, Amazon (тут большое спасибо рефералам), но параллельно с новой работой устал собеседоваться и остановил все. В итоге сошелся с ребятами с которыми был самый короткий собес (пообщались с СТО и партнером из фонда): сильная тех команда, четкий фонд за спиной, возможность с нуля выстроить весь ML и full-remote. Подумал, что в большие компании можно будет попробоваться в любой момент, а сейчас время для рок-н-ролла. Как сделаем x10 по метрикам - напишу подробнее, что делаем.
Сюда буду писать как и раньше, не очень регулярно, какие-то свои черновики статей, рефлексию по книгам, курсам и свой опыт. А в @c0mmit как строим ML системы и другие рабочие моменты.
P.S. Сейчас сижу с ребятами на Бали, поэтому будете тут — пишите, сходим на завтрак!
В текущий момент я занимаюсь рекомендациями. Лента, рекомендации авторов, ранжирование. Начали с эвристик: свежее, популярное по регионам, бизнес логика для авторов. Потом пошли в ход коллаборативная фильтрация, item2vec, бустинг.
Про что думаю написать.
+ Рекомендации: feed, реклама, рекомендации авторов.
+ Скомбинировать с ML бизнес-логику: размазать трафик по авторам, популярное, подписки, бусты итп
+ Попутные задачи: автомодерация контента, авто тэгирование, анализ на ботов и спамеров.
+ Аналитика: стандартные продуктовые метрики в кликхаусе, RFM, АБ-тесты
Но в начале напишу о собесах и выложу материалы по подготовке.
Про что думаю написать.
+ Рекомендации: feed, реклама, рекомендации авторов.
+ Скомбинировать с ML бизнес-логику: размазать трафик по авторам, популярное, подписки, бусты итп
+ Попутные задачи: автомодерация контента, авто тэгирование, анализ на ботов и спамеров.
+ Аналитика: стандартные продуктовые метрики в кликхаусе, RFM, АБ-тесты
Но в начале напишу о собесах и выложу материалы по подготовке.
👍15🔥1
Подборка видов этапов собеседований, которые попадались и как к ним готовился:
+ Алгоритмическая секция. Решал карточки с литкода и делал мок-интервью. Тут писал подробнее.
+ Machine Learning System Design (как будешь ML задачу решать со старта до прода). CS 329S, буклеты, видео от fb + мок-интервью. Собрал попутно такой гитхаб.
+ Вопросы по ML теории. Стандартные: метрики, разобрать модель, написать пару формул. Учебник по ML от шада почитал и освежил в памяти что-то погуглив конкретные темы.
+ Дают код, надо найти и исправить ошибки. Из того, что поинтереснее: дали код обучения языковой модели с расписанными трансформер блоком и аттеншеном. Специально не готовился, но можно полистать реализации from scratch. Помню, что видел классные ссылки, мб кто-то скинет или сам опубликую как вспомню.
+ Вопросы по темам: питон, ML, CS, NLP.
+ Рассказываешь о своем опыт и с тобой погружаются вглубь и в особенности реализаций. Данные как размечали, как модели проверяли, как выкатывали. Тут просто более развернуто рассказал про пункты из CV.
+ Behavioural - стандартные вопросы, заранее заготовил ответы по STAR на распространенные вопросы.
+ Задачи на логику и по математике (теор вер, статистика). Не готовился к такому.
+ Просто за жизнь и опыт пообщаться, сходить в бар.
Примеры вопросов из этапа с общением.
+ Какая последняя статья понравилась? О чем? Почему понравилась?
+ Что будешь делать в первый рабочий день?
+ Какой факап был самый жесткий?
+ Алгоритмическая секция. Решал карточки с литкода и делал мок-интервью. Тут писал подробнее.
+ Machine Learning System Design (как будешь ML задачу решать со старта до прода). CS 329S, буклеты, видео от fb + мок-интервью. Собрал попутно такой гитхаб.
+ Вопросы по ML теории. Стандартные: метрики, разобрать модель, написать пару формул. Учебник по ML от шада почитал и освежил в памяти что-то погуглив конкретные темы.
+ Дают код, надо найти и исправить ошибки. Из того, что поинтереснее: дали код обучения языковой модели с расписанными трансформер блоком и аттеншеном. Специально не готовился, но можно полистать реализации from scratch. Помню, что видел классные ссылки, мб кто-то скинет или сам опубликую как вспомню.
+ Вопросы по темам: питон, ML, CS, NLP.
+ Рассказываешь о своем опыт и с тобой погружаются вглубь и в особенности реализаций. Данные как размечали, как модели проверяли, как выкатывали. Тут просто более развернуто рассказал про пункты из CV.
+ Behavioural - стандартные вопросы, заранее заготовил ответы по STAR на распространенные вопросы.
+ Задачи на логику и по математике (теор вер, статистика). Не готовился к такому.
+ Просто за жизнь и опыт пообщаться, сходить в бар.
Примеры вопросов из этапа с общением.
+ Какая последняя статья понравилась? О чем? Почему понравилась?
+ Что будешь делать в первый рабочий день?
+ Какой факап был самый жесткий?
👍11
Этап собеседования Machine Learning System Design.
Этот этап попадался в 9 из 10 компаний. Задача - полностью спроектировать ML решение. От определения задачи и метрик, заканчивая деплоем и оптимизацией.
Здесь важный момент. Время собеседования ограничено. Поэтому с одной стороны важно не растекаться по дереву, с другой стороны важно покрыть все этапы решения ML задачи, а в некоторые даже погрузиться вглубь, чтобы показать что шарите.
В этом помогает четкая структура ответа:
1. Problem definition and requirement clarification. Определение задачи и оценка требований.
2. Data. Источники данных, какая разметка, как выглядит сэмпл.
3. Evaluation. Какие метрики, сравнение с бейзлайном.
4. Features and model. Препроцессинг, варианты моделей.
5. Online eval, deploy. Выкатка + АБ.
6. Further actions. Как дебажить/обновлять/улучшать/ускорять/итд модель.
Каждый из этапов более подробно разобран в репе ML design primer.
Порядок подготовки.
+ Посмотреть видео fb, яндекса, полистать гитхаб ml design primer.
+ Сделать себе пробный собес попробовать задизайнить систему из списка.
+ Почитать пару разборов из технических блогов компаний или инженеров. Например, тут или тут
+ Делать моки (mock-interview). Это когда вы созваниваетесь и устраиваете друг-другу пробный собес. Моки можно искать в этом чате.
+ Получаете фидбек с мока и идете качать слабые места, читаете еще статьи или главы из 329s.
Этот этап попадался в 9 из 10 компаний. Задача - полностью спроектировать ML решение. От определения задачи и метрик, заканчивая деплоем и оптимизацией.
Здесь важный момент. Время собеседования ограничено. Поэтому с одной стороны важно не растекаться по дереву, с другой стороны важно покрыть все этапы решения ML задачи, а в некоторые даже погрузиться вглубь, чтобы показать что шарите.
В этом помогает четкая структура ответа:
1. Problem definition and requirement clarification. Определение задачи и оценка требований.
2. Data. Источники данных, какая разметка, как выглядит сэмпл.
3. Evaluation. Какие метрики, сравнение с бейзлайном.
4. Features and model. Препроцессинг, варианты моделей.
5. Online eval, deploy. Выкатка + АБ.
6. Further actions. Как дебажить/обновлять/улучшать/ускорять/итд модель.
Каждый из этапов более подробно разобран в репе ML design primer.
Порядок подготовки.
+ Посмотреть видео fb, яндекса, полистать гитхаб ml design primer.
+ Сделать себе пробный собес попробовать задизайнить систему из списка.
+ Почитать пару разборов из технических блогов компаний или инженеров. Например, тут или тут
+ Делать моки (mock-interview). Это когда вы созваниваетесь и устраиваете друг-другу пробный собес. Моки можно искать в этом чате.
+ Получаете фидбек с мока и идете качать слабые места, читаете еще статьи или главы из 329s.
👍10
Как сформулировать ML задачу?
Каждый этап разбирать не буду, но о первым расскажу на примере. Допустим, дали задачу сделать фид для контента. Цель: хотим сделать рекомендации контента(текстовые посты, картинки, видео). Текущая лента обратная хронологическая, хочется сделать персонализированной.
Первый вопрос: зачем? Кажется, что с персональной лентой пользователи будут чаще заходить, залипать в ленте, шерить продукт друзьям. Но, это только предположение, которое нуждается в проверке. Поэтому на старте определимся, как будем оценивать успех или неуспех в количественных показателях.
Продуктовые метрики в рамках собеседования я для себя разделил на три уровня:
1. Деньги 💰– revenue, arpu, конверсии в покупку.
2. Счастье юзера 😍 – like/view rate, avg session time, views count, etc
3. Технические метрики 🎯– recall@k, diversity of items, etc. Соответственно цель наша больше денег, а гипотеза в том, что повысив технические метрики –> повысим счастье юзера –> заработаем больше деньги. В жизни, к сожалению, зависимость не всегда прямая. Но для задачи этот момент опустим.
В cs329s этот этап разбит на 4 шага.
1. Framing. Какая ML проблема? Регрессия, Классификация - multiclass, multilabel.
2. Objectives. На какие подзадачи можно разделить? Например, Прокачать engagement ленты, но при этом не уронить качество постов, не форсить спам и кликбейты.
3. Constraints. Ограничения ресурсов, приватность данных, требования регуляторов.
4. Phases. Как будете внедрять решение: эвристика -> простая модель -> оптимизация простой модели -> сложная модель.
По данному пункту советую полистать лекцию 2 в cs329s и если что-то непонятно посмотреть в Lecture Note.
Еще один важный момент: на этом этапе задавать уточняющие вопросы, чтобы понять контекст задачи: как решается задача сейчас, число пользователей, доступные ресурсы итп.
Каждый этап разбирать не буду, но о первым расскажу на примере. Допустим, дали задачу сделать фид для контента. Цель: хотим сделать рекомендации контента(текстовые посты, картинки, видео). Текущая лента обратная хронологическая, хочется сделать персонализированной.
Первый вопрос: зачем? Кажется, что с персональной лентой пользователи будут чаще заходить, залипать в ленте, шерить продукт друзьям. Но, это только предположение, которое нуждается в проверке. Поэтому на старте определимся, как будем оценивать успех или неуспех в количественных показателях.
Продуктовые метрики в рамках собеседования я для себя разделил на три уровня:
1. Деньги 💰– revenue, arpu, конверсии в покупку.
2. Счастье юзера 😍 – like/view rate, avg session time, views count, etc
3. Технические метрики 🎯– recall@k, diversity of items, etc. Соответственно цель наша больше денег, а гипотеза в том, что повысив технические метрики –> повысим счастье юзера –> заработаем больше деньги. В жизни, к сожалению, зависимость не всегда прямая. Но для задачи этот момент опустим.
В cs329s этот этап разбит на 4 шага.
1. Framing. Какая ML проблема? Регрессия, Классификация - multiclass, multilabel.
2. Objectives. На какие подзадачи можно разделить? Например, Прокачать engagement ленты, но при этом не уронить качество постов, не форсить спам и кликбейты.
3. Constraints. Ограничения ресурсов, приватность данных, требования регуляторов.
4. Phases. Как будете внедрять решение: эвристика -> простая модель -> оптимизация простой модели -> сложная модель.
По данному пункту советую полистать лекцию 2 в cs329s и если что-то непонятно посмотреть в Lecture Note.
Еще один важный момент: на этом этапе задавать уточняющие вопросы, чтобы понять контекст задачи: как решается задача сейчас, число пользователей, доступные ресурсы итп.
Google Docs
cs329s_2022_02_slides_mlsd
Machine Learning Systems Design Lecture 2: ML and Data Systems Fundamentals Reply in Zoom chat: What MLOps tools would you want tutorials on? CS 329S (Chip Huyen, 2022) | cs329s.stanford.edu
👍10🔥6
📝 Собрал пак советов по оффлайн разметке.
Больше о разметке в контексте NLP. Часть советов покажутся очевидными, но все равно упомяну. Подходит и для in-house разметки, и для outsource разметки в сервисах (толока, mturk)
1. Прежде чем составить задание на разметку, попробуйте сами разметить пару десятков примеров. Так вы поймете, насколько данные и классы корректны.
2. В самом задании добавьте по паре примеров на класс для понимания. Здорово, если добавите сложный пример и в скобках объясните логику.
3. Сначала сделайте небольшой пробный батч и скорректируйте задание если нужно.
4. Примеры, которые вы разметили сами – используйте как оценочные для разметчиков, чтобы размечали только добросовестные разметчики.
5. Используйте меру согласованности между разметчиками (например, Fleiss’ kappa). Несогласованные сэмплы - либо треш, либо спорные сэмплы, которые наоборот помогут модели лучше разделить классы.
6. Даже если ресурсов мало, разметьте хотя бы golden set, на котором оценивайте метрики и другие способы разметки (active learning, разметкой эвристиками итп.)
7. Есть такая частая проблема в текстовых классификациях, что необходимые классы в сумме составляют только 0.001% от выборки. А остальное – класс other. Чтобы не тратить впустую деньги на разметку ненужных данных, обучите модель на небольшом куске разметки, насэмплите рандома в other и разметьте моделью выборку. А потом уже отправляйте на разметку, только то что разметилось, как не other.
8. Чтобы выжать максимум из разметки, помимо обычной дедупликации, можете сделать еще дедупликацию по нечетким совпадением или по близости эмбеддингов по порогу.
9. Что делать если данных нет? Ищите открытые датасеты по своей задаче. Если датасет на другом языке - можно перевести.
10. Можно скрапить сайты и выдачу из поиска. Как-то нам нужны были примеры, где люди рассказывают о себе и своих увлечениях, я наскрапил примеров с сайта для знакомств в духе анкет в газете 2000х.
11. Если данных совсем нет, можно сделать следующее: вручную написать по паре десятков разных примеров на класс. Векторизовать их sentence encoder и поискать ближайшие по косинусу в большом корпусе.
12. Если вам нужна специализированная разметка, а разметчиков-специалистов мало, то попробуйте переформулировать задачу для более простой разметки. Пример: нам нужно было разметить часть текстовых сообщений из логов, на предмет корректности их интента (>1k классов). Некоторые интенты похожи между собой. В них разбираются только внутренние разметчики. Задачу из "прочитать описания интентов и определить нужный" мы переформировали в "kind of NLI". Даны 4 предложения (размечаемый сэмпл + 3 примера из интента) - нужно найти лишний. Если разметчики верно выделяли сэмпл, значит он скорее всего не из этого интента. Спорные примеры уже размечали специалисты.
13. Что делать, если датасет после разметки оказался грязный? Если меньшая часть примеров из классов ошибочно приписаны в другой, то вместо того, чтобы переразмечать весь датасет, то можно разделить датасет на фолды -> обучить по кругу модель и предсказать leave-one-fold -> сохранить предикты с каждого цикла обучения -> переразметить сэмплы, в которых предсказание не совпадает с лейблом.
Напишите в комменты, что бы еще добавили? 🤔
Больше о разметке в контексте NLP. Часть советов покажутся очевидными, но все равно упомяну. Подходит и для in-house разметки, и для outsource разметки в сервисах (толока, mturk)
1. Прежде чем составить задание на разметку, попробуйте сами разметить пару десятков примеров. Так вы поймете, насколько данные и классы корректны.
2. В самом задании добавьте по паре примеров на класс для понимания. Здорово, если добавите сложный пример и в скобках объясните логику.
3. Сначала сделайте небольшой пробный батч и скорректируйте задание если нужно.
4. Примеры, которые вы разметили сами – используйте как оценочные для разметчиков, чтобы размечали только добросовестные разметчики.
5. Используйте меру согласованности между разметчиками (например, Fleiss’ kappa). Несогласованные сэмплы - либо треш, либо спорные сэмплы, которые наоборот помогут модели лучше разделить классы.
6. Даже если ресурсов мало, разметьте хотя бы golden set, на котором оценивайте метрики и другие способы разметки (active learning, разметкой эвристиками итп.)
7. Есть такая частая проблема в текстовых классификациях, что необходимые классы в сумме составляют только 0.001% от выборки. А остальное – класс other. Чтобы не тратить впустую деньги на разметку ненужных данных, обучите модель на небольшом куске разметки, насэмплите рандома в other и разметьте моделью выборку. А потом уже отправляйте на разметку, только то что разметилось, как не other.
8. Чтобы выжать максимум из разметки, помимо обычной дедупликации, можете сделать еще дедупликацию по нечетким совпадением или по близости эмбеддингов по порогу.
9. Что делать если данных нет? Ищите открытые датасеты по своей задаче. Если датасет на другом языке - можно перевести.
10. Можно скрапить сайты и выдачу из поиска. Как-то нам нужны были примеры, где люди рассказывают о себе и своих увлечениях, я наскрапил примеров с сайта для знакомств в духе анкет в газете 2000х.
11. Если данных совсем нет, можно сделать следующее: вручную написать по паре десятков разных примеров на класс. Векторизовать их sentence encoder и поискать ближайшие по косинусу в большом корпусе.
12. Если вам нужна специализированная разметка, а разметчиков-специалистов мало, то попробуйте переформулировать задачу для более простой разметки. Пример: нам нужно было разметить часть текстовых сообщений из логов, на предмет корректности их интента (>1k классов). Некоторые интенты похожи между собой. В них разбираются только внутренние разметчики. Задачу из "прочитать описания интентов и определить нужный" мы переформировали в "kind of NLI". Даны 4 предложения (размечаемый сэмпл + 3 примера из интента) - нужно найти лишний. Если разметчики верно выделяли сэмпл, значит он скорее всего не из этого интента. Спорные примеры уже размечали специалисты.
13. Что делать, если датасет после разметки оказался грязный? Если меньшая часть примеров из классов ошибочно приписаны в другой, то вместо того, чтобы переразмечать весь датасет, то можно разделить датасет на фолды -> обучить по кругу модель и предсказать leave-one-fold -> сохранить предикты с каждого цикла обучения -> переразметить сэмплы, в которых предсказание не совпадает с лейблом.
Напишите в комменты, что бы еще добавили? 🤔
👍7❤3👌2
На выходных баловался с ChatGPT и листал треды твиттера. Результатом стала статья на хабре. Если коротко, то модель крутая. Думаю, что пишет код лучше, чем Copilot, а вдобавок, может генерить много больше.
В качестве иллюстрации, вот вам шутка от модели про машинное обучение.
P.S. Если хотите потестить модель, напишите в комменты запрос - сгенерю за вас. Либо можете зарегаться сами, в статье все ссылки.
https://habr.com/ru/post/703568/
В качестве иллюстрации, вот вам шутка от модели про машинное обучение.
P.S. Если хотите потестить модель, напишите в комменты запрос - сгенерю за вас. Либо можете зарегаться сами, в статье все ссылки.
https://habr.com/ru/post/703568/
🔥10❤4👍2
Как и где искать новую работу.
Собрал небольшую заметку про поиск работы (больше про зарубежные компании). Тут оговорка, что в большинстве позиций нужно, чтобы у вас было право работы на территории страны. Но есть и вакансии full-remote и с релокацией.
Во-первых, нужно актуализировать или составить CV (резюме), профиль на Linkedin и других платформах.
1. Посмотреть материалы гарварда.
2. Полистать закрепы и примеры в чате @resume_review
3. Составить резюме. Я использовал вот такой шаблон в overleaf
4. Можно закинуть CV в чат из 2 пункта для обратной связи.
Во-вторых, искать вакансии и подаваться.
1. Найти рефералов (человек из компании, который вас рекомендует) в компании через знакомых, чаты и сеть Linkedin. Самый рабочий способ, если хотите в конкретные компании.
2. Заполнить свой профиль на Linkedin. Будут прилетать вакансии от рекрутеров в личку/на почту. Откликался на вакансии через сам Linkedin, отдача маленькая, но собесы оттуда были.
3. Откликаться на вакансии в чатах. На первый этап точно попадете. Круто, что в #_jobs в слаке ods, описание вакансий сразу с вилкой зп.
4. Бот @g_jobbot. Были и предложения, и офферы, и сам откликался.
5. На hackernews каждый месяц появляется тред, где публикуют вакансии. Вот их агрегатор.
6. Есть разные ресурсы, которые матчат вас с работодателем. Вроде honeypot. Я пробовал, даже был собес. Но там были низкие вилки и мало предложений.
7. Indeed.com или angel.co Регался, даже была пара собесов оттуда.
8. Находить на crunchbase свежие стартапы, которые подняли раунд и теперь нанимают. Не пробовал такой способ, но хотел.
Еще можно подаваться напрямую в компании через сайт, но я такой способ не пробовал без рефералов.
Напишите в комменты, какие еще ресурсы вам помогали в поиске работы. Или что из этого списка cработало.
Собрал небольшую заметку про поиск работы (больше про зарубежные компании). Тут оговорка, что в большинстве позиций нужно, чтобы у вас было право работы на территории страны. Но есть и вакансии full-remote и с релокацией.
Во-первых, нужно актуализировать или составить CV (резюме), профиль на Linkedin и других платформах.
1. Посмотреть материалы гарварда.
2. Полистать закрепы и примеры в чате @resume_review
3. Составить резюме. Я использовал вот такой шаблон в overleaf
4. Можно закинуть CV в чат из 2 пункта для обратной связи.
Во-вторых, искать вакансии и подаваться.
1. Найти рефералов (человек из компании, который вас рекомендует) в компании через знакомых, чаты и сеть Linkedin. Самый рабочий способ, если хотите в конкретные компании.
2. Заполнить свой профиль на Linkedin. Будут прилетать вакансии от рекрутеров в личку/на почту. Откликался на вакансии через сам Linkedin, отдача маленькая, но собесы оттуда были.
3. Откликаться на вакансии в чатах. На первый этап точно попадете. Круто, что в #_jobs в слаке ods, описание вакансий сразу с вилкой зп.
4. Бот @g_jobbot. Были и предложения, и офферы, и сам откликался.
5. На hackernews каждый месяц появляется тред, где публикуют вакансии. Вот их агрегатор.
6. Есть разные ресурсы, которые матчат вас с работодателем. Вроде honeypot. Я пробовал, даже был собес. Но там были низкие вилки и мало предложений.
7. Indeed.com или angel.co Регался, даже была пара собесов оттуда.
8. Находить на crunchbase свежие стартапы, которые подняли раунд и теперь нанимают. Не пробовал такой способ, но хотел.
Еще можно подаваться напрямую в компании через сайт, но я такой способ не пробовал без рефералов.
Напишите в комменты, какие еще ресурсы вам помогали в поиске работы. Или что из этого списка cработало.
❤14👍8
Мое резюме на момент апреля, мб пригодится как пример. Одно на mle позиции, второе на swe.
🔥13
Написал статью на основе заметок по собеседованиям отсюда. В качестве доп материалов добавил:
+ скрин литкода
+ фото заката с Бали
+ фото домашнего рабочего места в Москве
+ общие советы для прохождения собеседований
https://habr.com/ru/post/704128/
+ скрин литкода
+ фото заката с Бали
+ фото домашнего рабочего места в Москве
+ общие советы для прохождения собеседований
https://habr.com/ru/post/704128/
Хабр
Как устроен процесс найма и собеседований на позицию Machine Learning Engineer
Это статья с 21-ой ссылкой о подготовке к собеседованиям на позиции Machine Learning Engineer. Статью собрал на основе заметок из своего канала в тг . Контекст Cейчас я отвечаю за ML в...
👍21❤5🌚1
Как я подтягивал английский.
В школе нам преподавали английский на 8 из 10. Моя первая учительница нашла себе англичанина по переписке и уехала к нему жить в Манчестер. В универе как иностранный я выбрал французский, а английский никак не использовал. Когда уже начал работать – английский был нужен на уровне читать тексты и смотреть лекции. Разговорный, который нужен для поиска работы, никак не практиковался, а зря. Собеседования - это стресс, собеседования на английском - двойной стресс. Поэтому параллельно с подготовкой к ним, я начал прокачивать и язык.
Мои принципы прокачки английского
+ цель - хочу спокойно проходить все этапы (алгоритмы, дизайн, behavioral) на английском (британский, американский, разные акценты).
+ хочу при заданном затраченном времени получить максимум результата.
+ не хочу заниматься “3 раза в неделю по часу вечером в течение полугода чтобы отличать все времена perfect между собой”
+ не хочу делать однотипные упражнения
Общая система
Занимался английским 40 минут каждое утро во время завтрака, так привычка английского закрепилась за завтрак. Иногда делал перерыв и потом занимался еще минут 40. На выходных минут по 20-30 чисто слова повторял.
Набор упражнений
1. Словарный запас. Взял топ 1000 частотных слов, пролистал и все что не знаю закинул в анки карты и повторял. Потом взял топ 3к слов.
2. Умение говорить, умение писать и грамматика. Взял кучу вопросов к behavioral , накидал ответы через голосовой ввод -> закинул в Grammarly , чтобы проверить ошибки -> темы, в которых ошибаюсь прочитал в Murphy и поделал упражнения.
3. Слушание. Смотрел выступления на ютубе или daily dictation и устраивал себе диктант. Либо пересказывал своими словами и опять в пайплайн грамматики.
4. Умение говорить. Нашел преподов на italki из стран с высоким уровнем английского, но низкими доходами:Кения, Филлипины, ЮАР, Нигеия, Малайзия . С ними устраивал мок-собеседования либо общение с неожиданными вопросами от них и разбором.
5. Читал фоном книги на англ, сериалы. Но это я обучением не считаю, это потребление контента.
Проверка себя.
Тест через приложение English score для оценки грамматики, слов, аудирования. Моки собеседований и реальные собеседования для оценки разговорного английского. Особенно, когда звонят на мобильный телефон и там связь плохая.
Пост прям по верхам написал, потом подробнее разберу второй пункт с упражнениями и что конкретно делал. В комментариях, прошу поделиться, кто как качает мышцу английского.
В школе нам преподавали английский на 8 из 10. Моя первая учительница нашла себе англичанина по переписке и уехала к нему жить в Манчестер. В универе как иностранный я выбрал французский, а английский никак не использовал. Когда уже начал работать – английский был нужен на уровне читать тексты и смотреть лекции. Разговорный, который нужен для поиска работы, никак не практиковался, а зря. Собеседования - это стресс, собеседования на английском - двойной стресс. Поэтому параллельно с подготовкой к ним, я начал прокачивать и язык.
Мои принципы прокачки английского
+ цель - хочу спокойно проходить все этапы (алгоритмы, дизайн, behavioral) на английском (британский, американский, разные акценты).
+ хочу при заданном затраченном времени получить максимум результата.
+ не хочу заниматься “3 раза в неделю по часу вечером в течение полугода чтобы отличать все времена perfect между собой”
+ не хочу делать однотипные упражнения
Общая система
Занимался английским 40 минут каждое утро во время завтрака, так привычка английского закрепилась за завтрак. Иногда делал перерыв и потом занимался еще минут 40. На выходных минут по 20-30 чисто слова повторял.
Набор упражнений
1. Словарный запас. Взял топ 1000 частотных слов, пролистал и все что не знаю закинул в анки карты и повторял. Потом взял топ 3к слов.
2. Умение говорить, умение писать и грамматика. Взял кучу вопросов к behavioral , накидал ответы через голосовой ввод -> закинул в Grammarly , чтобы проверить ошибки -> темы, в которых ошибаюсь прочитал в Murphy и поделал упражнения.
3. Слушание. Смотрел выступления на ютубе или daily dictation и устраивал себе диктант. Либо пересказывал своими словами и опять в пайплайн грамматики.
4. Умение говорить. Нашел преподов на italki из стран с высоким уровнем английского, но низкими доходами:
5. Читал фоном книги на англ, сериалы. Но это я обучением не считаю, это потребление контента.
Проверка себя.
Тест через приложение English score для оценки грамматики, слов, аудирования. Моки собеседований и реальные собеседования для оценки разговорного английского. Особенно, когда звонят на мобильный телефон и там связь плохая.
Пост прям по верхам написал, потом подробнее разберу второй пункт с упражнениями и что конкретно делал. В комментариях, прошу поделиться, кто как качает мышцу английского.
👍41❤9🔥8⚡3
Как работают text2image модели и как получаются такие качественные изображения?
Короче, если кто-то хочет разобраться в работе text-to-image моделей (stable diffusion, dalle-2, midjourney) вот короткая подборка, в зависимости от вашего уровня знакомства c ML.
1. Простая интерактивная статья от WP. Как текст превращается в картинки и что такое диффузия? Статья подойдет всем.
2. Статья от Jay Alammar. Уже сложнее, надо понимать что такое embeddings, autoencoder, latent space, UNet. Зато подробные иллюстрации помогают понять архитектуру моделей и как происходит forward pass. А еще если вам больше нравится больше смотреть видео, чем читать статьи, там в конце список видео а-ля How does Stable Diffusion work?
3. Статья от Eugen Yan. Разбор основных идей, которые лежат в основе text-2-image. Плюс в конце есть ссылки на сами статьи, если кто-то захочет почитать сам. Вообще, Eugen Yan - крут. У него понятные разборы, которые сразу пачку статей покрывают + он автор репы https://github.com/eugeneyan/applied-ml.
Короче, если кто-то хочет разобраться в работе text-to-image моделей (stable diffusion, dalle-2, midjourney) вот короткая подборка, в зависимости от вашего уровня знакомства c ML.
1. Простая интерактивная статья от WP. Как текст превращается в картинки и что такое диффузия? Статья подойдет всем.
2. Статья от Jay Alammar. Уже сложнее, надо понимать что такое embeddings, autoencoder, latent space, UNet. Зато подробные иллюстрации помогают понять архитектуру моделей и как происходит forward pass. А еще если вам больше нравится больше смотреть видео, чем читать статьи, там в конце список видео а-ля How does Stable Diffusion work?
3. Статья от Eugen Yan. Разбор основных идей, которые лежат в основе text-2-image. Плюс в конце есть ссылки на сами статьи, если кто-то захочет почитать сам. Вообще, Eugen Yan - крут. У него понятные разборы, которые сразу пачку статей покрывают + он автор репы https://github.com/eugeneyan/applied-ml.
❤13🤯1
commit history
Как работают text2image модели и как получаются такие качественные изображения? Короче, если кто-то хочет разобраться в работе text-to-image моделей (stable diffusion, dalle-2, midjourney) вот короткая подборка, в зависимости от вашего уровня знакомства c…
Если у вас совсем нет времени, но вы знакомы с терминологией, то вот вам основные идеи, которые лежат в основе моделей. Супер-краткий пересказ статьи Eugen Yan.
+ Diffusion – добавляем гауссовский шум к данным и учимся его предсказывать. На инференсе сэмплим изображение из рандомного шума. (По сути вычитаем шум которые предсказали.) Такие модели могут просто генерить изображения в стиле данных, на котором обучались.
Статья: Denoising Diffusion Probabilistic Models (DDPM; 2020)
+ Text conditioning – добавляем conditioning (опору на текст), чтобы управлять генерацией и получать изображения из текста.
Сначала в Contrastive Language-Image Pre-training (CLIP; 2021) научились сопоставлять изображения и тексты в одно семантическое пространство: вектор текста “щенок лабрадора” и вектор фото щенка лабрадора будут расположены близко. Потом в DALL·E (2021) токенизровали изображение, токенизировали текст и конкатенировали их, получая text_token_1, …, text_token_n, image_token_1, …, image_token_n. Все закинули в трансформер. На инференсе начинали с текстовых токенов и авторегрессионно предсказывали визуальные токены. В DALL·E 2 (aka unCLIP, 2022) использовали conditioning эмбеддинг из CLIP и авторегрессионный процесс из Dalle. Теперь из вектора текста еще предсказывается clip embedding, а потом происходит финальное декодирование в изображение. В Imagen (2022) энкодеры из CLIP заменили на T5 для текста и UNet для изображений. Там сначала генерируют изображение 64x64, а потом делают super-resolution в 1024x1024.
+ Classifier guidance – сильнее двигаем результат в сторону текста, считай управляем степенью влияния промта. В classifier-guidance paper (2021) добавили с определённым весом градиенты с классификатора обученного на шумном ImageNet, чтобы двигать изображение сильнее в сторону класса. Потом в classifier-free guidance (2021) реализовали conditional dropout, иногда заменяя текстовый Промт на Null токен. Изображение с промтом: guidance=1, без промта guidance=0. И теперь модель могла генерировать изображения с разной степенью conditioning (опоры на текст), управляя параметром guidance.
+ Latent space – шум добавляем не к пикселям изображений а к их эмбеддингам. На инференсе из шума сэмплим вектор, а потом декодируем его в изображение. Stable Diffusion (2021) Сначала векторизуем изображение, используя VAE. Потом удаляем шум из полученного вектора с помощью UNet и декодируем полученный вектор. В итоге Stable diffusion учиться и сэмплит быстрее, так как работает не с пикселями, а с сжатыми векторами.
+ Diffusion – добавляем гауссовский шум к данным и учимся его предсказывать. На инференсе сэмплим изображение из рандомного шума. (По сути вычитаем шум которые предсказали.) Такие модели могут просто генерить изображения в стиле данных, на котором обучались.
Статья: Denoising Diffusion Probabilistic Models (DDPM; 2020)
+ Text conditioning – добавляем conditioning (опору на текст), чтобы управлять генерацией и получать изображения из текста.
Сначала в Contrastive Language-Image Pre-training (CLIP; 2021) научились сопоставлять изображения и тексты в одно семантическое пространство: вектор текста “щенок лабрадора” и вектор фото щенка лабрадора будут расположены близко. Потом в DALL·E (2021) токенизровали изображение, токенизировали текст и конкатенировали их, получая text_token_1, …, text_token_n, image_token_1, …, image_token_n. Все закинули в трансформер. На инференсе начинали с текстовых токенов и авторегрессионно предсказывали визуальные токены. В DALL·E 2 (aka unCLIP, 2022) использовали conditioning эмбеддинг из CLIP и авторегрессионный процесс из Dalle. Теперь из вектора текста еще предсказывается clip embedding, а потом происходит финальное декодирование в изображение. В Imagen (2022) энкодеры из CLIP заменили на T5 для текста и UNet для изображений. Там сначала генерируют изображение 64x64, а потом делают super-resolution в 1024x1024.
+ Classifier guidance – сильнее двигаем результат в сторону текста, считай управляем степенью влияния промта. В classifier-guidance paper (2021) добавили с определённым весом градиенты с классификатора обученного на шумном ImageNet, чтобы двигать изображение сильнее в сторону класса. Потом в classifier-free guidance (2021) реализовали conditional dropout, иногда заменяя текстовый Промт на Null токен. Изображение с промтом: guidance=1, без промта guidance=0. И теперь модель могла генерировать изображения с разной степенью conditioning (опоры на текст), управляя параметром guidance.
+ Latent space – шум добавляем не к пикселям изображений а к их эмбеддингам. На инференсе из шума сэмплим вектор, а потом декодируем его в изображение. Stable Diffusion (2021) Сначала векторизуем изображение, используя VAE. Потом удаляем шум из полученного вектора с помощью UNet и декодируем полученный вектор. В итоге Stable diffusion учиться и сэмплит быстрее, так как работает не с пикселями, а с сжатыми векторами.
eugeneyan.com
Text-to-Image: Diffusion, Text Conditioning, Guidance, Latent Space
The fundamentals of text-to-image generation, relevant papers, and experimenting with DDPM.
👍8❤4
Решил расширить заметку про английский и написал статью на хабр. Еще добавил туда подборку полезных советов и ссылок, которые мне оставили в комментариях здесь и в Linkedin.
https://habr.com/ru/post/706490/
https://habr.com/ru/post/706490/
Хабр
Как AI помогает в изучении английского? Личный опыт
В начале года я решил поменять работу и начал готовится к собеседованиям. О том, как готовился к алгоритмам, систем дизайну и поведенческому интервью описал в статье «Как я проходил собеседования...
❤15🔥7👍4👏1
Всем привет! Меня зовут Ибрагим. Занимаюсь large scale данными для агентов в nebius. Живу в Лондоне, получил UK Global Talent визу.
Из последнего:
> SWE-rebench – датасет задач для software engineering агентов, стал самым скачиваемым датасетом на huggingface в августе 2025го с 3 млн скачиваний. Тут же рядом на базе этого датасета лидерборд моделей для software engineering агентов
> До этого делал yet another best data-mix for llm pre-training (с командой собрали качественный датасет на 5T токенов в начале 2024го)
> в одном из хасл стартапов экосистемы TON с нуля запил все реки, набил много шишаков по персонализации и рекомендашкам. Даже читал платный мастер-класс для топов одной большой компании с зеленой символикой.
> С января по май 2022 был в саббатикале, проходил курсы, качал литкод и английский, читал книги.
> До этого обучал нейронки для ассистентов Салют. Сделал с нуля: систему отлова негатива в Салюте и паре других мест, систему аннотирования сообщений (эмоции, тема и 20+ других признаков), фильтры и ранкер в болталке, тулзу для анализа больших массивов текстов и ускорения разметки из которой вырос внутренний продукт и другие штуки. Было круто создавать продукт с нуля, очень быстро прокачался, за это спасибо моим сенсеям. Подробнее рассказывал в подкасте Яндекса.
> Был в самом первом наборе в школу 21, бассейн (месячный отбор в школу) проходил буквально на стройке. Закончил школу 21 в 2021-ом и по итогам написал статью.
> По образованию я врач-стоматолог и организатор здравоохранения.
В 2018-ом году закончил с отличием стомат фак Казанского ГМУ, а в 2020-м ординатуру по орг здраву. Во время учебы учился, тусил, работал, организовывал студ весны и занимался волонтерством. Еще написал штук 20 научных статей разного уровня.
> Люблю учиться новому, поэтому как-то пробовал себя в стендапе и даже сходил на фестиваль открытого микрофона на ТНТ.
Изначально я начинал вести канал @ibragim_txt для друзей, но потом решил завести еще и этот канал @c0mmit, чтобы делиться заметками про работу и машинное обучение.
Из последнего:
> SWE-rebench – датасет задач для software engineering агентов, стал самым скачиваемым датасетом на huggingface в августе 2025го с 3 млн скачиваний. Тут же рядом на базе этого датасета лидерборд моделей для software engineering агентов
> До этого делал yet another best data-mix for llm pre-training (с командой собрали качественный датасет на 5T токенов в начале 2024го)
> в одном из хасл стартапов экосистемы TON с нуля запил все реки, набил много шишаков по персонализации и рекомендашкам. Даже читал платный мастер-класс для топов одной большой компании с зеленой символикой.
> С января по май 2022 был в саббатикале, проходил курсы, качал литкод и английский, читал книги.
> До этого обучал нейронки для ассистентов Салют. Сделал с нуля: систему отлова негатива в Салюте и паре других мест, систему аннотирования сообщений (эмоции, тема и 20+ других признаков), фильтры и ранкер в болталке, тулзу для анализа больших массивов текстов и ускорения разметки из которой вырос внутренний продукт и другие штуки. Было круто создавать продукт с нуля, очень быстро прокачался, за это спасибо моим сенсеям. Подробнее рассказывал в подкасте Яндекса.
> Был в самом первом наборе в школу 21, бассейн (месячный отбор в школу) проходил буквально на стройке. Закончил школу 21 в 2021-ом и по итогам написал статью.
> По образованию я врач-стоматолог и организатор здравоохранения.
В 2018-ом году закончил с отличием стомат фак Казанского ГМУ, а в 2020-м ординатуру по орг здраву. Во время учебы учился, тусил, работал, организовывал студ весны и занимался волонтерством. Еще написал штук 20 научных статей разного уровня.
> Люблю учиться новому, поэтому как-то пробовал себя в стендапе и даже сходил на фестиваль открытого микрофона на ТНТ.
Изначально я начинал вести канал @ibragim_txt для друзей, но потом решил завести еще и этот канал @c0mmit, чтобы делиться заметками про работу и машинное обучение.
huggingface.co
nebius/SWE-rebench · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤49👍24🔥18👌1🕊1🤡1🍓1
commit history pinned «Всем привет! Меня зовут Ибрагим. Занимаюсь large scale данными для агентов в nebius. Живу в Лондоне, получил UK Global Talent визу. Из последнего: > SWE-rebench – датасет задач для software engineering агентов, стал самым скачиваемым датасетом на huggingface…»