Forwarded from ibragim.txt
Как у меня дела.
В конце января перестал работать: взял саббатикал (длительный отпуск за свой счет, во время которого за сотрудником сохраняется должность) в сбердевайсах, чтобы отдохнуть, поучиться новому, посмотреть что еще нравится и сменить работу.
Как определенный итог своей работы: рассказал о том, чем мы занимались. В начале февраля сходил на подкаст к яндексу поболтать про болталки, а потом мы выступили с Сашей на перенесенном Хайлоаде.
В девайсы я уже не вернулся, в феврале-марте поготовился к собеседованиям, начал собеседования в апреле, а с мая вышел в новое место.
Получил пару офферов (некоторые дошли уже во время работы): большая компания в Европе, стартап в Англии, Яндекс. Начал процессы в Meta, Google, Amazon (тут большое спасибо рефералам), но параллельно с новой работой устал собеседоваться и остановил все. В итоге сошелся с ребятами с которыми был самый короткий собес (пообщались с СТО и партнером из фонда): сильная тех команда, четкий фонд за спиной, возможность с нуля выстроить весь ML и full-remote. Подумал, что в большие компании можно будет попробоваться в любой момент, а сейчас время для рок-н-ролла. Как сделаем x10 по метрикам - напишу подробнее, что делаем.
Сюда буду писать как и раньше, не очень регулярно, какие-то свои черновики статей, рефлексию по книгам, курсам и свой опыт. А в @c0mmit как строим ML системы и другие рабочие моменты.
P.S. Сейчас сижу с ребятами на Бали, поэтому будете тут — пишите, сходим на завтрак!
В конце января перестал работать: взял саббатикал (длительный отпуск за свой счет, во время которого за сотрудником сохраняется должность) в сбердевайсах, чтобы отдохнуть, поучиться новому, посмотреть что еще нравится и сменить работу.
Как определенный итог своей работы: рассказал о том, чем мы занимались. В начале февраля сходил на подкаст к яндексу поболтать про болталки, а потом мы выступили с Сашей на перенесенном Хайлоаде.
В девайсы я уже не вернулся, в феврале-марте поготовился к собеседованиям, начал собеседования в апреле, а с мая вышел в новое место.
Получил пару офферов (некоторые дошли уже во время работы): большая компания в Европе, стартап в Англии, Яндекс. Начал процессы в Meta, Google, Amazon (тут большое спасибо рефералам), но параллельно с новой работой устал собеседоваться и остановил все. В итоге сошелся с ребятами с которыми был самый короткий собес (пообщались с СТО и партнером из фонда): сильная тех команда, четкий фонд за спиной, возможность с нуля выстроить весь ML и full-remote. Подумал, что в большие компании можно будет попробоваться в любой момент, а сейчас время для рок-н-ролла. Как сделаем x10 по метрикам - напишу подробнее, что делаем.
Сюда буду писать как и раньше, не очень регулярно, какие-то свои черновики статей, рефлексию по книгам, курсам и свой опыт. А в @c0mmit как строим ML системы и другие рабочие моменты.
P.S. Сейчас сижу с ребятами на Бали, поэтому будете тут — пишите, сходим на завтрак!
В текущий момент я занимаюсь рекомендациями. Лента, рекомендации авторов, ранжирование. Начали с эвристик: свежее, популярное по регионам, бизнес логика для авторов. Потом пошли в ход коллаборативная фильтрация, item2vec, бустинг.
Про что думаю написать.
+ Рекомендации: feed, реклама, рекомендации авторов.
+ Скомбинировать с ML бизнес-логику: размазать трафик по авторам, популярное, подписки, бусты итп
+ Попутные задачи: автомодерация контента, авто тэгирование, анализ на ботов и спамеров.
+ Аналитика: стандартные продуктовые метрики в кликхаусе, RFM, АБ-тесты
Но в начале напишу о собесах и выложу материалы по подготовке.
Про что думаю написать.
+ Рекомендации: feed, реклама, рекомендации авторов.
+ Скомбинировать с ML бизнес-логику: размазать трафик по авторам, популярное, подписки, бусты итп
+ Попутные задачи: автомодерация контента, авто тэгирование, анализ на ботов и спамеров.
+ Аналитика: стандартные продуктовые метрики в кликхаусе, RFM, АБ-тесты
Но в начале напишу о собесах и выложу материалы по подготовке.
👍15🔥1
Подборка видов этапов собеседований, которые попадались и как к ним готовился:
+ Алгоритмическая секция. Решал карточки с литкода и делал мок-интервью. Тут писал подробнее.
+ Machine Learning System Design (как будешь ML задачу решать со старта до прода). CS 329S, буклеты, видео от fb + мок-интервью. Собрал попутно такой гитхаб.
+ Вопросы по ML теории. Стандартные: метрики, разобрать модель, написать пару формул. Учебник по ML от шада почитал и освежил в памяти что-то погуглив конкретные темы.
+ Дают код, надо найти и исправить ошибки. Из того, что поинтереснее: дали код обучения языковой модели с расписанными трансформер блоком и аттеншеном. Специально не готовился, но можно полистать реализации from scratch. Помню, что видел классные ссылки, мб кто-то скинет или сам опубликую как вспомню.
+ Вопросы по темам: питон, ML, CS, NLP.
+ Рассказываешь о своем опыт и с тобой погружаются вглубь и в особенности реализаций. Данные как размечали, как модели проверяли, как выкатывали. Тут просто более развернуто рассказал про пункты из CV.
+ Behavioural - стандартные вопросы, заранее заготовил ответы по STAR на распространенные вопросы.
+ Задачи на логику и по математике (теор вер, статистика). Не готовился к такому.
+ Просто за жизнь и опыт пообщаться, сходить в бар.
Примеры вопросов из этапа с общением.
+ Какая последняя статья понравилась? О чем? Почему понравилась?
+ Что будешь делать в первый рабочий день?
+ Какой факап был самый жесткий?
+ Алгоритмическая секция. Решал карточки с литкода и делал мок-интервью. Тут писал подробнее.
+ Machine Learning System Design (как будешь ML задачу решать со старта до прода). CS 329S, буклеты, видео от fb + мок-интервью. Собрал попутно такой гитхаб.
+ Вопросы по ML теории. Стандартные: метрики, разобрать модель, написать пару формул. Учебник по ML от шада почитал и освежил в памяти что-то погуглив конкретные темы.
+ Дают код, надо найти и исправить ошибки. Из того, что поинтереснее: дали код обучения языковой модели с расписанными трансформер блоком и аттеншеном. Специально не готовился, но можно полистать реализации from scratch. Помню, что видел классные ссылки, мб кто-то скинет или сам опубликую как вспомню.
+ Вопросы по темам: питон, ML, CS, NLP.
+ Рассказываешь о своем опыт и с тобой погружаются вглубь и в особенности реализаций. Данные как размечали, как модели проверяли, как выкатывали. Тут просто более развернуто рассказал про пункты из CV.
+ Behavioural - стандартные вопросы, заранее заготовил ответы по STAR на распространенные вопросы.
+ Задачи на логику и по математике (теор вер, статистика). Не готовился к такому.
+ Просто за жизнь и опыт пообщаться, сходить в бар.
Примеры вопросов из этапа с общением.
+ Какая последняя статья понравилась? О чем? Почему понравилась?
+ Что будешь делать в первый рабочий день?
+ Какой факап был самый жесткий?
👍11
Этап собеседования Machine Learning System Design.
Этот этап попадался в 9 из 10 компаний. Задача - полностью спроектировать ML решение. От определения задачи и метрик, заканчивая деплоем и оптимизацией.
Здесь важный момент. Время собеседования ограничено. Поэтому с одной стороны важно не растекаться по дереву, с другой стороны важно покрыть все этапы решения ML задачи, а в некоторые даже погрузиться вглубь, чтобы показать что шарите.
В этом помогает четкая структура ответа:
1. Problem definition and requirement clarification. Определение задачи и оценка требований.
2. Data. Источники данных, какая разметка, как выглядит сэмпл.
3. Evaluation. Какие метрики, сравнение с бейзлайном.
4. Features and model. Препроцессинг, варианты моделей.
5. Online eval, deploy. Выкатка + АБ.
6. Further actions. Как дебажить/обновлять/улучшать/ускорять/итд модель.
Каждый из этапов более подробно разобран в репе ML design primer.
Порядок подготовки.
+ Посмотреть видео fb, яндекса, полистать гитхаб ml design primer.
+ Сделать себе пробный собес попробовать задизайнить систему из списка.
+ Почитать пару разборов из технических блогов компаний или инженеров. Например, тут или тут
+ Делать моки (mock-interview). Это когда вы созваниваетесь и устраиваете друг-другу пробный собес. Моки можно искать в этом чате.
+ Получаете фидбек с мока и идете качать слабые места, читаете еще статьи или главы из 329s.
Этот этап попадался в 9 из 10 компаний. Задача - полностью спроектировать ML решение. От определения задачи и метрик, заканчивая деплоем и оптимизацией.
Здесь важный момент. Время собеседования ограничено. Поэтому с одной стороны важно не растекаться по дереву, с другой стороны важно покрыть все этапы решения ML задачи, а в некоторые даже погрузиться вглубь, чтобы показать что шарите.
В этом помогает четкая структура ответа:
1. Problem definition and requirement clarification. Определение задачи и оценка требований.
2. Data. Источники данных, какая разметка, как выглядит сэмпл.
3. Evaluation. Какие метрики, сравнение с бейзлайном.
4. Features and model. Препроцессинг, варианты моделей.
5. Online eval, deploy. Выкатка + АБ.
6. Further actions. Как дебажить/обновлять/улучшать/ускорять/итд модель.
Каждый из этапов более подробно разобран в репе ML design primer.
Порядок подготовки.
+ Посмотреть видео fb, яндекса, полистать гитхаб ml design primer.
+ Сделать себе пробный собес попробовать задизайнить систему из списка.
+ Почитать пару разборов из технических блогов компаний или инженеров. Например, тут или тут
+ Делать моки (mock-interview). Это когда вы созваниваетесь и устраиваете друг-другу пробный собес. Моки можно искать в этом чате.
+ Получаете фидбек с мока и идете качать слабые места, читаете еще статьи или главы из 329s.
👍10
Как сформулировать ML задачу?
Каждый этап разбирать не буду, но о первым расскажу на примере. Допустим, дали задачу сделать фид для контента. Цель: хотим сделать рекомендации контента(текстовые посты, картинки, видео). Текущая лента обратная хронологическая, хочется сделать персонализированной.
Первый вопрос: зачем? Кажется, что с персональной лентой пользователи будут чаще заходить, залипать в ленте, шерить продукт друзьям. Но, это только предположение, которое нуждается в проверке. Поэтому на старте определимся, как будем оценивать успех или неуспех в количественных показателях.
Продуктовые метрики в рамках собеседования я для себя разделил на три уровня:
1. Деньги 💰– revenue, arpu, конверсии в покупку.
2. Счастье юзера 😍 – like/view rate, avg session time, views count, etc
3. Технические метрики 🎯– recall@k, diversity of items, etc. Соответственно цель наша больше денег, а гипотеза в том, что повысив технические метрики –> повысим счастье юзера –> заработаем больше деньги. В жизни, к сожалению, зависимость не всегда прямая. Но для задачи этот момент опустим.
В cs329s этот этап разбит на 4 шага.
1. Framing. Какая ML проблема? Регрессия, Классификация - multiclass, multilabel.
2. Objectives. На какие подзадачи можно разделить? Например, Прокачать engagement ленты, но при этом не уронить качество постов, не форсить спам и кликбейты.
3. Constraints. Ограничения ресурсов, приватность данных, требования регуляторов.
4. Phases. Как будете внедрять решение: эвристика -> простая модель -> оптимизация простой модели -> сложная модель.
По данному пункту советую полистать лекцию 2 в cs329s и если что-то непонятно посмотреть в Lecture Note.
Еще один важный момент: на этом этапе задавать уточняющие вопросы, чтобы понять контекст задачи: как решается задача сейчас, число пользователей, доступные ресурсы итп.
Каждый этап разбирать не буду, но о первым расскажу на примере. Допустим, дали задачу сделать фид для контента. Цель: хотим сделать рекомендации контента(текстовые посты, картинки, видео). Текущая лента обратная хронологическая, хочется сделать персонализированной.
Первый вопрос: зачем? Кажется, что с персональной лентой пользователи будут чаще заходить, залипать в ленте, шерить продукт друзьям. Но, это только предположение, которое нуждается в проверке. Поэтому на старте определимся, как будем оценивать успех или неуспех в количественных показателях.
Продуктовые метрики в рамках собеседования я для себя разделил на три уровня:
1. Деньги 💰– revenue, arpu, конверсии в покупку.
2. Счастье юзера 😍 – like/view rate, avg session time, views count, etc
3. Технические метрики 🎯– recall@k, diversity of items, etc. Соответственно цель наша больше денег, а гипотеза в том, что повысив технические метрики –> повысим счастье юзера –> заработаем больше деньги. В жизни, к сожалению, зависимость не всегда прямая. Но для задачи этот момент опустим.
В cs329s этот этап разбит на 4 шага.
1. Framing. Какая ML проблема? Регрессия, Классификация - multiclass, multilabel.
2. Objectives. На какие подзадачи можно разделить? Например, Прокачать engagement ленты, но при этом не уронить качество постов, не форсить спам и кликбейты.
3. Constraints. Ограничения ресурсов, приватность данных, требования регуляторов.
4. Phases. Как будете внедрять решение: эвристика -> простая модель -> оптимизация простой модели -> сложная модель.
По данному пункту советую полистать лекцию 2 в cs329s и если что-то непонятно посмотреть в Lecture Note.
Еще один важный момент: на этом этапе задавать уточняющие вопросы, чтобы понять контекст задачи: как решается задача сейчас, число пользователей, доступные ресурсы итп.
Google Docs
cs329s_2022_02_slides_mlsd
Machine Learning Systems Design Lecture 2: ML and Data Systems Fundamentals Reply in Zoom chat: What MLOps tools would you want tutorials on? CS 329S (Chip Huyen, 2022) | cs329s.stanford.edu
👍10🔥6
📝 Собрал пак советов по оффлайн разметке.
Больше о разметке в контексте NLP. Часть советов покажутся очевидными, но все равно упомяну. Подходит и для in-house разметки, и для outsource разметки в сервисах (толока, mturk)
1. Прежде чем составить задание на разметку, попробуйте сами разметить пару десятков примеров. Так вы поймете, насколько данные и классы корректны.
2. В самом задании добавьте по паре примеров на класс для понимания. Здорово, если добавите сложный пример и в скобках объясните логику.
3. Сначала сделайте небольшой пробный батч и скорректируйте задание если нужно.
4. Примеры, которые вы разметили сами – используйте как оценочные для разметчиков, чтобы размечали только добросовестные разметчики.
5. Используйте меру согласованности между разметчиками (например, Fleiss’ kappa). Несогласованные сэмплы - либо треш, либо спорные сэмплы, которые наоборот помогут модели лучше разделить классы.
6. Даже если ресурсов мало, разметьте хотя бы golden set, на котором оценивайте метрики и другие способы разметки (active learning, разметкой эвристиками итп.)
7. Есть такая частая проблема в текстовых классификациях, что необходимые классы в сумме составляют только 0.001% от выборки. А остальное – класс other. Чтобы не тратить впустую деньги на разметку ненужных данных, обучите модель на небольшом куске разметки, насэмплите рандома в other и разметьте моделью выборку. А потом уже отправляйте на разметку, только то что разметилось, как не other.
8. Чтобы выжать максимум из разметки, помимо обычной дедупликации, можете сделать еще дедупликацию по нечетким совпадением или по близости эмбеддингов по порогу.
9. Что делать если данных нет? Ищите открытые датасеты по своей задаче. Если датасет на другом языке - можно перевести.
10. Можно скрапить сайты и выдачу из поиска. Как-то нам нужны были примеры, где люди рассказывают о себе и своих увлечениях, я наскрапил примеров с сайта для знакомств в духе анкет в газете 2000х.
11. Если данных совсем нет, можно сделать следующее: вручную написать по паре десятков разных примеров на класс. Векторизовать их sentence encoder и поискать ближайшие по косинусу в большом корпусе.
12. Если вам нужна специализированная разметка, а разметчиков-специалистов мало, то попробуйте переформулировать задачу для более простой разметки. Пример: нам нужно было разметить часть текстовых сообщений из логов, на предмет корректности их интента (>1k классов). Некоторые интенты похожи между собой. В них разбираются только внутренние разметчики. Задачу из "прочитать описания интентов и определить нужный" мы переформировали в "kind of NLI". Даны 4 предложения (размечаемый сэмпл + 3 примера из интента) - нужно найти лишний. Если разметчики верно выделяли сэмпл, значит он скорее всего не из этого интента. Спорные примеры уже размечали специалисты.
13. Что делать, если датасет после разметки оказался грязный? Если меньшая часть примеров из классов ошибочно приписаны в другой, то вместо того, чтобы переразмечать весь датасет, то можно разделить датасет на фолды -> обучить по кругу модель и предсказать leave-one-fold -> сохранить предикты с каждого цикла обучения -> переразметить сэмплы, в которых предсказание не совпадает с лейблом.
Напишите в комменты, что бы еще добавили? 🤔
Больше о разметке в контексте NLP. Часть советов покажутся очевидными, но все равно упомяну. Подходит и для in-house разметки, и для outsource разметки в сервисах (толока, mturk)
1. Прежде чем составить задание на разметку, попробуйте сами разметить пару десятков примеров. Так вы поймете, насколько данные и классы корректны.
2. В самом задании добавьте по паре примеров на класс для понимания. Здорово, если добавите сложный пример и в скобках объясните логику.
3. Сначала сделайте небольшой пробный батч и скорректируйте задание если нужно.
4. Примеры, которые вы разметили сами – используйте как оценочные для разметчиков, чтобы размечали только добросовестные разметчики.
5. Используйте меру согласованности между разметчиками (например, Fleiss’ kappa). Несогласованные сэмплы - либо треш, либо спорные сэмплы, которые наоборот помогут модели лучше разделить классы.
6. Даже если ресурсов мало, разметьте хотя бы golden set, на котором оценивайте метрики и другие способы разметки (active learning, разметкой эвристиками итп.)
7. Есть такая частая проблема в текстовых классификациях, что необходимые классы в сумме составляют только 0.001% от выборки. А остальное – класс other. Чтобы не тратить впустую деньги на разметку ненужных данных, обучите модель на небольшом куске разметки, насэмплите рандома в other и разметьте моделью выборку. А потом уже отправляйте на разметку, только то что разметилось, как не other.
8. Чтобы выжать максимум из разметки, помимо обычной дедупликации, можете сделать еще дедупликацию по нечетким совпадением или по близости эмбеддингов по порогу.
9. Что делать если данных нет? Ищите открытые датасеты по своей задаче. Если датасет на другом языке - можно перевести.
10. Можно скрапить сайты и выдачу из поиска. Как-то нам нужны были примеры, где люди рассказывают о себе и своих увлечениях, я наскрапил примеров с сайта для знакомств в духе анкет в газете 2000х.
11. Если данных совсем нет, можно сделать следующее: вручную написать по паре десятков разных примеров на класс. Векторизовать их sentence encoder и поискать ближайшие по косинусу в большом корпусе.
12. Если вам нужна специализированная разметка, а разметчиков-специалистов мало, то попробуйте переформулировать задачу для более простой разметки. Пример: нам нужно было разметить часть текстовых сообщений из логов, на предмет корректности их интента (>1k классов). Некоторые интенты похожи между собой. В них разбираются только внутренние разметчики. Задачу из "прочитать описания интентов и определить нужный" мы переформировали в "kind of NLI". Даны 4 предложения (размечаемый сэмпл + 3 примера из интента) - нужно найти лишний. Если разметчики верно выделяли сэмпл, значит он скорее всего не из этого интента. Спорные примеры уже размечали специалисты.
13. Что делать, если датасет после разметки оказался грязный? Если меньшая часть примеров из классов ошибочно приписаны в другой, то вместо того, чтобы переразмечать весь датасет, то можно разделить датасет на фолды -> обучить по кругу модель и предсказать leave-one-fold -> сохранить предикты с каждого цикла обучения -> переразметить сэмплы, в которых предсказание не совпадает с лейблом.
Напишите в комменты, что бы еще добавили? 🤔
👍7❤3👌2
На выходных баловался с ChatGPT и листал треды твиттера. Результатом стала статья на хабре. Если коротко, то модель крутая. Думаю, что пишет код лучше, чем Copilot, а вдобавок, может генерить много больше.
В качестве иллюстрации, вот вам шутка от модели про машинное обучение.
P.S. Если хотите потестить модель, напишите в комменты запрос - сгенерю за вас. Либо можете зарегаться сами, в статье все ссылки.
https://habr.com/ru/post/703568/
В качестве иллюстрации, вот вам шутка от модели про машинное обучение.
P.S. Если хотите потестить модель, напишите в комменты запрос - сгенерю за вас. Либо можете зарегаться сами, в статье все ссылки.
https://habr.com/ru/post/703568/
🔥10❤4👍2
Как и где искать новую работу.
Собрал небольшую заметку про поиск работы (больше про зарубежные компании). Тут оговорка, что в большинстве позиций нужно, чтобы у вас было право работы на территории страны. Но есть и вакансии full-remote и с релокацией.
Во-первых, нужно актуализировать или составить CV (резюме), профиль на Linkedin и других платформах.
1. Посмотреть материалы гарварда.
2. Полистать закрепы и примеры в чате @resume_review
3. Составить резюме. Я использовал вот такой шаблон в overleaf
4. Можно закинуть CV в чат из 2 пункта для обратной связи.
Во-вторых, искать вакансии и подаваться.
1. Найти рефералов (человек из компании, который вас рекомендует) в компании через знакомых, чаты и сеть Linkedin. Самый рабочий способ, если хотите в конкретные компании.
2. Заполнить свой профиль на Linkedin. Будут прилетать вакансии от рекрутеров в личку/на почту. Откликался на вакансии через сам Linkedin, отдача маленькая, но собесы оттуда были.
3. Откликаться на вакансии в чатах. На первый этап точно попадете. Круто, что в #_jobs в слаке ods, описание вакансий сразу с вилкой зп.
4. Бот @g_jobbot. Были и предложения, и офферы, и сам откликался.
5. На hackernews каждый месяц появляется тред, где публикуют вакансии. Вот их агрегатор.
6. Есть разные ресурсы, которые матчат вас с работодателем. Вроде honeypot. Я пробовал, даже был собес. Но там были низкие вилки и мало предложений.
7. Indeed.com или angel.co Регался, даже была пара собесов оттуда.
8. Находить на crunchbase свежие стартапы, которые подняли раунд и теперь нанимают. Не пробовал такой способ, но хотел.
Еще можно подаваться напрямую в компании через сайт, но я такой способ не пробовал без рефералов.
Напишите в комменты, какие еще ресурсы вам помогали в поиске работы. Или что из этого списка cработало.
Собрал небольшую заметку про поиск работы (больше про зарубежные компании). Тут оговорка, что в большинстве позиций нужно, чтобы у вас было право работы на территории страны. Но есть и вакансии full-remote и с релокацией.
Во-первых, нужно актуализировать или составить CV (резюме), профиль на Linkedin и других платформах.
1. Посмотреть материалы гарварда.
2. Полистать закрепы и примеры в чате @resume_review
3. Составить резюме. Я использовал вот такой шаблон в overleaf
4. Можно закинуть CV в чат из 2 пункта для обратной связи.
Во-вторых, искать вакансии и подаваться.
1. Найти рефералов (человек из компании, который вас рекомендует) в компании через знакомых, чаты и сеть Linkedin. Самый рабочий способ, если хотите в конкретные компании.
2. Заполнить свой профиль на Linkedin. Будут прилетать вакансии от рекрутеров в личку/на почту. Откликался на вакансии через сам Linkedin, отдача маленькая, но собесы оттуда были.
3. Откликаться на вакансии в чатах. На первый этап точно попадете. Круто, что в #_jobs в слаке ods, описание вакансий сразу с вилкой зп.
4. Бот @g_jobbot. Были и предложения, и офферы, и сам откликался.
5. На hackernews каждый месяц появляется тред, где публикуют вакансии. Вот их агрегатор.
6. Есть разные ресурсы, которые матчат вас с работодателем. Вроде honeypot. Я пробовал, даже был собес. Но там были низкие вилки и мало предложений.
7. Indeed.com или angel.co Регался, даже была пара собесов оттуда.
8. Находить на crunchbase свежие стартапы, которые подняли раунд и теперь нанимают. Не пробовал такой способ, но хотел.
Еще можно подаваться напрямую в компании через сайт, но я такой способ не пробовал без рефералов.
Напишите в комменты, какие еще ресурсы вам помогали в поиске работы. Или что из этого списка cработало.
❤14👍8
Мое резюме на момент апреля, мб пригодится как пример. Одно на mle позиции, второе на swe.
🔥13
Написал статью на основе заметок по собеседованиям отсюда. В качестве доп материалов добавил:
+ скрин литкода
+ фото заката с Бали
+ фото домашнего рабочего места в Москве
+ общие советы для прохождения собеседований
https://habr.com/ru/post/704128/
+ скрин литкода
+ фото заката с Бали
+ фото домашнего рабочего места в Москве
+ общие советы для прохождения собеседований
https://habr.com/ru/post/704128/
Хабр
Как устроен процесс найма и собеседований на позицию Machine Learning Engineer
Это статья с 21-ой ссылкой о подготовке к собеседованиям на позиции Machine Learning Engineer. Статью собрал на основе заметок из своего канала в тг . Контекст Cейчас я отвечаю за ML в...
👍21❤5🌚1
Как я подтягивал английский.
В школе нам преподавали английский на 8 из 10. Моя первая учительница нашла себе англичанина по переписке и уехала к нему жить в Манчестер. В универе как иностранный я выбрал французский, а английский никак не использовал. Когда уже начал работать – английский был нужен на уровне читать тексты и смотреть лекции. Разговорный, который нужен для поиска работы, никак не практиковался, а зря. Собеседования - это стресс, собеседования на английском - двойной стресс. Поэтому параллельно с подготовкой к ним, я начал прокачивать и язык.
Мои принципы прокачки английского
+ цель - хочу спокойно проходить все этапы (алгоритмы, дизайн, behavioral) на английском (британский, американский, разные акценты).
+ хочу при заданном затраченном времени получить максимум результата.
+ не хочу заниматься “3 раза в неделю по часу вечером в течение полугода чтобы отличать все времена perfect между собой”
+ не хочу делать однотипные упражнения
Общая система
Занимался английским 40 минут каждое утро во время завтрака, так привычка английского закрепилась за завтрак. Иногда делал перерыв и потом занимался еще минут 40. На выходных минут по 20-30 чисто слова повторял.
Набор упражнений
1. Словарный запас. Взял топ 1000 частотных слов, пролистал и все что не знаю закинул в анки карты и повторял. Потом взял топ 3к слов.
2. Умение говорить, умение писать и грамматика. Взял кучу вопросов к behavioral , накидал ответы через голосовой ввод -> закинул в Grammarly , чтобы проверить ошибки -> темы, в которых ошибаюсь прочитал в Murphy и поделал упражнения.
3. Слушание. Смотрел выступления на ютубе или daily dictation и устраивал себе диктант. Либо пересказывал своими словами и опять в пайплайн грамматики.
4. Умение говорить. Нашел преподов на italki из стран с высоким уровнем английского, но низкими доходами:Кения, Филлипины, ЮАР, Нигеия, Малайзия . С ними устраивал мок-собеседования либо общение с неожиданными вопросами от них и разбором.
5. Читал фоном книги на англ, сериалы. Но это я обучением не считаю, это потребление контента.
Проверка себя.
Тест через приложение English score для оценки грамматики, слов, аудирования. Моки собеседований и реальные собеседования для оценки разговорного английского. Особенно, когда звонят на мобильный телефон и там связь плохая.
Пост прям по верхам написал, потом подробнее разберу второй пункт с упражнениями и что конкретно делал. В комментариях, прошу поделиться, кто как качает мышцу английского.
В школе нам преподавали английский на 8 из 10. Моя первая учительница нашла себе англичанина по переписке и уехала к нему жить в Манчестер. В универе как иностранный я выбрал французский, а английский никак не использовал. Когда уже начал работать – английский был нужен на уровне читать тексты и смотреть лекции. Разговорный, который нужен для поиска работы, никак не практиковался, а зря. Собеседования - это стресс, собеседования на английском - двойной стресс. Поэтому параллельно с подготовкой к ним, я начал прокачивать и язык.
Мои принципы прокачки английского
+ цель - хочу спокойно проходить все этапы (алгоритмы, дизайн, behavioral) на английском (британский, американский, разные акценты).
+ хочу при заданном затраченном времени получить максимум результата.
+ не хочу заниматься “3 раза в неделю по часу вечером в течение полугода чтобы отличать все времена perfect между собой”
+ не хочу делать однотипные упражнения
Общая система
Занимался английским 40 минут каждое утро во время завтрака, так привычка английского закрепилась за завтрак. Иногда делал перерыв и потом занимался еще минут 40. На выходных минут по 20-30 чисто слова повторял.
Набор упражнений
1. Словарный запас. Взял топ 1000 частотных слов, пролистал и все что не знаю закинул в анки карты и повторял. Потом взял топ 3к слов.
2. Умение говорить, умение писать и грамматика. Взял кучу вопросов к behavioral , накидал ответы через голосовой ввод -> закинул в Grammarly , чтобы проверить ошибки -> темы, в которых ошибаюсь прочитал в Murphy и поделал упражнения.
3. Слушание. Смотрел выступления на ютубе или daily dictation и устраивал себе диктант. Либо пересказывал своими словами и опять в пайплайн грамматики.
4. Умение говорить. Нашел преподов на italki из стран с высоким уровнем английского, но низкими доходами:
5. Читал фоном книги на англ, сериалы. Но это я обучением не считаю, это потребление контента.
Проверка себя.
Тест через приложение English score для оценки грамматики, слов, аудирования. Моки собеседований и реальные собеседования для оценки разговорного английского. Особенно, когда звонят на мобильный телефон и там связь плохая.
Пост прям по верхам написал, потом подробнее разберу второй пункт с упражнениями и что конкретно делал. В комментариях, прошу поделиться, кто как качает мышцу английского.
👍41❤9🔥8⚡3
Как работают text2image модели и как получаются такие качественные изображения?
Короче, если кто-то хочет разобраться в работе text-to-image моделей (stable diffusion, dalle-2, midjourney) вот короткая подборка, в зависимости от вашего уровня знакомства c ML.
1. Простая интерактивная статья от WP. Как текст превращается в картинки и что такое диффузия? Статья подойдет всем.
2. Статья от Jay Alammar. Уже сложнее, надо понимать что такое embeddings, autoencoder, latent space, UNet. Зато подробные иллюстрации помогают понять архитектуру моделей и как происходит forward pass. А еще если вам больше нравится больше смотреть видео, чем читать статьи, там в конце список видео а-ля How does Stable Diffusion work?
3. Статья от Eugen Yan. Разбор основных идей, которые лежат в основе text-2-image. Плюс в конце есть ссылки на сами статьи, если кто-то захочет почитать сам. Вообще, Eugen Yan - крут. У него понятные разборы, которые сразу пачку статей покрывают + он автор репы https://github.com/eugeneyan/applied-ml.
Короче, если кто-то хочет разобраться в работе text-to-image моделей (stable diffusion, dalle-2, midjourney) вот короткая подборка, в зависимости от вашего уровня знакомства c ML.
1. Простая интерактивная статья от WP. Как текст превращается в картинки и что такое диффузия? Статья подойдет всем.
2. Статья от Jay Alammar. Уже сложнее, надо понимать что такое embeddings, autoencoder, latent space, UNet. Зато подробные иллюстрации помогают понять архитектуру моделей и как происходит forward pass. А еще если вам больше нравится больше смотреть видео, чем читать статьи, там в конце список видео а-ля How does Stable Diffusion work?
3. Статья от Eugen Yan. Разбор основных идей, которые лежат в основе text-2-image. Плюс в конце есть ссылки на сами статьи, если кто-то захочет почитать сам. Вообще, Eugen Yan - крут. У него понятные разборы, которые сразу пачку статей покрывают + он автор репы https://github.com/eugeneyan/applied-ml.
❤13🤯1
commit history
Как работают text2image модели и как получаются такие качественные изображения? Короче, если кто-то хочет разобраться в работе text-to-image моделей (stable diffusion, dalle-2, midjourney) вот короткая подборка, в зависимости от вашего уровня знакомства c…
Если у вас совсем нет времени, но вы знакомы с терминологией, то вот вам основные идеи, которые лежат в основе моделей. Супер-краткий пересказ статьи Eugen Yan.
+ Diffusion – добавляем гауссовский шум к данным и учимся его предсказывать. На инференсе сэмплим изображение из рандомного шума. (По сути вычитаем шум которые предсказали.) Такие модели могут просто генерить изображения в стиле данных, на котором обучались.
Статья: Denoising Diffusion Probabilistic Models (DDPM; 2020)
+ Text conditioning – добавляем conditioning (опору на текст), чтобы управлять генерацией и получать изображения из текста.
Сначала в Contrastive Language-Image Pre-training (CLIP; 2021) научились сопоставлять изображения и тексты в одно семантическое пространство: вектор текста “щенок лабрадора” и вектор фото щенка лабрадора будут расположены близко. Потом в DALL·E (2021) токенизровали изображение, токенизировали текст и конкатенировали их, получая text_token_1, …, text_token_n, image_token_1, …, image_token_n. Все закинули в трансформер. На инференсе начинали с текстовых токенов и авторегрессионно предсказывали визуальные токены. В DALL·E 2 (aka unCLIP, 2022) использовали conditioning эмбеддинг из CLIP и авторегрессионный процесс из Dalle. Теперь из вектора текста еще предсказывается clip embedding, а потом происходит финальное декодирование в изображение. В Imagen (2022) энкодеры из CLIP заменили на T5 для текста и UNet для изображений. Там сначала генерируют изображение 64x64, а потом делают super-resolution в 1024x1024.
+ Classifier guidance – сильнее двигаем результат в сторону текста, считай управляем степенью влияния промта. В classifier-guidance paper (2021) добавили с определённым весом градиенты с классификатора обученного на шумном ImageNet, чтобы двигать изображение сильнее в сторону класса. Потом в classifier-free guidance (2021) реализовали conditional dropout, иногда заменяя текстовый Промт на Null токен. Изображение с промтом: guidance=1, без промта guidance=0. И теперь модель могла генерировать изображения с разной степенью conditioning (опоры на текст), управляя параметром guidance.
+ Latent space – шум добавляем не к пикселям изображений а к их эмбеддингам. На инференсе из шума сэмплим вектор, а потом декодируем его в изображение. Stable Diffusion (2021) Сначала векторизуем изображение, используя VAE. Потом удаляем шум из полученного вектора с помощью UNet и декодируем полученный вектор. В итоге Stable diffusion учиться и сэмплит быстрее, так как работает не с пикселями, а с сжатыми векторами.
+ Diffusion – добавляем гауссовский шум к данным и учимся его предсказывать. На инференсе сэмплим изображение из рандомного шума. (По сути вычитаем шум которые предсказали.) Такие модели могут просто генерить изображения в стиле данных, на котором обучались.
Статья: Denoising Diffusion Probabilistic Models (DDPM; 2020)
+ Text conditioning – добавляем conditioning (опору на текст), чтобы управлять генерацией и получать изображения из текста.
Сначала в Contrastive Language-Image Pre-training (CLIP; 2021) научились сопоставлять изображения и тексты в одно семантическое пространство: вектор текста “щенок лабрадора” и вектор фото щенка лабрадора будут расположены близко. Потом в DALL·E (2021) токенизровали изображение, токенизировали текст и конкатенировали их, получая text_token_1, …, text_token_n, image_token_1, …, image_token_n. Все закинули в трансформер. На инференсе начинали с текстовых токенов и авторегрессионно предсказывали визуальные токены. В DALL·E 2 (aka unCLIP, 2022) использовали conditioning эмбеддинг из CLIP и авторегрессионный процесс из Dalle. Теперь из вектора текста еще предсказывается clip embedding, а потом происходит финальное декодирование в изображение. В Imagen (2022) энкодеры из CLIP заменили на T5 для текста и UNet для изображений. Там сначала генерируют изображение 64x64, а потом делают super-resolution в 1024x1024.
+ Classifier guidance – сильнее двигаем результат в сторону текста, считай управляем степенью влияния промта. В classifier-guidance paper (2021) добавили с определённым весом градиенты с классификатора обученного на шумном ImageNet, чтобы двигать изображение сильнее в сторону класса. Потом в classifier-free guidance (2021) реализовали conditional dropout, иногда заменяя текстовый Промт на Null токен. Изображение с промтом: guidance=1, без промта guidance=0. И теперь модель могла генерировать изображения с разной степенью conditioning (опоры на текст), управляя параметром guidance.
+ Latent space – шум добавляем не к пикселям изображений а к их эмбеддингам. На инференсе из шума сэмплим вектор, а потом декодируем его в изображение. Stable Diffusion (2021) Сначала векторизуем изображение, используя VAE. Потом удаляем шум из полученного вектора с помощью UNet и декодируем полученный вектор. В итоге Stable diffusion учиться и сэмплит быстрее, так как работает не с пикселями, а с сжатыми векторами.
eugeneyan.com
Text-to-Image: Diffusion, Text Conditioning, Guidance, Latent Space
The fundamentals of text-to-image generation, relevant papers, and experimenting with DDPM.
👍8❤4
Решил расширить заметку про английский и написал статью на хабр. Еще добавил туда подборку полезных советов и ссылок, которые мне оставили в комментариях здесь и в Linkedin.
https://habr.com/ru/post/706490/
https://habr.com/ru/post/706490/
Хабр
Как AI помогает в изучении английского? Личный опыт
В начале года я решил поменять работу и начал готовится к собеседованиям. О том, как готовился к алгоритмам, систем дизайну и поведенческому интервью описал в статье «Как я проходил собеседования...
❤15🔥7👍4👏1
Всем привет! Меня зовут Ибрагим. Занимаюсь large scale данными для агентов в nebius. Живу в Лондоне, получил UK Global Talent визу.
Из последнего:
> SWE-rebench – датасет задач для software engineering агентов, стал самым скачиваемым датасетом на huggingface в августе 2025го с 3 млн скачиваний. Тут же рядом на базе этого датасета лидерборд моделей для software engineering агентов
> До этого делал yet another best data-mix for llm pre-training (с командой собрали качественный датасет на 5T токенов в начале 2024го)
> в одном из хасл стартапов экосистемы TON с нуля запил все реки, набил много шишаков по персонализации и рекомендашкам. Даже читал платный мастер-класс для топов одной большой компании с зеленой символикой.
> С января по май 2022 был в саббатикале, проходил курсы, качал литкод и английский, читал книги.
> До этого обучал нейронки для ассистентов Салют. Сделал с нуля: систему отлова негатива в Салюте и паре других мест, систему аннотирования сообщений (эмоции, тема и 20+ других признаков), фильтры и ранкер в болталке, тулзу для анализа больших массивов текстов и ускорения разметки из которой вырос внутренний продукт и другие штуки. Было круто создавать продукт с нуля, очень быстро прокачался, за это спасибо моим сенсеям. Подробнее рассказывал в подкасте Яндекса.
> Был в самом первом наборе в школу 21, бассейн (месячный отбор в школу) проходил буквально на стройке. Закончил школу 21 в 2021-ом и по итогам написал статью.
> По образованию я врач-стоматолог и организатор здравоохранения.
В 2018-ом году закончил с отличием стомат фак Казанского ГМУ, а в 2020-м ординатуру по орг здраву. Во время учебы учился, тусил, работал, организовывал студ весны и занимался волонтерством. Еще написал штук 20 научных статей разного уровня.
> Люблю учиться новому, поэтому как-то пробовал себя в стендапе и даже сходил на фестиваль открытого микрофона на ТНТ.
Изначально я начинал вести канал @ibragim_txt для друзей, но потом решил завести еще и этот канал @c0mmit, чтобы делиться заметками про работу и машинное обучение.
Из последнего:
> SWE-rebench – датасет задач для software engineering агентов, стал самым скачиваемым датасетом на huggingface в августе 2025го с 3 млн скачиваний. Тут же рядом на базе этого датасета лидерборд моделей для software engineering агентов
> До этого делал yet another best data-mix for llm pre-training (с командой собрали качественный датасет на 5T токенов в начале 2024го)
> в одном из хасл стартапов экосистемы TON с нуля запил все реки, набил много шишаков по персонализации и рекомендашкам. Даже читал платный мастер-класс для топов одной большой компании с зеленой символикой.
> С января по май 2022 был в саббатикале, проходил курсы, качал литкод и английский, читал книги.
> До этого обучал нейронки для ассистентов Салют. Сделал с нуля: систему отлова негатива в Салюте и паре других мест, систему аннотирования сообщений (эмоции, тема и 20+ других признаков), фильтры и ранкер в болталке, тулзу для анализа больших массивов текстов и ускорения разметки из которой вырос внутренний продукт и другие штуки. Было круто создавать продукт с нуля, очень быстро прокачался, за это спасибо моим сенсеям. Подробнее рассказывал в подкасте Яндекса.
> Был в самом первом наборе в школу 21, бассейн (месячный отбор в школу) проходил буквально на стройке. Закончил школу 21 в 2021-ом и по итогам написал статью.
> По образованию я врач-стоматолог и организатор здравоохранения.
В 2018-ом году закончил с отличием стомат фак Казанского ГМУ, а в 2020-м ординатуру по орг здраву. Во время учебы учился, тусил, работал, организовывал студ весны и занимался волонтерством. Еще написал штук 20 научных статей разного уровня.
> Люблю учиться новому, поэтому как-то пробовал себя в стендапе и даже сходил на фестиваль открытого микрофона на ТНТ.
Изначально я начинал вести канал @ibragim_txt для друзей, но потом решил завести еще и этот канал @c0mmit, чтобы делиться заметками про работу и машинное обучение.
huggingface.co
nebius/SWE-rebench · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤49👍24🔥18👌1🕊1🤡1🍓1
commit history pinned «Всем привет! Меня зовут Ибрагим. Занимаюсь large scale данными для агентов в nebius. Живу в Лондоне, получил UK Global Talent визу. Из последнего: > SWE-rebench – датасет задач для software engineering агентов, стал самым скачиваемым датасетом на huggingface…»
Иллюзия знания и проверка себя.
Ситуация следующая. Изучил какую-то тему, вроде понял, повторил. А потом тебе приятель задает вопрос и выясняется, что знаешь только один поверхностный тезис.
Барбара Оакли называет это иллюзией знания. Тебе кажется, что ты что-то понимаешь или знаешь, но это ложная уверенность. Знание может быть какое угодно. Особенности развития ленточных червей, принципы работы бустинга над деревьями, насколько ты разбираешься в собственном продукте.
Что с этим делать? Быть тем приятелем самому себе и задавать вопросы во время обучения. На эту тему есть пример из жизни.
У меня в медицинском был преподаватель по физ-коллоидной химии. Его никто не любил, на пересдачи к нему ходили 70% потока и даже ходит байка, что в 90х его в подворотне поймали люди в масках по заказу студентов и попугали для смягчения поведения.
Но мне его подход ведения занятий нравился. По теме он задавал вопрос: "Что такое {название темы}". Ты отвечал определением, потом основываясь на определении он спрашивал, "а почему так происходит?" И так несколько раз, погружаясь все глубже. Запомнил только определение? Начнешь сыпаться уже на 2-3 почему и получишь двойку. Если ты не знал ответа, он предлагал сделать предположение. Однако если не разбираешься в самом предмете, разумные предположения не построишь.
Поэтому сейчас, если есть задача именно разобраться, то я устраиваю себе проверку в формате “почему так?”
Про этот метод я слышал и от своего руководителя в ординатуре. Руководитель специализируется на “бережливом производстве (Lean Production)”, а сам метод называется "Пять почему”
Еще у меня в заметках лежит цитата Вадика Мармеладова из старого видео про ЛОТ2046
“Когда у собеседника закончится почему, вот твоё проверочное слово. Вот настолько проработан твой продукт.”
Ситуация следующая. Изучил какую-то тему, вроде понял, повторил. А потом тебе приятель задает вопрос и выясняется, что знаешь только один поверхностный тезис.
Барбара Оакли называет это иллюзией знания. Тебе кажется, что ты что-то понимаешь или знаешь, но это ложная уверенность. Знание может быть какое угодно. Особенности развития ленточных червей, принципы работы бустинга над деревьями, насколько ты разбираешься в собственном продукте.
Что с этим делать? Быть тем приятелем самому себе и задавать вопросы во время обучения. На эту тему есть пример из жизни.
У меня в медицинском был преподаватель по физ-коллоидной химии. Его никто не любил, на пересдачи к нему ходили 70% потока и даже ходит байка, что в 90х его в подворотне поймали люди в масках по заказу студентов и попугали для смягчения поведения.
Но мне его подход ведения занятий нравился. По теме он задавал вопрос: "Что такое {название темы}". Ты отвечал определением, потом основываясь на определении он спрашивал, "а почему так происходит?" И так несколько раз, погружаясь все глубже. Запомнил только определение? Начнешь сыпаться уже на 2-3 почему и получишь двойку. Если ты не знал ответа, он предлагал сделать предположение. Однако если не разбираешься в самом предмете, разумные предположения не построишь.
Поэтому сейчас, если есть задача именно разобраться, то я устраиваю себе проверку в формате “почему так?”
Про этот метод я слышал и от своего руководителя в ординатуре. Руководитель специализируется на “бережливом производстве (Lean Production)”, а сам метод называется "Пять почему”
Еще у меня в заметках лежит цитата Вадика Мармеладова из старого видео про ЛОТ2046
“Когда у собеседника закончится почему, вот твоё проверочное слово. Вот настолько проработан твой продукт.”
👍38❤12🤔2👎1💩1
Обзор исследований в AI и индустрии за 2022
Под конец года выходит много разных отчетов по индустриям. В октябре вышел State of AI Report 2022. На слайдах описаны основные события и статьи из мира AI за 2022 год. Плюс таких отчетов, что можно обзорно посмотреть на ситуацию в индустрии в разных срезах, а не читать каждую статью самому. Минус, что фокус твоего внимания полностью в руках авторов.
Про сам отчет.
Во-первых, респект авторам за то, что в начале есть краткий глоссарий с определениями и выжимка презентации.
Во-вторых, 80% всей презентации – это два раздела: research, в котором пересказы статей и industry, в котором приведены разные статистики вроде количества статей(стало больше) или объема инвестиций (стало меньше).
Мое внимание зацепили следующие моменты, которые можно объединить в идею повышения adoption разных AI инструментов. Про диффузионные модели и text2image генерацию картинок писать не буду, итак уже все слышали. Поэтому тут будет про LLM (Large Language Models = Большие Языковые модели)
1. Универсальность подхода языкового моделирования. Подход, когда взяли трансформер, сформулировали self-supervised задачу (MLM=masked language modelling например) на последовательных данных, часто оказывается sota (лучшим) решением на многих задачах. От предсказания структуры белка до TTS (text2speech).
Почему – это круто? Потому что применяя один подход, можно создать много полезных инструментов. Может, когда-нибудь придем к “one model to rule them all”. Рабочие инструменты, тоже уже есть: Copilot активно использую, когда пишу код, экономит время.
2. Open source аналоги больших разработок. Года два назад я чаще слышал мнение про абсолютную монополию больших компаний в AI. Максимум, что можешь, это подрубаться по api к их продуктам. Однако, Open source сообщество имплементировали (реализовали), клонировали или доработали все основные модели (GPT3, Dalle, AlphaFold) быстрее, чем ожидалось.
Почему – это круто? Потому что open source доступен всем, значит можно строить больше разных инструментов. Ограничивающий фактор – это ресурсы, так как, у Bloom 175B, например, чисто для инференса весА даже в float16 весят 329GB. Но можно запускать распределенно на разных устройствах.
3. Текущие LLM (Large Language Models) недотренированы! OpenAi в 2020-ом сформулировали Scaling Law: если есть бюджет, то размер модели надо увеличивать быстрее, чем размер датасета. DeepMind переформулировали, что рост должен быть с одинаковым темпом. Дальше, думаю, будут работы про повышение качества данных и их подготовку. Не огромные модели проще и дешевле запускать. Опять же упрощает доставку моделей до конечного пользователя в виде инструмента.
Отдельно прикреплю слайд с итогами от самих авторов.
Под конец года выходит много разных отчетов по индустриям. В октябре вышел State of AI Report 2022. На слайдах описаны основные события и статьи из мира AI за 2022 год. Плюс таких отчетов, что можно обзорно посмотреть на ситуацию в индустрии в разных срезах, а не читать каждую статью самому. Минус, что фокус твоего внимания полностью в руках авторов.
Про сам отчет.
Во-первых, респект авторам за то, что в начале есть краткий глоссарий с определениями и выжимка презентации.
Во-вторых, 80% всей презентации – это два раздела: research, в котором пересказы статей и industry, в котором приведены разные статистики вроде количества статей
1. Универсальность подхода языкового моделирования. Подход, когда взяли трансформер, сформулировали self-supervised задачу (MLM=masked language modelling например) на последовательных данных, часто оказывается sota (лучшим) решением на многих задачах. От предсказания структуры белка до TTS (text2speech).
Почему – это круто? Потому что применяя один подход, можно создать много полезных инструментов. Может, когда-нибудь придем к “one model to rule them all”. Рабочие инструменты, тоже уже есть: Copilot активно использую, когда пишу код, экономит время.
2. Open source аналоги больших разработок. Года два назад я чаще слышал мнение про абсолютную монополию больших компаний в AI. Максимум, что можешь, это подрубаться по api к их продуктам. Однако, Open source сообщество имплементировали (реализовали), клонировали или доработали все основные модели (GPT3, Dalle, AlphaFold) быстрее, чем ожидалось.
Почему – это круто? Потому что open source доступен всем, значит можно строить больше разных инструментов. Ограничивающий фактор – это ресурсы, так как, у Bloom 175B, например, чисто для инференса весА даже в float16 весят 329GB. Но можно запускать распределенно на разных устройствах.
3. Текущие LLM (Large Language Models) недотренированы! OpenAi в 2020-ом сформулировали Scaling Law: если есть бюджет, то размер модели надо увеличивать быстрее, чем размер датасета. DeepMind переформулировали, что рост должен быть с одинаковым темпом. Дальше, думаю, будут работы про повышение качества данных и их подготовку. Не огромные модели проще и дешевле запускать. Опять же упрощает доставку моделей до конечного пользователя в виде инструмента.
Отдельно прикреплю слайд с итогами от самих авторов.
❤14👍8