https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212
Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY
Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?
Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY
Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?
Loom
Простой код для анализа данных автомобилей 🚗 •
Привет, мои хорошие! В этом видео я подготовил простой код для анализа данных автомобилей. Я покажу, как работает модель внутри, объясню, как мы разделили данные на группы, и как мы можем прогнозировать цены на автомобили. Я жду твоей обратной связи и реакции…
❤33
Ребята, подумал сделать сегодня ещё экспериментальный live stream, чтобы пообщаться и услышать Твои вопросы. Сейчас работаю над PDF-версией того, что записал выше, вижу по отзывам, что это интересно. Хочется услышать больше конкретных вопросов и точно синхронизироваться с тем, что важно. Видение уже просматривается, хочется получить подтверждение. Будешь сегодня? Да 👍
👍15❤3🙏1🌚1
Первый стрим на телеграмме :)
Услышал два вопроса (направления). Выбери что интересно из того что прозвучало.
Услышал два вопроса (направления). Выбери что интересно из того что прозвучало.
Anonymous Poll
27%
Сейчас тестер, знаю Python хочу идти в сторону ML Engineer, все что в эту сторону мне интересно
30%
LLM, не хватает ресурсов, и как лучше интегрировать весь зоопарк: RAG, vectorDB, embeddings...
18%
Я был(а), но как-то стеснял спросить просить голосом, а можно как-то текстом?
3%
Не был(а), но есть вопрос который очень волнует, хочу задать
21%
Я (как обычно) просто кликаю :)
DataWorkshop - AI & ML
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212 Update: добавили на ютуб https://youtu.be/Hwpey_XYHtY Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому…
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной)
Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.
Что думаешь, интересно, чтобы закончил? Ставь 🔥
Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.
Что думаешь, интересно, чтобы закончил? Ставь 🔥
🔥29
DataWorkshop - AI & ML
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной) Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем,…
В продложение темы, что находится внутри модели ML (сейчас смотрим на бустинговые модели, ксатти. мои любимые, с точки зрения практики - обычно их внедряем).
Так, давай оценишь один из слайдов в pdf
Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!
Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.
👍 - да понятно. уже жду pdf'ku
🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть
🙈 - хочется просто model.fit и на продакшн
🔥 - круто, я так чувствую
Так, давай оценишь один из слайдов в pdf
Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!
Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.
👍 - да понятно. уже жду pdf'ku
🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть
🙈 - хочется просто model.fit и на продакшн
🔥 - круто, я так чувствую
🔥14🤔10
Ребята, сегодня попалась на глаза очередная вакансия DS (содержание ниже). Обрати внимание на требования. Прям идеально вписываются в то, чему учим в DataWorkshop. Конечно же это не совпадение и c ВК мы не договаривались, просто прагматически эти инструменты дают хороший результат для бизнеса. Именно поэтому, мы как практики этому и учим. Что думаешь? Хочешь почаще тоже про вакансии? 🔥
#вакансия #ml #middle #adtech
Всем привет! Предлагаю рассмотреть вакансию.
❤️ Компания: VK (AdTech)
Локация: РФ / Беларусь
График: удаленка/гибрид
AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.
Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.
Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.
Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.
Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.
Откликаться можно мне в ЛС - @pawell
#вакансия #ml #middle #adtech
Всем привет! Предлагаю рассмотреть вакансию.
❤️ Компания: VK (AdTech)
Локация: РФ / Беларусь
График: удаленка/гибрид
AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.
Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.
Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.
Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.
Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.
Откликаться можно мне в ЛС - @pawell
🔥7❤1
DBRX: Перспективная открытая LLM-модель от Databricks
Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.
Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face
Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.
Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед
#llm #genai #opensource #databricks #coding
Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.
Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face
Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.
Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед
#llm #genai #opensource #databricks #coding
🔥15❤2
DataWorkshop - AI & ML
Вчера мы учились читать научные статьи и я показал один трюк, который часто используется в "этом мире" (со всем уважением к настоящей науке, но именно этот трюк часто находит применение). Запомни, что везде действуют свои правила игры, и чем быстрее ты их…
This media is not supported in your browser
VIEW IN TELEGRAM
Для настроения.
Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"
Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).
#paper #science #read #parse #llm
Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"
Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).
#paper #science #read #parse #llm
❤4👍4
Так, я так и не понял почему xgboost свинья, ну даже если и так... то там как минимум дикий кабначик, который порвет многие "модные решения".
Насчет остальных, то да - игрушки, поигрались и хватит ❤️
P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.
Насчет остальных, то да - игрушки, поигрались и хватит ❤️
P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.
❤11🔥1
Выбери пожалуйста что на сегодня важнее всего для Тебя и уже в апреле будет больше всего именно про тему которая выиграет. Где сейчас Твой самый главный затык?
Anonymous Poll
25%
Нет знаний о том, как подготовить данные для обучения и предсказаний в машинном обучении.
25%
Не знаю, как правильно использовать базовые инструменты и модели машинного обучения.
57%
Не знаю, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задач
9%
Не умею тренировать свою модель машинного обучения и понимать, что можно изменить
16%
Не умею создавать новые признаки в модели машинного обучения
39%
Недостаток практики и упражнений в области построения моделей ML
25%
Неуверенность или незнание как писать код на Python для работы с данными.
25%
Непонимание, что можно изменять в моделях в первую очередь, чтобы улучшать результат.
18%
Ограниченные знания о метриках успеха.
30%
Недостаток знаний/неуверенность в области практической статистики
❤6
Лови пдф-ку, сохраняй в закладки и делись с другими :)
Обещал, что сейчас работаю над шпаргалками. Кстати, над xgboost тоже думаю скоро выпустить, немного перфекционизм не отпускает, все время думаю, что еще чуть-чуть допилить 😂
Но сегодня я добавляю для разогрева, как делать повороты таблицы. С одной стороны, это очень простая задача, но цель следующая: обратить внимание на то, что важно. Например, на то, что работая с данными, нужно думать «матрицами», а не числами. Другая история — я плавно хочу тебя подвести к модным алгоритмам, где, между прочим, важен «механизм внимания». Чтобы лучше разобраться, хорошо попробовать написать куски кода «на коленке», тогда и публикации проще читать.
В общем, поддержи, насколько заходит такой формат (и обязательно проголосуй выше). 🔥🔥
#pdf
@data_work
Обещал, что сейчас работаю над шпаргалками. Кстати, над xgboost тоже думаю скоро выпустить, немного перфекционизм не отпускает, все время думаю, что еще чуть-чуть допилить 😂
Но сегодня я добавляю для разогрева, как делать повороты таблицы. С одной стороны, это очень простая задача, но цель следующая: обратить внимание на то, что важно. Например, на то, что работая с данными, нужно думать «матрицами», а не числами. Другая история — я плавно хочу тебя подвести к модным алгоритмам, где, между прочим, важен «механизм внимания». Чтобы лучше разобраться, хорошо попробовать написать куски кода «на коленке», тогда и публикации проще читать.
В общем, поддержи, насколько заходит такой формат (и обязательно проголосуй выше). 🔥🔥
@data_work
🔥12❤3
DataWorkshop - AI & ML
transpose.png
Помогу интерпретировать. Это такой фундамент, который нужно понимать и потом будет проще достигать цель.
"100x100" означает таблицу размером 100 на 100 (100 строк и 100 столбцов), далее "100k x 10k" означает 100 тысяч строк и 10 тысяч столбцов.
И далее видим время.
Для реализации 3 это занимает 19 секунд, для реализации 4 (где используется букву .T - матричный подход, "не трогаем" каждое число на уровне Python) - 199 нано секунд. Для понимания: 1 секунда это 1,000,000,000 наносекунд. Миллиард, Карл! 😎
Напомню, что в 1 веке (100 лет)у нас примерно 3 млрд. секунд. Вообще, есть разница в том, считать секунду или век, не так ли? И что еще важно, писать код - это всего лишь одна строчка (не всегда так просто). В общем, с данными нужно работать на уровне таблиц, а не значений.
Для Тебя это новое? 👍
"100x100" означает таблицу размером 100 на 100 (100 строк и 100 столбцов), далее "100k x 10k" означает 100 тысяч строк и 10 тысяч столбцов.
И далее видим время.
Для реализации 3 это занимает 19 секунд, для реализации 4 (где используется букву .T - матричный подход, "не трогаем" каждое число на уровне Python) - 199 нано секунд. Для понимания: 1 секунда это 1,000,000,000 наносекунд. Миллиард, Карл! 😎
Напомню, что в 1 веке (100 лет)у нас примерно 3 млрд. секунд. Вообще, есть разница в том, считать секунду или век, не так ли? И что еще важно, писать код - это всего лишь одна строчка (не всегда так просто). В общем, с данными нужно работать на уровне таблиц, а не значений.
Для Тебя это новое? 👍
👍13❤2
DataWorkshop - AI & ML
Выбери пожалуйста что на сегодня важнее всего для Тебя и уже в апреле будет больше всего именно про тему которая выиграет. Где сейчас Твой самый главный затык?
Итак, у нас есть победитель "запроса"!
"Не знаешь, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задачи?"
Запрос понятен и звучит как самый важный на данный момент.
Немного повторюсь, но это важно:
- ML нельзя научить, но можно научиться! Это ремесло. ️
- Важно пропустить через себя поток информации и приобрести опыт.
- Просто читать статьи, книги или туториалы недостаточно.
- В DataWorkshop есть разные форматы обучения, но все они всегда про практику.
Начиная с курсов, мастер-классов или нового формата, которого нет в мире "команда DS/ML" (ну я не нашел), но он очень крутой. Правда, требует больших усилий чтобы его провести (наверное поэтому мало кто это сможет).
"Не знаешь, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задачи?"
Запрос понятен и звучит как самый важный на данный момент.
Немного повторюсь, но это важно:
- ML нельзя научить, но можно научиться! Это ремесло. ️
- Важно пропустить через себя поток информации и приобрести опыт.
- Просто читать статьи, книги или туториалы недостаточно.
- В DataWorkshop есть разные форматы обучения, но все они всегда про практику.
Начиная с курсов, мастер-классов или нового формата, которого нет в мире "команда DS/ML" (ну я не нашел), но он очень крутой. Правда, требует больших усилий чтобы его провести (наверное поэтому мало кто это сможет).
🔥7❤3
В рунете мы еще не запускали поток, но уже был в Польше. Было круто! Результат есть, про это расскажу больше (наверное как вебинар?).
Важно отметить, что команда (именно команда!) сделала результат в течение двух недель. По факту каждый участник зарегестрировал весь путь "с чего начать, когда нужно построить модель ML для решения конкретной задачи"
Это было больше, чем просто тренировать модель - мы (именно команда!) сделали как минимум реальный MVP с бизнес-ценностью. Опыт колоссальный!
Как промежуточные метрики (ликбез):
- 6059 экспериментов (один эксперимент - это больше, чем тренировать модель);
- 49 тетрадок;
- появилось более 2k кода, который можно забрасывать на продакшн.
Все это было сделано командой, поэтому нужно было правильно настроить инструменты (GitHub и т.д.). ️Версионированние данных. кода, экспериментов!
Запуск такого симулятора - это круто, но это имеет смысл, когда есть решительно настроенные люди, которым хочется в течение 2 (или 3) недель конкретно поработать, чтобы приобрести реальный опыт ML/DS.
Ставь 🔥🔥🔥 и это будет как сигнал, что готов(а) принять участие и прокачать себя по полной в ML/DS. Результат гарантирую лично!
От тебя сейчас зависит, запускаем ли поток "команды DS" в течение месяца. Что думаешь?
Важно отметить, что команда (именно команда!) сделала результат в течение двух недель. По факту каждый участник зарегестрировал весь путь "с чего начать, когда нужно построить модель ML для решения конкретной задачи"
Это было больше, чем просто тренировать модель - мы (именно команда!) сделали как минимум реальный MVP с бизнес-ценностью. Опыт колоссальный!
Как промежуточные метрики (ликбез):
- 6059 экспериментов (один эксперимент - это больше, чем тренировать модель);
- 49 тетрадок;
- появилось более 2k кода, который можно забрасывать на продакшн.
Все это было сделано командой, поэтому нужно было правильно настроить инструменты (GitHub и т.д.). ️Версионированние данных. кода, экспериментов!
Запуск такого симулятора - это круто, но это имеет смысл, когда есть решительно настроенные люди, которым хочется в течение 2 (или 3) недель конкретно поработать, чтобы приобрести реальный опыт ML/DS.
Ставь 🔥🔥🔥 и это будет как сигнал, что готов(а) принять участие и прокачать себя по полной в ML/DS. Результат гарантирую лично!
От тебя сейчас зависит, запускаем ли поток "команды DS" в течение месяца. Что думаешь?
🔥30👍3❤🔥1