DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
Вот пример, того что готовлю - будет такая серия материалов. Пока что на английском, вот и задумался, а как лучше будет для Тебя
🔥143
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212

Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY

Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?
33
Live stream scheduled for
Ребята, подумал сделать сегодня ещё экспериментальный live stream, чтобы пообщаться и услышать Твои вопросы. Сейчас работаю над PDF-версией того, что записал выше, вижу по отзывам, что это интересно. Хочется услышать больше конкретных вопросов и точно синхронизироваться с тем, что важно. Видение уже просматривается, хочется получить подтверждение. Будешь сегодня? Да 👍
👍153🙏1🌚1
Live stream started
Live stream finished (28 minutes)
DataWorkshop - AI & ML
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212 Update: добавили на ютуб https://youtu.be/Hwpey_XYHtY Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому…
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной)

Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в  xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.


Что думаешь, интересно, чтобы закончил? Ставь 🔥
🔥29
DataWorkshop - AI & ML
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной) Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в  xgboost, максимальная глубина - и что по факту получаем,…
В продложение темы, что находится внутри модели ML (сейчас смотрим на бустинговые модели, ксатти. мои любимые, с точки зрения практики - обычно их внедряем).

Так, давай оценишь один из слайдов в pdf


Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!


Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.


👍 - да понятно. уже жду  pdf'ku

🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть

🙈 - хочется просто  model.fit и на продакшн

🔥 - круто, я так чувствую
🔥14🤔10
Ребята, сегодня попалась на глаза очередная вакансия  DS (содержание ниже). Обрати внимание на требования. Прям идеально вписываются в то, чему учим в DataWorkshop. Конечно же это не совпадение и c ВК мы не договаривались, просто прагматически эти инструменты дают хороший результат для бизнеса. Именно поэтому, мы как практики этому и учим. Что думаешь? Хочешь почаще тоже про вакансии? 🔥



#вакансия #ml #middle #adtech

Всем привет! Предлагаю рассмотреть вакансию.

❤️ Компания: VK (AdTech)

Локация: РФ / Беларусь
График: удаленка/гибрид

AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.

Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.

Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.

Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.

Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.

Откликаться можно мне в ЛС - @pawell
🔥71
DBRX: Перспективная открытая LLM-модель от Databricks

Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.

Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face

Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.

Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед


#llm #genai #opensource #databricks #coding
🔥152
DataWorkshop - AI & ML
Вчера мы учились читать научные статьи и я показал один трюк, который часто используется в "этом мире" (со всем уважением к настоящей науке, но именно этот трюк часто находит применение). Запомни, что везде действуют свои правила игры, и чем быстрее ты их…
This media is not supported in your browser
VIEW IN TELEGRAM
Для настроения.

Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"

Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).

#paper #science #read #parse #llm
4👍4
Так, я так и не понял почему xgboost свинья, ну даже если и так... то там как минимум дикий кабначик, который порвет многие "модные решения".


Насчет остальных, то да - игрушки, поигрались и хватит ❤️

P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.
11🔥1
Выбери пожалуйста что на сегодня важнее всего для Тебя и уже в апреле будет больше всего именно про тему которая выиграет. Где сейчас Твой самый главный затык?
Anonymous Poll
25%
Нет знаний о том, как подготовить данные для обучения и предсказаний в машинном обучении.
25%
Не знаю, как правильно использовать базовые инструменты и модели машинного обучения.
57%
Не знаю, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задач
9%
Не умею тренировать свою модель машинного обучения и понимать, что можно изменить
16%
Не умею создавать новые признаки в модели машинного обучения
39%
Недостаток практики и упражнений в области построения моделей ML
25%
Неуверенность или незнание как писать код на Python для работы с данными.
25%
Непонимание, что можно изменять в моделях в первую очередь, чтобы улучшать результат.
18%
Ограниченные знания о метриках успеха.
30%
Недостаток знаний/неуверенность в области практической статистики
6
Лови пдф-ку, сохраняй в закладки и делись с другими :)

Обещал, что сейчас работаю над шпаргалками. Кстати, над xgboost тоже думаю скоро выпустить, немного перфекционизм не отпускает, все время думаю, что еще чуть-чуть допилить 😂


Но сегодня я добавляю для разогрева, как делать повороты таблицы. С одной стороны, это очень простая задача, но цель следующая: обратить внимание на то, что важно. Например, на то, что работая с данными, нужно думать «матрицами», а не числами. Другая история — я плавно хочу тебя подвести к модным алгоритмам, где, между прочим, важен «механизм внимания». Чтобы лучше разобраться, хорошо попробовать написать куски кода «на коленке», тогда и публикации проще читать.


В общем, поддержи, насколько заходит такой формат (и обязательно проголосуй выше). 🔥🔥

#pdf
@data_work
🔥123
DataWorkshop - AI & ML
transpose.png
Помогу интерпретировать. Это такой фундамент, который нужно понимать и потом будет проще достигать цель.

"100x100" означает таблицу размером 100 на 100 (100 строк и 100 столбцов), далее "100k x 10k" означает 100 тысяч строк и 10 тысяч столбцов.
И далее видим время.

Для реализации 3 это занимает 19 секунд, для реализации 4 (где используется букву .T - матричный подход, "не трогаем" каждое число на уровне Python) - 199 нано секунд. Для понимания: 1 секунда это 1,000,000,000 наносекунд. Миллиард, Карл! 😎

Напомню, что в 1 веке (100 лет)у нас примерно 3 млрд. секунд. Вообще, есть разница в том, считать секунду или век, не так ли? И что еще важно, писать код - это всего лишь одна строчка (не всегда так просто). В общем, с данными нужно работать на уровне таблиц, а не значений.

Для Тебя это новое? 👍
👍132
DataWorkshop - AI & ML
Выбери пожалуйста что на сегодня важнее всего для Тебя и уже в апреле будет больше всего именно про тему которая выиграет. Где сейчас Твой самый главный затык?
Итак, у нас есть победитель "запроса"!

"Не знаешь, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задачи?"

Запрос понятен и звучит как самый важный на данный момент.

Немного повторюсь, но это важно:
- ML нельзя научить, но можно научиться! Это ремесло. ️
- Важно пропустить через себя поток информации и приобрести опыт.
- Просто читать статьи, книги или туториалы недостаточно.
- В DataWorkshop есть разные форматы обучения, но все они всегда про практику. ‍

Начиная с курсов, мастер-классов или нового формата, которого нет в мире "команда DS/ML" (ну я не нашел), но он очень крутой. Правда, требует больших усилий чтобы его провести (наверное поэтому мало кто это сможет).
🔥73