DataWorkshop - AI & ML – Telegram
DataWorkshop - AI & ML
1.91K subscribers
204 photos
22 videos
13 files
150 links
Онлайн-обучение от европейской компании DataWorkshop.

Курсы по: Статистике, SQL, Python, Data Science, Нейронным сетям, Time Series, NLP.

Корпоративное обучение.

Помогаем внедрять машинное обучение в бизнес.

Сайт:
https://dataworkshop.ru
Download Telegram
Вот смотрю, выигрывает "раздеть модель", хотя, правда, ситуация еще может измениться, подожду до завтра.

Но у меня есть такое ощущение, что интерес к моделям сохранится и дальше. Отлично! Сейчас в моде тема "генеративные модели", например, "диффузионные модели". Возможно и туда забежим, пощупаем а как оно там работает.

Кстати, формулы понятны (на скрине в этом посте), или их нужно разжевать? Ладно, шучу 😂. Я всегда стараюсь говорить простым языком и даже специально избегать формул (их всегда легко найти, почти все копируют их друг у друга), этот подход значительно сложнее для меня, но проще для Тебя.

P.S. Но все же, что-нибдуь понятно в формулах?

🔥 - да, давай, больше про модели, технические штуки (архитектура) итд
🔥122👍1
Вот пример, того что готовлю - будет такая серия материалов. Пока что на английском, вот и задумался, а как лучше будет для Тебя
🔥143
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212

Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY

Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?
33
Live stream scheduled for
Ребята, подумал сделать сегодня ещё экспериментальный live stream, чтобы пообщаться и услышать Твои вопросы. Сейчас работаю над PDF-версией того, что записал выше, вижу по отзывам, что это интересно. Хочется услышать больше конкретных вопросов и точно синхронизироваться с тем, что важно. Видение уже просматривается, хочется получить подтверждение. Будешь сегодня? Да 👍
👍153🙏1🌚1
Live stream started
Live stream finished (28 minutes)
DataWorkshop - AI & ML
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212 Update: добавили на ютуб https://youtu.be/Hwpey_XYHtY Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому…
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной)

Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в  xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.


Что думаешь, интересно, чтобы закончил? Ставь 🔥
🔥29
DataWorkshop - AI & ML
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной) Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в  xgboost, максимальная глубина - и что по факту получаем,…
В продложение темы, что находится внутри модели ML (сейчас смотрим на бустинговые модели, ксатти. мои любимые, с точки зрения практики - обычно их внедряем).

Так, давай оценишь один из слайдов в pdf


Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!


Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.


👍 - да понятно. уже жду  pdf'ku

🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть

🙈 - хочется просто  model.fit и на продакшн

🔥 - круто, я так чувствую
🔥14🤔10
Ребята, сегодня попалась на глаза очередная вакансия  DS (содержание ниже). Обрати внимание на требования. Прям идеально вписываются в то, чему учим в DataWorkshop. Конечно же это не совпадение и c ВК мы не договаривались, просто прагматически эти инструменты дают хороший результат для бизнеса. Именно поэтому, мы как практики этому и учим. Что думаешь? Хочешь почаще тоже про вакансии? 🔥



#вакансия #ml #middle #adtech

Всем привет! Предлагаю рассмотреть вакансию.

❤️ Компания: VK (AdTech)

Локация: РФ / Беларусь
График: удаленка/гибрид

AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.

Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.

Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.

Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.

Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.

Откликаться можно мне в ЛС - @pawell
🔥71
DBRX: Перспективная открытая LLM-модель от Databricks

Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.

Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face

Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.

Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед


#llm #genai #opensource #databricks #coding
🔥152
DataWorkshop - AI & ML
Вчера мы учились читать научные статьи и я показал один трюк, который часто используется в "этом мире" (со всем уважением к настоящей науке, но именно этот трюк часто находит применение). Запомни, что везде действуют свои правила игры, и чем быстрее ты их…
This media is not supported in your browser
VIEW IN TELEGRAM
Для настроения.

Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"

Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).

#paper #science #read #parse #llm
4👍4
Так, я так и не понял почему xgboost свинья, ну даже если и так... то там как минимум дикий кабначик, который порвет многие "модные решения".


Насчет остальных, то да - игрушки, поигрались и хватит ❤️

P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.
11🔥1
Выбери пожалуйста что на сегодня важнее всего для Тебя и уже в апреле будет больше всего именно про тему которая выиграет. Где сейчас Твой самый главный затык?
Anonymous Poll
25%
Нет знаний о том, как подготовить данные для обучения и предсказаний в машинном обучении.
25%
Не знаю, как правильно использовать базовые инструменты и модели машинного обучения.
57%
Не знаю, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задач
9%
Не умею тренировать свою модель машинного обучения и понимать, что можно изменить
16%
Не умею создавать новые признаки в модели машинного обучения
39%
Недостаток практики и упражнений в области построения моделей ML
25%
Неуверенность или незнание как писать код на Python для работы с данными.
25%
Непонимание, что можно изменять в моделях в первую очередь, чтобы улучшать результат.
18%
Ограниченные знания о метриках успеха.
30%
Недостаток знаний/неуверенность в области практической статистики
6
Лови пдф-ку, сохраняй в закладки и делись с другими :)

Обещал, что сейчас работаю над шпаргалками. Кстати, над xgboost тоже думаю скоро выпустить, немного перфекционизм не отпускает, все время думаю, что еще чуть-чуть допилить 😂


Но сегодня я добавляю для разогрева, как делать повороты таблицы. С одной стороны, это очень простая задача, но цель следующая: обратить внимание на то, что важно. Например, на то, что работая с данными, нужно думать «матрицами», а не числами. Другая история — я плавно хочу тебя подвести к модным алгоритмам, где, между прочим, важен «механизм внимания». Чтобы лучше разобраться, хорошо попробовать написать куски кода «на коленке», тогда и публикации проще читать.


В общем, поддержи, насколько заходит такой формат (и обязательно проголосуй выше). 🔥🔥

#pdf
@data_work
🔥123