NEW BOT Телеграм, страница

DataWorkshop - AI & ML

Вот пример, того что готовлю - будет такая серия материалов. Пока что на английском, вот и задумался, а как лучше будет для Тебя

🔥14❤3

503 views13:39

DataWorkshop - AI & ML

https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212

Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY

Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?

Loom

Простой код для анализа данных автомобилей 🚗 •

Привет, мои хорошие! В этом видео я подготовил простой код для анализа данных автомобилей. Я покажу, как работает модель внутри, объясню, как мы разделили данные на группы, и как мы можем прогнозировать цены на автомобили. Я жду твоей обратной связи и реакции…

❤33

556 viewsedited 12:57

DataWorkshop - AI & ML

Отзыв по поводу видео выше

Anonymous Poll

41%

Хочу нырнуть еще глубже. Аппетит приходим во время обеда. Продолжай!

37%

Хочу еще больше, но желательно не только слушать но ещё и обязательно покапаться лично!

Хочу еще - видео достаточно. Сильно углублять НЕ нужно, поверхностно достаточно.

Веди посмотрел, ничего не понятно, НО очень интересно - продолжай!

11%

Видео НЕ смотрел(а), просто кликаю.

Видео не работает, заливай на ютуб!

27 voters699 views13:06

DataWorkshop - AI & ML

Live stream scheduled for Mar 18, 2024 at 18:00

16:17

DataWorkshop - AI & ML

Ребята, подумал сделать сегодня ещё экспериментальный live stream, чтобы пообщаться и услышать Твои вопросы. Сейчас работаю над PDF-версией того, что записал выше, вижу по отзывам, что это интересно. Хочется услышать больше конкретных вопросов и точно синхронизироваться с тем, что важно. Видение уже просматривается, хочется получить подтверждение. Будешь сегодня? Да 👍

👍15❤3🙏1🌚1

725 views16:20

DataWorkshop - AI & ML

Live stream started

18:00

DataWorkshop - AI & ML

Live stream finished (28 minutes)

18:29

DataWorkshop - AI & ML

Первый стрим на телеграмме :)

Услышал два вопроса (направления). Выбери что интересно из того что прозвучало.

Anonymous Poll

27%

Сейчас тестер, знаю Python хочу идти в сторону ML Engineer, все что в эту сторону мне интересно

30%

LLM, не хватает ресурсов, и как лучше интегрировать весь зоопарк: RAG, vectorDB, embeddings...

18%

Я был(а), но как-то стеснял спросить просить голосом, а можно как-то текстом?

Не был(а), но есть вопрос который очень волнует, хочу задать

21%

Я (как обычно) просто кликаю :)

33 voters666 views18:54

DataWorkshop - AI & ML

В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной)

Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.

Что думаешь, интересно, чтобы закончил? Ставь 🔥

🔥29

657 viewsedited 16:59

DataWorkshop - AI & ML

В продложение темы, что находится внутри модели ML (сейчас смотрим на бустинговые модели, ксатти. мои любимые, с точки зрения практики - обычно их внедряем).

Так, давай оценишь один из слайдов в pdf

Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!

Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.

👍 - да понятно. уже жду pdf'ku

🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть

🙈 - хочется просто model.fit и на продакшн

🔥 - круто, я так чувствую

🔥14🤔10

664 viewsedited 16:51

DataWorkshop - AI & ML

Ребята, сегодня попалась на глаза очередная вакансия DS (содержание ниже). Обрати внимание на требования. Прям идеально вписываются в то, чему учим в DataWorkshop. Конечно же это не совпадение и c ВК мы не договаривались, просто прагматически эти инструменты дают хороший результат для бизнеса. Именно поэтому, мы как практики этому и учим. Что думаешь? Хочешь почаще тоже про вакансии? 🔥

#вакансия #ml #middle #adtech

Всем привет! Предлагаю рассмотреть вакансию.

❤️ Компания: VK (AdTech)

Локация: РФ / Беларусь
График: удаленка/гибрид

AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.

Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.

Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.

Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.

Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.

Откликаться можно мне в ЛС - @pawell

🔥7❤1

633 viewsedited 11:57

DataWorkshop - AI & ML

DBRX: Перспективная открытая LLM-модель от Databricks

Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.

Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face

Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.

Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед

#llm #genai #opensource #databricks #coding

🔥15❤2

692 viewsedited 17:47

DataWorkshop - AI & ML

Тут есть демка - можешь тоже поиграться

https://huggingface.co/spaces/databricks/dbrx-instruct

👍8❤1

609 views19:12

DataWorkshop - AI & ML

Вчера мы учились читать научные статьи и я показал один трюк, который часто используется в "этом мире" (со всем уважением к настоящей науке, но именно этот трюк часто находит применение). Запомни, что везде действуют свои правила игры, и чем быстрее ты их…

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Для настроения.

Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"

Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).

#paper #science #read #parse #llm

❤4👍4

621 views15:23

DataWorkshop - AI & ML

Так, я так и не понял почему xgboost свинья, ну даже если и так... то там как минимум дикий кабначик, который порвет многие "модные решения".

Насчет остальных, то да - игрушки, поигрались и хватит ❤️

P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.

❤11🔥1

524 viewsedited 14:07

DataWorkshop - AI & ML

Выбери пожалуйста что на сегодня важнее всего для Тебя и уже в апреле будет больше всего именно про тему которая выиграет. Где сейчас Твой самый главный затык?

Anonymous Poll

25%

Нет знаний о том, как подготовить данные для обучения и предсказаний в машинном обучении.

25%

Не знаю, как правильно использовать базовые инструменты и модели машинного обучения.

57%

Не знаю, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задач

Не умею тренировать свою модель машинного обучения и понимать, что можно изменить

16%

Не умею создавать новые признаки в модели машинного обучения

39%

Недостаток практики и упражнений в области построения моделей ML

25%

Неуверенность или незнание как писать код на Python для работы с данными.

25%

Непонимание, что можно изменять в моделях в первую очередь, чтобы улучшать результат.

18%

Ограниченные знания о метриках успеха.

30%

Недостаток знаний/неуверенность в области практической статистики

❤6

44 voters611 views14:39

DataWorkshop - AI & ML

Лови пдф-ку, сохраняй в закладки и делись с другими :)

Обещал, что сейчас работаю над шпаргалками. Кстати, над xgboost тоже думаю скоро выпустить, немного перфекционизм не отпускает, все время думаю, что еще чуть-чуть допилить 😂

Но сегодня я добавляю для разогрева, как делать повороты таблицы. С одной стороны, это очень простая задача, но цель следующая: обратить внимание на то, что важно. Например, на то, что работая с данными, нужно думать «матрицами», а не числами. Другая история — я плавно хочу тебя подвести к модным алгоритмам, где, между прочим, важен «механизм внимания». Чтобы лучше разобраться, хорошо попробовать написать куски кода «на коленке», тогда и публикации проще читать.

В общем, поддержи, насколько заходит такой формат (и обязательно проголосуй выше). 🔥🔥

#pdf
@data_work

🔥12❤3

753 views15:36

DataWorkshop - AI & ML

PDF_python_povorot_array.pdf

1.7 MB

#pdf
@data_work

🔥14❤3

721 viewsedited 15:37

DataWorkshop - AI & ML

transpose.png

857.9 KB

👍5🔥4

655 views15:37

DataWorkshop - AI & ML

transpose.png

Помогу интерпретировать. Это такой фундамент, который нужно понимать и потом будет проще достигать цель.

"100x100" означает таблицу размером 100 на 100 (100 строк и 100 столбцов), далее "100k x 10k" означает 100 тысяч строк и 10 тысяч столбцов.
И далее видим время.

Для реализации 3 это занимает 19 секунд, для реализации 4 (где используется букву .T - матричный подход, "не трогаем" каждое число на уровне Python) - 199 нано секунд. Для понимания: 1 секунда это 1,000,000,000 наносекунд. Миллиард, Карл! 😎

Напомню, что в 1 веке (100 лет)у нас примерно 3 млрд. секунд. Вообще, есть разница в том, считать секунду или век, не так ли? И что еще важно, писать код - это всего лишь одна строчка (не всегда так просто). В общем, с данными нужно работать на уровне таблиц, а не значений.

Для Тебя это новое? 👍

👍13❤2

759 viewsedited 19:14

DataWorkshop - AI & ML

Итак, у нас есть победитель "запроса"!

"Не знаешь, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задачи?"

Запрос понятен и звучит как самый важный на данный момент.

Немного повторюсь, но это важно:
- ML нельзя научить, но можно научиться! Это ремесло. ️
- Важно пропустить через себя поток информации и приобрести опыт.
- Просто читать статьи, книги или туториалы недостаточно.
- В DataWorkshop есть разные форматы обучения, но все они всегда про практику. ‍

Начиная с курсов, мастер-классов или нового формата, которого нет в мире "команда DS/ML" (ну я не нашел), но он очень крутой. Правда, требует больших усилий чтобы его провести (наверное поэтому мало кто это сможет).

🔥7❤3

753 views10:44

About

Blog

Apps

Platform