Какая тема, наиболее интересна для Тебя сейчас?
Anonymous Poll
21%
Управление зависимосятми (requirements.txt и такое там)
31%
Docker
49%
Раздеть модель :)
Вот смотрю, выигрывает "раздеть модель", хотя, правда, ситуация еще может измениться, подожду до завтра.
Но у меня есть такое ощущение, что интерес к моделям сохранится и дальше. Отлично! Сейчас в моде тема "генеративные модели", например, "диффузионные модели". Возможно и туда забежим, пощупаем а как оно там работает.
Кстати, формулы понятны (на скрине в этом посте), или их нужно разжевать? Ладно, шучу 😂. Я всегда стараюсь говорить простым языком и даже специально избегать формул (их всегда легко найти, почти все копируют их друг у друга), этот подход значительно сложнее для меня, но проще для Тебя.
P.S. Но все же, что-нибдуь понятно в формулах?
🔥 - да, давай, больше про модели, технические штуки (архитектура) итд
Но у меня есть такое ощущение, что интерес к моделям сохранится и дальше. Отлично! Сейчас в моде тема "генеративные модели", например, "диффузионные модели". Возможно и туда забежим, пощупаем а как оно там работает.
Кстати, формулы понятны (на скрине в этом посте), или их нужно разжевать? Ладно, шучу 😂. Я всегда стараюсь говорить простым языком и даже специально избегать формул (их всегда легко найти, почти все копируют их друг у друга), этот подход значительно сложнее для меня, но проще для Тебя.
P.S. Но все же, что-нибдуь понятно в формулах?
🔥 - да, давай, больше про модели, технические штуки (архитектура) итд
🔥12❤2👍1
В каком языке лучше создать PDF-шпаргалку: на английском для практики переключения языков или на родном для удобства?
Anonymous Poll
35%
Английский (знаю)
23%
Английский (не знаю, но при случае выучу технические термины, это важно)
20%
Давай, хоть на каком-нибудь
21%
Только на русском, иначе не пойму
2%
Мне в этом мире уже все понятно :)
❤6
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212
Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY
Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?
Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY
Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?
Loom
Простой код для анализа данных автомобилей 🚗 •
Привет, мои хорошие! В этом видео я подготовил простой код для анализа данных автомобилей. Я покажу, как работает модель внутри, объясню, как мы разделили данные на группы, и как мы можем прогнозировать цены на автомобили. Я жду твоей обратной связи и реакции…
❤33
Ребята, подумал сделать сегодня ещё экспериментальный live stream, чтобы пообщаться и услышать Твои вопросы. Сейчас работаю над PDF-версией того, что записал выше, вижу по отзывам, что это интересно. Хочется услышать больше конкретных вопросов и точно синхронизироваться с тем, что важно. Видение уже просматривается, хочется получить подтверждение. Будешь сегодня? Да 👍
👍15❤3🙏1🌚1
Первый стрим на телеграмме :)
Услышал два вопроса (направления). Выбери что интересно из того что прозвучало.
Услышал два вопроса (направления). Выбери что интересно из того что прозвучало.
Anonymous Poll
27%
Сейчас тестер, знаю Python хочу идти в сторону ML Engineer, все что в эту сторону мне интересно
30%
LLM, не хватает ресурсов, и как лучше интегрировать весь зоопарк: RAG, vectorDB, embeddings...
18%
Я был(а), но как-то стеснял спросить просить голосом, а можно как-то текстом?
3%
Не был(а), но есть вопрос который очень волнует, хочу задать
21%
Я (как обычно) просто кликаю :)
DataWorkshop - AI & ML
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212 Update: добавили на ютуб https://youtu.be/Hwpey_XYHtY Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому…
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной)
Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.
Что думаешь, интересно, чтобы закончил? Ставь 🔥
Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.
Что думаешь, интересно, чтобы закончил? Ставь 🔥
🔥29
DataWorkshop - AI & ML
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной) Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем,…
В продложение темы, что находится внутри модели ML (сейчас смотрим на бустинговые модели, ксатти. мои любимые, с точки зрения практики - обычно их внедряем).
Так, давай оценишь один из слайдов в pdf
Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!
Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.
👍 - да понятно. уже жду pdf'ku
🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть
🙈 - хочется просто model.fit и на продакшн
🔥 - круто, я так чувствую
Так, давай оценишь один из слайдов в pdf
Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!
Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.
👍 - да понятно. уже жду pdf'ku
🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть
🙈 - хочется просто model.fit и на продакшн
🔥 - круто, я так чувствую
🔥14🤔10
Ребята, сегодня попалась на глаза очередная вакансия DS (содержание ниже). Обрати внимание на требования. Прям идеально вписываются в то, чему учим в DataWorkshop. Конечно же это не совпадение и c ВК мы не договаривались, просто прагматически эти инструменты дают хороший результат для бизнеса. Именно поэтому, мы как практики этому и учим. Что думаешь? Хочешь почаще тоже про вакансии? 🔥
#вакансия #ml #middle #adtech
Всем привет! Предлагаю рассмотреть вакансию.
❤️ Компания: VK (AdTech)
Локация: РФ / Беларусь
График: удаленка/гибрид
AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.
Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.
Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.
Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.
Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.
Откликаться можно мне в ЛС - @pawell
#вакансия #ml #middle #adtech
Всем привет! Предлагаю рассмотреть вакансию.
❤️ Компания: VK (AdTech)
Локация: РФ / Беларусь
График: удаленка/гибрид
AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.
Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.
Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.
Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.
Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.
Откликаться можно мне в ЛС - @pawell
🔥7❤1
DBRX: Перспективная открытая LLM-модель от Databricks
Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.
Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face
Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.
Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед
#llm #genai #opensource #databricks #coding
Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.
Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face
Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.
Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед
#llm #genai #opensource #databricks #coding
🔥15❤2
DataWorkshop - AI & ML
Вчера мы учились читать научные статьи и я показал один трюк, который часто используется в "этом мире" (со всем уважением к настоящей науке, но именно этот трюк часто находит применение). Запомни, что везде действуют свои правила игры, и чем быстрее ты их…
This media is not supported in your browser
VIEW IN TELEGRAM
Для настроения.
Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"
Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).
#paper #science #read #parse #llm
Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"
Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).
#paper #science #read #parse #llm
❤4👍4
Так, я так и не понял почему xgboost свинья, ну даже если и так... то там как минимум дикий кабначик, который порвет многие "модные решения".
Насчет остальных, то да - игрушки, поигрались и хватит ❤️
P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.
Насчет остальных, то да - игрушки, поигрались и хватит ❤️
P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.
❤11🔥1
Выбери пожалуйста что на сегодня важнее всего для Тебя и уже в апреле будет больше всего именно про тему которая выиграет. Где сейчас Твой самый главный затык?
Anonymous Poll
25%
Нет знаний о том, как подготовить данные для обучения и предсказаний в машинном обучении.
25%
Не знаю, как правильно использовать базовые инструменты и модели машинного обучения.
57%
Не знаю, с чего начать, когда нужно построить модель машинного обучения для решения конкретной задач
9%
Не умею тренировать свою модель машинного обучения и понимать, что можно изменить
16%
Не умею создавать новые признаки в модели машинного обучения
39%
Недостаток практики и упражнений в области построения моделей ML
25%
Неуверенность или незнание как писать код на Python для работы с данными.
25%
Непонимание, что можно изменять в моделях в первую очередь, чтобы улучшать результат.
18%
Ограниченные знания о метриках успеха.
30%
Недостаток знаний/неуверенность в области практической статистики
❤6
Лови пдф-ку, сохраняй в закладки и делись с другими :)
Обещал, что сейчас работаю над шпаргалками. Кстати, над xgboost тоже думаю скоро выпустить, немного перфекционизм не отпускает, все время думаю, что еще чуть-чуть допилить 😂
Но сегодня я добавляю для разогрева, как делать повороты таблицы. С одной стороны, это очень простая задача, но цель следующая: обратить внимание на то, что важно. Например, на то, что работая с данными, нужно думать «матрицами», а не числами. Другая история — я плавно хочу тебя подвести к модным алгоритмам, где, между прочим, важен «механизм внимания». Чтобы лучше разобраться, хорошо попробовать написать куски кода «на коленке», тогда и публикации проще читать.
В общем, поддержи, насколько заходит такой формат (и обязательно проголосуй выше). 🔥🔥
#pdf
@data_work
Обещал, что сейчас работаю над шпаргалками. Кстати, над xgboost тоже думаю скоро выпустить, немного перфекционизм не отпускает, все время думаю, что еще чуть-чуть допилить 😂
Но сегодня я добавляю для разогрева, как делать повороты таблицы. С одной стороны, это очень простая задача, но цель следующая: обратить внимание на то, что важно. Например, на то, что работая с данными, нужно думать «матрицами», а не числами. Другая история — я плавно хочу тебя подвести к модным алгоритмам, где, между прочим, важен «механизм внимания». Чтобы лучше разобраться, хорошо попробовать написать куски кода «на коленке», тогда и публикации проще читать.
В общем, поддержи, насколько заходит такой формат (и обязательно проголосуй выше). 🔥🔥
@data_work
🔥12❤3