С опытом бывает по-разному: иногда везет, и ты сразу "входишь в нужную дверь", где нужен хоть кто-то в этой теме, и лучше тебя никого нет (ведь ты хотя бы умеешь включать компьютер). Это делает старт легче, хотя многие люди упускают этот шанс. Более сложный старт — когда нет площадки, где можно развернуть свои мысли; тогда приходится что-то выдумывать. Например, в DataWorkshop у нас есть симулятор команды Data Science, но даже туда не всех пускают — просто заплатить мало, нужно подготовиться, чтобы потом не тормозить команду по мелочам: "У тебя есть 5 минут?".
Поставь реакцию 🔥, насколько интересны эти мысли. Продолжать?
P.S. Кстати, в DataWorkshp были удачные кейс стажировки - человек быстро вырос.
#data #job #strategy
@data_work
Поставь реакцию 🔥, насколько интересны эти мысли. Продолжать?
P.S. Кстати, в DataWorkshp были удачные кейс стажировки - человек быстро вырос.
#data #job #strategy
@data_work
🔥21👍2❤1
DataWorkshop - AI & ML
С опытом бывает по-разному: иногда везет, и ты сразу "входишь в нужную дверь", где нужен хоть кто-то в этой теме, и лучше тебя никого нет (ведь ты хотя бы умеешь включать компьютер). Это делает старт легче, хотя многие люди упускают этот шанс. Более сложный…
Если единственный аргумент при поиске работы — это "могу работать за маленькую зарплату или даже бесплатно", то шансы найти хорошую работу — малы (близко к 0). Более того, если даже Тебе удастся так устроиться, скорее всего, это повод чтобы растроится и оттуда стоит бежать!
Так что же делать?
Спроси себя, какую ценность ты можешь принести. Это должна быть задачей #1! Для этого обычно не нужно уметь решать интегралы. В мире машинного обучения и данных ценность зачастую кроется в другом.
Конечно, важно освоить "твердые навыки" (hard skills): Python, SQL, статистику, само ML/DS, и нейронные сети тоже не помешают. НО! Этого недостаточно для создания ценности. Это необходимо, но недостаточно.
Ценность — это когда ты получаешь абстрактную задачу, переводишь её на технический язык и делаешь нужное.
Например:
- Нам нужно уменьшить отток клиентов, — сказали из бизнеса.
- Хорошо, — ответил ты и приступил к обучению моделей.
- ... через пару недель (или месяцев)
- Смотрите, у нас precision 90%, использовал топовую модель (трансформеры!!!). В общем, всё круто." - похвастался перед бизнесом
- А проблема с оттоком решена?" - учточнил бизнес
- Хм... На это время не нашлось, я же искал самую крутую модель...
Надеюсь, суть ясна. Умение правильно применять опыт — это важно. Интересно узнать больше про решение проблемы оттока клиентов, которую DataWorkshop внедрял лидеру телекоммуникационной компании из Европы? О том, с чем столкнулись и почему опыт решения проблемы это гораздо больше чем просто технические знания (даже на уровне эксперта).
Cтавь 🔥, вдохновляй, тем самым я пойму что это важно и буду делиться с Тобой.
Кстати, поставь сердечко, если хочешь, чтобы я писал и технические посты ❤️. Для меня это все взаимосвязано (нет так четкой границы).
Так что же делать?
Спроси себя, какую ценность ты можешь принести. Это должна быть задачей #1! Для этого обычно не нужно уметь решать интегралы. В мире машинного обучения и данных ценность зачастую кроется в другом.
Конечно, важно освоить "твердые навыки" (hard skills): Python, SQL, статистику, само ML/DS, и нейронные сети тоже не помешают. НО! Этого недостаточно для создания ценности. Это необходимо, но недостаточно.
Ценность — это когда ты получаешь абстрактную задачу, переводишь её на технический язык и делаешь нужное.
Например:
- Нам нужно уменьшить отток клиентов, — сказали из бизнеса.
- Хорошо, — ответил ты и приступил к обучению моделей.
- ... через пару недель (или месяцев)
- Смотрите, у нас precision 90%, использовал топовую модель (трансформеры!!!). В общем, всё круто." - похвастался перед бизнесом
- А проблема с оттоком решена?" - учточнил бизнес
- Хм... На это время не нашлось, я же искал самую крутую модель...
Надеюсь, суть ясна. Умение правильно применять опыт — это важно. Интересно узнать больше про решение проблемы оттока клиентов, которую DataWorkshop внедрял лидеру телекоммуникационной компании из Европы? О том, с чем столкнулись и почему опыт решения проблемы это гораздо больше чем просто технические знания (даже на уровне эксперта).
Cтавь 🔥, вдохновляй, тем самым я пойму что это важно и буду делиться с Тобой.
Кстати, поставь сердечко, если хочешь, чтобы я писал и технические посты ❤️. Для меня это все взаимосвязано (нет так четкой границы).
❤17🔥9
Ну что, мои хорошие. Смотря на реакцию, очень хочется, чтобы было больше технических постов? Отлично! Давай проведём такой эксперимент. Хотя концептуальные вещи важны, только "инструментами" (и техеническим подходом) не вытянешь, это точно! Но я тоже помню когда начинал, поэтому понятны приоритеты! Будем калибрироваться.
Истории люблю рассказывать из своего опыта, но давай выстроим некий план, чтобы это не было совсем рандомно. Сегодня подумал, чем написать, в голову пришло сразу три идеи:
1️⃣ Управление зависимостями и как вообще устанавливать пакеты. Вот недавно у меня был вызов, вроде есть requirements.txt, но ничего не работает, все слетает, а запустить надо и что делать? Как выкрутиться (и чтобы ещё не замучаться). И как вообще делать по-хорошему, чтобы в такие ситуации не попадать?
2️⃣ В продолжение темы 1, затронуть Docker. Как инструмент, который стал стандартом (контейнеры могут быть по-разному сделаны, но это как стандарт).
3️⃣ Про машинное обучение сейчас очень много есть высокоуровневого, но давай подойдем с другой стороны, как инженеры. Давай "разденем модель" (звучит круто, особенно для мужского пола 🙈) и посмотрим, что там у нее... спрятано! Спойлер - а там все просто, там просто условия (прям как жизнено). Да, можно сказать, что всё банально просто, иногда даже кажется, что примитивно. Я имею в виду, механика простая, но когда этих условий становится миллионы, тогда она дает лучший результат, чем человек в Excel. Здесь цель — максимально показать, что не Боги горшки обжигают.
Давай голосуй, делись с другими. У Тебя прямо есть пульт управления мной. Только давай наберем хотя бы 25 голосов (на конкретную тему), чтобы говорить о том, что для Тебя действительно важно. Поехали!
#tech #voting
Истории люблю рассказывать из своего опыта, но давай выстроим некий план, чтобы это не было совсем рандомно. Сегодня подумал, чем написать, в голову пришло сразу три идеи:
1️⃣ Управление зависимостями и как вообще устанавливать пакеты. Вот недавно у меня был вызов, вроде есть requirements.txt, но ничего не работает, все слетает, а запустить надо и что делать? Как выкрутиться (и чтобы ещё не замучаться). И как вообще делать по-хорошему, чтобы в такие ситуации не попадать?
2️⃣ В продолжение темы 1, затронуть Docker. Как инструмент, который стал стандартом (контейнеры могут быть по-разному сделаны, но это как стандарт).
3️⃣ Про машинное обучение сейчас очень много есть высокоуровневого, но давай подойдем с другой стороны, как инженеры. Давай "разденем модель" (звучит круто, особенно для мужского пола 🙈) и посмотрим, что там у нее... спрятано! Спойлер - а там все просто, там просто условия (прям как жизнено). Да, можно сказать, что всё банально просто, иногда даже кажется, что примитивно. Я имею в виду, механика простая, но когда этих условий становится миллионы, тогда она дает лучший результат, чем человек в Excel. Здесь цель — максимально показать, что не Боги горшки обжигают.
Давай голосуй, делись с другими. У Тебя прямо есть пульт управления мной. Только давай наберем хотя бы 25 голосов (на конкретную тему), чтобы говорить о том, что для Тебя действительно важно. Поехали!
#tech #voting
👍10❤4🔥1
Какая тема, наиболее интересна для Тебя сейчас?
Anonymous Poll
21%
Управление зависимосятми (requirements.txt и такое там)
31%
Docker
49%
Раздеть модель :)
Вот смотрю, выигрывает "раздеть модель", хотя, правда, ситуация еще может измениться, подожду до завтра.
Но у меня есть такое ощущение, что интерес к моделям сохранится и дальше. Отлично! Сейчас в моде тема "генеративные модели", например, "диффузионные модели". Возможно и туда забежим, пощупаем а как оно там работает.
Кстати, формулы понятны (на скрине в этом посте), или их нужно разжевать? Ладно, шучу 😂. Я всегда стараюсь говорить простым языком и даже специально избегать формул (их всегда легко найти, почти все копируют их друг у друга), этот подход значительно сложнее для меня, но проще для Тебя.
P.S. Но все же, что-нибдуь понятно в формулах?
🔥 - да, давай, больше про модели, технические штуки (архитектура) итд
Но у меня есть такое ощущение, что интерес к моделям сохранится и дальше. Отлично! Сейчас в моде тема "генеративные модели", например, "диффузионные модели". Возможно и туда забежим, пощупаем а как оно там работает.
Кстати, формулы понятны (на скрине в этом посте), или их нужно разжевать? Ладно, шучу 😂. Я всегда стараюсь говорить простым языком и даже специально избегать формул (их всегда легко найти, почти все копируют их друг у друга), этот подход значительно сложнее для меня, но проще для Тебя.
P.S. Но все же, что-нибдуь понятно в формулах?
🔥 - да, давай, больше про модели, технические штуки (архитектура) итд
🔥12❤2👍1
В каком языке лучше создать PDF-шпаргалку: на английском для практики переключения языков или на родном для удобства?
Anonymous Poll
35%
Английский (знаю)
23%
Английский (не знаю, но при случае выучу технические термины, это важно)
20%
Давай, хоть на каком-нибудь
21%
Только на русском, иначе не пойму
2%
Мне в этом мире уже все понятно :)
❤6
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212
Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY
Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?
Update: добавили на ютуб
https://youtu.be/Hwpey_XYHtY
Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому ставь реакцию, и я готов делиться своим опытом, рассказывая простым языком о сложных вещах. Двигаемся дальше?
Loom
Простой код для анализа данных автомобилей 🚗 •
Привет, мои хорошие! В этом видео я подготовил простой код для анализа данных автомобилей. Я покажу, как работает модель внутри, объясню, как мы разделили данные на группы, и как мы можем прогнозировать цены на автомобили. Я жду твоей обратной связи и реакции…
❤33
Ребята, подумал сделать сегодня ещё экспериментальный live stream, чтобы пообщаться и услышать Твои вопросы. Сейчас работаю над PDF-версией того, что записал выше, вижу по отзывам, что это интересно. Хочется услышать больше конкретных вопросов и точно синхронизироваться с тем, что важно. Видение уже просматривается, хочется получить подтверждение. Будешь сегодня? Да 👍
👍15❤3🙏1🌚1
Первый стрим на телеграмме :)
Услышал два вопроса (направления). Выбери что интересно из того что прозвучало.
Услышал два вопроса (направления). Выбери что интересно из того что прозвучало.
Anonymous Poll
27%
Сейчас тестер, знаю Python хочу идти в сторону ML Engineer, все что в эту сторону мне интересно
30%
LLM, не хватает ресурсов, и как лучше интегрировать весь зоопарк: RAG, vectorDB, embeddings...
18%
Я был(а), но как-то стеснял спросить просить голосом, а можно как-то текстом?
3%
Не был(а), но есть вопрос который очень волнует, хочу задать
21%
Я (как обычно) просто кликаю :)
DataWorkshop - AI & ML
https://www.loom.com/share/5f6a7f7619d84029985f222f97bbc212 Update: добавили на ютуб https://youtu.be/Hwpey_XYHtY Жду Твою реакцию, давай соберем хотя бы 50 ❤️ и будем продвигаться дальше. Сруз будет понятно, правильно ли я понимаю, что для Тебя важно. Поэтому…
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной)
Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.
Что думаешь, интересно, чтобы закончил? Ставь 🔥
Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем, когда модель уже готовая (т.е. после `.fit()`). Написал это в виде условий в чистом питоне.
Что думаешь, интересно, чтобы закончил? Ставь 🔥
🔥29
DataWorkshop - AI & ML
В продолжение вчерашней темы, хочу ее раскрыть еще больше и готовлю pdf (может и тетрадку тоже сделаю доступной) Идея в том, чтобы показать, как опредляем модель, например кол-во базовых моделей в xgboost, максимальная глубина - и что по факту получаем,…
В продложение темы, что находится внутри модели ML (сейчас смотрим на бустинговые модели, ксатти. мои любимые, с точки зрения практики - обычно их внедряем).
Так, давай оценишь один из слайдов в pdf
Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!
Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.
👍 - да понятно. уже жду pdf'ku
🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть
🙈 - хочется просто model.fit и на продакшн
🔥 - круто, я так чувствую
Так, давай оценишь один из слайдов в pdf
Читабильно получается? Цель как-то компактно показать логику внутри модели разными способами, чтобы "точно зашло". И все стало очевидно и понятно!
Выше написано кодом, решил добавить еще табличку в Экселе + кружочки чтобы объеденить табличку и визульное решение.
👍 - да понятно. уже жду pdf'ku
🤔 - наверное. нужно еще видео, где будет объяснено куда смотреть
🙈 - хочется просто model.fit и на продакшн
🔥 - круто, я так чувствую
🔥14🤔10
Ребята, сегодня попалась на глаза очередная вакансия DS (содержание ниже). Обрати внимание на требования. Прям идеально вписываются в то, чему учим в DataWorkshop. Конечно же это не совпадение и c ВК мы не договаривались, просто прагматически эти инструменты дают хороший результат для бизнеса. Именно поэтому, мы как практики этому и учим. Что думаешь? Хочешь почаще тоже про вакансии? 🔥
#вакансия #ml #middle #adtech
Всем привет! Предлагаю рассмотреть вакансию.
❤️ Компания: VK (AdTech)
Локация: РФ / Беларусь
График: удаленка/гибрид
AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.
Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.
Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.
Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.
Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.
Откликаться можно мне в ЛС - @pawell
#вакансия #ml #middle #adtech
Всем привет! Предлагаю рассмотреть вакансию.
❤️ Компания: VK (AdTech)
Локация: РФ / Беларусь
График: удаленка/гибрид
AdTech направление объединяет рекламные продукты и инструменты для бизнеса VK, которое упрощает начало работы и ежедневное взаимодействие с рекламными кампаниями для любых категорий пользователей.
Мы занимаемся рекламой eCommerce: то есть продвигаем товары и услуги наших рекламодателей. Тут много вызовов: большие объемы данных (сотни миллионов товаров, сотни миллионов юзеров, миллиарды событий). Нужно из этих данных делать релевантную рекламу.
Задачи:
- проводить полный цикл разработки моделей на основе машинного обучения и статистики: от исследований и получения данных до встраивания в продакшен и продуктовой аналитики;
- в составе команды формулировать продуктовые гипотезы, разрабатывать их и поддерживать реализованные продукты;
- улучшение рекомендательного движка, который сейчас подбирает релевантные товары из миллионов позиций для миллионов пользователей;
- улучшение и разработка моделей на данных товаров: модерация, категоризация и тд.
Требования
- владение Python, SQL, Git, Hadoop, pyspark;
- знание классических методов машинного обучения и анализа данных, современных архитектур нейронных сетей;
- знание и опыт работы с библиотеками для анализа данных и обучения моделей: jupyter, matplotlib, seaborn, sklearn, xgboost/catboost, pytorch;
- опыт разработки ml моделей и внедрения их.
Предлагаем:
- От 200к на руки;
- программа благополучия: заботимся о здоровье и хорошем самочувствии сотрудников;
- широкий пакет ДМС;
- компенсация питания в кафе и ресторанах рядом с офисами;
- компенсация спортивных активностей — 30 000 рублей в год в регионах и 35 000 рублей в год в Москве и в Санкт-Петербурге;
- 16 корпоративных команд по 12 видам спорта.
Откликаться можно мне в ЛС - @pawell
🔥7❤1
DBRX: Перспективная открытая LLM-модель от Databricks
Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.
Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face
Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.
Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед
#llm #genai #opensource #databricks #coding
Databricks выпустила DBRX, новую открытую LLM-модель. Она превосходит GPT-3.5 и даже конкурирует с Gemini 1.0 Pro в некоторых областях, таких как программирование.
Преимущества DBRX:
👉 Вдвое быстрее LLaMA2-70B
👉На 40% меньше Grok-1
👉Доступна с открытым исходным кодом на Hugging Face
Вообщем это следующий шаг для разработчиков, исследователей и бизнеса - это помогает от генерации SQL-запросов до сложных задач программирования и математики.
Пробовали ли вы DBRX или другие открытые LLM-модели? Ставь огонек 🔥 Будем и эту тему продвигать вперед
#llm #genai #opensource #databricks #coding
🔥15❤2
DataWorkshop - AI & ML
Вчера мы учились читать научные статьи и я показал один трюк, который часто используется в "этом мире" (со всем уважением к настоящей науке, но именно этот трюк часто находит применение). Запомни, что везде действуют свои правила игры, и чем быстрее ты их…
This media is not supported in your browser
VIEW IN TELEGRAM
Для настроения.
Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"
Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).
#paper #science #read #parse #llm
Сегодня немного разминался: писал решение, которое будет автоматически парсить публикации из arXiv и затем их сжимать, чтобы можно было легко спросить: "Какая там модель, что умеет?"
Кстати, стоит заметить, что качество публикаций стало более читабельным, чем, скажем, ещё лет десять назад. Всё чаще есть ссылка на код на GitHub, и его можно потрогать руками (кстати, советую).
#paper #science #read #parse #llm
❤4👍4
Так, я так и не понял почему xgboost свинья, ну даже если и так... то там как минимум дикий кабначик, который порвет многие "модные решения".
Насчет остальных, то да - игрушки, поигрались и хватит ❤️
P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.
Насчет остальных, то да - игрушки, поигрались и хватит ❤️
P.S. Я до сих пор удивляюсь почему почти везде очень долго изучаются PCA, SVM, Naive Bayes итд Никогда не вндерял их на "продакшн" и не знаю ни одного успешного кейса.
❤11🔥1