This media is not supported in your browser
VIEW IN TELEGRAM
🔥21👎17👍7😁2❤1
🏆 Data Feeling | AI
Сейчас сэкономлю вам кучу времени. 🤔 Мне тут на работе выпало делать голосового помощника. И если вы делаете что-то похожее или просто хотите поднять себе собственную бесплатную chatGPT, то этот пост для вас. 👨💻 Первое, что вам придется сделать, это понять…
Вижу, как зашла тема с MLOps, буду стараться чаще про это писать. Кстати, тут намечается релевантная DS конференция...
Большой DS-митап о персонализации от СберМаркет Tech🔥
Встречаемся на Data Science Meetup 5 июля в 19:00 в московском офисе СберМаркета или на онлайн-трансляции.
В программе:
🟡 Как мы делали проект по персональному ML-ранжированию каталога и почему из этого ничего не получилось, а потом внезапно каааааак получилось // Антонина Горячева, и.о. директора по анализу данных в СберМаркете.
🟡 ML-персонализация для карьерной платформы: о продукте, что для него делали, какие проблемы были и как их решали // Петр Чуйков, DS Team Lead, HeadHunter.
🟡 Кросс-категорийные рекомендации в Авито: зачем они нужны, как добавляли и что из этого вышло // Михаил Каменщиков, Recommendations Unit Lead Авито.
🟡 Персональный тарифный план для новой базы: key learnings после запусков пилотов, как и почему реальность разошлась с ожиданиями и что с этим делаем // Дарья Шатько, Data Science Teamlead Мегафон BigData.
После каждого доклада дарим подарки за лучший вопрос 🎁
Регистрируйся по ссылке и до встречи на митапе!
Большой DS-митап о персонализации от СберМаркет Tech🔥
Встречаемся на Data Science Meetup 5 июля в 19:00 в московском офисе СберМаркета или на онлайн-трансляции.
В программе:
🟡 Как мы делали проект по персональному ML-ранжированию каталога и почему из этого ничего не получилось, а потом внезапно каааааак получилось // Антонина Горячева, и.о. директора по анализу данных в СберМаркете.
🟡 ML-персонализация для карьерной платформы: о продукте, что для него делали, какие проблемы были и как их решали // Петр Чуйков, DS Team Lead, HeadHunter.
🟡 Кросс-категорийные рекомендации в Авито: зачем они нужны, как добавляли и что из этого вышло // Михаил Каменщиков, Recommendations Unit Lead Авито.
🟡 Персональный тарифный план для новой базы: key learnings после запусков пилотов, как и почему реальность разошлась с ожиданиями и что с этим делаем // Дарья Шатько, Data Science Teamlead Мегафон BigData.
После каждого доклада дарим подарки за лучший вопрос 🎁
Регистрируйся по ссылке и до встречи на митапе!
👎56👍25😁4🤔2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥23👎11👍2😁2❤1
🏆 Data Feeling | AI
Video message
Это вам анонс нового формата выпусков по DS. В этот раз с Ваней Максимовым из Яндекс.Лавки, который лидирует DS команду и решает реальные боли бизнеса.
#TeamLeadTalks
Ждите!
#TeamLeadTalks
Ждите!
👎52👍34🔥16
Слишком много дизов, а если я вам покажу кусочек видео с очень сочной картинкой?
🔥31👎20👍2
Forwarded from Aleron Milenkin
This media is not supported in your browser
VIEW IN TELEGRAM
👍58👎31🔥7
Алерончик, как дела?! Делюсь новостями.
Последний месяц выдался очень насыщенным.
🦤 Лидирование ML команды в DoDo Brands требует фокуса над задачами. А задач сейчас много. Тащим в прод рекомендашки, возвращаем Upsell корзины, статичную цену на доставку делаем динамической, а еще делаем голосового заказчика. В Dodo Brands дел реально хватает, но меня это все изрядно драйвит. Уж очень бодрая тима и достаточно ресурсов.
✈️ Мой курс вышел в автономный режим шлифовки. Рад, что курсец успешно помогает многим вкатиться в соревновательный ML быстрее. Удалось сделать целое открытое комьюнити с периодическими вебинарами. Разбираем текущие чемпионаты. Люди делятся своими приемами и дают друг другу мотивации участвовать систематичнее. В эту пятницу будем снова разбирать Protein Function Prediction. Недавно наконец-то разослали участникам фирменный мерч за успехи в рамках курса 👕.
🤖 Мир AI бежит вперед в бешеном тема. Утром выпускается новая SOTA модель, а вечером уже ее убийца с качеством в 10 раз лучше. Поэтому тоже не хочется отставать. Используем LLM'а модели в Dodo Brands, а еще решил запустить курсец по LLM'ам моделям и фреймворкам для работы с ними. Все что сейчас есть в русском мире - моей команде соавторов не нравится - будем задавать уровень.
🎬 Возобновил выпуски с интересными ребятами, но уже не в формате мок-интервью, а скорее более ламповый. Где люди могут поделиться какими-то откровенными вещами из своей карьеры. Анонс вы видели выше.
Последний месяц выдался очень насыщенным.
🦤 Лидирование ML команды в DoDo Brands требует фокуса над задачами. А задач сейчас много. Тащим в прод рекомендашки, возвращаем Upsell корзины, статичную цену на доставку делаем динамической, а еще делаем голосового заказчика. В Dodo Brands дел реально хватает, но меня это все изрядно драйвит. Уж очень бодрая тима и достаточно ресурсов.
✈️ Мой курс вышел в автономный режим шлифовки. Рад, что курсец успешно помогает многим вкатиться в соревновательный ML быстрее. Удалось сделать целое открытое комьюнити с периодическими вебинарами. Разбираем текущие чемпионаты. Люди делятся своими приемами и дают друг другу мотивации участвовать систематичнее. В эту пятницу будем снова разбирать Protein Function Prediction. Недавно наконец-то разослали участникам фирменный мерч за успехи в рамках курса 👕.
🤖 Мир AI бежит вперед в бешеном тема. Утром выпускается новая SOTA модель, а вечером уже ее убийца с качеством в 10 раз лучше. Поэтому тоже не хочется отставать. Используем LLM'а модели в Dodo Brands, а еще решил запустить курсец по LLM'ам моделям и фреймворкам для работы с ними. Все что сейчас есть в русском мире - моей команде соавторов не нравится - будем задавать уровень.
🎬 Возобновил выпуски с интересными ребятами, но уже не в формате мок-интервью, а скорее более ламповый. Где люди могут поделиться какими-то откровенными вещами из своей карьеры. Анонс вы видели выше.
👍33🔥9👎7❤3😁1
This media is not supported in your browser
VIEW IN TELEGRAM
👎16👍7❤5🔥4
На прошлых выходных проглотил несколько новых курсов от Andrew Ng. В целом, я уже давно играюсь с prompt engineering'ом LLM моделей, но нашлось несколько трюков, которые мне понравились
Итак, вот несколько выводов, которые мне больше всего запомнились.
⛓️ LangChain for LLM Application Development
- LangChain это новый "pandas", но не для таблиц, а для дизайна промптов LLM моделей.
- Слово Chain тут не зря. Оказывается, заставить LLM плясать под твою дудку можно не одним промптом, а цепочкой из нескольких.
- Зачем выбирать подходящий промпт, если можно попросить LLM выбрать подходящий промп самой среди предложенных с пояснениями?!
- Не можешь пихнуть нужную инфу в промпт - просто отфильтрую нужный фрагмент с помощью similarity search и проблема решится.
- Чтоб LLM не фантазировала и не тупила при подсчетах - скорми ей специальную базу знаний.
- LLM это не база данных, это штука, которая умеет делать выводы, если ей верно подсовывать актуальную информацию.
- Как оценить качество ответа модели? Дать сделать ей это самой.
📀 LangChain Chat with Your Data
- LangChain может распарсить почти любой фрагмент данных и превратить его в базу знаний. Будь это Ютуб, Ноушен или тупо набор PDF файлов.
- Как впихнуть невпихуемое? Сделать сперва по БЗ предварительный similarity search
- Что если БЗ не хватает для ответа на вопрос? - Подгружаем ей внешние БЗ + добавляем силу GPT и тогда качество вполне себе ок.
- Чаты в LangChain позволяют сплитить диалог хоть по сообщениям, хоть по токенам и тп. Оптимальнее всего тянуть именно сумаризированный диалог.
👨💻 ChatGPT Prompt Engineering for Developers
- Если тебе кажется, что LLM тебя не понимает, значит ты не шаришь, как ей это объяснить.
- Если LLM сильно тупит, дай ей несколько примеров из БЗ. Почти всегда качество сильно выше.
- LLM могут все равно отклоняться от намеченных указаний, лучше подстраховаться пост процессингом .
Прохожу курсы вместе вас, не благодарите!
Говорят, скоро курсы сделают платными. Оно и понятно, считай за бесплатно дают подергать ChatGPT API.
Итак, вот несколько выводов, которые мне больше всего запомнились.
⛓️ LangChain for LLM Application Development
- LangChain это новый "pandas", но не для таблиц, а для дизайна промптов LLM моделей.
- Слово Chain тут не зря. Оказывается, заставить LLM плясать под твою дудку можно не одним промптом, а цепочкой из нескольких.
- Зачем выбирать подходящий промпт, если можно попросить LLM выбрать подходящий промп самой среди предложенных с пояснениями?!
- Не можешь пихнуть нужную инфу в промпт - просто отфильтрую нужный фрагмент с помощью similarity search и проблема решится.
- Чтоб LLM не фантазировала и не тупила при подсчетах - скорми ей специальную базу знаний.
- LLM это не база данных, это штука, которая умеет делать выводы, если ей верно подсовывать актуальную информацию.
- Как оценить качество ответа модели? Дать сделать ей это самой.
📀 LangChain Chat with Your Data
- LangChain может распарсить почти любой фрагмент данных и превратить его в базу знаний. Будь это Ютуб, Ноушен или тупо набор PDF файлов.
- Как впихнуть невпихуемое? Сделать сперва по БЗ предварительный similarity search
- Что если БЗ не хватает для ответа на вопрос? - Подгружаем ей внешние БЗ + добавляем силу GPT и тогда качество вполне себе ок.
- Чаты в LangChain позволяют сплитить диалог хоть по сообщениям, хоть по токенам и тп. Оптимальнее всего тянуть именно сумаризированный диалог.
👨💻 ChatGPT Prompt Engineering for Developers
- Если тебе кажется, что LLM тебя не понимает, значит ты не шаришь, как ей это объяснить.
- Если LLM сильно тупит, дай ей несколько примеров из БЗ. Почти всегда качество сильно выше.
- LLM могут все равно отклоняться от намеченных указаний, лучше подстраховаться пост процессингом .
Прохожу курсы вместе вас, не благодарите!
Говорят, скоро курсы сделают платными. Оно и понятно, считай за бесплатно дают подергать ChatGPT API.
👍53🔥9👎8❤6
🍕 Побывал сегодня на 11-м съезде партнеров DoDo Brands.
👨💻->👩💻 Федор Овчинников больше не CEO DoDo Brands. Уже даже знаю, кто займет этот пост. Пред-история нового СЕОАлены Тиховой - вдохновляющая. Скоро расскажу, если накидайете 🔥
💪🤖 Утром в прод вышла первая моделька под моим лидированием. Еще две на подходе.
📦 Одноразовые коробки скоро заменятся многоразовыми боксами (см фото).
🐳 Старбакс sucks по сравнению с Дринкит
#1.5k_pizzerias
#150k🍋
#50%_market
#3.5_years
#DODOX2
👨💻->👩💻 Федор Овчинников больше не CEO DoDo Brands. Уже даже знаю, кто займет этот пост. Пред-история нового СЕО
💪🤖 Утром в прод вышла первая моделька под моим лидированием. Еще две на подходе.
📦 Одноразовые коробки скоро заменятся многоразовыми боксами (см фото).
🐳 Старбакс sucks по сравнению с Дринкит
#1.5k_pizzerias
#150k🍋
#50%_market
#3.5_years
#DODOX2
🔥95👍10👎7❤2🤔2
Media is too big
VIEW IN TELEGRAM
😝 В прошлом году, я проводил марафон по фармингу в онлайне. В этом году я пошел дальше и реализовал мечту замутить офлайн кемп. (Пока ковид)
🤫 Суть в кемпа в том, чтоб собираться по выходным и вместе фармить в компании опытных ребят с разношерстным бэкграундом.
🤔 Запустились на месяц. Посмотрим, сколько новых медалистов появится. Взяли самых активных участников курса, чтоб эффективнее их прокачивать.
🤫 Суть в кемпа в том, чтоб собираться по выходным и вместе фармить в компании опытных ребят с разношерстным бэкграундом.
🤔 Запустились на месяц. Посмотрим, сколько новых медалистов появится. Взяли самых активных участников курса, чтоб эффективнее их прокачивать.
👍54👎27🔥16
🧘♀️ «Выкатывай фичу в прод медленно, откатывай быстро».
😉 👌 Аргумент на случай, если ваш руководитель недоволен скоростью
Please open Telegram to view this post
VIEW IN TELEGRAM
😁29👍11👎2
Если уж так вышло, что вы вкатываетесь в DS или в IT в солидном возврасте (40±5 лет), то вам, как вы возможно заметили, сложнее попасть на открытую позицию. Вот несколько моих советов в помощь:
Больше профессионального нетворкинга (конференции, сходки, кемпы).
Почти после любой конфы можно тет-а-тет поболтать с докладчиками из компаний, которые, как правило, могут искать в команду отвественных талантов. Нанимать намного легче человека, с которым общался вживую или видел, как человек при тебе кодил на хакатоне.
Курсы и комьюнити.
- Преподаватели курсов - это часто работающие в сфере люди. Не раз замечал, как мои коллеги в онлайн школах систематически хантили к себе новичков. Как и кого? - Например, когда на новых курсах давались зубодробительные или необкатанные домашки. Если находилсь студенты, которые несмотря на сложности справлялись с решением, да еще и приносили фидбек по улучшниям материалла, то хантились такие на раз-два.
- Комьюнити - это не всегда новички, это могут быть матерые спецы, которые пришли на курс еще немного прокачаться. Пользуйтесь этим. Пообщайтесь, узнайте нет ли у них открытых позиций или даже просто желания нанять кого-то еще. Если да, то вполне себе могут рефернуть вас, в обход воронки с HH.ru.
А зачем вам вообще найм? Есть же фриланс!
Набить опыт и получить крутые кейсы можно не только на курсах, но и получая небольшие заказы от людей, которым для решених их проблемы\идеи\задачи не нужен человек в штате, а вполне достаточно человека со сдельной систематической оплатой по часам.
Kaggle и хакатоны
Тут и говорить нечего, способ сложнее, но тоже рабочий. Есть чемпионаты, которые вовсе проводят лишь с целью познакомить будущих сотрудников с задачей с последующим хантингом в компанию для решения это самой задачи. И вообще, чемпионаты по Data Science это социальный лифт. Плевать какой у тебя возвраст и какой опыт у твоих аппонентов, перед задачей все равны. А выиграв или просто зайдя в обозримый топ лидерборда - ты становишься мишенью для HR’ов.
Пользуйтесь!
Больше профессионального нетворкинга (конференции, сходки, кемпы).
Почти после любой конфы можно тет-а-тет поболтать с докладчиками из компаний, которые, как правило, могут искать в команду отвественных талантов. Нанимать намного легче человека, с которым общался вживую или видел, как человек при тебе кодил на хакатоне.
Курсы и комьюнити.
- Преподаватели курсов - это часто работающие в сфере люди. Не раз замечал, как мои коллеги в онлайн школах систематически хантили к себе новичков. Как и кого? - Например, когда на новых курсах давались зубодробительные или необкатанные домашки. Если находилсь студенты, которые несмотря на сложности справлялись с решением, да еще и приносили фидбек по улучшниям материалла, то хантились такие на раз-два.
- Комьюнити - это не всегда новички, это могут быть матерые спецы, которые пришли на курс еще немного прокачаться. Пользуйтесь этим. Пообщайтесь, узнайте нет ли у них открытых позиций или даже просто желания нанять кого-то еще. Если да, то вполне себе могут рефернуть вас, в обход воронки с HH.ru.
А зачем вам вообще найм? Есть же фриланс!
Набить опыт и получить крутые кейсы можно не только на курсах, но и получая небольшие заказы от людей, которым для решених их проблемы\идеи\задачи не нужен человек в штате, а вполне достаточно человека со сдельной систематической оплатой по часам.
Kaggle и хакатоны
Тут и говорить нечего, способ сложнее, но тоже рабочий. Есть чемпионаты, которые вовсе проводят лишь с целью познакомить будущих сотрудников с задачей с последующим хантингом в компанию для решения это самой задачи. И вообще, чемпионаты по Data Science это социальный лифт. Плевать какой у тебя возвраст и какой опыт у твоих аппонентов, перед задачей все равны. А выиграв или просто зайдя в обозримый топ лидерборда - ты становишься мишенью для HR’ов.
Пользуйтесь!
👍62🔥11👎8
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24👎7😁3❤2🔥2
🏆 Data Feeling | AI
В комментариях пожаловались, что слишком поздно предложил идею вытянуть лотерейный билет в ICR.
✔️ Исправлюсь и как альтернативу предлагаю текущих CommonLit. Это классических NLP чемпионат, который по механике борьбы очень похож на табличные чемпионаты.
🙈 Очень плотный лидерборд. Конкуренты массово и агрессивно файн-тюнят языковые модели. Просто напросто слизывают все вкусноту с HuggingFace и далее это все усредняют.
🧠 Что круто, теперь в опенсорс вышло много LLM архитектур по типу Ламы, Вайкуны, Альпаки и других зверей. Есть где разгуляться. Запросто можно обойти других какой-нибудь новенькой архитектурой.
😝Медленно, но уверенно идем к титулу мастера. Участвуйте!
🙈 Очень плотный лидерборд. Конкуренты массово и агрессивно файн-тюнят языковые модели. Просто напросто слизывают все вкусноту с HuggingFace и далее это все усредняют.
🧠 Что круто, теперь в опенсорс вышло много LLM архитектур по типу Ламы, Вайкуны, Альпаки и других зверей. Есть где разгуляться. Запросто можно обойти других какой-нибудь новенькой архитектурой.
😝Медленно, но уверенно идем к титулу мастера. Участвуйте!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32👎9❤3
🏆 Data Feeling | AI
😝 В прошлом году, я проводил марафон по фармингу в онлайне. В этом году я пошел дальше и реализовал мечту замутить офлайн кемп. (Пока ковид) 🤫 Суть в кемпа в том, чтоб собираться по выходным и вместе фармить в компании опытных ребят с разношерстным бэкграундом.…
This media is not supported in your browser
VIEW IN TELEGRAM
🤔 Кто-то в комментариях задавался вопросом - а зачем устраивать кемпы по кодингу?
🔥 Все ради прокачки и развития в кайфовой атмосфере 😜✌️
✅ Это лето точно останется в памяти у моих чемпионов
🔥 Все ради прокачки и развития в кайфовой атмосфере 😜✌️
✅ Это лето точно останется в памяти у моих чемпионов
🔥44👎12👍3❤2
Media is too big
VIEW IN TELEGRAM
- Ты работаешь в пиццерии?
- Нет, я работаю в IT компании
Видосик понравился, делюсь.
- Нет, я работаю в IT компании
Видосик понравился, делюсь.
🔥42👎8❤4👍3
🏆 Data Feeling | AI
🧞♂ Что там по лотерее под названием ICR?
🕵 Как видите, произошел один из самых сильных шейкапов на моей памяти. Оценивается даже не сотнями, а тысячами. Весь топ лидерборда заняли ребята, прилетевшие с 3000-4000-х мест. Социальный лифт прям) Вижу, что кто-то все таки урвал медальки из подписчиков 😂👍
🙈 Можно ли было что-то придумать?! Судя по тому, что в топе нет ни мастеров, ни гранд мастеров - мало вероятно. Азарт того стоил 😉
😜🥇 Интересно как мы зашли на паблике в золото и почему верили, что не упадем? 100 огоньков и я солью фишку с пост-процессингом.
🍕 На приват улетели с 12 на 6608/6712
🕵 Как видите, произошел один из самых сильных шейкапов на моей памяти. Оценивается даже не сотнями, а тысячами. Весь топ лидерборда заняли ребята, прилетевшие с 3000-4000-х мест. Социальный лифт прям) Вижу, что кто-то все таки урвал медальки из подписчиков 😂👍
🙈 Можно ли было что-то придумать?! Судя по тому, что в топе нет ни мастеров, ни гранд мастеров - мало вероятно. Азарт того стоил 😉
😜🥇 Интересно как мы зашли на паблике в золото и почему верили, что не упадем? 100 огоньков и я солью фишку с пост-процессингом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥119👎16👍4🏆3❤1
🏆 Data Feeling | AI
🧞♂ Что там по лотерее под названием ICR? 🕵 Как видите, произошел один из самых сильных шейкапов на моей памяти. Оценивается даже не сотнями, а тысячами. Весь топ лидерборда заняли ребята, прилетевшие с 3000-4000-х мест. Социальный лифт прям) Вижу, что кто…
telegram-cloud-document-2-5379856780631222501.jpg
36 KB
Окей, 100 🔥 есть. Вот вам фишка в пару строк.
Берем любое ваше ML решение и добавляем в конце перед отправкой ответа вот эти строчки (скрин)
🤔 Почему пост-процессинг частенько работает?
🧑💻 Суть в том, что так вы преземляете модель на землю. Если модель, например, выдает отрицательные значения или больше чем может быть, то пост-исправление ответа - это очень хорошая идея.
🎯 В ICR было замечено, что в трейне при BN < 16 всегда класс ноль. Удивительно, но на паблике это действительно поднимало на 2к+ мест вверх 🥇.
🤾♀ На привате не спасло, значит ли это, что трюк не работает? Нет, потому что в этом чемпионате совсем рандомно все. Поэтому утверждать что-либо сложно. Тестовая выборка всего 600 строк - маловато.
Берем любое ваше ML решение и добавляем в конце перед отправкой ответа вот эти строчки (скрин)
🤔 Почему пост-процессинг частенько работает?
🧑💻 Суть в том, что так вы преземляете модель на землю. Если модель, например, выдает отрицательные значения или больше чем может быть, то пост-исправление ответа - это очень хорошая идея.
🎯 В ICR было замечено, что в трейне при BN < 16 всегда класс ноль. Удивительно, но на паблике это действительно поднимало на 2к+ мест вверх 🥇.
🤾♀ На привате не спасло, значит ли это, что трюк не работает? Нет, потому что в этом чемпионате совсем рандомно все. Поэтому утверждать что-либо сложно. Тестовая выборка всего 600 строк - маловато.
👍32👎9