🏆 Data Feeling | AI – Telegram
🏆 Data Feeling | AI
15.9K subscribers
732 photos
222 videos
6 files
469 links
IT предприниматель и препод 🧑‍🏫
ex-ML лидер в Dodo Brands 🦤🍕
Прокачиваю людей в Data Science 🚀
Победитель Stepik Awards 🏆
Kaggle Expert 🤹‍♀️
Создатель @Speakadora_bot @big_llm_course

РКН https://clik.now/datafeeling
Алерон @Ale_v2
Download Telegram
Алерончик, как дела?! Делюсь новостями.

Последний месяц выдался очень насыщенным.

🦤 Лидирование ML команды в DoDo Brands требует фокуса над задачами. А задач сейчас много. Тащим в прод рекомендашки, возвращаем Upsell корзины, статичную цену на доставку делаем динамической, а еще делаем голосового заказчика. В Dodo Brands дел реально хватает, но меня это все изрядно драйвит. Уж очень бодрая тима и достаточно ресурсов.

✈️ Мой курс вышел в автономный режим шлифовки. Рад, что курсец успешно помогает многим вкатиться в соревновательный ML быстрее. Удалось сделать целое открытое комьюнити с периодическими вебинарами. Разбираем текущие чемпионаты. Люди делятся своими приемами и дают друг другу мотивации участвовать систематичнее. В эту пятницу будем снова разбирать Protein Function Prediction. Недавно наконец-то разослали участникам фирменный мерч за успехи в рамках курса 👕.

🤖 Мир AI бежит вперед в бешеном тема. Утром выпускается новая SOTA модель, а вечером уже ее убийца с качеством в 10 раз лучше. Поэтому тоже не хочется отставать. Используем LLM'а модели в Dodo Brands, а еще решил запустить курсец по LLM'ам моделям и фреймворкам для работы с ними. Все что сейчас есть в русском мире - моей команде соавторов не нравится - будем задавать уровень.

🎬 Возобновил выпуски с интересными ребятами, но уже не в формате мок-интервью, а скорее более ламповый. Где люди могут поделиться какими-то откровенными вещами из своей карьеры. Анонс вы видели выше.
👍33🔥9👎73😁1
This media is not supported in your browser
VIEW IN TELEGRAM
👎16👍75🔥4
А го сделаем аукцион за набор мерча?

Правила: Стартовая цена за фирменный мерч 100 рублей. Шаг новой цены 100 рублей. Если последний час цена не перебивается, то мерч уходить победителю.

Мерч = футболка и набор стикеров + бонус сверху.

Итоговую сумму тоже разыграем)
👎51👍14😁5🤔53
На прошлых выходных проглотил несколько новых курсов от Andrew Ng. В целом, я уже давно играюсь с prompt engineering'ом LLM моделей, но нашлось несколько трюков, которые мне понравились

Итак, вот несколько выводов, которые мне больше всего запомнились.

⛓️ LangChain for LLM Application Development
-
LangChain это новый "pandas", но не для таблиц, а для дизайна промптов LLM моделей.
- Слово Chain тут не зря. Оказывается, заставить LLM плясать под твою дудку можно не одним промптом, а цепочкой из нескольких.
- Зачем выбирать подходящий промпт, если можно попросить LLM выбрать подходящий промп самой среди предложенных с пояснениями?!
- Не можешь пихнуть нужную инфу в промпт - просто отфильтрую нужный фрагмент с помощью similarity search и проблема решится.
- Чтоб LLM не фантазировала и не тупила при подсчетах - скорми ей специальную базу знаний.
- LLM это не база данных, это штука, которая умеет делать выводы, если ей верно подсовывать актуальную информацию.
- Как оценить качество ответа модели? Дать сделать ей это самой.

📀 LangChain Chat with Your Data
-
LangChain может распарсить почти любой фрагмент данных и превратить его в базу знаний. Будь это Ютуб, Ноушен или тупо набор PDF файлов.
- Как впихнуть невпихуемое? Сделать сперва по БЗ предварительный similarity search
- Что если БЗ не хватает для ответа на вопрос? - Подгружаем ей внешние БЗ + добавляем силу GPT и тогда качество вполне себе ок.
- Чаты в LangChain позволяют сплитить диалог хоть по сообщениям, хоть по токенам и тп. Оптимальнее всего тянуть именно сумаризированный диалог.

👨‍💻 ChatGPT Prompt Engineering for Developers
-
Если тебе кажется, что LLM тебя не понимает, значит ты не шаришь, как ей это объяснить.
- Если LLM сильно тупит, дай ей несколько примеров из БЗ. Почти всегда качество сильно выше.
- LLM могут все равно отклоняться от намеченных указаний, лучше подстраховаться пост процессингом .

Прохожу курсы вместе вас, не благодарите!

Говорят, скоро курсы сделают платными. Оно и понятно, считай за бесплатно дают подергать ChatGPT API.
👍53🔥9👎86
🍕 Побывал сегодня на 11-м съезде партнеров DoDo Brands.

👨‍💻->👩‍💻 Федор Овчинников больше не CEO DoDo Brands. Уже даже знаю, кто займет этот пост. Пред-история нового СЕО Алены Тиховой - вдохновляющая. Скоро расскажу, если накидайете 🔥

💪🤖 Утром в прод вышла первая моделька под моим лидированием. Еще две на подходе.

📦 Одноразовые коробки скоро заменятся многоразовыми боксами (см фото).

🐳 Старбакс sucks по сравнению с Дринкит

#1.5k_pizzerias
#150k🍋
#50%_market
#3.5_years
#DODOX2
🔥95👍10👎72🤔2
Media is too big
VIEW IN TELEGRAM
😝 В прошлом году, я проводил марафон по фармингу в онлайне. В этом году я пошел дальше и реализовал мечту замутить офлайн кемп. (Пока ковид)

🤫 Суть в кемпа в том, чтоб собираться по выходным и вместе фармить в компании опытных ребят с разношерстным бэкграундом.

🤔 Запустились на месяц. Посмотрим, сколько новых медалистов появится. Взяли самых активных участников курса, чтоб эффективнее их прокачивать.
👍54👎27🔥16
🧘‍♀️ «Выкатывай фичу в прод медленно, откатывай быстро».

😉👌 Аргумент на случай, если ваш руководитель недоволен скоростью
Please open Telegram to view this post
VIEW IN TELEGRAM
😁29👍11👎2
Если уж так вышло, что вы вкатываетесь в DS или в IT в солидном возврасте (40±5 лет), то вам, как вы возможно заметили, сложнее попасть на открытую позицию. Вот несколько моих советов в помощь:

Больше профессионального нетворкинга (конференции, сходки, кемпы).
Почти после любой конфы можно тет-а-тет поболтать с докладчиками из компаний, которые, как правило, могут искать в команду отвественных талантов. Нанимать намного легче человека, с которым общался вживую или видел, как человек при тебе кодил на хакатоне.

Курсы и комьюнити.
- Преподаватели курсов - это часто работающие в сфере люди. Не раз замечал, как мои коллеги в онлайн школах систематически хантили к себе новичков. Как и кого? - Например, когда на новых курсах давались зубодробительные или необкатанные домашки. Если находилсь студенты, которые несмотря на сложности справлялись с решением, да еще и приносили фидбек по улучшниям материалла, то хантились такие на раз-два.
- Комьюнити - это не всегда новички, это могут быть матерые спецы, которые пришли на курс еще немного прокачаться. Пользуйтесь этим. Пообщайтесь, узнайте нет ли у них открытых позиций или даже просто желания нанять кого-то еще. Если да, то вполне себе могут рефернуть вас, в обход воронки с HH.ru.

А зачем вам вообще найм? Есть же фриланс!
Набить опыт и получить крутые кейсы можно не только на курсах, но и получая небольшие заказы от людей, которым для решених их проблемы\идеи\задачи не нужен человек в штате, а вполне достаточно человека со сдельной систематической оплатой по часам.

Kaggle и хакатоны
Тут и говорить нечего, способ сложнее, но тоже рабочий. Есть чемпионаты, которые вовсе проводят лишь с целью познакомить будущих сотрудников с задачей с последующим хантингом в компанию для решения это самой задачи. И вообще, чемпионаты по Data Science это социальный лифт. Плевать какой у тебя возвраст и какой опыт у твоих аппонентов, перед задачей все равны. А выиграв или просто зайдя в обозримый топ лидерборда - ты становишься мишенью для HR’ов.

Пользуйтесь!
👍62🔥11👎8
🍕 Тут на Kaggle идет интересный чемпионат - ICR.

🍕 Много кто хейтит его за потенциальный сильный шейк-ап на привате, но я бы все же посоветовал смотреть на него иначе.

🍕 Если это лотерея - то почему бы не взять лотерейный билетик? Советую сделать одну простую модель и еще одну с небольшим шумом поверх.

🍕 И вот вы уже имеете шанс при сильном шейкапе попасть в медальную зону с вероятностью ±10%

🍕 Посмотрим, не выбросить ли нас из золота в этот раз 🙈🥇. Редкий чемпионат, где участвует почти 6.5к участников
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24👎7😁32🔥2
Решил узнать, а что вообще обо мне знает YandexGPT

Мдам-с, инфа не сотка, но зато быстро 😂
😁40👎10🏆72
🏆 Data Feeling | AI
🍕 Тут на Kaggle идет интересный чемпионат - ICR. 🍕 Много кто хейтит его за потенциальный сильный шейк-ап на привате, но я бы все же посоветовал смотреть на него иначе. 🍕 Если это лотерея - то почему бы не взять лотерейный билетик? Советую сделать одну…
В комментариях пожаловались, что слишком поздно предложил идею вытянуть лотерейный билет в ICR.

✔️ Исправлюсь и как альтернативу предлагаю текущих CommonLit. Это классических NLP чемпионат, который по механике борьбы очень похож на табличные чемпионаты.

🙈 Очень плотный лидерборд. Конкуренты массово и агрессивно файн-тюнят языковые модели. Просто напросто слизывают все вкусноту с HuggingFace и далее это все усредняют.

🧠 Что круто, теперь в опенсорс вышло много LLM архитектур по типу Ламы, Вайкуны, Альпаки и других зверей. Есть где разгуляться. Запросто можно обойти других какой-нибудь новенькой архитектурой.

😝Медленно, но уверенно идем к титулу мастера. Участвуйте!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32👎93
🏆 Data Feeling | AI
😝 В прошлом году, я проводил марафон по фармингу в онлайне. В этом году я пошел дальше и реализовал мечту замутить офлайн кемп. (Пока ковид) 🤫 Суть в кемпа в том, чтоб собираться по выходным и вместе фармить в компании опытных ребят с разношерстным бэкграундом.…
This media is not supported in your browser
VIEW IN TELEGRAM
🤔 Кто-то в комментариях задавался вопросом - а зачем устраивать кемпы по кодингу?

🔥 Все ради прокачки и развития в кайфовой атмосфере 😜✌️

Это лето точно останется в памяти у моих чемпионов
🔥44👎12👍32
Media is too big
VIEW IN TELEGRAM
- Ты работаешь в пиццерии?
- Нет, я работаю в IT компании

Видосик понравился, делюсь.
🔥42👎84👍3
🏆 Data Feeling | AI
🍕 Тут на Kaggle идет интересный чемпионат - ICR. 🍕 Много кто хейтит его за потенциальный сильный шейк-ап на привате, но я бы все же посоветовал смотреть на него иначе. 🍕 Если это лотерея - то почему бы не взять лотерейный билетик? Советую сделать одну…
🧞‍♂ Что там по лотерее под названием ICR?

🕵 Как видите, произошел один из самых сильных шейкапов на моей памяти. Оценивается даже не сотнями, а тысячами. Весь топ лидерборда заняли ребята, прилетевшие с 3000-4000-х мест. Социальный лифт прям) Вижу, что кто-то все таки урвал медальки из подписчиков 😂👍

🙈 Можно ли было что-то придумать?! Судя по тому, что в топе нет ни мастеров, ни гранд мастеров - мало вероятно. Азарт того стоил 😉

😜🥇 Интересно как мы зашли на паблике в золото и почему верили, что не упадем? 100 огоньков и я солью фишку с пост-процессингом.

🍕 На приват улетели с 12 на 6608/6712
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥119👎16👍4🏆31
🏆 Data Feeling | AI
🧞‍♂ Что там по лотерее под названием ICR? 🕵 Как видите, произошел один из самых сильных шейкапов на моей памяти. Оценивается даже не сотнями, а тысячами. Весь топ лидерборда заняли ребята, прилетевшие с 3000-4000-х мест. Социальный лифт прям) Вижу, что кто…
telegram-cloud-document-2-5379856780631222501.jpg
36 KB
Окей, 100 🔥 есть. Вот вам фишка в пару строк.

Берем любое ваше ML решение и добавляем в конце перед отправкой ответа вот эти строчки (скрин)

🤔 Почему пост-процессинг частенько работает?

🧑‍💻 Суть в том, что так вы преземляете модель на землю. Если модель, например, выдает отрицательные значения или больше чем может быть, то пост-исправление ответа - это очень хорошая идея.

🎯 В ICR было замечено, что в трейне при BN < 16 всегда класс ноль. Удивительно, но на паблике это действительно поднимало на 2к+ мест вверх 🥇.

🤾‍♀ На привате не спасло, значит ли это, что трюк не работает? Нет, потому что в этом чемпионате совсем рандомно все. Поэтому утверждать что-либо сложно. Тестовая выборка всего 600 строк - маловато.
👍32👎9
За эту неделю провел 7 собеседований

🧠 И вот в чем прикол. Отличие мок собесов от реальных в том, что кандидат будет действительно работать потом с тобой в одной команде. И ты мысленно фитишь его на эту роль со всех сторон. Спрашиваешь про предыдущие кейсы не от балды, а в проекции на его будущую роль и импакт на результат.

📈 На мой взгляд, хороший кандидат - это как качественные акции на бирже. Нельзя брать на эмоциях. Только цифры. Факты. Результаты. SQL

🍕 Скорили втроем по классике. Релевантный опыт, Python, SQL и ML задачка на дизайн.

🦤 Будем смотреть, что из этого выйдет. ML задач, которые мечтаем покрыть потенциально больше, чем людей в текущем ML Core. По моей оценке, за 1-2 года команда утроится.

🎁 Вот вам сухая цифра. Только 1 из 7 кандидатов решил задачу на Python и SQL на полный бал. Хотя они проверяли достаточно базовые вещи. Солью задачки за 300 огоньков
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥429👎123👍3😁2
🏆 Data Feeling | AI
За эту неделю провел 7 собеседований 🧠 И вот в чем прикол. Отличие мок собесов от реальных в том, что кандидат будет действительно работать потом с тобой в одной команде. И ты мысленно фитишь его на эту роль со всех сторон. Спрашиваешь про предыдущие кейсы…
🤝 Вы свою часть договора выполнили. Вот вам задачка по python на полиндромы этой недели.

🎓 Для данной строки вернуть самую длинную палиндромную подстроку

Примеры строк:

1. "babad" -> "bab" ("aba" тоже подходит)
2. "a" -> "a"
3. "ac" -> "a"
4. "cbbd" -> "bb"

✔️ Простое решение пишется в два цикла. Можно улучшить, опираясь на слово “самую длинную”. Давали 10 минут на подумать и еще 10 минут уже с подсказками. Как итог, все равно только 3/7 смогли написать два цикла. Значит ли это что они плохие кандидаты?! Не думаю.

👩‍💻 Кодинг - это всегда стрес-тест. Поэтому если вы сходу дома в комфортных условиях решили эту задачку, то молодцы, но на собесах может не получится. Полезно уметь раслабиться и забыть, что ты на собесе вообще. Дальше пишешь два цикла и вот уже ты получаешь 3/5.

🧩 Позже скину пример по SQL. А пока можете скинуть свое решение в комментарии)

Задачки есть в открытом доступе на leetcode
Please open Telegram to view this post
VIEW IN TELEGRAM
👎52👍22🔥52
👉 Внутреннее ошущение, что чем больше погружаюсь в домен, завожу тикетов, собираю требований партнеров, интенсивнее набиваю бэклог фичей, выстраиваю процессы - тем больше похожу на продАкта

️ И что страшно, мне вполне нравится 🙈

🦤 На пикче немного заблюренное покрытие текущими ML задачами всего флоу/пути гостя от входа в приложение и до повторого заказа.

🍕 Планов хватает. Хочется много чего покрыть в погоне за Х2 стратегией
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32👍7👎61
🏆 Data Feeling | AI
telegram-cloud-document-2-5379856780631222501.jpg
🍕 Тысяча огоньков и я сливаю топовый кернел на голду.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥355👎94😁3🤔1
🏆 Data Feeling | AI
👉 Внутреннее ошущение, что чем больше погружаюсь в домен, завожу тикетов, собираю требований партнеров, интенсивнее набиваю бэклог фичей, выстраиваю процессы - тем больше похожу на продАкта ️ И что страшно, мне вполне нравится 🙈 🦤 На пикче немного заблюренное…
🍕 ... по мотивам этого поста решил, что надо бы на релевантную конференцию сходить. Вот нашел такую. Пойдете?

Куда развиваются технологии в e-com? 🛒

E-com — индустрия с высокой конкуренцией. Поэтому сложных IT-задач там достаточно: highload, персонализация и необходимость оперативно запускать новые продукты и масштабироваться.

24 августа на бесплатной онлайн-конференции E-COMMUNITY руководители разработки из СберМаркета, Ozon, X5 и Lamoda поделятся свежими технологическими кейсами в архитектуре, ML, бэкенде и DevOps.

🎤 Симулятор курьеров вместо A/B тестов. Сработало?

🎤 Генерация архитектурных схем из метаданных систем

🎤 Как CV помогает пользователю найти товар мечты по визуальному образу?

🎤 Как запустить VendorApp в рекордные сроки?

🎤 Как регулярно терять один data-центр и не волноваться?

🎤 Как не ошибиться при проектировании больших сервисов и достичь максимальной эффективности?

🎤 Как платформа ускоряет доставку ценности?

Присоединяйся к E-COMMUNITY, если интересно узнать про настоящее и будущее IT в e-com.

Регистрация по ссылке.

🗓 24 августа, 16:00 мск • Онлайн

Реклама. ООО «Инстамарт Сервис», 115035, Москва, ОГРН 1187746494980. 18+
👍13👎9🔥61
This media is not supported in your browser
VIEW IN TELEGRAM
👍12👎65