Интересное что-то – Telegram
Интересное что-то
517 subscribers
2.71K photos
253 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
STAR-метод – очень популярный подход к рассказыванию примеров из своего опыта. Он очень полезен, например, на интервью, когда вас просят рассказать про проект, которым вы больше всего гордитесь. Суть подхода в том, что вы раскладываете весь рассказ на четыре части.

1️⃣S – Situation
Контекст истории. Почему решаемая задача была важной, почему за ее решение взялись именно вы, какие дополнительные внешние факторы играли роль.

2️⃣T – Task
В чем именно состояла ваша задача. Максимально конкретное описание.

3️⃣A – Actions
Что конкретно вы сделали для того, чтобы задача решилась. Здесь важно отделять свой вклад от остальной команды, и показать связь предпринятых действий с задачей.

4️⃣R – Results
Какие результаты получились после выполнения задачи. Как вы поняли, что все стало хорошо.

Дополнительно рассказ можно усилить, ответив еще на пару вопросов:
*️⃣Что можно было сделать лучше?
*️⃣Как можно было бы достигнуть таких же результатов с вдвое меньшим бюджетом?

🔗Дополнительные ссылки
Пример ответа по STAR от Uber SRE
Пример ответа по STAR от Stripe Engineer
Твиттер-тред по теме
Вот и небольшая притча о том как делать пет проекты. А сейчас я бы хотел рассказать, что вообще стоит исследовать и с чего начинать.
Безусловно первое что мы делаем - ищем проблему которую нужно решить, почему проблему? Потому что спрос рождает предложение, а предложение не рождает спрос. Если вы сделаете что-то полезное, то можно будет даже продать это или сделать свой маленький стартап и вообще последующее развитие всегда лучше прокрастинации.
Допустим проблему мы определили - нам нужно собрать или взять данные, я вам рекомендую делать непрерывные парсинг данный, это будет несколько сложнее, придется заморочиться с системой мониторинга, но это круче чем ничего не делать и CI/CD опять же подключить можно. Второй вариант это просто скачать откуда то, тоже можно, почему нет, а можно скачать откуда то, а еще и парсить.
Наш следующий шаг правильно создать окружение тут нужны следующие инструменты на мой взгял: docker, git, github/gitlab, poetry + pyenv. И прописать установку окружения и в нем уже создавать свои контейнеры, которые можно запускать. Тот же парсер.
Теперь - рисерч. Допустим мы быстренько написали парсер уже у нас достаточные данные. Нам нужно почистить данные, проверсти тесты и убедиться что мы можем что-то прогназироватью. Сделайте презентацию какую то или дашборд по данным, что бы потом внедрить в мониторинг систему, я думаю это круто и в дальнейшем вам будет что показать.
И так после ричерча мы поняли, что данные очень волатильны и вообще непонятно что происходит с дисперсией, мы хотим использовать деревья для этого они нам дают прекрасный результат, они непараметрические и шумов у нас не так много в данных. Теперь мы будем строить пайплайн.
Что для этого нужно, помимо либ, которые вы используете в обучение: Соотвественно все перевести в скрипты, где каждый файл отдельный миниалгоритм pytest, pydantic для верификации данных и скриптов. Хотим мониторить обучение моделей и данных - WandB. Хотим что бы после изменения данных, пайплайн сам запускался - DVC.
Отлично, давайте посмотрим, что у нас есть:
docker и gitlab проект, так же у нас парсер, который сейчас все сохраняет в csv, какой то скрипт, который создает датасет. У нас есть скрипт по созданию дополнительных данных и чистке. У нас есть скрипт по обучению модели. Получение различных метрик и репортов. И какой то аля сохранение дашбордов в png.
Это, конечно, замечательно. Но как то хочется что бы оно само работало, да и вообще мы устали все вручную запускать через main.py так еще и забываем иногда парсер запускать.
Для этого нам нужно изучить CI/CD, GitLab CI, CLI и разобраться как пользоваться серверами. Допустим на Yandex Cloud.
Тут уже многое зависит от вас, как вы хотите все это сделать. Но что я могу посоветовать: MLOps у ODS и курс Yandex Practicum по Облокам

И так у в итоге кое как получилось создать сервер, теперь у нас парсинг запускается каждые 2 часа, после этого обучаются модели и мы получаем какие то output по метрикам и какие то png дашборды. Как то неправильно, мы хотим что бы вообще все работало автономно.
Теперь начинается наверное самое сложное - backend/ frontend.
И так во первых - нужно создать отдельно папку frontend/backend/database все они будут запускать 3 различных контейнера (в идеале):
Нам нужно знать REST API, gunicorn - что бы связать фронт и бек. А еще как то обращаться к БД. Я бы использовал FastApi для backend и react для фронта.
Теперь у нас есть фронтенд, который должен отсылать запрос к бекенду, бекенд отсылал бы ответ и реакт бы рендерил то что хочет пользователь, например наши дашборды. Они уже не PNG, а какая то динамично изменяющаяся картиночка.

А самое главное, даже если у нас ляжет сервер, так как мы использовали gitlab ci и gitops, мы сможем развернуть наш сервер без проблем на другом.

Возможно я упустил какие то точности и не претендую на лучшего эксперта фронтенда и бекенда.
#ml #interview

Многие начинающие задаются вопросами про интервью и кажется есть одна книга, которая может ответить на 99% вопросов. я только сейчас на нее наткнулась, не знаю рекламировали ее тут или нет. Рассматриваются кажется почти все аспекты: большая компания или стартап, какие роли в мире МЛ и что они означают. Всякие tips & tricks. Ресеч или продакшн. Софт скилы. В целом про то как обычно проходят интервью и… И самое главное примеры вопросов по теории, но очень практико ориентированные. Читается наверное за вечер. А потом наверное можно использовать как справочник)

https://huyenchip.com/ml-interviews-book/
#cv #resume #interview

Хороший гайд по составлению резюме для FAANG. Он универсален, несмотря на то, что писался для стажировок.
https://www.notion.so/Check-list-0675cf104ed2431f9cfd451b1d742e4d
#ml #linear
Линейная регрессия в учебнике ШАД
https://ml-handbook.ru/chapters/linear_models/intro
Forwarded from Start Career in DS
Подборка ресурсов по математике для Data Science:

Уровни:
⭐️ - закончил универ сто лет назад, ничего не помню
⭐️⭐️ - знаю и помню базу (матан, линал, тервер, матстат)
⭐️⭐️⭐️ - хорошо разбираюсь в высшей математике, хочу поднатаскать специфические для DS темы


⭐️Наглядный разбор теории в серии «X для чайников»: что такое вектор, как считать производную, матричные уравнения и т.д.
⭐️Материалы с лекций и семинаров ВМК МГУ от «Ёжика в матане»: VK, YouTube. Тут можете спокойно начинать с лекций и семинаров Никитина по математическому анализу, их читают в самом начале

⭐️⭐️ Хорошие задачки с подробным разбором решений на Матбюро: линейная алгебра, теория вероятностей, математическая статистика.
⭐️⭐️Курс Райгородского «Основы теории вероятностей». Тут наглядно и на пальцах объясняются базовые аспекты
⭐️⭐️ [Eng] Курс «Matrix Methods in Data Analysis, Signal Processing, and Machine Learning», в нём есть вся ключевая математика для DS

⭐️⭐️⭐️[Eng] Сборник задач и теории по базовой математике (линейная алгебра, оптимизация, графы) и машинному обучению:
Pen and Paper Exercises in Machine Learning
⭐️⭐️⭐️[Eng] Книга «Математика для Data Science»: https://mml-book.github.io/
#interpretable #ml #book

Попалась хорошая книжка начального уровня про эту нашу интерпретируемость
Practical Explainable AI Using Python от Pradeepta Mishra https://www.amazon.com/Practical-Explainable-Using-Python-Intelligence/dp/1484271572
Сравнительно с книгой Мольнара - поверхностно, но у книги другая аудитория.
Пока дошел до середины. Как введение в тему для разработчиков на питоне самое оно. Тема NLP толком не раскрыта, но про это есть отдельная хорошая книга. Главы:
Chapter 1: Model Explainability and Interpretability
Chapter 2: AI Ethics, Biasness, and Reliability
Chapter 3: Explainability for Linear Models
Chapter 4: Explainability for Non-Linear Models
Chapter 5: Explainability for Ensemble Models
Chapter 6: Explainability for Time Series Models
Chapter 7: Explainability for NLP
Chapter 8: AI Model Fairness Using a What-If Scenario
Chapter 9: Explainability for Deep Learning Models
Chapter 10: Counterfactual Explanations for XAI Models
Chapter 11: Contrastive Explanations for Machine Learning
Chapter 12: Model-Agnostic Explanations by Identifying
Chapter 13: Model Explainability for Rule-Based Expert Systems
Chapter 14: Model Explainability for Computer Vision
Не могу не поделиться ссылкой на такой классный курс!

MIT 6.S192: Deep Learning for Art, Aesthetics, and Creativity

https://ali-design.github.io/deepcreativity

Лекции на ютубе:
https://www.youtube.com/watch?v=MABLFo7IV3I&list=PLCpMvp7ftsnIbNwRnQJbDNRqO6qiN3EyH
#interview #behavioral
Интересный мануал от Амазон для подготовки к Behavioral
#interview #behavioral
Те самые материалы для подготовки к поведенческому интервью
Forwarded from Fless (Victor Rogulenko | fless.pro)
Вот те самые статьи о поведенческих интервью в FAANG, о которых недавно писал.

Даже если не знать регалий автора, по тексту видно, что он знает дело.

Статьи подойдут и для консалтинга, хотя фит в big3 проще бихейва в Амазон.

Ссылок куча, тк я выписал все бесплатные. Можете ещё подписаться на платные и поддержать Дейва, автора. Списались с ним в Дискорде - клёвый парень.

LEADERSHIP POSTS

https://www.scarletink.com/interviewing-at-amazon-leadership-principles/
https://www.scarletink.com/yet-more-painful-mistakes-which-were-key-to-my-career-success/
https://www.scarletink.com/enjoying-my-break-briefly-saying-hello/
https://www.scarletink.com/how-to-pass-amazon-behavioral-leadership-principles-interview/
https://www.scarletink.com/disagree-and-commit-getting-things-done/
https://www.scarletink.com/amazon-writing-exercise-nailing-the-interview/
https://www.scarletink.com/5-whys-method-analyze-root-cause/
https://www.scarletink.com/your-system-is-not-perfect-balancing-operational-investments/
https://www.scarletink.com/customer-obsession-and-anecdotes/
https://www.scarletink.com/increase-productivity-by-slowing-growth/
https://www.scarletink.com/are-right-a-lot-amazon-leadership-principle/
https://www.scarletink.com/basics-why-meritocracy-does-not-exist/
https://www.scarletink.com/skip-level-meetings-think-broader-look-further/
https://www.scarletink.com/self-driven-career-grow-without-an-awesome-manager/
https://www.scarletink.com/why-amazon-is-innovative-roadmap-before-resources/
https://www.scarletink.com/why-stereotypes-arent-always-bad-managing-with-patterns/
https://www.scarletink.com/embrace-uncomfortable-behaviors-boost-value/
https://www.scarletink.com/everything-you-need-to-know-one-on-one-meetings/
https://www.scarletink.com/opinion-companies-should-eliminate-bias/
https://www.scarletink.com/how-to-write-linkedin-profile-why-it-matters/
https://www.scarletink.com/what-to-expect-amazon-interview-process/
https://www.scarletink.com/human-leadership-principles-respecting-humans/
https://www.scarletink.com/why-good-enough-is-better-than-perfect/
https://www.scarletink.com/how-to-pass-the-amazon-technical-interview/
https://www.scarletink.com/outcomes-dont-matter-building-mechanisms-leader/
https://www.scarletink.com/6-actions-manager-takes-support-team-members/
https://www.scarletink.com/recognizing-excellence-in-others/
https://www.scarletink.com/interview-mistake-3-neglecting-context-interviewer/
https://www.scarletink.com/why-its-better-say-no/
https://www.scarletink.com/9-simple-actions-build-culture-empathy/
https://www.scarletink.com/forge-stronger-relationship-with-manager/
https://www.scarletink.com/simple-explanation-why-your-manager-is-mediocre/
https://www.scarletink.com/how-amazon-bar-raiser-process-works/
https://www.scarletink.com/interview-mistake-2-speaking-poorly-about-your-previous-co-workers/
https://www.scarletink.com/hoax-you-can-win-relationship/
https://www.scarletink.com/interview-mistake-1-running-your-mouth/
https://www.scarletink.com/filling-your-headcount-hiring-at-amazon/
https://www.scarletink.com/to-become-a-leader-act-like-one/
https://www.scarletink.com/failure-is-critical-to-success-and-growth/
https://www.scarletink.com/as-a-leader-time-is-your-most-valuable-resource/
https://www.scarletink.com/technical-skills-are-overrated-focus-on-your-attitude/
https://www.scarletink.com/finding-your-ideal-boss/
https://www.scarletink.com/leading-vs-winning/
https://www.scarletink.com/answer-the-unasked-questions/
https://www.scarletink.com/them-and-how-theyre-always-screwing-up/
#interview #ab
Материал по подготовке к A/B тестированиям
#How_to_заботать

How to заботать собес в Тиньку на аналитика?

Гут Шабес. Выражаю огромную благодарность, кто продолжает отправлять контесты: спасибо, что делаете прогнившую корпоративную культуру хоть чуточку ярче🥰🥰

Тем временем уже стартуют первые собесы на стажёров от Тинькофф Старт. Вспоминаем, как готовиться на проадкт-аналтика (+материалы). Времени не так много, поэтому в честь праздника подгон по каждому акту АВ теста, чтобы получить хоть какое-то представление об этой науке.

Если кратенько, то процесс АБ теста следующий: есть новое предложение, как улучшить метрики и его нужно протестить; берём репрезентативную выборку из генеральной совокупности, разбиваем ее на тест и контроль: на тест воздействуем, на контроль нет. Смотрим на получившиеся метрики, выбираем тест, чтобы проверить стат значимость и затем делаем вывод можем ли мы выкатывать фичу (в совковых учебниках пишут, что если нет стат значимости, то отвергаем альтернативу, но на практике обычно все посложнее).

Начнем с конца:
1. Какой тест выбрать для проверки двух гипотез? Если у нас уже есть разбитая выборка на тест и контроль (А и Б)

{https://youtu.be/oa8j8TOndpE

https://youtu.be/YuC1ZZTqdBA

https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f

https://www.youtube.com/watch?v=-zps6hm0nX8&t=190s}

2. Как разбить репрезентативную выборку на тест и контроль (А и Б)?

{https://habr.com/ru/company/avito/blog/571096/}

3. Как определить какой размер репрезентативной выборки нам нужен? Которую мы затем разбиваем

{https://www.youtube.com/watch?v=2nP_gcut7SU}

4. Как из всей генеральной совокупности взять репрезентативную выборку (чтобы ее можно было экстраполировать на всю генеральную совокупность)? И вообще как обрабатывать данные перед тестом

{https://habr.com/ru/company/avito/blog/571094/

https://habr.com/ru/company/avito/blog/571096/

https://habr.com/ru/company/uchi_ru/blog/500918/}

Делимся замечаниями и материалами в комментах. Тетрадки лежат там же😎😎