Интересное что-то – Telegram
Интересное что-то
517 subscribers
2.71K photos
253 videos
138 files
4.51K links
Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat
Download Telegram
#How_to_заботать

How to заботать собес в Тиньку на аналитика?

Гут Шабес. Выражаю огромную благодарность, кто продолжает отправлять контесты: спасибо, что делаете прогнившую корпоративную культуру хоть чуточку ярче🥰🥰

Тем временем уже стартуют первые собесы на стажёров от Тинькофф Старт. Вспоминаем, как готовиться на проадкт-аналтика (+материалы). Времени не так много, поэтому в честь праздника подгон по каждому акту АВ теста, чтобы получить хоть какое-то представление об этой науке.

Если кратенько, то процесс АБ теста следующий: есть новое предложение, как улучшить метрики и его нужно протестить; берём репрезентативную выборку из генеральной совокупности, разбиваем ее на тест и контроль: на тест воздействуем, на контроль нет. Смотрим на получившиеся метрики, выбираем тест, чтобы проверить стат значимость и затем делаем вывод можем ли мы выкатывать фичу (в совковых учебниках пишут, что если нет стат значимости, то отвергаем альтернативу, но на практике обычно все посложнее).

Начнем с конца:
1. Какой тест выбрать для проверки двух гипотез? Если у нас уже есть разбитая выборка на тест и контроль (А и Б)

{https://youtu.be/oa8j8TOndpE

https://youtu.be/YuC1ZZTqdBA

https://vkteam.medium.com/practitioners-guide-to-statistical-tests-ed2d580ef04f

https://www.youtube.com/watch?v=-zps6hm0nX8&t=190s}

2. Как разбить репрезентативную выборку на тест и контроль (А и Б)?

{https://habr.com/ru/company/avito/blog/571096/}

3. Как определить какой размер репрезентативной выборки нам нужен? Которую мы затем разбиваем

{https://www.youtube.com/watch?v=2nP_gcut7SU}

4. Как из всей генеральной совокупности взять репрезентативную выборку (чтобы ее можно было экстраполировать на всю генеральную совокупность)? И вообще как обрабатывать данные перед тестом

{https://habr.com/ru/company/avito/blog/571094/

https://habr.com/ru/company/avito/blog/571096/

https://habr.com/ru/company/uchi_ru/blog/500918/}

Делимся замечаниями и материалами в комментах. Тетрадки лежат там же😎😎
#interview
Неплохой гайд
#How_to_заботать

How to заботать собеседование на jun product-аналитика?

Уже не для кого не секрет, что из-за весны 2020 (пандемия) и 24-го февраля отечественные компании остро ощущают нехватку кадров. Джунов набирают тупо с улицы, а на Teamlead позицию ставят без внятного опыта работы. Такая "коррекция кадров" привела к тому, что стажер в другом финтехе спокойно залетает на Middle😳😳 В общем лучшего времени, чтобы начать карьеру может и не быть, а наименее требовательная по background область: конечно же product-аналитика. Отличный вариант для тех, у кого не срослись отношения с "программированием", но способны сложить 2 + 2. И недурное начало пути, если интересно попробовать себя в будущем как Data Scientist или Quantitative researcher🤓🤓. Могу заверить, что если ваша мама не употребляла алкоголь во время беременности, то у вас все получится, а подборка следующих материалов вам в этом поможет😎😎
Все книжки в комментариях, там же делимся любимыми материалами.

SQL
В принципе только это и стоит спрашивать джунов, ибо, похоже, ничем более они и не занимаются..
1. Интерактивный tutorial.
Кратенько ознакомитесь с возможностями sql и поймете о чем это вообще
2. Тренажер на stepik.
Хорошее продолжение, но дальше второго модуля точно не стоит смотреть. Также можете пропустить создания, удаление таблиц и прочее-прочее, спрашивать такое не будут, а при нужде загляните в документацию.
3. SQL ex
Куча упражнений с теорией, есть даже оконки
4. Документация PostgreSQL
Скорее всего, он и будет
5. Статьи про оконные функции
Джунов особо не спрашивают, скорее тема middle+, да и те на деле ими разве что строки нумеруют.
Статья_1 и Статья_2

Математическая Статистика
1. Курсы Карпова на stepik
Все на пальцах, но другого с вас на собесе и не спросят
Часть1, Часть2, Часть3
2. StatQuest
Дополнение к Карпову
3. "Практическая статистика для специалистов Data Science" Питер и Эндрю Брюс.
Недурно раскрыты важнейшие статистические понятия на куче примеров
4. "Теория вероятностей и математическая статистика" Л. Н. Фадеева, А. В. Лебедев.
Стандартный курс математической статистики для экономистов дополнит представления, полученные выше, в терминах теории вероятностей.
5. AB-тесты
Главное, что спросят на собесе. Смотрите How to заботать AB тесты

Cтатистика на python
1. Tutorial по python
Знакомит со всеми основными возможностями языка, нужными в работе. Если видите в первый раз, то там же можно и порешать задачки.
2. Numpy, Pandas, Matplotlib
1) Cтавим Jupyter Notebook
Вообще дедовский метод: освоить это все в процессе курса по статистическому практикум, скачать какой Data set с Kaggle и дрочить его, читая документацию. Но если очень охото можете посмотреть tutorialы для дебилов
1) Если знаем english, то смотрим freecodecamp:
https://www.youtube.com/watch?v=QUT1VHiLmmI&t=162.. – Numpy
https://www.youtube.com/watch?v=3Xc3CA655Y4&t=16s.. –Matplotlib
https://www.youtube.com/watch?v=vmEHCJofslg&t=151.. – Pandas
В целом канал очень крутой, куча всего классного по проге и мл.
2) Курс Хирьянова по анализу данных в МГУ (лекции 7,8,9,10, ноутбуки с кодом прилагаются на сосайте).
3. Курс по статистическому практикуму (notebook zip в комментах)
Много всего интересного: от библиотек до регрессий. Самое важно для собеса: научиться проверять гипотезы на независимых и парных выборках.

Продуктовое понимание
Здесь спрашивают представляете ли вы вообще, чем придется заниматься и как используется все вышеперечисленное.
1. Курс Тинькофф по аналитике
Темы разобраны поверхностно, но кратенько обобщит и структурирует все изученное на продуктовых примерах (notebook zip в комментах)
2. Наш файлик с основными метриками
3. ШМЯ
Здесь смотрим не раскрытые темы, смотреть полностью будет too mach
#books
Эконометрика
Forwarded from Vladimir P
Может слишком академично, но 2х томник Грина, как на английском, так и в переводе, например
https://www.litres.ru/uilyam-g-grin/ekonometricheskiy-analiz-kniga-1-42912528/
#interesting
Немного о генеративном AI
Generative AI

Последние месяцы на поляне Generative AI праздник за праздником.

Начнём с генерации картинок.

Пока OpenAI со своим DALLE-2 медленно распиаривался, под боком возник быстрорастущий офигенный сервис Midjourney, забивший на сайт, API и всё такое, и предоставивший доступ к своим моделям через бота в Discord. Midjourney очень правильно начал работать с коммьюнити, набрал популярность и вышел в законодатели мод на этом рынке.

В отличие от OpenAI, Midjourney не требовал исключительных прав на все творения, оставляя все права пользователю и беря себе лицензию на их использование. Midjourney также разрешил коммерческое использование творений. У них есть пара оговорок касающихся бесплатного плана, а также компаний с выручкой больше $1M, но это всё очень reasonable. Оно у них, конечно, менялось и уточнялось по ходу дела, но явно было более либерально в отличие от terms OpenAI, где всё их, только private use, и всё такое.

И это кстати отдельный интересный вопрос этического плана — нормально ли, что система, обученная на результатах труда множества людей, присваивает весь производный результат себе, включая кстати и труд других людей по придумыванию правильных prompt'ов и селекции результатов. Где тот современный Маркс, который напишет Капитал 2.0?

Midjourney на днях вышел из закрытой беты в открытую https://www.facebook.com/intentoco/photos/a.1093842744008324/5486357671423454/) и OpenAI вынужден был последовать той же дорогой -- сразу прекратили играть в тщательно фильтруемые инвайты и тоже вышли в public beta, а также изменили terms на более коммерчески пригодные (https://www.facebook.com/intentoco/photos/a.1093842744008324/5493404720718749/).

Если бы не Midjourney, уверен, OpenAI бы ещё полгода свою илитность эксплуатировали. Конкуренция -- это прекрасно. И это только начало.

Также из области генерации картинок недавно широко разошлась новость (https://www.facebook.com/story.php?story_fbid=pfbid035HKtaMKL9ibTW2BH66cMecbCvj7RCXusf7w5yGkFP9xVHpg64Y4BcYCmv4Ea7x7Fl&id=4) про мартовскую работу Make-A-Scene (https://arxiv.org/abs/2203.13131), где при генерации картинки дополнительно к тексту можно давать эскиз с семантической маской. Это позволяет точно контролировать где на картинке что должно быть. В каком-то смысле это продолжение истории с аналогичным графическим редактором от Nvidia.

В генерации текстов тоже большое достижение -- опубликована модель BLOOM (https://www.facebook.com/intentoco/posts/pfbid02TEHE1sQYf78pXu9ZWEXcbfJ1DfZKQrCVSnB5PFEntSSQRFJW98CCSevGegWYCib2l) проекта BigScience и HuggingFace. Модель полностью открытая, на 176B параметров, мультиязычная с поддержкой 46 человеческих и 13 программистских языков.

Кстати, OpenAI Codex вроде ещё в private beta, инвайты как-то продолжают раздавать, мне даже с месяц назад прислали. Но зато можно попробовать построенный на нём GitHub Copilot (https://github.com/features/copilot/). А также в июне вышел Amazon CodeWhisperer (https://aws.amazon.com/blogs/machine-learning/introducing-amazon-codewhisperer-the-ml-powered-coding-companion/). Интересно, насколько BLOOM здесь будет хорош.

По части мультиязычности большое достижение — это публикация модели NLLB-200, способной переводить напрямую между 200 языками (https://www.facebook.com/intentoco/photos/a.1093842744008324/5452925358100019/).

Также сравнительно недавно Яндекс выпустил в опенсорс свою YaLM на 100B параметров (https://www.facebook.com/intentoco/posts/pfbid02MNduVaBTRv2ZnBgjEiWyuSst7zFnpRbXxcDXQ5oKWENtFmNdvvx8JFkshwgxgmEul), на тот момент самую большую опенсорсную GPT-like модель.

А ещё до этого Гугл выложил в опенсорс (https://www.facebook.com/intentoco/photos/a.1093842744008324/5409287722463783/) свой Switch Transformer на 1.6T параметров (https://news.1rj.ru/str/gonzo_ML/472).

В общем, поляна расцветает буйным цветом. Bessemer Venture Partners недавно опубликовали хороший пост про то, что generative AI — это новая платформенная революция (https://www.bvp.com/atlas/is-ai-generation-the-next-platform-shift).
#courses #dl
Программирование на cuda
Наткнулся на небольшой набор задачек по программированию под CUDA.

Задачки представляет собой попытку научить начинающих программировать GPU полностью интерактивным способом.

В упражнениях используется NUMBA, которая работает с ядрами CUDA и в основном идентичен написанию низкоуровневого кода CUDA.

Думаю, что за несколько часов вы сможете перейти от основ к пониманию реальных алгоритмов, на которых сегодня основано 99% глубокого обучения.


Ссылка на github: https://github.com/srush/GPU-Puzzles
#interview #systemdesign #behavioral
Материалы для собеседований
Шаг 3.
Многие компании (и их становится больше) перед тем как передавать ваше резюме на скрининг высылают тестовое задание. Обычно это контест на час-два с задачами aka Leetcode, реже — что-то другое. Если у вас есть опыт в олимпиадах по программированию, то решить все эти задачки не составит труда. В противном случае придётся ботать алгоритмы.
После тестовых заданий (или если их не было) ваше резюме попадает на скрининг. На этом этапе можно ждать ответа от компании бесконечно. Но вот если вы дождались и вас не зареджектили, то начинаются собеседования.
Technical Interview
Самый распространённый вид собеседований, практически в любой компании у вас будет хотя бы одно Technical Interview, и большая часть ваших собеседований в общем будет именно этого типа. Что здесь могут спрашивать:
Алгоритмы и структуры данных. Обычно ничего продвинутого вам не понадобится, потому что большинству компаний не нужна от вас жёсткая алгоритмическая подготовка. Нужно только понимание каких-то базовых концепций, вроде динамики, бинарного поиска, двух указателей, деревьев поиска и простейших алгоритмов на графах. Все эти темы можно повторить на всё том же Leetcode за очень маленький промежуток времени. Иногда, конечно, вам могут встретиться более продвинутые темы, алгоритмы и структуры данных, но это единичные случаи, и в основном вы справитесь с достаточно небольшим набором знаний.
Computer Science Stuff. Big O Notation, two's complement, floating-point numbers, какие-то известные ассимптотики, вот это вот всё.
Технические знания. В некоторых местах могут спросить о том, как работают какие-то концепты из области операционных систем, в некоторых — про базы данных, где-то ещё — про сетевые алгоритмы. В целом стоит понимать, в какую компанию/команду вы собеседуетесь и готовиться к потенциальным вопросам которые для неё специфичны.
Behavioral Interview
В некоторые компании вообще не будет таких собеседований (Meta, Google, etc), а если и будет, то очень вряд ли больше одного. На таком собеседовании обычно спрашивают о том, почему вы хотите попасть в эту компанию, о вашей мотивации, прошлых местах работы/стажировок и многих других вещах — к этому я очень советую готовиться основательно:
Узнать побольше про компанию, в которую вы подаетесь, или даже про конкретную команду, если вам рассказали, с кем именно будет собеседование. В некоторых местах (например, Palantir), вам даже вышлют перед собеседованием м‌е‌т‌о‌д‌и‌ч‌к‌у‌ брошюру о ценностях компании и том, что надо о ней знать. Кстати, всегда читайте то, что вам присылают HRюши, там может быть много важной и ценной информации. В целом, ваша осведомлённость и заинтересованность показывают интервьюеру ваше желание попасть именно к ним в компанию и оказывают хорошее впечатление.
System Design Interview
Самое редкое, что может с вами случиться. Таких собеседований тоже очень редко бывает больше одного за весь процесс, но они часто являются определяющими. Знать надо много, из разных областей, но в целом подготовиться вполне возможно и с нуля, если усердно трудиться. Не стесняйтесь попросить побольше времени перед таким собеседованием, чтобы подготовиться (но и не забывайте, что чем позже вы закончите процесс собеседований, тем меньше шанс на оффер!), вам, скорее всего, пойдут навстречу.
Полностью, от начала и до конца, изучите какой-нибудь курс по этой теме, делая письменный конспект (если вы и без этого всё хорошо запоминаете, можно и без него). Из известных мне качественных курсов есть платный Grokking The System Design Interview и бесплатный System Design Primer. Эти курсы примерно целиком покрывают теоретическую составляющую.
Открывайте произвольные видео по теме на YouTube, смотрите постановку задачи и пытайтесь сами предложить решение (в идеале, живому человеку, но если такого под рукой не нашлось, то можно и в воздух), после чего досматривате решение из видео и сравниваете, обращая особое внимание на различия в подходах. Пройдитесь по популярным вопросам на behavioral interview (просто вбейте в поисковик "top behavioral questions") и поотвечайте на них, заготовив по паре историй на каждый случай. На самом деле, не на каждый — существуют вопросы, на которые абсолютно нормально ответить "не было со мной такого никогда".
Порепетируйте свои заготовленные рассказы и импровизацию с живым собеседником. Это поможет избежать каких-то очевидных косяков и, возможно, добавит спокойствия и уверенности.
(опционально) Не стоит врать. Молчать о каких-то вещах, о которых вас не спросили — нормально, но напрямую обманывать не стоит, дабы не попасть в неудобное положение🤓🤓
Алоха. Если кто готовится в Sys Design  интервью. То могу порекомендовать этот канал - https://www.youtube.com/watch?v=bUHFg8CZFws
Все обьясняется достаточно понятно. Единственное это просто сильнейший "рашн акцент"
Forwarded from Dmitry
Реалистичный сценарий выхода из ситуации:
- Ты знаком с какой-то группой людей (будущая ЦА), например это кто-то кто выпускает свои NFT
- Они тебе рассказывают о своей проблеме
- Ты с учетом своих компетенций ( Data Satanist 👹) предлагаешь им услугу по решению этой проблемы
- Услуга должна быть достаточно дорогой, чтобы имея 5-10 клиентов ты мог оплачивать себе жилье и еду + нанять помощника. Так как без вложений в маркетинг, ты больше 10 клиентов на дорогую ежемесячную услугу сам (по своей базе знакомых, которые тебе доверяют) врядли соберешь
- Делаешь маленькую сервисную компанию, 4-5 человек ассистентов, чтобы копить деньги
- Начинаешь обсуждать с клиентами инструмент автоматизации услуги которую ты для них предоставляешь
- Делаешь MVP выкатываешь оттачиваешь
- Начинаешь вкладывать средства накопленные сервисной компанией в маркетинг твоего софта
- Если показатели маркетинга хорошие - идешь к инвесторам за бустом по кешу

Важный этап здесь - сервисная компания. Она поддержит тебя материально и позволит быть на постоянной связи с ЦА.
Forwarded from Записки Ппилифа (Ppilif Uliankin)
Мой друг Леша Царёв принес к нам в канал новость недели:

Брюс Хансен всё-таки дописал свои учебники по Теории вероятностей и статистике для экономистов, а также по Эконометрике. По моему мнению, это лучшие книги продвинутого уровня для изучения этой части науки о данных. Во-первых, потому что они достаточно глубокие и дотошные. Во-вторых, потому что Хансен хорошо и понятно пишет. И в-третьих, электронный формат не ограничивает автора и позволяет достигнуть бОльшей гибкости в плане эмпирических примеров, данных и кода.

В общем, как я уже сказал, отличная новость под конец недели!

P.S. Добавлю от себя, что это именно тот Хансен, который доказал, что из ТГМ можно выбросить одно из условий 🙂
#ml #courses
Лекции по некоторым курсам в MADE