Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from asisakov
АНАЛИТИКА
Часть 2

Начало выше ⬆️

4. Продуктовые метрики

В работе аналитика минимум 1 раз в день будет упоминаться та или иная метрика. MAU, DAU, conversion, retention, LTV, CAC, ROI, ARPPU. Если вы знаете, как все это расшифровывается и что подразумевает под собой, то это уже неплохо (если не знаете, то хотя бы почитайте про это тут). Но все же в каждом направлении аналитики будут свои метрики и это необходимо знать перед собеседованием и уметь этим оперировать. Часто бывает момент, когда собеседующий предлагает выдумать свою метрику и обосновать ее. Тут нужно проявить все свое аналитическое творческое мышление и обосновать свой выбор, а также пояснить возможные минусы и плюсы от использования этой метрики (возможно ли ее например взломать?).

5. Обсуждение кейса

Встречается почти на всех собеседованиях. Здесь предлагается задача, прямо связанная с тем, что придется делать на работе. Например, вопрос “Как оценить/улучшить качество ответа поддержки в Авито” не требует мгновенного и точного ответа, а скорее является началом диалога как в собесах по ML System Design. И здесь вам нужно будет уточнить весь контекст поставленного вопроса, понять вообще какие данные у нас есть, озвучить разные подходы и возможно предложить несколько идей. Дальше общение может перетечь в решение узких вопросов, связанных с этой задачкой, но это более advanced уровень. Например, обсуждение юридических нюансов скоринга саппорта.

Погружаться в каждую из частей можно бесконечно, но не только это может определить уровень человека. Важно не только уметь раскидать по зардам, а важны еще и ваши софт-скиллы. Если вы не сможете нормально обсудить с заказчиком бизнес-задачу, то тут никакой хардскилл не затащит. Если не уметь мыслить продуктово, то возможно и задачи будут решаться немножко не те, что изначально имелись в виду (про это хорошо написано тут) Поэтому не забываем и про софты!

Список полезных источников:
1. Как стать аналитиком от поступашек
2. Как решать задачки на market-sizing
3. Серия постов про воронки конверсий от Вани Максимова и также пост про размен метрик от него
4. Как вкатиться в аналитику от Марины
5. Подборка материалов по продуктовой аналитике
6. Как связаны A/B-тесты и линейная регрессия
7. Статьи про A/B от аналитиков X5
8. SUKI в A/B-тестах и надо ли от них избавляться
9. Подборка метриалов по A/B-тестированию от Reliable ML
10. Подборка про Байесовские методы в A/B-тестах от Александра
11. Материалы по подготовке к собесам по A/B

#interview #analytics #ab #sql
👍2
#nvidia

"Акции NVIDIA подорожали до $705,43 за штуку, так что движение вверх продолжилось после небольшой коррекции, наблюдавшейся днём ранее. На этом уровне NVIDIA по капитализации уже близка к Amazon с его $1,767 трлн, да и до Google остаётся не так много, не более 6 %. Напомним, что по состоянию на конец января NVIDIA являлась шестой по величине капитализацией компанией в мире среди представителей всех отраслей экономики. Если ей удастся в ближайшей перспективе обойти Amazon и Alphabet (Google), то она окажется на четвёртом месте. Кстати, истории уже известны случаи, когда NVIDIA обходила Amazon по капитализации. Например, в 2002 году обе компании стоили примерно по $6 млрд от силы."

https://3dnews.ru/1099985/nvidia-pochti-dognala-po-kapitalizatsii-amazon-preodolev-otmetku-v-17-trln
#physics #astronomy #blackholes

Ага, всё-таки предложили объяснение этих странных наблюдений JWST прошлого года.

"Учёные обратили внимание, что «Уэбб» обнаружил одну сверхмассивную чёрную дыру через 470 млн лет после Большого взрыва, а другую — через 400 млн лет. Масса последней была определена на уровне 1,6 млн солнечных. Она находилась в центре галактики, которая была легче, чем дыра в её сердцевине. Чёрная дыра подобной массы не могла вырасти до фиксируемого значения. Из того, что мы наблюдали, чёрные дыры возникали после коллапса умирающих звёзд массой свыше 50 солнечных. Ничего подобного в ранней Вселенной не могло произойти, чтобы проявился наблюдаемый там эффект — крошечная галактика, собранная вокруг СЧД.

Исследователи делают вывод, что первичные чёрные дыры образовались одновременно с первыми звёздами или чуть раньше из облаков первичной материи. Центры облаков коллапсировали и возникшая в каждом из них чёрная дыра начинала испускать ветер, запускающий и ускоряющий процесс звездообразования. Фактически первичные чёрные дыры стали тем инструментом, который собрал и превратил галактики в те структуры, которые мы наблюдаем."

https://3dnews.ru/1099994/pervie-chyornie-diri-rodilis-ne-iz-zvyozd-podtvergdayut-dannie-teleskopa-dgeyms-uebb
Google Machine Learning Education

Learn to build ML products with Google's Machine Learning Courses.

Foundational courses
The foundational courses cover machine learning fundamentals and core concepts. They recommend taking them in the order below.

1. Introduction to Machine Learning
A brief introduction to machine learning.
2. Machine Learning Crash Course
A hands-on course to explore the critical basics of machine learning.
3. Problem Framing
A course to help you map real-world problems to machine learning solutions.
4. Data Preparation and Feature Engineering
An introduction to preparing your data for ML workflows.
5. Testing and Debugging
Strategies for testing and debugging machine learning models and pipelines.

Advanced Courses
The advanced courses teach tools and techniques for solving a variety of machine learning problems. The courses are structured independently. Take them based on interest or problem domain.

- Decision Forests
Decision forests are an alternative to neural networks.
- Recommendation Systems
Recommendation systems generate personalized suggestions.
- Clustering
Clustering is a key unsupervised machine learning strategy to associate related items.
- Generative Adversarial Networks
GANs create new data instances that resemble your training data.
- Image Classification
Is that a picture of a cat or is it a dog?
- Fairness in Perspective API
Hands-on practice debugging fairness issues.

Guides
Their guides offer simple step-by-step walkthroughs for solving common machine learning problems using best practices.

- Rules of ML
Become a better machine learning engineer by following these machine learning best practices used at Google.
- People + AI Guidebook
This guide assists UXers, PMs, and developers in collaboratively working through AI design topics and questions.
- Text Classification
This comprehensive guide provides a walkthrough to solving text classification problems using machine learning.
- Good Data Analysis
This guide describes the tricks that an expert data analyst uses to evaluate huge data sets in machine learning problems.
- Deep Learning Tuning Playbook
This guide explains a scientific way to optimize the training of deep learning models.

Link: https://developers.google.com/machine-learning?hl=en

Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #machinelearning #ml #google #course #courses #featureengineering #recsys #clustering #gan

@data_science_weekly
#sklearn #imblanced #resampling #calibration

Этот Лемэтр зарубил много моих оптимизационных инициатив в sklearn, кстати.

Из новшеств: cost-sensitive learning, metadata routing. Английский докладчика понимается с трудом, но пытливый ум при желании разберётся )

https://www.youtube.com/watch?v=Gjrz4YCp6l8
#hardware #vr #ar #avp #quest3 #vrgaming

А, так вот почему все обзоры Apple Vision Pro, что я видел, не касаются игр. Я всё ждал, когда же эплбои скажут "ВАУ, а как же в этом круто играть в VR игры!" Так ведь оказывается, Эппл даже не предусмотрела игровые контроллеры для AVP, их просто нет. Фанаты надкушенного яблока, отдав под 4 косарика баксов, даже не смогут побегать с оружием в HL: Alyx, или порубить кубики световыми мечами в Beat Saber, а это то, что автоматически из коробки получают люди за $500 с Quest 3 (да и $300 с Quest 2).

Моё заключение: это прекрасно, что AVP как продукт вышел на рынок, это заставит Мету работать ещё усерднее и подтянуться в аспектах, которые у них пока слабее (жесты, персоны, сквозной просмотр, невозможность работать при прямом солнечном свете). AVP - это отличное решения для работы, конференций в VR/AR. В то же время, по какой-то странной причине огромная компания профакапилась, не сделав игровые контроллеры, и создав шлем VR с FOV (углами обзора) заведомо меньшими, чем у конкурентов. Может, стики они ещё и выпустят через полгода (за отдельные $400?), а вот FOV уже не исправить.

Даже с ТЗ дизайна мне кажется, они оплошали. Ну что это за хрень, все юзеры AVP ходят с кабелями от головы и до кармана. Уж лучше бы сделали батарею встроенной в крепления шлема, в качестве противовеса самому устройству. Так и носить было бы удобнее, тяжёлый шлем, давящий на лицо, уравновешивался бы батареей на затылке. Наверняка расторопные продавцы такое спецкрепление скоро выпустят, но для юзеров это будет означать доп траты вместо получения удобного решения из коробки.

"The only positive I've been able to get from the Apple Vision Pro is how it has the best pass-through of all headsets. That right there is the least useful thing for VR. But like all AR it can be fun to see your environment around you in real time but what practical purpose does it serve in terms of productivity and gaming. Apple are selling this as a computing device, the next Mac they have said. I haven't seen anything that would make me want to use this over a PC or use it over a VR headset for gaming.

Also people need to keep the "wooo it's so magical" to a minimum as it makes it seem like you are suggesting the pass-through is all that matters compared to everything else that it doesn't do well."

https://www.youtube.com/watch?v=OyHnq8htv2E
#featureselection #diogenes #clusteredfs

Задумался о модификации MRMR в свете коррелированных признаков.

Сейчас Диоген избыточные признаки просто отсеивает. Но представим себе такую ситуацию: истинный влияющий фактор вне выборки, до нас дошли только несколько его "отражений" A,B, C... каждое со своим случайным шумом. По факту, мы сейчас выбираем одно самое похожее отражение D, а остальные выкидываем. А это же нерационально. Не лучше ли брать вместо D, к примеру, mean(A,B,C,...)? Идея в том, что случайные шумы отменяют друг друга, а сигнал усиливается (как и обычно при ансамблировании).

О подходе к FS, когда несколько коррелированных факторов заменяются кластером, рассказывал Эрни Чан. Правда, почему-то этого не было в его статье.

В общем, буду делать. Как минимум будет нелишней такая опция.
👍1
#trading #rl #starke

Обучение с подкреплением - крайне интересный подход, который для трейдинга планирую попробовать в следующем году. Мне кажется, в нём как нигде нужно уметь генерировать качественные альтернативные истории.

По поводу самой лекции есть претензия.. Ну зачем называть вещи тем, чем они не являются?
DEEP RL. А у тебя там точно дип? Десятки и сотни слоёв, сложная архитектура сети, да? Или налепил MLP 3 слоя, и такой важничаешь, мол, у меня глубокое обучение )
Ну назови ты просто Neuro RL тогда, к чему этот Deep? Надо, блин, в пику этим дипам назвать свой Sweet ML. Почему свит? Да по тому же, почему у тебя дип, бл#ть.

И, кстати, нет никаких причин в RL для моделирования функции полезности ограничиваться нейросетями. Лично мне кажется, что тут все используют ANNs как попки, потому что кто-то так начал делать, а остальные повторяют. Это как с документацией в Optuna, где датасет загружается из файла по-новой на КАЖДОЙ оценке, и при просмотре курсов видишь, как лекторы объясняют оптимизацию используя именно этот пример без изменений. Один дурак раз сделал, остальные как попугаи копируют.

Что понравилось в лекции, так это калибровка подхода на
1) случайном шуме (ожидается убыток)
2) синусовой волне (ожидается высокая стабильная прибыль)
3) зашумлённой синусоиде (ожидается менее стабильная, но высокая прибыль)
4) автокорреляции и прочих искусственных паттернах

Ну и тоже, почему люди так боятся вопроса "а сколько ты заработал на RL"? Ну ты же налог с этого платишь, всё законно, если назовёшь цифру, ничего не потеряешь. Живёшь в цивилизованной правовой стране, тебя не посадят по сфабрикованному делу и не запытают в тюрьме, вымогая деньги. Это если есть что называть, конечно.

https://youtu.be/H-c49jQxGbs?si=6tP9NG5SZS2Evdas
👍2
#chess #chesscom

Немного новостей. После просмотра этого интервью, я написал Эрику с детальным предложением, что мы можем попробовать сделать с помощью ML, чтобы эффективнее отлавливать читеров в шахматах. Год назад мы немного общались на похожую тему, но это ни к чему не привело. В этот раз он незамедлительно ответил, что предложение интересное, мы созвонились, прошёл собеседование с ним и потом в течение нескольких недель ещё с 2 директорами chess.com

И вот меня заонбордили вроде бы, начинаю читать документацию и погружаться в актуальные проекты. Посмотрим, смогу ли добавить ценности в бизнес-процессы компании. Команда ~700 человек, встретили весьма тепло. Можете написать мне на anatoly.alexeev@chess.com для пущей важности )
🔥7
#teasers #featureengineering

И ещё новости. Пока не получается опубликовать детали, но я работаю над новым крутым методом feature engineering, который ещё нигде не применяется. О нём узнают (практически) только подписчики канала.

Без смс и регистрации ) Так что stay tuned!
2
#chess

Читаю про ценности и миссию компании. Сообщество, где любители шахмат изо всего мира чувствуют себя безопасно и счастливо, повышая свой шахматный уровень.
Ну и тут же вспоминаю про свой негативный опыт.

Я играю в онлайн шахматы достаточно часто, почти каждый день, короткие контроли (блиц или пулю), стараюсь не тратить на это больше 20-30 минут в день, потому что это чисто для интеллектуального удовольствия, пользы особой не приносит. Ну и часто складывается ситуация, что играешь впервые с соперником с примерно равным рейтингом. проигрываешь опять же в равной борьбе, жмёшь Реванш, а тебе тут же прилетает Declined.

У меня одного такое поведение соперника вызывает негативные эмоции? Давайте замутим опрос.
Вы проиграли партию в шахматы в равной честной корректной борьбе, отправляете запрос на реванш, соперник его отклоняет. Вы:
Anonymous Poll
0%
почувствуете счастье и радость
67%
отнесётесь безразлично
21%
посчитаете его надменным
17%
разозлитесь
🚀 @SBERLOGABIO:
👨‍🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)

Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.

Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.

Решение
Идея 1.
Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.

Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.

И еще множество других идей (см. write-up).
Zoom link will be in @sberlogabig just before start
#music #diorama #robots

Synthesize me
Make me your
love and hate machine
And I can serve you better

Synthesize me
And reboot
I need to start again
I need to make it different

Synthesize me
Wash away
The trash I'm piling up
To mesmerize the moments

https://youtu.be/MsAiHQmICFs