Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#vr #hardware #apple

Кратко: FOV подкачал, на уровне Quest 2, в остальном техническое качество и удобство пользования выше всяких похвал. А этот чел перепробовал, наверное, все VR шлемы, что выходили в продажу )

https://www.youtube.com/watch?v=XSNLZTpvUiY
#astronomy

"Подробные данные по системе Сатурна собрала автоматическая станция «Кассини» в период с 2004 по 2017 годы. Группа учёных из Парижской обсерватории воспользовалась этой информацией, чтобы заново оценить орбитальные параметры Мимаса, который напоминает «Звезду смерти» благодаря огромному ударному кратеру на своей поверхности. Они хотели исключить один из сценариев, из-за которого орбита этой луны выглядит необычно для монолитного скалистого небесного тела.

Согласно одному из вариантов, Мимас может содержать сильно вытянутое ядро, которое заставляет его совершать колебательные движения, проходя по орбите. Во втором случае, под его скалистой поверхностью может скрываться глобальный водный мир, потоки которого также вызывают изменения в орбитальном движении спутника.

Моделирование показало, что существование вытянутого ядра представляется наименее вероятным сценарием. С учётом динамики орбитального движения Мимаса под воздействием гравитации Сатурна и других его крупнейших лун, орбитальные параметры подозрительной луны, скорее всего, объясняются жидким подповерхностным океаном.

Расчёты показывают, что жидкий океан на Мимасе сравнительно молодой — ему всего 2–3 млн лет. Вероятнее всего, незадолго до его появления орбита этой луны изменилась со стабильной круговой на вытянутую, что в системе с множеством лун считается нормальным явлением. Гравитация Сатурна стала оказывать на недра Мимаса прерывистое воздействие, и это привело к гравитационному разогреву его ядра и внутренней структуры. Вода начала выделяться в жидком виде и постепенно там образовался глобальный подповерхностный океан, который к настоящему моменту подошёл к поверхности Мимаса на 20–30 км.

По внешнему виду этой луны не скажешь, что под её корой плещутся массы воды, намного больше, чем в земных океанах. На Мимасе нет трещин и гейзеров, как на лунах Энцеладе, Европе, Ганимеде и Титане, поэтому он долго хранил свою тайну. Не менее важно, что если там действительно есть глобальный океан, то его молодость — это способ заглянуть в прошлое других лун Сатурна и Юпитера, чтобы понять эволюционное развитие подповерхностных водных миров. На глазах учёных буквально может твориться ранняя геологическая история этих миров, чему учёные несказанно рады."

https://3dnews.ru/1099972/pohogiy-na-zvezdu-smerti-sputnik-saturna-mimas-zapodozren-v-sokritii-podpoverhnostnogo-globalnogo-okeana
#politics

Единственного кандидата с независимой программой не допустили до участия в выборах. Единственного, который реально собирал подписи, и который их действительно собрал, и это видела вся страна. Что же сделал СЦЫК? Отсканировал подписные листы с ошибками, СОБТВЕННЫЕ ошибки сканирования объявил как недействительные подписные листы. Странно, могли бы просто задницы свои подтереть нашими подписями и не заморачиваться со сканированием, было бы немного честнее.
У подписей за х#йло и прочих клоунов (сбора которых никто не заметил) ошибок сканирования не произошло. Магия? Снова магия.

https://www.youtube.com/watch?v=Np6bnbVc8pU
🤡1
Forwarded from asisakov
АНАЛИТИКА
Часть 1

Прошлая часть серии по собеседованиям тут.

Собеседование, которое встречается именно на аналитические вакансии. Здесь есть такая особенность, что не особо сильно спрашиваются скиллы по алгоритмам или программированию, но важно понимание основ ML, AB-тестирования, умения аналитически мыслить и ставить задачи. Также у аналитики довольно много направлений. Например, есть маркетинговая/клиентская аналитика, а есть продуктовая (коммерческая). Можно также упомянуть HR аналитику. Под собой они содержат много различных направлений и разных задач, но базовая суть остается - уметь выдвигать и тестировать множество различных гипотез, а потом внедрять их многочисленными инструментами и моделями.

На начальных этапах скорее будут обсуждаться различные общие концепции, метрики и некоторое погружение в аналитические задачи, чтобы выявить в кандидате то необходимое аналитическое мышление. С более экспертными позициями будет пропорциональное погружение именно в ту область, в которую вы приходите. Если есть желание отсобеседоваться на синьора аналитика в коммерческой аналитике, то будьте добры поговорить несколько собеседований подряд про ассортимент, прайсинг и все особенности этого направления.

Давайте попробуем обозначить пайплайн, но скорее всего здесь я не особо точно смогу выразить все тонкости и некоторые базовые моменты - потому что даже в рамках одной компании аналитические собеседования могут совсем отличаться по своей структуре. Я все же попробую рискнуть, поэтому давайте обозначим разные группы тем, которые с высокой вероятностью придется обсудить на таком интервью.

1. SQL

Очевидно, что без этого царя батюшки точно не обойтись на данной позиции. А все потому, что придется постоянно различными хитрыми способами и запросами доставать данные. Причем иногда можно написать простенький код, но он будет работать 2 часа - и возможно это будет нормальным решением для одного-единственного запуска. Но потом возникает потребность в нескольких пусках именно этого запроса, и уже приходится заниматься оптимизацией, избавляться от джойнов больших таблиц и искать методы оптимизации своих запросов. О чем точно придется поговорить: о джойнах, синтаксисе, оконных функциях. Возможно даже придется написать небольшой запрос! (не обязательно простенький)

2. Статистика и теория вероятностей

Обязательно будет задачка на понимание статистики и теории вероятностей. Например, нужно будет решить какую-нибудь задачку из сборника отсюда или отсюда. Обычно даже идет некоторое обсуждение материала, например нужно просто написать или вывести формулу из теоремы Байеса. Если этот момент в принципе несложен, то по задачкам даже может случиться полный рандом (можно переволноваться и совсем неправильно начать решать проблему). Примеры простой задачи на собесе можно например посмотреть тут или тут.

3. A/B-тестирование

Здесь обязательно нужно уметь пояснить за p-value, с чем его едят и для чего применяют. И почему все-таки оно принимается как 0.05. Быстро вспомниить и понять все эти концепции можно в этом видео. Но аналитический собес на то и аналитический, поэтому нужно чуть более глубокое погружение: вывести формулу MDE, посчитать мощность выборок и раскидать за CUPED. Различные тонкости можно кстати посмотреть на самом популярном в этом плане канале Carpov.Courses.

Продолжение ниже ⬇️

#interview #analytics #ab #sql
Forwarded from asisakov
АНАЛИТИКА
Часть 2

Начало выше ⬆️

4. Продуктовые метрики

В работе аналитика минимум 1 раз в день будет упоминаться та или иная метрика. MAU, DAU, conversion, retention, LTV, CAC, ROI, ARPPU. Если вы знаете, как все это расшифровывается и что подразумевает под собой, то это уже неплохо (если не знаете, то хотя бы почитайте про это тут). Но все же в каждом направлении аналитики будут свои метрики и это необходимо знать перед собеседованием и уметь этим оперировать. Часто бывает момент, когда собеседующий предлагает выдумать свою метрику и обосновать ее. Тут нужно проявить все свое аналитическое творческое мышление и обосновать свой выбор, а также пояснить возможные минусы и плюсы от использования этой метрики (возможно ли ее например взломать?).

5. Обсуждение кейса

Встречается почти на всех собеседованиях. Здесь предлагается задача, прямо связанная с тем, что придется делать на работе. Например, вопрос “Как оценить/улучшить качество ответа поддержки в Авито” не требует мгновенного и точного ответа, а скорее является началом диалога как в собесах по ML System Design. И здесь вам нужно будет уточнить весь контекст поставленного вопроса, понять вообще какие данные у нас есть, озвучить разные подходы и возможно предложить несколько идей. Дальше общение может перетечь в решение узких вопросов, связанных с этой задачкой, но это более advanced уровень. Например, обсуждение юридических нюансов скоринга саппорта.

Погружаться в каждую из частей можно бесконечно, но не только это может определить уровень человека. Важно не только уметь раскидать по зардам, а важны еще и ваши софт-скиллы. Если вы не сможете нормально обсудить с заказчиком бизнес-задачу, то тут никакой хардскилл не затащит. Если не уметь мыслить продуктово, то возможно и задачи будут решаться немножко не те, что изначально имелись в виду (про это хорошо написано тут) Поэтому не забываем и про софты!

Список полезных источников:
1. Как стать аналитиком от поступашек
2. Как решать задачки на market-sizing
3. Серия постов про воронки конверсий от Вани Максимова и также пост про размен метрик от него
4. Как вкатиться в аналитику от Марины
5. Подборка материалов по продуктовой аналитике
6. Как связаны A/B-тесты и линейная регрессия
7. Статьи про A/B от аналитиков X5
8. SUKI в A/B-тестах и надо ли от них избавляться
9. Подборка метриалов по A/B-тестированию от Reliable ML
10. Подборка про Байесовские методы в A/B-тестах от Александра
11. Материалы по подготовке к собесам по A/B

#interview #analytics #ab #sql
👍2
#nvidia

"Акции NVIDIA подорожали до $705,43 за штуку, так что движение вверх продолжилось после небольшой коррекции, наблюдавшейся днём ранее. На этом уровне NVIDIA по капитализации уже близка к Amazon с его $1,767 трлн, да и до Google остаётся не так много, не более 6 %. Напомним, что по состоянию на конец января NVIDIA являлась шестой по величине капитализацией компанией в мире среди представителей всех отраслей экономики. Если ей удастся в ближайшей перспективе обойти Amazon и Alphabet (Google), то она окажется на четвёртом месте. Кстати, истории уже известны случаи, когда NVIDIA обходила Amazon по капитализации. Например, в 2002 году обе компании стоили примерно по $6 млрд от силы."

https://3dnews.ru/1099985/nvidia-pochti-dognala-po-kapitalizatsii-amazon-preodolev-otmetku-v-17-trln
#physics #astronomy #blackholes

Ага, всё-таки предложили объяснение этих странных наблюдений JWST прошлого года.

"Учёные обратили внимание, что «Уэбб» обнаружил одну сверхмассивную чёрную дыру через 470 млн лет после Большого взрыва, а другую — через 400 млн лет. Масса последней была определена на уровне 1,6 млн солнечных. Она находилась в центре галактики, которая была легче, чем дыра в её сердцевине. Чёрная дыра подобной массы не могла вырасти до фиксируемого значения. Из того, что мы наблюдали, чёрные дыры возникали после коллапса умирающих звёзд массой свыше 50 солнечных. Ничего подобного в ранней Вселенной не могло произойти, чтобы проявился наблюдаемый там эффект — крошечная галактика, собранная вокруг СЧД.

Исследователи делают вывод, что первичные чёрные дыры образовались одновременно с первыми звёздами или чуть раньше из облаков первичной материи. Центры облаков коллапсировали и возникшая в каждом из них чёрная дыра начинала испускать ветер, запускающий и ускоряющий процесс звездообразования. Фактически первичные чёрные дыры стали тем инструментом, который собрал и превратил галактики в те структуры, которые мы наблюдаем."

https://3dnews.ru/1099994/pervie-chyornie-diri-rodilis-ne-iz-zvyozd-podtvergdayut-dannie-teleskopa-dgeyms-uebb
Google Machine Learning Education

Learn to build ML products with Google's Machine Learning Courses.

Foundational courses
The foundational courses cover machine learning fundamentals and core concepts. They recommend taking them in the order below.

1. Introduction to Machine Learning
A brief introduction to machine learning.
2. Machine Learning Crash Course
A hands-on course to explore the critical basics of machine learning.
3. Problem Framing
A course to help you map real-world problems to machine learning solutions.
4. Data Preparation and Feature Engineering
An introduction to preparing your data for ML workflows.
5. Testing and Debugging
Strategies for testing and debugging machine learning models and pipelines.

Advanced Courses
The advanced courses teach tools and techniques for solving a variety of machine learning problems. The courses are structured independently. Take them based on interest or problem domain.

- Decision Forests
Decision forests are an alternative to neural networks.
- Recommendation Systems
Recommendation systems generate personalized suggestions.
- Clustering
Clustering is a key unsupervised machine learning strategy to associate related items.
- Generative Adversarial Networks
GANs create new data instances that resemble your training data.
- Image Classification
Is that a picture of a cat or is it a dog?
- Fairness in Perspective API
Hands-on practice debugging fairness issues.

Guides
Their guides offer simple step-by-step walkthroughs for solving common machine learning problems using best practices.

- Rules of ML
Become a better machine learning engineer by following these machine learning best practices used at Google.
- People + AI Guidebook
This guide assists UXers, PMs, and developers in collaboratively working through AI design topics and questions.
- Text Classification
This comprehensive guide provides a walkthrough to solving text classification problems using machine learning.
- Good Data Analysis
This guide describes the tricks that an expert data analyst uses to evaluate huge data sets in machine learning problems.
- Deep Learning Tuning Playbook
This guide explains a scientific way to optimize the training of deep learning models.

Link: https://developers.google.com/machine-learning?hl=en

Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #machinelearning #ml #google #course #courses #featureengineering #recsys #clustering #gan

@data_science_weekly
#sklearn #imblanced #resampling #calibration

Этот Лемэтр зарубил много моих оптимизационных инициатив в sklearn, кстати.

Из новшеств: cost-sensitive learning, metadata routing. Английский докладчика понимается с трудом, но пытливый ум при желании разберётся )

https://www.youtube.com/watch?v=Gjrz4YCp6l8
#hardware #vr #ar #avp #quest3 #vrgaming

А, так вот почему все обзоры Apple Vision Pro, что я видел, не касаются игр. Я всё ждал, когда же эплбои скажут "ВАУ, а как же в этом круто играть в VR игры!" Так ведь оказывается, Эппл даже не предусмотрела игровые контроллеры для AVP, их просто нет. Фанаты надкушенного яблока, отдав под 4 косарика баксов, даже не смогут побегать с оружием в HL: Alyx, или порубить кубики световыми мечами в Beat Saber, а это то, что автоматически из коробки получают люди за $500 с Quest 3 (да и $300 с Quest 2).

Моё заключение: это прекрасно, что AVP как продукт вышел на рынок, это заставит Мету работать ещё усерднее и подтянуться в аспектах, которые у них пока слабее (жесты, персоны, сквозной просмотр, невозможность работать при прямом солнечном свете). AVP - это отличное решения для работы, конференций в VR/AR. В то же время, по какой-то странной причине огромная компания профакапилась, не сделав игровые контроллеры, и создав шлем VR с FOV (углами обзора) заведомо меньшими, чем у конкурентов. Может, стики они ещё и выпустят через полгода (за отдельные $400?), а вот FOV уже не исправить.

Даже с ТЗ дизайна мне кажется, они оплошали. Ну что это за хрень, все юзеры AVP ходят с кабелями от головы и до кармана. Уж лучше бы сделали батарею встроенной в крепления шлема, в качестве противовеса самому устройству. Так и носить было бы удобнее, тяжёлый шлем, давящий на лицо, уравновешивался бы батареей на затылке. Наверняка расторопные продавцы такое спецкрепление скоро выпустят, но для юзеров это будет означать доп траты вместо получения удобного решения из коробки.

"The only positive I've been able to get from the Apple Vision Pro is how it has the best pass-through of all headsets. That right there is the least useful thing for VR. But like all AR it can be fun to see your environment around you in real time but what practical purpose does it serve in terms of productivity and gaming. Apple are selling this as a computing device, the next Mac they have said. I haven't seen anything that would make me want to use this over a PC or use it over a VR headset for gaming.

Also people need to keep the "wooo it's so magical" to a minimum as it makes it seem like you are suggesting the pass-through is all that matters compared to everything else that it doesn't do well."

https://www.youtube.com/watch?v=OyHnq8htv2E
#featureselection #diogenes #clusteredfs

Задумался о модификации MRMR в свете коррелированных признаков.

Сейчас Диоген избыточные признаки просто отсеивает. Но представим себе такую ситуацию: истинный влияющий фактор вне выборки, до нас дошли только несколько его "отражений" A,B, C... каждое со своим случайным шумом. По факту, мы сейчас выбираем одно самое похожее отражение D, а остальные выкидываем. А это же нерационально. Не лучше ли брать вместо D, к примеру, mean(A,B,C,...)? Идея в том, что случайные шумы отменяют друг друга, а сигнал усиливается (как и обычно при ансамблировании).

О подходе к FS, когда несколько коррелированных факторов заменяются кластером, рассказывал Эрни Чан. Правда, почему-то этого не было в его статье.

В общем, буду делать. Как минимум будет нелишней такая опция.
👍1
#trading #rl #starke

Обучение с подкреплением - крайне интересный подход, который для трейдинга планирую попробовать в следующем году. Мне кажется, в нём как нигде нужно уметь генерировать качественные альтернативные истории.

По поводу самой лекции есть претензия.. Ну зачем называть вещи тем, чем они не являются?
DEEP RL. А у тебя там точно дип? Десятки и сотни слоёв, сложная архитектура сети, да? Или налепил MLP 3 слоя, и такой важничаешь, мол, у меня глубокое обучение )
Ну назови ты просто Neuro RL тогда, к чему этот Deep? Надо, блин, в пику этим дипам назвать свой Sweet ML. Почему свит? Да по тому же, почему у тебя дип, бл#ть.

И, кстати, нет никаких причин в RL для моделирования функции полезности ограничиваться нейросетями. Лично мне кажется, что тут все используют ANNs как попки, потому что кто-то так начал делать, а остальные повторяют. Это как с документацией в Optuna, где датасет загружается из файла по-новой на КАЖДОЙ оценке, и при просмотре курсов видишь, как лекторы объясняют оптимизацию используя именно этот пример без изменений. Один дурак раз сделал, остальные как попугаи копируют.

Что понравилось в лекции, так это калибровка подхода на
1) случайном шуме (ожидается убыток)
2) синусовой волне (ожидается высокая стабильная прибыль)
3) зашумлённой синусоиде (ожидается менее стабильная, но высокая прибыль)
4) автокорреляции и прочих искусственных паттернах

Ну и тоже, почему люди так боятся вопроса "а сколько ты заработал на RL"? Ну ты же налог с этого платишь, всё законно, если назовёшь цифру, ничего не потеряешь. Живёшь в цивилизованной правовой стране, тебя не посадят по сфабрикованному делу и не запытают в тюрьме, вымогая деньги. Это если есть что называть, конечно.

https://youtu.be/H-c49jQxGbs?si=6tP9NG5SZS2Evdas
👍2
#chess #chesscom

Немного новостей. После просмотра этого интервью, я написал Эрику с детальным предложением, что мы можем попробовать сделать с помощью ML, чтобы эффективнее отлавливать читеров в шахматах. Год назад мы немного общались на похожую тему, но это ни к чему не привело. В этот раз он незамедлительно ответил, что предложение интересное, мы созвонились, прошёл собеседование с ним и потом в течение нескольких недель ещё с 2 директорами chess.com

И вот меня заонбордили вроде бы, начинаю читать документацию и погружаться в актуальные проекты. Посмотрим, смогу ли добавить ценности в бизнес-процессы компании. Команда ~700 человек, встретили весьма тепло. Можете написать мне на anatoly.alexeev@chess.com для пущей важности )
🔥7
#teasers #featureengineering

И ещё новости. Пока не получается опубликовать детали, но я работаю над новым крутым методом feature engineering, который ещё нигде не применяется. О нём узнают (практически) только подписчики канала.

Без смс и регистрации ) Так что stay tuned!
2
#chess

Читаю про ценности и миссию компании. Сообщество, где любители шахмат изо всего мира чувствуют себя безопасно и счастливо, повышая свой шахматный уровень.
Ну и тут же вспоминаю про свой негативный опыт.

Я играю в онлайн шахматы достаточно часто, почти каждый день, короткие контроли (блиц или пулю), стараюсь не тратить на это больше 20-30 минут в день, потому что это чисто для интеллектуального удовольствия, пользы особой не приносит. Ну и часто складывается ситуация, что играешь впервые с соперником с примерно равным рейтингом. проигрываешь опять же в равной борьбе, жмёшь Реванш, а тебе тут же прилетает Declined.

У меня одного такое поведение соперника вызывает негативные эмоции? Давайте замутим опрос.