Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Google Machine Learning Education

Learn to build ML products with Google's Machine Learning Courses.

Foundational courses
The foundational courses cover machine learning fundamentals and core concepts. They recommend taking them in the order below.

1. Introduction to Machine Learning
A brief introduction to machine learning.
2. Machine Learning Crash Course
A hands-on course to explore the critical basics of machine learning.
3. Problem Framing
A course to help you map real-world problems to machine learning solutions.
4. Data Preparation and Feature Engineering
An introduction to preparing your data for ML workflows.
5. Testing and Debugging
Strategies for testing and debugging machine learning models and pipelines.

Advanced Courses
The advanced courses teach tools and techniques for solving a variety of machine learning problems. The courses are structured independently. Take them based on interest or problem domain.

- Decision Forests
Decision forests are an alternative to neural networks.
- Recommendation Systems
Recommendation systems generate personalized suggestions.
- Clustering
Clustering is a key unsupervised machine learning strategy to associate related items.
- Generative Adversarial Networks
GANs create new data instances that resemble your training data.
- Image Classification
Is that a picture of a cat or is it a dog?
- Fairness in Perspective API
Hands-on practice debugging fairness issues.

Guides
Their guides offer simple step-by-step walkthroughs for solving common machine learning problems using best practices.

- Rules of ML
Become a better machine learning engineer by following these machine learning best practices used at Google.
- People + AI Guidebook
This guide assists UXers, PMs, and developers in collaboratively working through AI design topics and questions.
- Text Classification
This comprehensive guide provides a walkthrough to solving text classification problems using machine learning.
- Good Data Analysis
This guide describes the tricks that an expert data analyst uses to evaluate huge data sets in machine learning problems.
- Deep Learning Tuning Playbook
This guide explains a scientific way to optimize the training of deep learning models.

Link: https://developers.google.com/machine-learning?hl=en

Navigational hashtags: #armknowledgesharing #armcourses
General hashtags: #machinelearning #ml #google #course #courses #featureengineering #recsys #clustering #gan

@data_science_weekly
#sklearn #imblanced #resampling #calibration

Этот Лемэтр зарубил много моих оптимизационных инициатив в sklearn, кстати.

Из новшеств: cost-sensitive learning, metadata routing. Английский докладчика понимается с трудом, но пытливый ум при желании разберётся )

https://www.youtube.com/watch?v=Gjrz4YCp6l8
#hardware #vr #ar #avp #quest3 #vrgaming

А, так вот почему все обзоры Apple Vision Pro, что я видел, не касаются игр. Я всё ждал, когда же эплбои скажут "ВАУ, а как же в этом круто играть в VR игры!" Так ведь оказывается, Эппл даже не предусмотрела игровые контроллеры для AVP, их просто нет. Фанаты надкушенного яблока, отдав под 4 косарика баксов, даже не смогут побегать с оружием в HL: Alyx, или порубить кубики световыми мечами в Beat Saber, а это то, что автоматически из коробки получают люди за $500 с Quest 3 (да и $300 с Quest 2).

Моё заключение: это прекрасно, что AVP как продукт вышел на рынок, это заставит Мету работать ещё усерднее и подтянуться в аспектах, которые у них пока слабее (жесты, персоны, сквозной просмотр, невозможность работать при прямом солнечном свете). AVP - это отличное решения для работы, конференций в VR/AR. В то же время, по какой-то странной причине огромная компания профакапилась, не сделав игровые контроллеры, и создав шлем VR с FOV (углами обзора) заведомо меньшими, чем у конкурентов. Может, стики они ещё и выпустят через полгода (за отдельные $400?), а вот FOV уже не исправить.

Даже с ТЗ дизайна мне кажется, они оплошали. Ну что это за хрень, все юзеры AVP ходят с кабелями от головы и до кармана. Уж лучше бы сделали батарею встроенной в крепления шлема, в качестве противовеса самому устройству. Так и носить было бы удобнее, тяжёлый шлем, давящий на лицо, уравновешивался бы батареей на затылке. Наверняка расторопные продавцы такое спецкрепление скоро выпустят, но для юзеров это будет означать доп траты вместо получения удобного решения из коробки.

"The only positive I've been able to get from the Apple Vision Pro is how it has the best pass-through of all headsets. That right there is the least useful thing for VR. But like all AR it can be fun to see your environment around you in real time but what practical purpose does it serve in terms of productivity and gaming. Apple are selling this as a computing device, the next Mac they have said. I haven't seen anything that would make me want to use this over a PC or use it over a VR headset for gaming.

Also people need to keep the "wooo it's so magical" to a minimum as it makes it seem like you are suggesting the pass-through is all that matters compared to everything else that it doesn't do well."

https://www.youtube.com/watch?v=OyHnq8htv2E
#featureselection #diogenes #clusteredfs

Задумался о модификации MRMR в свете коррелированных признаков.

Сейчас Диоген избыточные признаки просто отсеивает. Но представим себе такую ситуацию: истинный влияющий фактор вне выборки, до нас дошли только несколько его "отражений" A,B, C... каждое со своим случайным шумом. По факту, мы сейчас выбираем одно самое похожее отражение D, а остальные выкидываем. А это же нерационально. Не лучше ли брать вместо D, к примеру, mean(A,B,C,...)? Идея в том, что случайные шумы отменяют друг друга, а сигнал усиливается (как и обычно при ансамблировании).

О подходе к FS, когда несколько коррелированных факторов заменяются кластером, рассказывал Эрни Чан. Правда, почему-то этого не было в его статье.

В общем, буду делать. Как минимум будет нелишней такая опция.
👍1
#trading #rl #starke

Обучение с подкреплением - крайне интересный подход, который для трейдинга планирую попробовать в следующем году. Мне кажется, в нём как нигде нужно уметь генерировать качественные альтернативные истории.

По поводу самой лекции есть претензия.. Ну зачем называть вещи тем, чем они не являются?
DEEP RL. А у тебя там точно дип? Десятки и сотни слоёв, сложная архитектура сети, да? Или налепил MLP 3 слоя, и такой важничаешь, мол, у меня глубокое обучение )
Ну назови ты просто Neuro RL тогда, к чему этот Deep? Надо, блин, в пику этим дипам назвать свой Sweet ML. Почему свит? Да по тому же, почему у тебя дип, бл#ть.

И, кстати, нет никаких причин в RL для моделирования функции полезности ограничиваться нейросетями. Лично мне кажется, что тут все используют ANNs как попки, потому что кто-то так начал делать, а остальные повторяют. Это как с документацией в Optuna, где датасет загружается из файла по-новой на КАЖДОЙ оценке, и при просмотре курсов видишь, как лекторы объясняют оптимизацию используя именно этот пример без изменений. Один дурак раз сделал, остальные как попугаи копируют.

Что понравилось в лекции, так это калибровка подхода на
1) случайном шуме (ожидается убыток)
2) синусовой волне (ожидается высокая стабильная прибыль)
3) зашумлённой синусоиде (ожидается менее стабильная, но высокая прибыль)
4) автокорреляции и прочих искусственных паттернах

Ну и тоже, почему люди так боятся вопроса "а сколько ты заработал на RL"? Ну ты же налог с этого платишь, всё законно, если назовёшь цифру, ничего не потеряешь. Живёшь в цивилизованной правовой стране, тебя не посадят по сфабрикованному делу и не запытают в тюрьме, вымогая деньги. Это если есть что называть, конечно.

https://youtu.be/H-c49jQxGbs?si=6tP9NG5SZS2Evdas
👍2
#chess #chesscom

Немного новостей. После просмотра этого интервью, я написал Эрику с детальным предложением, что мы можем попробовать сделать с помощью ML, чтобы эффективнее отлавливать читеров в шахматах. Год назад мы немного общались на похожую тему, но это ни к чему не привело. В этот раз он незамедлительно ответил, что предложение интересное, мы созвонились, прошёл собеседование с ним и потом в течение нескольких недель ещё с 2 директорами chess.com

И вот меня заонбордили вроде бы, начинаю читать документацию и погружаться в актуальные проекты. Посмотрим, смогу ли добавить ценности в бизнес-процессы компании. Команда ~700 человек, встретили весьма тепло. Можете написать мне на anatoly.alexeev@chess.com для пущей важности )
🔥7
#teasers #featureengineering

И ещё новости. Пока не получается опубликовать детали, но я работаю над новым крутым методом feature engineering, который ещё нигде не применяется. О нём узнают (практически) только подписчики канала.

Без смс и регистрации ) Так что stay tuned!
2
#chess

Читаю про ценности и миссию компании. Сообщество, где любители шахмат изо всего мира чувствуют себя безопасно и счастливо, повышая свой шахматный уровень.
Ну и тут же вспоминаю про свой негативный опыт.

Я играю в онлайн шахматы достаточно часто, почти каждый день, короткие контроли (блиц или пулю), стараюсь не тратить на это больше 20-30 минут в день, потому что это чисто для интеллектуального удовольствия, пользы особой не приносит. Ну и часто складывается ситуация, что играешь впервые с соперником с примерно равным рейтингом. проигрываешь опять же в равной борьбе, жмёшь Реванш, а тебе тут же прилетает Declined.

У меня одного такое поведение соперника вызывает негативные эмоции? Давайте замутим опрос.
Вы проиграли партию в шахматы в равной честной корректной борьбе, отправляете запрос на реванш, соперник его отклоняет. Вы:
Anonymous Poll
0%
почувствуете счастье и радость
67%
отнесётесь безразлично
21%
посчитаете его надменным
17%
разозлитесь
🚀 @SBERLOGABIO:
👨‍🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)

Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.

Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.

Решение
Идея 1.
Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.

Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.

И еще множество других идей (см. write-up).
Zoom link will be in @sberlogabig just before start
#music #diorama #robots

Synthesize me
Make me your
love and hate machine
And I can serve you better

Synthesize me
And reboot
I need to start again
I need to make it different

Synthesize me
Wash away
The trash I'm piling up
To mesmerize the moments

https://youtu.be/MsAiHQmICFs