Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#featureselection #diogenes #clusteredfs

Задумался о модификации MRMR в свете коррелированных признаков.

Сейчас Диоген избыточные признаки просто отсеивает. Но представим себе такую ситуацию: истинный влияющий фактор вне выборки, до нас дошли только несколько его "отражений" A,B, C... каждое со своим случайным шумом. По факту, мы сейчас выбираем одно самое похожее отражение D, а остальные выкидываем. А это же нерационально. Не лучше ли брать вместо D, к примеру, mean(A,B,C,...)? Идея в том, что случайные шумы отменяют друг друга, а сигнал усиливается (как и обычно при ансамблировании).

О подходе к FS, когда несколько коррелированных факторов заменяются кластером, рассказывал Эрни Чан. Правда, почему-то этого не было в его статье.

В общем, буду делать. Как минимум будет нелишней такая опция.
👍1
#trading #rl #starke

Обучение с подкреплением - крайне интересный подход, который для трейдинга планирую попробовать в следующем году. Мне кажется, в нём как нигде нужно уметь генерировать качественные альтернативные истории.

По поводу самой лекции есть претензия.. Ну зачем называть вещи тем, чем они не являются?
DEEP RL. А у тебя там точно дип? Десятки и сотни слоёв, сложная архитектура сети, да? Или налепил MLP 3 слоя, и такой важничаешь, мол, у меня глубокое обучение )
Ну назови ты просто Neuro RL тогда, к чему этот Deep? Надо, блин, в пику этим дипам назвать свой Sweet ML. Почему свит? Да по тому же, почему у тебя дип, бл#ть.

И, кстати, нет никаких причин в RL для моделирования функции полезности ограничиваться нейросетями. Лично мне кажется, что тут все используют ANNs как попки, потому что кто-то так начал делать, а остальные повторяют. Это как с документацией в Optuna, где датасет загружается из файла по-новой на КАЖДОЙ оценке, и при просмотре курсов видишь, как лекторы объясняют оптимизацию используя именно этот пример без изменений. Один дурак раз сделал, остальные как попугаи копируют.

Что понравилось в лекции, так это калибровка подхода на
1) случайном шуме (ожидается убыток)
2) синусовой волне (ожидается высокая стабильная прибыль)
3) зашумлённой синусоиде (ожидается менее стабильная, но высокая прибыль)
4) автокорреляции и прочих искусственных паттернах

Ну и тоже, почему люди так боятся вопроса "а сколько ты заработал на RL"? Ну ты же налог с этого платишь, всё законно, если назовёшь цифру, ничего не потеряешь. Живёшь в цивилизованной правовой стране, тебя не посадят по сфабрикованному делу и не запытают в тюрьме, вымогая деньги. Это если есть что называть, конечно.

https://youtu.be/H-c49jQxGbs?si=6tP9NG5SZS2Evdas
👍2
#chess #chesscom

Немного новостей. После просмотра этого интервью, я написал Эрику с детальным предложением, что мы можем попробовать сделать с помощью ML, чтобы эффективнее отлавливать читеров в шахматах. Год назад мы немного общались на похожую тему, но это ни к чему не привело. В этот раз он незамедлительно ответил, что предложение интересное, мы созвонились, прошёл собеседование с ним и потом в течение нескольких недель ещё с 2 директорами chess.com

И вот меня заонбордили вроде бы, начинаю читать документацию и погружаться в актуальные проекты. Посмотрим, смогу ли добавить ценности в бизнес-процессы компании. Команда ~700 человек, встретили весьма тепло. Можете написать мне на anatoly.alexeev@chess.com для пущей важности )
🔥7
#teasers #featureengineering

И ещё новости. Пока не получается опубликовать детали, но я работаю над новым крутым методом feature engineering, который ещё нигде не применяется. О нём узнают (практически) только подписчики канала.

Без смс и регистрации ) Так что stay tuned!
2
#chess

Читаю про ценности и миссию компании. Сообщество, где любители шахмат изо всего мира чувствуют себя безопасно и счастливо, повышая свой шахматный уровень.
Ну и тут же вспоминаю про свой негативный опыт.

Я играю в онлайн шахматы достаточно часто, почти каждый день, короткие контроли (блиц или пулю), стараюсь не тратить на это больше 20-30 минут в день, потому что это чисто для интеллектуального удовольствия, пользы особой не приносит. Ну и часто складывается ситуация, что играешь впервые с соперником с примерно равным рейтингом. проигрываешь опять же в равной борьбе, жмёшь Реванш, а тебе тут же прилетает Declined.

У меня одного такое поведение соперника вызывает негативные эмоции? Давайте замутим опрос.
Вы проиграли партию в шахматы в равной честной корректной борьбе, отправляете запрос на реванш, соперник его отклоняет. Вы:
Anonymous Poll
0%
почувствуете счастье и радость
67%
отнесётесь безразлично
21%
посчитаете его надменным
17%
разозлитесь
🚀 @SBERLOGABIO:
👨‍🔬 А.Вахрушев, С.Фиронов, А.Червов "Предсказание свойств белков - топ2 в CAFA5"
⌚️ Четверг 15 Февраля 19.00 (по Москве)

Как известно, Альфафолд от Гугл Дипмайнд совершил прорыв в биологии , сумев решить задачу , которая 50 лет не поддавалась решению - предсказание пространственной структуры белка по последовательности аминокислот, выиграв конкурс CASP15. Наша команда почти как Дипмайнд 😃 . Мы почти выиграли схожий конкурс - CAFA5 - заняв второе место и опередив 1500+ других команд.

Задача CAFA ( Critical Assessment of Function Annotation ) - предсказать функции и локализации белков, используя последовательность аминокислот белка - как основную входную информацию. Наиболее полная информация о функциях/локализации белков собрана в базе Gene Ontology , которая содержит около 40 000 всевозможных характеристик белка, которые организованы в иерархическую структуру. Охватываются белки всего - от вирусов до эукариот. Тем самым результат работы модели - для каждого белка должны выдаваться 40 000 нулей или единиц - есть данное свойство у данного белка или нет.

Решение
Идея 1.
Использование инновационного градиентного бустинга Pyboost разработанного лидером команды А. Вахрушевым. При наличии тысяч таргетов другие бустинги будут работать в сотни раз медленней чем Pyboost, и часто уступят ему по качеству.

Идея 2. Использование современных "protein language models". Поразительные способности ChatGPT известны всем. Актуальный подход к изучению свойств белковых последовательностей - состоит в переносе мощных моделей идейно (но не буквально) схожих с ChatGPT в биоинформатику. В данном конкурсе наиболее хорошо себя показала модель типа "T5" (Text-To-Text Transfer Transformer). Мы использовали "эмбединги", которые данные модели создают из белков. И далее обучали бустинги и нейросети на этих эмбедингах.

И еще множество других идей (см. write-up).
Zoom link will be in @sberlogabig just before start
#music #diorama #robots

Synthesize me
Make me your
love and hate machine
And I can serve you better

Synthesize me
And reboot
I need to start again
I need to make it different

Synthesize me
Wash away
The trash I'm piling up
To mesmerize the moments

https://youtu.be/MsAiHQmICFs