NEW BOT Телеграм, страница - 954815579

Aspiring Data Science

@AspiringDataScience

385 subscribers

465 photos

12 videos

12 files

2.15K links

Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.

Download Telegram

About

Blog

Apps

Platform

Aspiring Data Science

385 subscribers

Aspiring Data Science

#featureengineering #featureselection #diogenes

n =100_000
a = np.random.rand(n)
b = np.random.rand(n)
c = np.random.rand(n)
d = np.random.rand(n)
e = np.random.rand(n)
f = np.random.rand(n)

y=a**2/b+f/5+np.log(c)*np.sin(d)

df = pd.DataFrame(
    {
        "a": a,
        "b": b,
        "c": c,  
        "d": d,
        "e": e,

    }
)

from mlframe.feature_selection.filters import MRMR

fs=MRMR(full_npermutations=10,baseline_npermutations=20,verbose=1,n_workers=1,parallel_kwargs=dict(temp_folder=r"R:\Temp"),)
fs.fit(X=df,y=y)

2024-03-02 05:39:17,484 - INFO - screen_predictors-line:1524 - Starting work with full_npermutations=10, min_nonzero_confidence=0.99000, max_failed=1
2024-03-02 05:39:49,214 - INFO - fit-line:2750 - MRMR selected 4 out of 5 features: [{'name': 'a', 'indices': (0,), 'gain': 0.33220730396336595, 'confidence': 1.0}, {'name': 'b', 'indices': (1,), 'gain': 0.5405325314273686, 'confidence': 1.0}, {'name': 'c', 'indices': (2,), 'gain': 0.20641517193369197, 'confidence': 1.0}, {'name': 'd', 'indices': (3,), 'gain': 0.07414164383695354, 'confidence': 1.0}]
2024-03-02 05:40:34,762 - INFO - fit-line:2983 - mul(log(c),sin(d)) is recommended to use as a new feature!
2024-03-02 05:42:12,619 - INFO - fit-line:2983 - mul(squared(a),reciproc(b)) is recommended to use as a new feature!
time: 3min 7s (started: 2024-03-02 05:39:05 +03:00)

Как тебе такое, Франциска Хорн? )

🔥3

141 viewsAnatoly Alekseev, edited 02:42

Aspiring Data Science

#featureengineering #featureselection #autofeat

from autofeat import AutoFeatRegressor

model = AutoFeatRegressor(transformations = ('1/', 'exp', 'log', 'sin', 'sqrt', '^2', '^3'),featsel_runs=15)

new_df = model.fit_transform(df, y)

time: 5min 23s (started: 2024-03-02 06:07:07 +03:00)

Эмм.. А можно мне другой отборщик признаков? )

142 viewsAnatoly Alekseev, 03:14

Aspiring Data Science

#astronomy #lifeorigin

https://www.youtube.com/watch?v=vgqfuOS0v9s

Семихатов, Сурдин и Вибе ищут ЖИЗНЬ В КОСМОСЕ. Вселенная Плюс

Есть ли жизнь в космосе? Как её найти? И какой она будет? Спорят физик Алексей Семихатов, астроном Владимир Сурдин и астрохимик Дмитрий Вибе.
Записывайтесь на корпоративное обучение в Яндекс Практикуме: https://clck.ru/398vqg

Получи бесплатный Плюс Мульти…

142 viewsAnatoly Alekseev, 22:54

Aspiring Data Science

#reading

Читаю книжку, ловлю себя на мысли, что сноски внизу страницы должны кануть в небытиё (к чему эта саккада через всю страницу вниз-вверх? это сделано что, для моего мнимого удобства?). Как и чёртовы благодарности жёнам, детям, собакам автора. Равно как и "отзывы читателей", к примеру, в книжке Кохави, или как его, по А/Б тестам. Книжка была дрянной, а прекрасные "отзывы читателей" он расписал страницах на 5, не меньше.

👍1👎1

140 viewsAnatoly Alekseev, edited 23:35

Aspiring Data Science

#gametheory #prisonerdilemma

Как из игр возникает мораль

https://www.youtube.com/watch?v=o-lFK7nZIKE

Теория игр: жизнь, Вселенная и всё остальное [Veritasium]

Поддержать проект можно по ссылкам:
Если вы в России: https://boosty.to/vertdider
Если вы не в России: https://www.patreon.com/VertDider

Дилемма заключённого — известная задача в теории игр. Самая выигрышная стратегия в ней — предательство. Но что если эту…

👍2

135 viewsAnatoly Alekseev, 20:09

Aspiring Data Science

#trading

Алготрейдинг - рай для интроверта )

https://www.youtube.com/watch?v=QRJ-0lrZagY

Георгий Черемовский - Wunder Fund | подкаст Механики Бизнеса | # 92 | Управление HFT фондом

Выпуск создан при поддержке веб-студии RoundaboutVISION
https://roundaboutvision.com/

Георгий Черемовский - сооснователь фонда Wunder Fund, который занимается разработкой роботов для высокочастотной торговли на биржах.

Высокочастотная торговля (high-frequency…

164 viewsAnatoly Alekseev, 21:19

Aspiring Data Science

#featureengineering #featureselection #diogenes

Хорошие новости!

Как уже поняли читатели моего блога, в библиотеке отбора признаков Диоген появился также и модуль инженерии/конструирования новых признаков, но не бездумного, как в autofeat, а направленного, на основании теоретико-информационных метрик (в основном, взаимной информации MI комбинаций факторов с таргетом).

Основной мотивацией была попытка выделить рациональное зерно из набивших оскомину унылых рекомендаций и бубнежа вида "также иногда помогает логарифмирование, экспоненциирование, извлечение корней, попарное перемножение или деление исходных факторов". Эти рекомендации регулярно встречаются в курсах по FE и презентациях кэгглеров, но непонятно, как к этому вообще подступаться, кроме разве что каких-то случайных выпадов. Ну вот есть у меня 10k оригинальных признаков, мне взаимные отношения или произведения у каких именно из 50M пар проверять?

А так как метод MRMR в Диогене как раз и определяет достаточно хорошее в смысле предиктивности и уникальности подмножество признаков, некоторая проверка комбинаций становится уже реальной. Ещё больше пространство поиска сужает эвристика, что MI от "хорошей" на предмет тесной нелинейной связи пары признаков должна быть выше суммы индивидуальных MI факторов пары.

Это уже позволяет брать любые известные классы функций и для пары признаков a,b пытаться подбирать (в рамках бюджета) F3(F1(a),F2(b)) дающие максимальную MI с таргетом. В некоторых простых случаях этот метод срабатывает на ура, результаты я показывал выше. Но, если истинная зависимость сильно искажает вход ДО передачи в нелинейную функцию, метод становится практически бессилен и связь не обнаруживается.

Алексей @introspec предложил очень классную идею: почему бы не заменить подбор функций, сходимость которого дело скорее удачи, подбором коэффициентов ортогональных многочленов (например, Эрмитовых), теоретически умеющих аппроксимировать любую функциональную зависимость на отрезке? Взяв степень пониже, и коэффициенты поближе к 0, можно обеспечить своего рода регуляризацию.

Я попробовал пару дней тому заменить случайный поиск в пространстве функций на почти настолько же случайный поиск в пространстве коэффициентов Эрмитовых полиномов, но поставил вариацию на паузу из-за того, что не находились достаточно хорошие решения.

Теперь, собственно, к новостям )
Потестил свой модуль с разными исходными зависимостями, немного прояснил чувствительность и границы применимости метода. Пофиксил баги.

И... Заменил случайный перебор Эрмитовых полиномов на направленную оптимизацию с помощью Optuna )
Решения явно стали находиться получше за разумное время, иногда по качеству не уступают "нативным", когда зависимость известна. Нужно больше тестов. И, самое главное, предстоит выяснить, дают ли такие необычные преобразования реальные преимущества в ML метриках, или же ведут к оверфиту.

👍2🔥1

231 viewsAnatoly Alekseev, 04:04

Aspiring Data Science

#nvidia

"Новую неделю акции NVIDIA продолжили дальнейшим ростом от отметки в $2 трлн капитализации, которая была достигнута в конце прошлой недели. Укрепившись в цене на 3,61 % до $852,52 за штуку, акции компании сделали её третьей в мире по величине капитализации, позволив обойти в мировом рейтинге Saudi Aramco, чья капитализация опустилась до $2,01 трлн."

https://3dnews.ru/1101210/pri-kapitalizatsii-213-trln-kompaniya-nvidia-stala-tretey-v-mire-po-velichine

3DNews - Daily Digital Digest

При капитализации $2,13 трлн компания NVIDIA стала третьей в мире по величине

Новую неделю акции NVIDIA продолжили дальнейшим ростом от отметки в $2 трлн капитализации, которая была достигнута в конце прошлой недели.

134 viewsAnatoly Alekseev, 03:53

Aspiring Data Science

#chess #news

https://www.youtube.com/watch?v=P3phZqVOFkE

Турнир претендентов 2024 (доедут не все)

Шахматная весна началась очень бодро: за последние несколько дней произошли серьезные изменения в лайв-рейтинге, продолжил свой "читерский рейд" Владимир Крамник, а Канада до сих пор не дала разрешение на въезд отдельным участникам турнира претендентов.
…

121 viewsAnatoly Alekseev, 06:14

Aspiring Data Science

#trading

https://www.youtube.com/watch?v=KluqUZhYvoc

Recap | Quant Trading in Futures

Remember that quant trading is all about predicting the future, and not about modeling the past. A disciplined approach that recognizes and avoids biases is absolutely critical in order to avoid overfitting and find success as a quant trader.

Playlist …

192 viewsAnatoly Alekseev, 06:47

Aspiring Data Science

#trading #clenow

https://www.youtube.com/watch?v=fFQ7HtUmauI

STS 009 – Andreas Clenow: quant approach to trend following and equity momentum strategies

👉 For more please visit: https://systemtrader.show/009

👉 Use my app to build your own ETF or stocks portfolio: https://systemtrader.show/ST

===============
📖 DESCRIPTION
===============
Andreas Clenow is a Chief Investment Officer located in Zurich, Switzerland…

147 viewsAnatoly Alekseev, 22:42

Aspiring Data Science

#geology #earth

https://www.youtube.com/watch?v=ZDZGmNtGgzg

ЗЕМЛЯ. В действительности все не так, как на самом деле. Уровень нашего незнания. Короновский Н.В.

ЗЕМЛЯ. В действительности все обстоит не так, как на самом деле. Уровень нашего незнания о Земле.
Короновский Николай Владимирович, МГУ, Заведующий кафедрой "Динамической геологии", профессор, д.г-м.н.

XXIII Международная научная Конференция (Школа) по морской…

🔥1

158 viewsAnatoly Alekseev, 01:34

Aspiring Data Science

#astronomy #tira #cv

"Авторы проекта попытались заменить стандартные алгоритмы анализа данных TIRA нейросетями семейства YOLO, которые применяются для поиска движущихся объектов на снимках. Версии нейросетей YOLOv5 и YOLOv8 обучили при помощи массива из 3000 снимков околоземного пространства и проверили их эффективность на примере 600 изображений с радаров, на которых были от одного до трёх частиц космического мусора.

Обе нейросети корректно обнаружили от 85 % до 97 % частиц размером от сантиметра при минимальном числе ложных срабатываний. Результат оказался выше того, что демонстрирует стандартный алгоритм TIRA. Учёные сделали вывод, что системы машинного зрения могут успешно применяться для поиска космического мусора в околоземном пространстве и для его отслеживания в реальном времени. Это поможет снизить число инцидентов, связанных с попаданием частиц космического мусора в работающие орбитальные аппараты.

По оценкам экспертов, на орбите Земли могут находиться более 170 млн частиц космического мусора."

https://3dnews.ru/1101312/neyroseti-pomogut-v-poiske-malih-chastits-kosmicheskogo-musora

3DNews - Daily Digital Digest

Нейросети помогут в поиске мелкого космического мусора

Европейские учёные предложили адаптировать популярные ИИ-алгоритмы систем машинного зрения для анализа сделанных при помощи радаров снимков околоземного пространства и обнаружения на них миниатюрных частиц космического мусора.

145 viewsAnatoly Alekseev, edited 18:56

Aspiring Data Science

Forwarded from По сути

Foreign Affairs: Россия сжигает свое будущее

Построение экономики вокруг целей, отличных от улучшения качества человеческой жизни, делает экономику непродуктивной. По данным государственной статистики, в 2022 году производительность труда в РФ снизилась на 3,6 процента по сравнению с предыдущим годом. (Данные за 2023 год пока недоступны.) Интенсивное производство «металлических товаров» (правительственный эвфемизм для оружия), финансируемое в основном за счет налогоплательщиков и доходов от сырьевых товаров, делает экономику более примитивной. К настоящему времени значительная доля роста ВВП России — по некоторым оценкам, одна треть — приходится на долю военно-промышленного комплекса и связанных с ним отраслей. Президент РФ надеется, что военная промышленность будет стимулировать развитие гражданских технологий. Но эта так называемая схема конверсии уже потерпела неудачу в советские годы и в раннюю постсоветскую эпоху реформ.

Путин начал войну, чтобы изменить мировой порядок и заставить всех остальных жить по его правилам. Для этого ему нужно было позиционировать свою страну и ее зону геополитического влияния против Запада и западного проекта модернизации общества. Этими целями объясняется готовность Путина приступить к территориальной экспансии: многие другие страны идут вперед, переходя в частности на новые виды энергии именно для того, чтобы остались ресурсы на будущее. Но Россия защищает умирающую модель развития, которая требует тоталитарной и имперской идеологии, а это в свою очередь требует использования ресурсов здесь и сейчас, включая все ту же старую нефть и газ.

Для Кремля это ставка, которую стоит сделать: его дорогостоящий проект в Украине заложил минное поле под экономическое и демографическое будущее страны, но вполне возможно, что эти мины взорвутся только после того, как действующий президент РФ покинет сцену. Назовем это моделью правления короля Людовика XV: Après moi, le déluge . («После меня потоп».) Путинская война – это борьба против будущего.

По сути. Подпишись на самые важные новости.

❤1

105 viewsAnatoly Alekseev, 16:08

Aspiring Data Science

Forwarded from partially unsupervised

В разговорах с корешами сформулировал для себя нехитрую трехфакторную модель мотивации: процесс - цель - условия. Подчеркну "для себя" - вряд ли это универсальный фреймворк, но вдруг кому-то тоже зайдет. Попробую описать на примерах работы, но кажется, что обобщается и на прочие дела.

Процесс - собственно суть занятия (пилить пайплайны, читать свежие пейперы, ревьювить код джунов). Это кусок краткосрочной мотивации: писать хендлеры или делать фит-предикт обычно неинтересно, профайлить и оптимизировать обычно интересно. В моменте это драйвит, но если это единственная мотивация, в моменте рефлексии может накрыть мыслями "а нахера все это". И тут вылазит цель.

Цель - среднесрочная или долгосрочная, которая заставляет делать даже скучные вещи из пункта выше. Например, make the world a better place, или получить промо и стать архисеньором, или успешно сделать стартап и продать его за много миллионов, или обрести славу самой умной лягушки в пруду, чтобы все вокруг завороженно слушали твое "ква!"🐸. Цель совершенно необязательно высокая, срубить шальных денег и кутить с эскортницами - тоже вполне себе цель. Ради цели можно и унылыми делами заняться.

Условия - это скорее коэффициент для суммы двух предыдущих мотиваций. Офис с печеньками, приятные коллеги, годная инфраструктура - все идет сюда. Деньги в формате зарплаты (а точнее некоторого ее отклонения от среднерыночной) сюда же: ради Большой Цели можно и потерпеть -20% (на это стартаперы и покупают юных мечтателей).

Можно подобрать пример из другой сферы: я в целом люблю бегать (процесс) и хочу пробежать полумарафон (цель). Это позволяет выйти из дома даже в плохую погоду (условия) и преодолеть лень. Когда погода хорошая, а около дома большой парк, то и никаких усилий не понадобится 🏃‍♂️.

Напоследок про actionability: в случае фрустрации можно декомпозировать, в каком факторе просадка - так становится понятнее, что можно сделать. Где-то по мелочи улучшить условия (пофиксить flaky тесты из-за которых постоянно валится CI или купить нормальные беговые кроссовки), где-то добиться более интересных штук в моменте (шаг 0: поговорить с менеджером и хотя бы в явном виде донести свои предпочтения). С целью, конечно, сложнее всего - там малыми шагами ситуацию обычно не изменить.

129 viewsAnatoly Alekseev, 16:08

Aspiring Data Science

#fun

С работы в пятницу или на работу в понедельник?

https://www.youtube.com/shorts/kT496mk05YQ

Smooth criminal vs cops 🤣🎥

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

130 viewsAnatoly Alekseev, 21:54

Aspiring Data Science

#earlystopping #pipelines #boostings

При тестировании отборщиков признаков в конвейере (а это, по идее, лучшая практика) вдруг осознал, что из 3-х основных бустингов только катбуст может обучать финальную модель с ранней остановкой, и то, если нет категориальных признаков в датасете. Все остальные требуют явного указания валидационного множества в fit_params, т.е. создаёшь такой его до запуска конвейера из начальных признаков (а как ещё-то?), первым этапом конвейера запускается отборщик признаков, убирает у тебя, скажем, половину фич, передаёт самые важные на обучение финальной модели, а она валится с ошибкой, что в валидационном множестве найдены несовпадающие признаки. Вопрос: каким местом думают разработчики популярных бустингов, почему не сделали передачу индексов или вообще сплиттеров вместо полноценных данных?

Пока выход виден только один, отказаться от лучшей практики и фиттить отборщик признаков отдельно. Или есть ещё варианты?

Почему это вообще считалось лучшей практикой? Наверное, потому, что весь конвейер было легко сохранить в один файл и обучать на любых новых данных почти одной строкой. Почти потому, что надо ж ещё просплитить данные было на train и eval.

Пока что, если хочется следовать остальным лучшим практикам (Early Stopping etc), выходит что конвейер надо сохранять 2 частями: препроцессинг (с потенциальным созданием новых фичей)+FS, и финальная моделька (потенциально + обёртка в виде HPT).

Что-то не могу придумать красивого варианта (

139 viewsAnatoly Alekseev, edited 07:55

Aspiring Data Science

#featureselection #diogenes #rfecv

Вот так работает обратное удаление признаков в Диогене, кстати, в реальном проекте уже.

128 viewsAnatoly Alekseev, 11:13

Aspiring Data Science

#nvidia

Охренеть.

"Компания NVIDIA близка к тому, чтобы опередить по рыночной стоимости Apple и занять второе место в рейтинге самых крупных по рыночной капитализации компаний в мире, уступая лишь Microsoft. В настоящее время стоимость активов NVIDIA находится в районе $2,38 трлн, отставая от Apple примерно на $230 млрд и от занимающей первую позицию Microsoft примерно на $645 млрд.

Благодаря буму на рынке ИИ рыночная стоимость NVIDIA всего за 9 месяцев выросла с $1 трлн до более чем $2 трлн, обогнав на пути к вершинам рейтинга Amazon, Alphabet и Saudi Aramco. Неустанный рост акций NVIDIA, занимающей 80 % рынка высокопроизводительных ИИ-чипов, обеспечил ей более 5 % удельного веса в фондовом индексе S&P 500. В последние недели NVIDIA также заместила Tesla в качестве обладателя наиболее торгуемых акций Уолл-стрит."

https://3dnews.ru/1101458/nvidia-gotova-operedit-po-rinochnoy-stoimosti-apple-stolknuvsheysya-s-zamedleniem-prodag-iphone

3DNews - Daily Digital Digest

NVIDIA готовится обойти по рыночной стоимости Apple, столкнувшуюся с замедлением продаж iPhone

Компания NVIDIA близка к тому, чтобы опередить по рыночной стоимости Apple и занять второе место в рейтинге самых крупных по рыночной капитализации компаний в мире, уступая лишь Microsoft.

144 viewsAnatoly Alekseev, 17:03

Aspiring Data Science

#ml #terminology

Ещё одно неудачное название в науке о данных: independent variables. Кто-то видел в реальном примере из жизни, чтобы факторы, описывающие какое-то явление, реально были все независимы друг от друга? Если бы такое было возможно, не существовало бы понятий типа IterativeImputer.

Простой пример: в базе клиентов есть поля Город проживания, ВУЗ, семейный доход. Если определён город, то разброс ВУЗов резко сужается. Если известен семейный доход, то разброс сокращается ещё больше.

Куда более точное название, я считаю, influencing variables - влияющие переменные, или explanatory variables - объясняющие переменные. А ещё более точное - potentially influencing variables, так как поначалу мы накидываем как гипотезу всё что можно, и до шага FS (а зачастую и последнего, модельного) хз кто там на самом деле влияет )

131 viewsAnatoly Alekseev, edited 22:15

Aspiring Data Science

#chess

Шура неповторим )

https://www.youtube.com/watch?v=I2RDQ5FMRMY&

Тяпнул Нагло! Александр Гельман - Сергей Жигалко

Тяпнул Нагло! Александр Гельман - Сергей Жигалко 24.08.2019

Канал нуждается в вашей поддержки:
1. https://new.donatepay.ru/@groza_stirmerov
2. https://www.donationalerts.com/r/groza_strimerov

**********************************************************…

❤1

136 viewsAnatoly Alekseev, 22:42