NEW BOT Телеграм, страница

Aspiring Data Science

#diogenes #featureselection #rfecv #mrmr

Ну и немного новостей по проекту Диоген. Собрал и потестировал на синтетике 2 полноценных отборщика признаков, filter & wrapper. мой улучшенный RFECV отлично отработал на датасете с 250+ факторами, 11k записями: из 11 значимых факторов нашёл 9, причём и нелинейные, и 2-way XOR, и 3-way XOR. Не смог найти 2 фактора с частичной зависимостью (на 10% и 30% области определения). Ну я не сильно расстроился, найди он и это на 11k записей, это было бы чудом. При росте числа записей находит и их. Что выяснилось: промежуточные модельки надо фиттить прям до упора (насколько ES позволяет).

И, кажется, оправдалась моя идея, что важности признаков надо складировать со всех запусков, а не только с самого первого. Оптимизатор мой MBHO отлично отработал - сократил время поиска вдвое. В общем, не зря пилил этот проект полгода.

В то же время, MRMR находит только 6 важных признаков из 11. Но время работы, Карл! 2 часа RFECV против 2 минут MRMR.

Мне уже стало казаться, что в бою на больших данных RFECV ну просто будет неприменим по времени. Начал тестировать на реальном датасете с 500+ столбцов общим размером 50Гб. Подождал часов 6 на сервере с 16 ядрами, за это время не обучилась полностью даже 1я FS моделька, махнул рукой. Придётся переносить тесты RFECV на GPU сервер с приличным объёмом VRAM.

Перешёл к тестированию MRMR. Тут тоже в реальности не всё гладко оказалось, биннинг датасета, который на небольшой синтетике шёл 2 секунды на 1 ядре, в реальном проекте растянулся на полчаса. Пришлось переписывать под многопоток, заодно улучшил работу с пропусками и отловил пару багов. Биннинг стал отрабатывать за 2 минуты. И снова сюрприз, который отнял полдня. Оказалось, что np.random.shuffle в многопотоке ужасно тормозит, пришлось оборачивать его в njit.

В итоге тестирую MRMR с полной загрузкой CPU на финансовом проекте, очень интересно смотреть в реальном времени, что он находит.

🔥3

142 viewsAnatoly Alekseev, edited 11:17

Aspiring Data Science

#electrocars #apple

"Создание электромобиля было одним из самых дорогих научно-исследовательских проектов компании на протяжении большей части последнего десятка лет. Apple тратила сотни миллионов долларов в год на зарплаты, облачные системы для управления системой автопилота, испытания на закрытых дорогах и разработку деталей и чипов для автомобиля. Apple потратила годы на разработку силовых агрегатов, аппаратного и программного обеспечения для самостоятельного вождения, интерьера и экстерьера автомобиля и других ключевых компонентов. И все же автомобиль так и не смог успешно дойти до стадии прототипа. Руководители компании надеются, что это наконец-то произойдет благодаря новому подходу, говорят люди, знакомые с ситуацией.

Неопределенность мучила проект на протяжении многих лет. Бывший руководитель Project Titan Даг Филд (Doug Field) покинул компанию в 2021 году отчасти потому, что он не верил, что высшее руководство когда-либо официально одобрит выпуск автомобиля. Даже с учетом нового плана, некоторые руководители Apple скептически относятся к тому, что автомобиль сможет когда-либо обеспечить такую прибыль, какую компания получает от iPhone. Тем не менее, автомобиль ценой около $100 000, а меньшего от Apple ждать не стоит, будет способствовать росту доходов и поможет Apple занять место в растущем секторе электрокаров.

Новый план создания автомобиля рассматривается внутри компании как продукт, похожий на Tesla. Он не откроет ничего нового, но компания надеется, что автомобиль будет выделяться элегантным дизайном, системами безопасности и уникальным пользовательским интерфейсом."

https://3dnews.ru/1099193/elektromobil-apple-zaderzhitsya-do-2028-goda-i-vyjdet-bez-polnocennogo-avtopilota

3DNews - Daily Digital Digest

Электромобиль Apple задержится до 2028 года и выйдет без полноценного автопилота

Компания Apple умерила свои амбиции касательно выпуска автомобиля, условного Apple Car.

131 viewsAnatoly Alekseev, 11:17

Aspiring Data Science

#featureengineering

Поговорим о конструировании признаков. В теории мы знаем, что, если есть много времени и вычислительных ресурсов, неплохо бы попробовать забросить в модель не просто сырые фичи, а

1) их логарифмы, корни, степени (встречал рекомендацию брать преобразование, дающее максимально гауссово распределение на выходе), возможно, тригонометрику (для периодических признаков)
2) их попарные произведения (PolynomialFeatures) или частные

В реальных проектах у меня до этого ни разу не дошли руки, отчасти ещё и потому, что я сомневался: а как такие сконструированные признаки подавать, отдельно или вместе, это ж как раздует объёмы данных и время расчётов, а как потом понять, какие нерелевантны...

Но после экспериментов с отборщиком признаков MRMR кажется весьма очевидным общий подход, позволяющий найти оптимальные преобразования и основанный на теории информации:

просто для каждого сырого признака на train, прошедшего отбор MRMR,

1) индивидуально ищем преобразование (из списка стандартных), максимизирующее его взаимную информацию с таргетом (только на train!). как именно лучше делать дискретизацию, я пока не знаю. заменяем сырой признак его лучшим преобразованием (или не заменяем, если сырая форма уже самая лучшая).

2) попарно, для всех сочетаний признаков из шага 1), проверяем, какое преобразование f(A,B) из списка стандартных максимизирует MI этой пары с таргетом (только на train!). если такая максимальная MI выше условной MI(A,Y;B), пара добавляется в пул улучшений с указанием ожидаемого "улучшения" информации. После проверки всех сочетаний, пары из пула сортируются по ожидаемому улучшению и начинают формироваться. Если переменная оказывается уже задействована в другой паре, можно допускать не более N повторных использований. Оригинальные задействованные переменные из датасета удаляются.

Как думаете, стоящая идея?

UPD. могу подтвердить, что в части 2 идея работает!!! это просто фантастика. Правда, в части 1 пока облом.

219 viewsAnatoly Alekseev, edited 00:20

Aspiring Data Science

Forwarded from Генерал СВР

Дорогие подписчики и гости канала! Сегодня продолжились попытки блокировки мессенджеров WhatsApp и Telegram в России. "Тренировочные" отключения коснулись нескольких регионов. Основной упор делается на возможности блокировки WhatsApp, так как этот мессенджер российское руководство считает наиболее опасным. Ближайшие четыре недели стоит ожидать более масштабных попыток отключения популярных мессенджеров и видеохостинга YouTube. Использование VPN, на данном этапе, позволяет обходить проблемы связанные с блокировкой.

🤡1

135 viewsAnatoly Alekseev, 05:44

Aspiring Data Science

#facebook

"Стремительный рост стоимости акций компании начался в 2023 году и по итогам года достиг почти 200 %. Как сообщает CNBC, одним из основных драйверов этого роста оказалось решение генерального директора Meta Марка Цукерберга (Mark Zuckerberg) о введении мер по сокращению расходов, которые привели к увольнению из компании более 20 000 сотрудников.

Акционеры оптимистичны в отношении Meta, поскольку компания стремится укрепить свои позиции в качестве сильного игрока в области искусственного интеллекта. На прошлой неделе Цукерберг заявил, что к концу 2024 года Meta приобретёт 350 000 специализированных ИИ-ускорителей H100 от NVIDIA, а в сумме вычислительная производительность её систем будет «эквивалентна примерно 600 тыс. ускорителей H100». Всё это указывает на то, что Meta инвестирует миллиарды долларов в развитие своей инфраструктуры ИИ."

https://3dnews.ru/1099260/rinochnaya-stoimost-meta-previsila-1-trln

3DNews - Daily Digital Digest

ИИ воодушевил инвесторов: капитализация Meta✴ превысила $1 трлн

Капитализация Meta превысила $1 трлн в ходе рыночных торгов в среду на фоне рекордного роста курса акций.

157 viewsAnatoly Alekseev, edited 05:58

Aspiring Data Science

#featureengineering #autofeat

Вспомнил, что конструктор фичей уже реализован в библиотеке autofeat.

Давайте разбираться.

"Linear models+ non-linear features=LOVE"
"There is always enough RAM somewhere" ))

"Most existing feature construction frameworks follow the second, iterative feature engineering approach: The FICUS algorithm uses a beam search to expand the feature space based on a simple heuristic, while the FEADIS algorithm and Cognito use more complex selection strategies. A more recent trend is to use meta-learning, i.e., algorithms trained on other datasets, to decide whether to apply specific transformation to the features or not. While theoretically promising, we could not find an easy to use open source library for any of these approaches."

https://arxiv.org/pdf/1901.07329.pdf

https://www.youtube.com/watch?v=4-4pKPv9lJ4

165 viewsAnatoly Alekseev, edited 07:19

Aspiring Data Science

#autofeat #featureselection #featureselection

Как работает autofeat:

1) берётся подвыборка train set, из сырых фичей генерируется много кандидатов (с помощью простых математических операций)

2) в пул "хороших" добавляются кандидаты с высокой корреляцией с необъяснённым таргетом

3) на всех "хороших" кандидатах обучается линейная модель с регуляризацией LassoLarsCV. Отбрасываются кандидаты с низкими весами в последней модели. Пересчитывается таргет, не объясняемый моделью.

4) повтор цикла до стабилизации множества хороших кандидатов

5) отсев шума. обучение на итоговом пуле+случайных признаках, отбрасываем всех кандидатов с весами, меньшими весов шумовых фичей

162 viewsAnatoly Alekseev, edited 07:50

Aspiring Data Science

#music #kish

Немного жизы

https://www.youtube.com/watch?v=COchjgPFO7U

YouTube

КИШ - Жизнь

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

165 viewsAnatoly Alekseev, 09:47

Aspiring Data Science

#biology #lifeorigin

https://www.youtube.com/watch?v=meZIL_AzXx8

YouTube

Михаил Никитин. Альтернативные формы жизни. 09

Беседа главного редактора Троицкого варианта Бориса Штерна с биологом Михаилом Никитиным о возможных альтернативных вариантах происхождения, эволюции и распространении жизни.

Запись и монтаж Алексея Кудря

Уважаемые зрители, подписчики нашего канала, читатели…

167 viewsAnatoly Alekseev, 13:09

Aspiring Data Science

#google #lumiere #video

Новая моделька генерации видео по тексту от гугла. Понравилась бегунья из цветов )

https://lumiere-video.github.io/#section_text_to_video

Lumiere - Google Research

Space-Time Text-to-Video diffusion model by Google Research.

157 viewsAnatoly Alekseev, edited 22:24

Aspiring Data Science

#biology #folding #healthcare #medicine #cancer

https://www.youtube.com/watch?v=Bl-_hkgCRIk

YouTube

Елена Еричева, BrainGarden: «ML vs онкология: задачи дизайна и оптимизации терапевтических белков»

146 viewsAnatoly Alekseev, edited 10:14

Aspiring Data Science

#politics

Похоже, Надеждин больше мужик, чем все кремлёвские старцы вместе взятые.

https://www.youtube.com/watch?v=amEcNmYzjL4

YouTube

"Буду биться до конца" БОРИС НАДЕЖДИН о выборах, будущем Путина, Крыме и конце войны

Вы можете поддержать мой канал через патреон: https://www.patreon.com/ninorosebashvili

Борис Надеждин - настоящий политический феномен последнего времени. Многие познакомились с ним совсем недавно - когда он объявил о своем намерении баллотироваться на пост…

⚡4🤡1

154 viewsAnatoly Alekseev, 14:21

Aspiring Data Science

#trading #hft

Интересна классификация данных для трейдинга

https://www.youtube.com/watch?v=qs7GVN1FRck

YouTube

Воркшоп по высокочастотной торговле. Шелягин С.В. HFT данные - источники сигналов и проблем

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

152 viewsAnatoly Alekseev, edited 16:26

Aspiring Data Science

#trading

Чего только люди не придумают. Как специальная теория относительности может помочь в трейдинге?!

https://www.youtube.com/watch?v=k77kkes1qEA

YouTube

Predicting Price using Lorentzian Classification with Justin Dehorty - Trading Bot Sessions (EP 010)

This is episode 10 of Trading Bot Sessions where we talk with traders who have built automated trading strategies and trade everything from stocks and options to futures and crypto. In this session, I speak with Justin Dehorty, a software engineer with a…

147 viewsAnatoly Alekseev, edited 07:42

Aspiring Data Science

#distances #trading #knn

"Recently, it was hypothesized that Lorentzian space was also well-suited for analyzing time-series data. This hypothesis has been supported by several empirical studies that demonstrate that Lorentzian distance is more robust to outliers and noise than the more commonly used Euclidean distance. Furthermore, Lorentzian distance was also shown to outperform dozens of other highly regarded distance metrics, including Manhattan distance, Bhattacharyya similarity, and Cosine similarity. Outside of Dynamic Time Warping based approaches, which are unfortunately too computationally intensive for PineScript at this time, the Lorentzian Distance metric consistently scores the highest mean accuracy over a wide variety of time series data sets.

Euclidean distance is commonly used as the default distance metric for NN-based search algorithms, but it may not always be the best choice when dealing with financial market data. This is because financial market data can be significantly impacted by proximity to major world events such as FOMC Meetings and Black Swan events. This event-based distortion of market data can be framed as similar to the gravitational warping caused by a massive object on the space-time continuum. For financial markets, the analogous continuum that experiences warping can be referred to as "price-time"."

https://www.tradingview.com/noscript/WhBzgfDu-Machine-Learning-Lorentzian-Classification/

TradingView

Machine Learning: Lorentzian Classification — Indicator by jdehorty

█ OVERVIEW

A Lorentzian Distance Classifier (LDC) is a Machine Learning classification algorithm capable of categorizing historical data from a multi-dimensional feature space. This indicator demonstrates how Lorentzian Classification can also be used to…

👍2🤣1

158 viewsAnatoly Alekseev, edited 08:01

Aspiring Data Science

#biology #nikitin #lifeorigin

Ммм, первичная пиццаааа )

Много нового узнал. Жизнь появилась на Земле ещё без кислорода, кислород стали производить цианобактерии 2.5 млрд лет назад, он для нас в чистом виде токсичен, хотя без него мы уже не можем жить. Кстати, нашёл ещё теорию, что в прошлом насекомые и земноводные были такими огромными как раз из-за повышенного содержания кислорода в воздухе (35% vs 20%). Забавный факт, в жидком виде кислород притягивается магнитом )

Ну и на посошок. С правохиральным пришельцем, скорее всего, можно совместно распить этиловый спирт ))

https://www.youtube.com/watch?v=2nWdZdYtz84

YouTube

Мы могли жить на Марсе? Зарождение жизни на Земле и эволюция. Михаил Никитин и Сила Идеи

Как зародилась жизнь на земле? Что предшествовало большому взрыву и что было дальше? Откуда взялись мы с Вами? Сегодня обсуждаем животрепещущие темы, отвечаем на самые популярные вопросы о происхождении жизни на земле и развеиваем мифы

Сегодня у меня в гостях…

164 viewsAnatoly Alekseev, edited 00:44

Aspiring Data Science

#astronomy #mars

https://youtu.be/n8TgR1MUwXg?si=ifeXc7613KEA7mxW

YouTube

СУРДИН: мы найдём ЖИЗНЬ на МАРСЕ? Новые данные. Неземной подкаст

Астроном Владимир Сурдин новая лекция: как ИИ поможет найти жизнь на Марсе.

90 дней бесплатной подписки «Чуть-чуть» для новых пользователей по промокоду SURDIN90: https://l.mts.ru/surdin-stroki

НОВОСТИ АСТРОНОМИИ: подписывайтесь на Неземной Телеграм: h…

141 viewsAnatoly Alekseev, edited 13:39

Aspiring Data Science

#tensorflow #keras #bigquery

Как сделать простые модельки прямо в bigquery. Ну и до кучи это зачем-то смешали с основами keras, наверное, чтобы показать основы ML экосистемы гугл.

https://www.youtube.com/watch?v=H_jf-_BV79Q

YouTube

Feature engineering in BigQuery and TensorFlow 2.0/Keras - Kirkland ML Summit ‘19

Lak Lakshmanan, Big Data and ML Professional Services Tech Lead at Google Cloud, talks about using feature engineering in BigQuery and TensorFlow 2.0/Keras.

The Kirkland ML Summit brings together developers from across the globe to discuss recent developments…

149 viewsAnatoly Alekseev, edited 15:53

Aspiring Data Science

#politics

Что нынешние подлецы придумают против него? У нас ведь за гораздо меньшее преследовали, сажали, травили - и продолжают.

https://www.youtube.com/watch?v=QeZs4QQVnoQ

YouTube

Надеждин: "Если не зарегистрирует ЦИК, объявлю легальные митинги по всей стране!"

Борис Надеждин проводит в Москве встречу с потенциальными избирателями

«Угрозы я получаю уже 20 лет — с тех пор, как перешел в оппозицию Путину», — рассказал кандидат в президенты Борис Надеждин нашему корреспонденту. При этом он отметил, что в его сетях…

👍1🤡1

135 viewsAnatoly Alekseev, 10:52

Aspiring Data Science

Forwarded from kyrillic

Про выбор места жительства, самые популярные кейсы. В прошлый раз был пост с примерами мест пмж по разным критериям. Где главный конечно - уровень удаленного дохода. В том же посте описал, почему у меня немалая насмотренность нынешних релокантов/номадов.

И кстати недавно мы выяснили (опрос), что вы очень даже умеете удаленно зарабатывать 🙂 Респект!

Давайте рассмотрим самые популярные кейсы!

Дисклеймер все тот же - это всего лишь субъективное мнение из интернета.

1️⃣ Одинокий айтишник (М 30+) В постах про счастье писал, что глубокие эмоциональные связи - ключевой фактор счастья и удовлетворенности от жизни. Если переиначить, то одиночество вряд ли можно считать нормой с научной точки зрения. Формально даже жить с мамой - более норма, чем одному.

При этом ru-айтишнику в эмиграции статистически намного сложнее найти пару в силу довольно объективных причин (пост) Субъективно кажется, что это справедливо только для натуралов.

Поэтому разумный выбор, до смены статуса (одинокого или натурала 🙂) - это либо родина, либо места с высокой долей одиноких ru-релокантов-девушек. И пониженной конкуренцией 🙂 А это по сути только 🇬🇪 Тбилиси. Либо 🇮🇱 Тель-Авив, если позволяет происхождение.

2️⃣ Одинокая айтишница 25+ Тут конечно путь в крупные города, в зависимости от предпочтений. Считаю лучшими 🇬🇧 Лондон и 🇫🇷 Париж, просто потому что там “ru” всегда было и будет плюсом из-за культурного влияния. Почти конкурентное преимущество! Но в целом подойдут любые столицы первого мира.

3️⃣ Релокантам пост-студенческого возраста один путь - в магистратуру (пост). Все, кто пошел другим путем, будет скорее всего отставать в эмиграции от тех, кто выбрал магистратуру. И тут место учебы имеет значение только в контексте локации. Поэтому лучше ехать в 🇺🇸 США, 🇬🇧 UK и т.д. Вот релевантный пост про талантов 22-25 лет.

4️⃣ Пара без детей, 28+ Наверное самая многочисленная категория - уже есть уверенность, моральная и материальная, есть гибкость в жизненных решениях. И тут выбор огромен, все зависит от вкусов и возможностей. Проще сказать, куда точно не надо: постсоветские страны и возможно Восточная Европа, потому что это с очень большой натяжкой можно назвать эмиграцией.

5️⃣ Пара с детьми/ребенком дошкольного возраста. Климат решает! Даже в опросе про стоимость жизни (пост), большинство с детьми выбирают теплые прибрежные локации. Оно и понятно!

Если разделять города по уровню доходов пары, то с $2-3k лучшие места - 🇪🇸 Аликанте и окрестности, небольшие города 🇮🇹 Лигурии, даже 🇹🇷 Турция ок. С $3-5k - 🇪🇸 Барселона, 🇫🇷 Юг Франции.

6️⃣ Семья с детьми школьного возраста. Считаю что только представителям этой категории разумно рассуждать о привычных эмигрантских критериях, столь популярных в чатах, - медицина, налоги, образование, социализация, время до паспорта и др. Потому что такие семьи - самый репрезентативный элемент любого развитого общества. А значит влияние перечисленных факторов наиболее высоко на отдельно взятую семью.

Потому что в кейсах "я одинокий ML инженер в Лондоне с з/п $200k" зачастую локация в Тиндере - "Невский Проспект + 10км". И у человека есть что-то поважнее, чем сравнение NHS с медициной других стран.

7️⃣ Фаундеры стартапов, которые уже что-то умеют. Любое место помимо 🇺🇸 Долины - это компромисс. Можно много говорить о крутой экосистеме стартапов например в Барселоне, но это просто село, по сравнению с Долиной. Хотя Долина - это село по множеству других критериев 🙂

8️⃣ Топ 3% айти-таланты. Если кто-то из вас себя таковым считает, то путь тоже один. Точнее два - побережья 🇺🇸 США (пост).

9️⃣ Мое общее наблюдение на тему критериев выбора простое: cчитаю самыми важными те, которые влияют на жизненные шансы, а если говорить прямо - на победу в конкуренции с другими людьми.

При этом такие факторы не особо обсуждают, потому что они менее наглядные и менее подсчитываемые, чем налоги, климат, рейтинг университетов/краж/самоубийств и др. Хотя эти неощутимые критерии - достаточно объективны и обусловлены человеческой природой, устройством обществ и тервером 🙂

@kyrillic

136 viewsAnatoly Alekseev, 12:28

Aspiring Data Science

#trading

https://www.youtube.com/watch?v=iAt4YtiY-WA

YouTube

FuturesTrader71 Statistical Analysis for a Broader Edge

BMT is now futures.io. Follow our new channel https://www.youtube.com/c/futuresio?sub_confirmation=1

148 viewsAnatoly Alekseev, 05:13

About

Blog

Apps

Platform