NEW BOT Телеграм, страница

– Николай Полярный, https://polarnick.com
– Сайт: https://csspace.io
– Telegram: https://news.1rj.ru/str/csspace

00:00 План лекции
00:57 Глава 1. Вычисления
05:15 shared instruction pointer
07:00 code divergence
09:25 Глава 2. Работа с памятью
13:41 hyper-threading…

153 viewsAnatoly Alekseev, 14:25

Aspiring Data Science

#chess #cheating

"Х**вый ты актёр, Миша! (C)"

https://youtu.be/CUw2_EVlMI4?si=CSixoB9Y0Qa7Cz-V

YouTube

Did DrLupo CHEAT in $100k PogChamps Event?

Eric explores the cheating scandal from the Pogchamps 6 tournament...

Intro 0:00
First Game 1:18
Lupo Call with Wolfey 40:50
Second Game 54:00
Third Game vs 600 1:18:09

video from: https://www.youtube.com/live/YlIKIilGc1o?si=aLaZLuJIGX6Qy40R

▶ WATCH US…

147 viewsAnatoly Alekseev, edited 05:05

Aspiring Data Science

#chess #fun

https://youtu.be/cvasADsUiic?si=FoUoywIFyH8yVoD_

YouTube

Can a Grandmaster play 26 PERFECT moves like DrLupo?

▶ WATCH US LIVE https://kick.com/chessbrah/
▶ SUBSCRIBE http://youtube.com/chessbrah
▶ Play Chess https://go.chess.com/chessbrah
▶ https://instagram.com/chessbrahTV
▶ https://www.twitch.tv/chessbrah

FOLLOW THE BRAHS:
https://instagram.com/amanhambleton…

133 viewsAnatoly Alekseev, edited 05:23

Aspiring Data Science

#biology #lifeorigin

Это нужно изучать психологам, похоже. Почему люди продолжают пользоваться всеми благами цивилизации и научного подхода, но в какой-то момент начинают научный подход отрицать, отрицать саму реальность, лгать, манипулировать. Зачем вы это делаете? Какой % из вас понимает, что вы лжёте? Я подозреваю, что высокий.

https://www.youtube.com/live/j9mBdgbvtmY

YouTube

Савватеев VS Панчин | Ёжик в матане

Ретрансляция диалога между двумя просветителями от Науки из канала "Когнитивный надзор"

🤡1

111 viewsAnatoly Alekseev, edited 00:24

Aspiring Data Science

#trading #chan

https://youtu.be/5kmWFHWVpxA

YouTube

Chat with Ernest Chan - Machine Learning for trading, AI Agents, Conditional Portfolio optimization.

Join us as we sit down with Dr. Ernest Chan—physicist-turned-quantitative trader, author, and founder of PredictNow.ai—to explore the cutting edge of machine learning and AI in finance. In this episode, Dr. Chan shares invaluable insights on building robust…

👍1

143 viewsAnatoly Alekseev, edited 06:51

Aspiring Data Science

#biology #lifeorigin

Отличные комментарии! ) Лучше и не скажешь.

https://www.youtube.com/live/PWByS1tdSAY

YouTube

Панчин и Савватеев у Когнитивного надзора

00:00:00 Начало. Общение
00:08:07 Душнобот - пост про Бондаренко
00:12:30 Общение. Савватеев. Савицкий
00:24:32 Болезнь Нобеля. Общение. Математика
00:37:50 Когнитивный Надзор - Панчин vs Савватеев
00:41:28 Панчин - вступление
00:48:05 Савватеев - вступление…

114 viewsAnatoly Alekseev, edited 00:02

Aspiring Data Science

#trading

Впервые вижу, как ДеПрадо цитирует Чана )) Обычно наоборот.

https://www.youtube.com/watch?v=fOCzNFwmM7Y

YouTube

Professor Marcos Lopez de Prado on Machine Learning in Asset Management - Kapitaleierdagen 2024

Lecture by Professor Marcos Lopez de Prado on Machine Learning in Asset Management

135 viewsAnatoly Alekseev, 15:11

Aspiring Data Science

#sports

https://www.youtube.com/watch?v=_yoWDT_PaQk

YouTube

«Краснодар» Галицкого | Инструкция от чемпиона: частный прибыльный футбольный клуб (English sub)

24 мая футбольный клуб «Краснодар» — единственный успешный частный клуб в стране — впервые стал чемпионом России. Его победа — повод обсудить, как государство под предлогом помощи делает унылым и убыточным как российский футбол, так и вообще профессиональный…

141 viewsAnatoly Alekseev, 16:54

Aspiring Data Science

#chess

Шахматы Фишера показывают реальную силу игры человека.
Вон как эвалбар скачет даже у Магнуса. Такое редко увидишь в классике, где топовые шахматисты все дебюты уже проанализирвали мощными компами и знают лучшие линии по 15-20 ходов вперёд, да и просто хорошо понимают позиции.

Ну и да, красивый мат мог бы получиться.

https://www.youtube.com/watch?v=2bHPMDmFWjQ

YouTube

Brilliant CHECKMATE! IM Marco Dobrikov vs GM Magnus Carlsen

Brilliant CHECKMATE! IM Marco Dobrikov vs GM Magnus Carlsen 21.03.2025

Magnus Carlsen - the strongest chess player on the planet Earth, a chess legend, as well as the undefeated world chess champion played in the Freestyle Friday tournament.

=========================…

122 viewsAnatoly Alekseev, edited 23:09

Aspiring Data Science

#trading #chan #featureengineering

Понравилась идея превращения cs фичей в ts путём формирования синтетического портфеля из активов, отранжированных по cs признаку. Трейдерские метрики такого портфеля уже можно (путём взятия rolling stats) превратить во временнЫе (ts) признаки.

И, что Эрни считает важным, эта техника позволяет признаки, обновляющиеся редко (раз в квартал, к примеру), переводить в обновляющиеся быстро (насколько часто вам будет угодно котировать такой синтетический портфель).

https://www.youtube.com/watch?v=6J9iaXNpCN8

YouTube

PredictNow.ai Feature Zoo Webinar

In this recorded webinar, Dr. Ernest Chan and Akshay Nautiyal discuss the latest pre-engineered features that have been added to the PredictNow.ai software.

If you enjoyed this video be sure to check out our no-code machine learning software, PredictNow.ai.…

172 viewsAnatoly Alekseev, edited 22:15

Aspiring Data Science

#finance #behavioural #deprado #trading

https://www.youtube.com/watch?v=ncqnDl1VM-c

YouTube

Uncovering Behavioural Biases with Machine Learning | London Business School

Marcos Lopez de Prado, Principal and Head of Machine Learning, AQR Capital Management. Marcos presents at the annual AQR Asset Management Institute event: Insight Summit 2018.

This annual event distils the best insights on critical issues impacting investment…

108 viewsAnatoly Alekseev, edited 19:20

Aspiring Data Science

#polars #pandas

Сравнительно недавно начал по-настоящему изучать поларс, потому что пандас уже задолбал своей неповоротливостью. Хочу поделиться некоторыми замечаниями о фреймворке.

Прежде всего, в глаза бросается жёсткая логика в наименовании методов. Наверное, если бы компьютеру поручили самому разработать фреймворк, к таким названиям как раз и пришли бы кремниевые мозги ИИ. Каждый раз, когда видишь полар-овские group_by, write_csv, кажется, как разрабы поларс со всего размаха тыкают носом страдающих слабой логикой, маразмом, и вообще очень ветреных разрабов пандас.

Какие фишки реально понравились:

Выбор столбцов.

Можно выбирать столбцы регуляркой, выбирать все столбцы одним ключевым словом, элегантно отбрасывать столбцы (в т.ч. опять же регуляркой). Этого реально не хватает в пандас, да и sql.

df.select(pl.col("ticker", "^.*_high$", "^.*_low$"))
df.select(pl.all().exclude("^day_.*$"))

Ещё больше упрощают дело селекторы:

import polars.selectors as cs
df.select(cs.string() | cs.ends_with("_high"))

Комбинации селекторов (в терминах логики множеств) уже менее интуитивны: df.select(cs.contains("_") - cs.string()),но всё равно крайне полезны.

Апдейты Поларс.

Их фигачат каждые чуть ли не 2 недели, причём там реальная работа, помногу. Что ж это будет за зверь через год?
И даже я сам уже запостил несколько issues, которые были приняты во внимание и исправлены (самим Риччи). Внёс свой скромный вклад в дело улучшения DS библ для всех 😅.

Многопоточное исполнение. Полная утилизация CPU. Оптимизация операций над lazy фреймами.

Это просто небо и земля, по сравнению с пандасом. Никогда для работы со сколько-нибудь серъёзным набором данных (от десятка гигов) я больше не буду использовать пандас. Получается, ты платишь за машину с сотней ядер, а с pandas используешь большую часть времени одно. Более того, уже есть поддержка engine="gpu", спасибо кодерам Nvidia (под капотом использует cudf. есть ограничения на виды операций и типы данных, которые можно исполнять на gpu, но потихоньку они снимаются).

Синтаксис операций.

Можно обращаться сразу к множеству столбцов, и элегантно применять ко всем одно преобразование. Можно писать генерики для сложной работы со столбцами, которые станут известны лишь в контексте. По сравнению с пандас, паттерн применения преобразований меняется - надо стараться вынести как можно больше операций в каждый вызов контекста (select, with_columns, group_by, group_by_dynamic), потому что так они параллелятся на все ядра. В операциях не обязательно использовать существующие столбцы, можно и просто выражения над ними! Вроде df.sort(pl.col("name").str.len_bytes(),descending=True).

Rust plugins.

Если какие-то операции недоступны в нативном polars, можно вызвать питоновские функции, черезе map_groups, например, но они не будут параллелиться. Для этих случаев можно написать и скомпилировать свой плагин на Расте. Я пробовал, это сложно ) В синтаксисе этого раста чёрт ногу сломит. И не одну. Но возможность есть!

Фишка которую я пока не пробовал - streaming . Работа с данными больше RAM.

179 viewsAnatoly Alekseev, edited 21:13

Aspiring Data Science

#polars #pandas

Отличия от пандас в концепциях:

Нет индексов (кроме целочисленных), осей, модификаций столбцов датафреймов inplace. Хотя на самом деле при модификации столбца фрейм в памяти не пересобирается, компилируется (быстро) лишь новый мета-объект фрейма со ссылками на те же массивы arrow.

Поларс не поддерживает разные типы данных в одном и том же столбце (кроме null), пандас поддерживает.
Пандас по умолчанию удаляет строки с отсутствующими значениями при агрегации. Поларс сохраняет все группы.

Поларс различает отсутствующие значения (null) и некорректные числа (NaN, что означает "не число"), и это различие сохраняется независимо от типа данных.
В результате этого пандас преобразует столбцы с целыми числами в столбцы с плавающей точкой при появлении отсутствующих значений (хотя этого не происходит с новыми типами данных arrow, в посл версиях). Это связано с тем, что тип Integer не поддерживает отсутствующие значения. Поларс такого преобразования не делает, так как поддерживает отсутствующие значения для всех типов данных (хранит битовую маску nulls для каждого поля).

В пандас можно иметь несколько столбцов с одинаковым именем. В Поларс имена столбцов должны быть уникальными.

Странности поларса:

nan vs null. Не уверен, что это хорошая идея. Но вполне в духе строгостей поларса.

animals_pl.unique(subset="class") вместо animals_pd.drop_duplicates(subset="class")

sort(...,descending=). Зачем было отклоняться от привычного в пандас acscending? too much.

sum_horizontal() и подобные функции (вследствие отсутствия axis).

Из интересного вам глянуть:

df.to_dict vs df.to_dicts
approx_n_unique()
glimpse()
.set_sorted()
stacking vs pl.concat vs extending

❤1

173 viewsAnatoly Alekseev, edited 21:19

Aspiring Data Science

#polars #pandas #codegems

Что в поларс НЕ понравилось.

Активное переименование методов от версии к версии. Это сводит с ума все AI, которые пробуешь использовать для генерации кода.

Мало примеров в доке к сложным методам типа .over и .group_by, .group_by_dynamic. Реально непонятно, как и на каких принципах оно отработает. В документации расписано слабовато.

Иногда polars начинает жрать всю память на относительно простых операциях, где мог бы быть более экономным. Иногда проскакивают ошибки/панические атаки, зачастую сложновоспроизводимые.

И самое главное. Если у вас большие фреймы и много операций (математических, group_by), поларс отработает быстро, но гарантированно забьёт вам всю оперативку. То же сделает и пандас, но за ним неиспользованную память можно хотя бы (если повезёт) подчистить вызовом ctypes.CDLL("libc.so.6").malloc_trim(0)

Поларс же, похоже, создаёт какие-то маленькие и разбросанные в адресном пространстве арены памяти, которые таким способом не подчищаются. И вообще никаким не подчищаются, только завершением процесса. К примеру, у меня после интенсивных расчётов и джойнов фрейм в 100 гигов, а занято памяти на терабайт. И освободить её на линуксе никак нельзя, я уже и аллокаторы пробовал альтернативные типа jemalloc, tmalloc - без толку. Это я считаю большой проблемой вычислений и big data, и странно, что никого это не колышет особо. По факту сбора мусора в линукс нет, если вы не знали, ребята. По крайней мере после отработки поларса. "Спасибо" странным авторам аллокаторов памяти.

Что забавно, на винде этот вопрос решается!!! )) Используйте

def trim_windows_process_memory(pid: int = None) -> bool:
    """Causes effect similar to malloc_trim on -nix."""

    # Define SIZE_T based on the platform (32-bit or 64-bit)
    if ctypes.sizeof(ctypes.c_void_p) == 4:
        SIZE_T = ctypes.c_uint32
    else:
        SIZE_T = ctypes.c_uint64

    # Get a handle to the current process
    if not pid:
        pid = ctypes.windll.kernel32.GetCurrentProcess()

    # Define argument and return types for SetProcessWorkingSetSizeEx
    ctypes.windll.kernel32.SetProcessWorkingSetSizeEx.argtypes = [
        ctypes.wintypes.HANDLE,  # Process handle
        SIZE_T,  # Minimum working set size
        SIZE_T,  # Maximum working set size
        ctypes.wintypes.DWORD,  # Flags
    ]
    ctypes.windll.kernel32.SetProcessWorkingSetSizeEx.restype = ctypes.wintypes.BOOL

    # Define constants for SetProcessWorkingSetSizeEx
    QUOTA_LIMITS_HARDWS_MIN_DISABLE = 0x00000002

    # Attempt to set the working set size
    result = ctypes.windll.kernel32.SetProcessWorkingSetSizeEx(pid, SIZE_T(-1), SIZE_T(-1), QUOTA_LIMITS_HARDWS_MIN_DISABLE)

    if result == 0:
        # Retrieve the error code
        error_code = ctypes.windll.kernel32.GetLastError()
        logger.error(f"SetProcessWorkingSetSizeEx failed with error code: {error_code}")
        return False
    else:
        return True

и спите спокойно.

Следующая жёсткая проблема - производительность с dtype=category. Не храните паркетные файлы с этим типом данных, лучше конвертируйте в string (с compression='zstd', конечно). Иначе потом они будут склеиваться ВЕЧНОСТЬ, при любых настройках StringCache.

Stack Overflow

Polars DF takes up lots of RAM

I'm running a python noscript that analyses a dataframe (loaded from a parquet file).
I've ran my program using the memory_profiler package to see the mem signature it has - on 2 DataFrames with a si...

176 viewsAnatoly Alekseev, edited 21:34

Aspiring Data Science

#polars #pandas

Запостил мини-серию о polars по сравнению с pandas:

Преимущества polars
Отличия от pandas
Недостатки polars

Заключение.

Несмотря на его сыроватость, по умолчанию теперь всегда буду использовать в своих ds-проектах polars. Людям, которые пишут pandas, наплевать на производительность, я это знаю по личному общению с одним таким человеком. Их принцип Кнутовкий, premature optimization is the root of all evil, поэтому, чтобы избежать зла, они не оптимизируют вообще. С таким кредо вам не библиотеки для работы с данными писать, уважаемые. Ну вот история вас и оставляет на обочине.

Всё же, полностью от пандас отказываться неразумно, часто там определённые вещи можно закодить быстрее в силу большей гибкости (axis) или наличия индексов. Но, как правило, я pandas в этом ключе использую лишь для маленьких фреймов. Ещё он понимает больше форматов данных. И у поларса к нему есть быстрый интероп.

Так что используйте оба, но приоритет отдавайте polars. Жизнь слишком коротка, чтобы грузить лишь 1 ядро CPU из 100 )

Из новостей: компания Риччи работает над polars cloud, это будет что-то типа dask/coiled, похоже.

Aspiring Data Science

👍2🔥1

218 viewsAnatoly Alekseev, edited 21:51

Aspiring Data Science

#biology

https://youtu.be/izGEVvLQ3Sc?si=w8jsvSntRlR1kMVt

YouTube

Самые выносливые | Вадим Марьинский (выпуск 6)

#детям #животные #природа
Шестой выпуск рубрики "Экология беспозвоночных. Невероятные обитатели странных и не очень мест" с Вадимом Марьинским (для 5-8 классов).
Плейлист рубрики: https://www.youtube.com/watch?v=xmRXxbK9Nhc&list=PLrsdEH6Is67Kbhws6Vrwsw1PvcFwOzaZR…

115 viewsAnatoly Alekseev, edited 09:51

Aspiring Data Science

#hardware #datacenters

"Современная стандартная стойка 42U с набором оборудования весит порядка 680–1150 кг, максимально допустимая масса для многих составляет около 1360 кг. При этом стойка для ИИ-серверов в полной комплектации с системами охлаждения и сетевыми модулями может весить более 1800 кг. Десятки или даже сотник таких стоек в среднем ЦОД гиперскейлера могут серьёзно повлиять на всё устройство помещения.

В Dell'Oro Group отмечает, что в машинных залах всё реже используются фальшполы, под которыми часто размещают кабели, элементы системы охлаждения и др., поскольку установка такой конструкции — довольно дорогая задача. В JLL оговаривают, что во многих ЦОД фальшполы всё же используются, поскольку они нужны для кабелей и труб, но их высота может быть уже в районе 30 см, а не традиционных 60 см. Операторы по-прежнему опасаются прокладывать трубы сверху из-за возможных протечек."

https://servernews.ru/1123925

ServerNews - все из мира больших мощностей

Неподъёмный груз: ИИ-серверы стали слишком тяжелы для обычных ЦОД

Операторы дата-центров столкнулись с неочевидной на первый взгляд проблемой. ИИ-оборудование не только требует больше электроэнергии и более эффективного охлаждения в сравнении с обычными серверами — оно ещё и тяжелее платформ для классических задач, сообщает…

109 viewsAnatoly Alekseev, 05:43

Aspiring Data Science

#politics

Интересный прогноз

https://youtu.be/CkLMnnLQX7I?si=VIfsNhN2uSTmkOWl

YouTube

Задержаны кадыровцы | Что стало с неприкосновенностью главы Чечни @Max_Katz

Позавчера кадыровцы на Ярославском вокзале похитили предпринимателя Арега Щепихина — его протащили по всей территории вокзала, а затем запихнули в багажник Мерседеса с правительственными номерами. Казалось бы, история привычная, и обсуждать тут нечего. Но…

105 viewsAnatoly Alekseev, edited 09:28

Aspiring Data Science

#automl #itmo #fedot

Оказывается, ещё и Федот есть у нас )))
itmo я знаю по библиотечке отбора признаков, она не производительная, но богатая.

Пока в Федоте понравились только анимированные графики прогресса.

Надо бы его с Ламой посравнивать на реальных задачах.

https://www.youtube.com/watch?v=_hQtoVgT6Q4

105 viewsAnatoly Alekseev, edited 20:45

Aspiring Data Science

#automl #autogluon #lama

Маленькая история о том, как я неудачно пытался протащить automl в проект в последний момент.

В проекте использовали библиотеки своей разработки над бустингами, я запланировал в следующем релизе добавить automl. Ролики Autogluon, где авторы долго хвастаются, какой у них хороший фреймворк, засорили мне мозг (и, видимо, отпечатались на подкорке), а с LaMa у меня был позитивный личный опыт (правда, давно).

Я вспомнил слова Саши Рыжкова, автора LaMa, с презенташки годовой давности, что на бенчмарках autogluon себя плохо показал, т.к. забивал диск моделями, которые его никто не просил сохранять. Но как-то подумал, ну за год же это глупое поведение исправили или позволили отключать, правда?

НЕТ. Herr там. autogluon засрал весь диск облачного сервера, причём выяснилось, что он дампит на диск не только модели, но и ПРИЗНАКИ, полный датасет. Причем делает это снова и снова, если вы обучаете новую модель на тех же данных. И отключить это нельзя, а вручную подчищать за ним данные я не рискнул, потом неясно, запустится ли без подчищенных файлов инференс. В топку. А хвастались-то больше всех.

Ну с Ламой-то проблем не возникло? Тоже не так. ML-сервер с окружением был настроен с python 3.13, что уже казалось рискованным решением, так и вышло, LaMa на этой версии просто не пошла, а пересоздавать окружение не было возможности ) Так что до сл релиза.

Эрго: не берите последнюю версию Питона для ML проектов, берите хотя бы last-1.

114 viewsAnatoly Alekseev, edited 20:59

Aspiring Data Science

#trading #options

https://www.youtube.com/watch?v=TBXYYR_uxLw

YouTube

Heiner Beckmeyer -- Option Return Predictability with Machine Learning and Big Data

Heiner Beckmeyer "Option Return Predictability with Machine Learning and Big Data" with Turan Bali, Mathis Moerke, and Florian

132 viewsAnatoly Alekseev, 21:18

About

Blog

Apps

Platform