NEW BOT Телеграм, страница

Aspiring Data Science

#hpo #hpt #ensembling #diogenes #todo #metalearning

Требования к тюнеру:

В реальных задачах есть конкретное железо и бюджет времени на обучение. Соответственно, планировщик должен понимать, какое время займёт обучение каждого кандидата и сколько потребует ресурсов (RAM, VRAM, диска для хранения модели). В идеале, если пользователь задал совсем жёсткое ограничение, планировщик должен рассчитать сэмплирование и обучить одну "предполагаемую лучшую" модель на этом сэмпле, использовав (почти) всё отведённое время.

То есть, от кандидатов надо собирать не только достигнутые на CV разнообразные ML-метрики, но и затраченные ресурсы CPU, GPU, памяти, диска. (add resulting model size as a factor. in xgboost, max_cat_threshold must be varied btw 0 and max cat features cardinality! # affects model size heavily when high cardinality cat features r present! ADD HIGH CARD dataset to the testing suite!)

Скорее всего, модели будут ансамблироваться для лучшей точности. При ограниченном времени это означает, что тюнеру желательно предлагать кандидатов не просто с высокой точностью, но и при этом максимально отличающихся в прогнозах от других кандидатов.

Значит, мета-модель должна прогнозировать среднюю "непохожесть" ответов кандидата на ответы всех остальных кандидатов (хотя бы внутри группы данного алгоритма).
Тут есть тонкий момент, навеянный идеями ensemble selection: возможно, ещё надо пытаться прогнозировать, сможет ли данный кандидат составить "лучшее в группе простое усреднение" с каким-то другим кандидатом. Типа, можно быть довольно похожим на остальных, но вот прям засиять с кем-то в паре.

Для сборщика мета-признаков это означает, что нужно хранить непосредственно прогнозы каждого кандидата, иначе невозможно подсчитать попарную непохожесть.

Учёт multi-fidelity. Если данные представлены таблицей с миллионами строк, конечно, нет смысла тестировать всех кандидатов на полном датасете. В идеале "пристрелку" хорошо бы вести на более разумном сэмпле, скажем, 10k, ну или хотя бы 100k строк. Но тогда надо понимать, а как для одних и тех же HP соотносятся результаты на полной и уменьшенных версиях датасета, и можно ли последние использовать для оценки первых (непосредственно в виде рангов, или через отдельную ML-модель).

Значит, при сборе мета-признаков надо их собирать как для полного датасета, так и для его "уменьшенных копий", при точно тех же HP (сэмплирование надо фиксировать для воспроизводимости).

89 viewsAnatoly Alekseev, edited 05:17

Aspiring Data Science

#ghosts

Ахаха, блэт, этот Егор просто Крамник в мире айтишников!! )) А ты сколько коммитов сделал за год, сволочь такая, не призрак ли ты?! Я слежу за тобой!

https://blog.stackademic.com/1-in-10-silicon-valley-engineers-are-ghost-engineer-earning-300k-for-doing-almost-nothing-474b667da09d

🤡1

82 viewsAnatoly Alekseev, edited 06:40

Aspiring Data Science

#python #lazy_imports

https://levelup.gitconnected.com/i-made-my-python-app-start-5-faster-without-changing-the-code-heres-how-7e16a697e595

Medium

I Made My Python App Start 5× Faster without changing the code — Here’s How

Lazy Imports done right

96 viewsAnatoly Alekseev, edited 07:04

Aspiring Data Science

#python

https://medium.com/pythoneers/23-underrated-python-packages-you-didnt-knew-existed-36dbb0a417c0

Medium

23 Game-Changing Python Packages You Are Missing Out On

Make Your Life Easy By Exploring These Hidden Gems

95 viewsAnatoly Alekseev, 07:09

Aspiring Data Science

#gplearn #featureengineering #pysr #symbolicregression

Классная идея! Подбор формул позволяет (пере)открыть законы мироздания )

https://medium.com/data-science-collective/find-hidden-laws-within-your-data-with-symbolic-regression-ebe55c1a4922

Medium

Find Hidden Laws Within Your Data with Symbolic Regression

Automatically discover fundamental formulas like Kepler and Newton

👀1

99 viewsAnatoly Alekseev, edited 07:13

Aspiring Data Science

#featureengineering #pysr #symbolicregression

На самом деле, подход символьной регрессии перекликается с моей идеей использования информационно-теоретических метрик.

Читаю сейчас статью pysr, у них интересный подход с генетиком над признаками, отобранными бустингом.

Очень хочу сравнить их результаты со своими на том же игрушечном примере.

Для естественных наук приложение прямое, для машинного обучения, естественно, приложение может быть в создании новых хороших признаков.

Ps. ДА! pysr отлично справился с моим примером!

import numpy as np, pandas as pd

n =100_000
a = np.random.rand(n)
b = np.random.rand(n)
c = np.random.rand(n)
d = np.random.rand(n)
e = np.random.rand(n)
f = np.random.rand(n)

y=a**2/b+f/5+np.log(c)*np.sin(d)

df = pd.DataFrame(
    {
        "a": a,
        "b": b,
        "c": c,  
        "d": d,
        "e": e,

    }
)

from pysr import PySRRegressor

model = PySRRegressor(
    maxsize=20,
    niterations=40,  # < Increase me for better results
    binary_operators=["+", "*"],
    unary_operators=[
        "cos",
        "exp",
        "log",
        "sin",
        "inv(x) = 1/x",
        # ^ Custom operator (julia syntax)
    ],
    extra_sympy_mappings={"inv": lambda x: 1 / x},
    # ^ Define operator for SymPy as well
    elementwise_loss="loss(prediction, target) = (prediction - target)^2",
    # ^ Custom loss function (julia syntax)
)

model.fit(df, y)

model.get_best()

после ~6 минут работы

complexity 14
loss 0.003329
score 0.947915
sympy_format a**2/b + log(c)*sin(d) + 0.09998281

Aspiring Data Science

#featureengineering #featureselection #diogenes

n =100_000
a = np.random.rand(n)
b = np.random.rand(n)
c = np.random.rand(n)
d = np.random.rand(n)
e = np.random.rand(n)
f = np.random.rand(n)

y=a**2/b+f/5+np.log(c)*np.sin(d)

df = pd.DataFrame(
{
…

👍2

152 viewsAnatoly Alekseev, edited 07:34

Aspiring Data Science

#featureengineering #pysr #symbolicregression #todo

Библиотека pysr заслуживает пристального внимания. Она настолько хорошо сделана, глубока и функциональна, что просто загляденье.

Полностью готова к внедрению в бой, поддерживает оптимизации, кластера, логгинг в тензорборд, пре-отбор признаков с помощью ML, сохранение прогресса в файл и тёплый старт.

Зацените функциональность и количество опций:

model = PySRRegressor(
    populations=8,
    # ^ Assuming we have 4 cores, this means 2 populations per core, so one is always running.
    population_size=50,
    # ^ Slightly larger populations, for greater diversity.
    ncycles_per_iteration=500,
    # ^ Generations between migrations.
    niterations=10000000,  # Run forever
    early_stop_condition=(
        "stop_if(loss, complexity) = loss < 1e-6 && complexity < 10"
        # Stop early if we find a good and simple equation
    ),
    timeout_in_seconds=60 * 60 * 24,
    # ^ Alternatively, stop after 24 hours have passed.
    maxsize=50,
    # ^ Allow greater complexity.
    maxdepth=10,
    # ^ But, avoid deep nesting.
    binary_operators=["*", "+", "-", "/"],
    unary_operators=["square", "cube", "exp", "cos2(x)=cos(x)^2"],
    constraints={
        "/": (-1, 9),
        "square": 9,
        "cube": 9,
        "exp": 9,
    },
    # ^ Limit the complexity within each argument.
    # "inv": (-1, 9) states that the numerator has no constraint,
    # but the denominator has a max complexity of 9.
    # "exp": 9 simply states that `exp` can only have
    # an expression of complexity 9 as input.
    nested_constraints={
        "square": {"square": 1, "cube": 1, "exp": 0},
        "cube": {"square": 1, "cube": 1, "exp": 0},
        "exp": {"square": 1, "cube": 1, "exp": 0},
    },
    # ^ Nesting constraints on operators. For example,
    # "square(exp(x))" is not allowed, since "square": {"exp": 0}.
    complexity_of_operators={"/": 2, "exp": 3},
    # ^ Custom complexity of particular operators.
    complexity_of_constants=2,
    # ^ Punish constants more than variables
    select_k_features=4,
    # ^ Train on only the 4 most important features
    progress=True,
    # ^ Can set to false if printing to a file.
    weight_randomize=0.1,
    # ^ Randomize the tree much more frequently
    cluster_manager=None,
    # ^ Can be set to, e.g., "slurm", to run a slurm
    # cluster. Just launch one noscript from the head node.
    precision=64,
    # ^ Higher precision calculations.
    warm_start=True,
    # ^ Start from where left off.
    turbo=True,
    # ^ Faster evaluation (experimental)
    extra_sympy_mappings={"cos2": lambda x: sympy.cos(x)**2},
    # extra_torch_mappings={sympy.cos: torch.cos},
    # ^ Not needed as cos already defined, but this
    # is how you define custom torch operators.
    # extra_jax_mappings={sympy.cos: "jnp.cos"},
    # ^ For JAX, one passes a string.
)

И на её базе, как понимаю, уже сделаны отличные исследования.
Надо изучать доку.

И хорошо бы её потестить для FE, на каких-то разумных настройках глубины/сложности/времени. И датасетах с в т.ч. большим количеством фичей.

👍2

165 viewsAnatoly Alekseev, edited 08:28

Aspiring Data Science

#tesla

https://3dnews.ru/1118559/tesla-cybertruck-poluchil-visshiy-ball-za-bezopasnost-v-testah-nhtsa?from=related-grid&from-source=1118567

3DNews - Daily Digital Digest

Tesla Cybertruck получил высшую оценку после краш-тестов NHTSA — батарея осталась как новая

Регламент работы Национального управления безопасностью движения США (NHTSA) предусматривает проверку транспортных средств на безопасность уже после их выхода на рынок, поэтому электрический пикап Tesla Cybertruck ждал больше года с момента начала продаж…

124 viewsAnatoly Alekseev, 17:16

Aspiring Data Science

Forwarded from Data notes

Сделал обзор на различные методы биннинга

Medium

Binning techniques overview

Binning techniques remain one of the most underrated approaches either in feature engineering or machine learning models regularisation…

103 viewsAnatoly Alekseev, 03:22

Aspiring Data Science

#chess

https://www.youtube.com/watch?v=ybuJ_nIXwGE

YouTube

Joe Rogan Experience #2275 - Magnus Carlsen

Magnus Carlsen is a chess grandmaster. He is a five-time World Chess Champion, five-time World Rapid Chess Champion, and a reigning World Blitz Chess Champion.

http://www.magnuscarlsen.com

This episode is brought to you by Netflix. Zero Day is now playing…

111 viewsAnatoly Alekseev, 03:41

Aspiring Data Science

#jobs #interview #fun

https://www.youtube.com/shorts/OYbYSFG6KhE

108 viewsAnatoly Alekseev, edited 12:03

Aspiring Data Science

#energy

"За последние 50 лет придуманные нефтяниками методы бурения и разрыва пластов открыли возможность доступа к теплу недр на большей части планеты, а не только рядом с вулканами. Пока новыми технологиями воспользовались лишь единичные компании, но в них скрыт огромный потенциал для производства электрической энергии в больших масштабах. Сегодня в глобальном масштабе доля геотермальной энергетики по-прежнему составляет менее половины процента. Доля солнечной и ветряной энергии более чем в 25 раз выше, что можно исправить в обозримые сроки.

Для доступа к подземному теплу следует использовать методы бурения, разработанные для добычи сланцевого газа, включая горизонтальное бурение и гидроразрыв пластов. Закачивая в скважины жидкость под большим давлением, нефтяники расширяют существующие в породе трещины и создают новые, за счёт чего происходит приток нефти и других жидкостей к поверхности. В геотермальных системах с улучшенными характеристиками жидкость представляет собой просто горячую воду из естественных подземных резервуаров."

https://3dnews.ru/1118710/nesmotrya-na-risk-zemletryaseniy-geotermalnuyu-energiyu-gdyot-svetloe-budushchee-schitayut-uchyonie

3DNews - Daily Digital Digest

Несмотря на риск землетрясений, геотермальную энергию ждёт светлое будущее, считают учёные

Новые методы бурения и прогрессивные технологии извлечения тепла из недр Земли обещают быстро сделать геотермальную энергетику конкурентоспособным игроком на рынке выработки электричества, уверены учёные из США.

130 viewsAnatoly Alekseev, 00:29

Aspiring Data Science

#python #imports

https://levelup.gitconnected.com/10-python-import-things-i-regret-not-knowing-earlier-4015ab85ee54

Medium

10 Python Import Things I Regret Not Knowing Earlier

Free users read here…

👍2

130 viewsAnatoly Alekseev, 06:45

Aspiring Data Science

#trading #metrics

https://medium.datadriveninvestor.com/performance-measures-for-quantitative-portfolio-and-strategy-evaluation-with-python-implementations-608e6b0c61b8

Medium

Performance Measures for Quantitative Portfolio and Strategy Evaluation with Python Implementations

A comprehensive list of most used metrics to evaluate portfolios and strategies’ performance with implementations in Python.

162 viewsAnatoly Alekseev, 06:51

Aspiring Data Science

#music #pain

Life will never turn out the way you want it
You gotta go on and on

https://youtu.be/DOkq0W0vcR4?si=AtX0uZK_wF1sz9xr

YouTube

PAIN - On and On (OFFICIAL MUSIC VIDEO)

Official music video for "On and On" from the second studio album, Rebirth, released in 1999 by Peter Tägtgren's industrial metal project PAIN.
Listen to Rebirth: https://bfan.link/pain-rebirth.yde

SUBSCRIBE to Pain on YouTube:
https://www.youtube.com/s…

136 viewsAnatoly Alekseev, edited 14:14

Aspiring Data Science

#charts #plotly

https://medium.com/data-science-collective/5-amazing-plotly-visualizations-you-didnt-know-you-could-create-1752b24ac9f5

Medium

5 Amazing Plotly Visualizations You Didn’t Know You Could Create

Explore Waffle Charts, Calendar Plots, Hexagon Maps, Parliament Diagrams, and Bump Charts for Advanced Data Visualizations in Plotly

109 viewsAnatoly Alekseev, 13:05

Aspiring Data Science

#python #llms #ai #gpt

https://www.youtube.com/watch?v=J-vxmg_kQVU

YouTube

Тестирую 13 ЛУЧШИХ нейросетей в реальной задаче разработчика

В этом видео мы сравним лучшие нейросети по рейтингу LMSYS arena в задаче написания кода! Будем разрабатывать свой аналог chatGPT.
🔥 Список нейросетей в тесте:
claude 3.7
claude 3.7 think
grok 3
grok 3 think
gemini 2.0 flash
gemini 2.0 flash think
openai…

101 viewsAnatoly Alekseev, 07:24

Aspiring Data Science

#business #skype

Ну не знаю, купить сервис за 8 лярдов и потом закрыть?

"Сервис одноранговых видеозвонков Skype был создан Никласом Зеннстрёмом (Niklas Zennström), Янусом Фриисом (Janus Friis) и четырьмя другими эстонскими разработчиками. После запуска в 2003 году Skype приобрёл широкую популярность. К осени 2005 года сервис привлек 40 млн активных пользователей и был приобретён eBay за $2,6 млрд. В 2011 году Microsoft приобрела у eBay сервис за $8,5 млрд.

Во время пандемии Skype окончательно уступил позиции Zoom. И когда Microsoft прекратила поддержку программы-клиента Skype for Business в 2021 году, дни Skype были уже сочтены. Microsoft отказалась сообщить последние данные о количестве пользователей Skype и заявила, что сокращений в команде специалистов в связи с переходом на Teams не будет. Она добавила, что у Teams около 320 млн активных пользователей в месяц.

«Skype стал неотъемлемой частью формирования современных коммуникаций и создания бесчисленных значимых моментов, и мы гордимся тем, что стали частью этого пути», — сообщили в Microsoft."

https://3dnews.ru/1119037/microsoft-podtverdila-zakritie-skype-v-mae-ego-zamenit-teams

3DNews - Daily Digital Digest

Microsoft навсегда отключит Skype 5 мая и призывает пользователей перенести контакты и чаты в Teams, пока не поздно

Microsoft официально объявила о предстоящем закрытии сервиса интернет-звонков Skype, последний звонок в котором будет сделан 5 мая. Компания отметила в своём заявлении, что закрытие Skype позволит ей сосредоточиться на корпоративной платформе Teams, упростив…

👍1

111 viewsAnatoly Alekseev, 07:25

Aspiring Data Science

Писали ли Вы за последние полгода хоть одно сообщение в skype?

Anonymous Poll

26 voters103 viewsAnatoly Alekseev, 07:27

Aspiring Data Science

#politics #negotiations #war #diplomacy #psychology

Хороший разбор

https://www.youtube.com/watch?v=LWzmk_0xzCA

YouTube

Как поругались Трамп и Зеленский — разбор разговора (English subnoscripts) @Max_Katz

Разговор Трампа с Зеленским в Белом Доме — беспрецедентная история, которая будет иметь большие последствия. Но очень многие спикеры сделали выводы, не изучив весь материал, а только ознакомившись с конфликтом, который произошёл в последней четверти разговора.…

108 viewsAnatoly Alekseev, edited 13:14

Aspiring Data Science

#religion

Леннокс весьма бодр, и старается разводить меньше демагогии, но всё же неизбежно в неё скатывается. Чего стоит хотя бы попытка приписать достижения науки религии. Понравилось утверждение Докинза о том, что религия и наука вовсе не существуют в разных реальностях, хотя бы потому, что религия делает утверждения о нашей Вселенной.

https://www.youtube.com/watch?v=LQdrzBhtbMg

116 viewsAnatoly Alekseev, 15:16

About

Blog

Apps

Platform