#featureengineering #pysr #symbolicregression
На самом деле, подход символьной регрессии перекликается с моей идеей использования информационно-теоретических метрик.
Читаю сейчас статью pysr, у них интересный подход с генетиком над признаками, отобранными бустингом.
Очень хочу сравнить их результаты со своими на том же игрушечном примере.
Для естественных наук приложение прямое, для машинного обучения, естественно, приложение может быть в создании новых хороших признаков.
Ps. ДА! pysr отлично справился с моим примером!
после ~6 минут работы
На самом деле, подход символьной регрессии перекликается с моей идеей использования информационно-теоретических метрик.
Читаю сейчас статью pysr, у них интересный подход с генетиком над признаками, отобранными бустингом.
Очень хочу сравнить их результаты со своими на том же игрушечном примере.
Для естественных наук приложение прямое, для машинного обучения, естественно, приложение может быть в создании новых хороших признаков.
Ps. ДА! pysr отлично справился с моим примером!
import numpy as np, pandas as pd
n =100_000
a = np.random.rand(n)
b = np.random.rand(n)
c = np.random.rand(n)
d = np.random.rand(n)
e = np.random.rand(n)
f = np.random.rand(n)
y=a**2/b+f/5+np.log(c)*np.sin(d)
df = pd.DataFrame(
{
"a": a,
"b": b,
"c": c,
"d": d,
"e": e,
}
)
from pysr import PySRRegressor
model = PySRRegressor(
maxsize=20,
niterations=40, # < Increase me for better results
binary_operators=["+", "*"],
unary_operators=[
"cos",
"exp",
"log",
"sin",
"inv(x) = 1/x",
# ^ Custom operator (julia syntax)
],
extra_sympy_mappings={"inv": lambda x: 1 / x},
# ^ Define operator for SymPy as well
elementwise_loss="loss(prediction, target) = (prediction - target)^2",
# ^ Custom loss function (julia syntax)
)
model.fit(df, y)
model.get_best()
после ~6 минут работы
complexity 14
loss 0.003329
score 0.947915
sympy_format a**2/b + log(c)*sin(d) + 0.09998281
Telegram
Aspiring Data Science
#featureengineering #featureselection #diogenes
n =100_000
a = np.random.rand(n)
b = np.random.rand(n)
c = np.random.rand(n)
d = np.random.rand(n)
e = np.random.rand(n)
f = np.random.rand(n)
y=a**2/b+f/5+np.log(c)*np.sin(d)
df = pd.DataFrame(
{
…
n =100_000
a = np.random.rand(n)
b = np.random.rand(n)
c = np.random.rand(n)
d = np.random.rand(n)
e = np.random.rand(n)
f = np.random.rand(n)
y=a**2/b+f/5+np.log(c)*np.sin(d)
df = pd.DataFrame(
{
…
👍2
#featureengineering #pysr #symbolicregression #todo
Библиотека pysr заслуживает пристального внимания. Она настолько хорошо сделана, глубока и функциональна, что просто загляденье.
Полностью готова к внедрению в бой, поддерживает оптимизации, кластера, логгинг в тензорборд, пре-отбор признаков с помощью ML, сохранение прогресса в файл и тёплый старт.
Зацените функциональность и количество опций:
И на её базе, как понимаю, уже сделаны отличные исследования.
Надо изучать доку.
И хорошо бы её потестить для FE, на каких-то разумных настройках глубины/сложности/времени. И датасетах с в т.ч. большим количеством фичей.
Библиотека pysr заслуживает пристального внимания. Она настолько хорошо сделана, глубока и функциональна, что просто загляденье.
Полностью готова к внедрению в бой, поддерживает оптимизации, кластера, логгинг в тензорборд, пре-отбор признаков с помощью ML, сохранение прогресса в файл и тёплый старт.
Зацените функциональность и количество опций:
model = PySRRegressor(
populations=8,
# ^ Assuming we have 4 cores, this means 2 populations per core, so one is always running.
population_size=50,
# ^ Slightly larger populations, for greater diversity.
ncycles_per_iteration=500,
# ^ Generations between migrations.
niterations=10000000, # Run forever
early_stop_condition=(
"stop_if(loss, complexity) = loss < 1e-6 && complexity < 10"
# Stop early if we find a good and simple equation
),
timeout_in_seconds=60 * 60 * 24,
# ^ Alternatively, stop after 24 hours have passed.
maxsize=50,
# ^ Allow greater complexity.
maxdepth=10,
# ^ But, avoid deep nesting.
binary_operators=["*", "+", "-", "/"],
unary_operators=["square", "cube", "exp", "cos2(x)=cos(x)^2"],
constraints={
"/": (-1, 9),
"square": 9,
"cube": 9,
"exp": 9,
},
# ^ Limit the complexity within each argument.
# "inv": (-1, 9) states that the numerator has no constraint,
# but the denominator has a max complexity of 9.
# "exp": 9 simply states that `exp` can only have
# an expression of complexity 9 as input.
nested_constraints={
"square": {"square": 1, "cube": 1, "exp": 0},
"cube": {"square": 1, "cube": 1, "exp": 0},
"exp": {"square": 1, "cube": 1, "exp": 0},
},
# ^ Nesting constraints on operators. For example,
# "square(exp(x))" is not allowed, since "square": {"exp": 0}.
complexity_of_operators={"/": 2, "exp": 3},
# ^ Custom complexity of particular operators.
complexity_of_constants=2,
# ^ Punish constants more than variables
select_k_features=4,
# ^ Train on only the 4 most important features
progress=True,
# ^ Can set to false if printing to a file.
weight_randomize=0.1,
# ^ Randomize the tree much more frequently
cluster_manager=None,
# ^ Can be set to, e.g., "slurm", to run a slurm
# cluster. Just launch one noscript from the head node.
precision=64,
# ^ Higher precision calculations.
warm_start=True,
# ^ Start from where left off.
turbo=True,
# ^ Faster evaluation (experimental)
extra_sympy_mappings={"cos2": lambda x: sympy.cos(x)**2},
# extra_torch_mappings={sympy.cos: torch.cos},
# ^ Not needed as cos already defined, but this
# is how you define custom torch operators.
# extra_jax_mappings={sympy.cos: "jnp.cos"},
# ^ For JAX, one passes a string.
)
И на её базе, как понимаю, уже сделаны отличные исследования.
Надо изучать доку.
И хорошо бы её потестить для FE, на каких-то разумных настройках глубины/сложности/времени. И датасетах с в т.ч. большим количеством фичей.
👍2
#tesla
https://3dnews.ru/1118559/tesla-cybertruck-poluchil-visshiy-ball-za-bezopasnost-v-testah-nhtsa?from=related-grid&from-source=1118567
https://3dnews.ru/1118559/tesla-cybertruck-poluchil-visshiy-ball-za-bezopasnost-v-testah-nhtsa?from=related-grid&from-source=1118567
3DNews - Daily Digital Digest
Tesla Cybertruck получил высшую оценку после краш-тестов NHTSA — батарея осталась как новая
Регламент работы Национального управления безопасностью движения США (NHTSA) предусматривает проверку транспортных средств на безопасность уже после их выхода на рынок, поэтому электрический пикап Tesla Cybertruck ждал больше года с момента начала продаж…
Forwarded from Data notes
Сделал обзор на различные методы биннинга
Medium
Binning techniques overview
Binning techniques remain one of the most underrated approaches either in feature engineering or machine learning models regularisation…
#energy
"За последние 50 лет придуманные нефтяниками методы бурения и разрыва пластов открыли возможность доступа к теплу недр на большей части планеты, а не только рядом с вулканами. Пока новыми технологиями воспользовались лишь единичные компании, но в них скрыт огромный потенциал для производства электрической энергии в больших масштабах. Сегодня в глобальном масштабе доля геотермальной энергетики по-прежнему составляет менее половины процента. Доля солнечной и ветряной энергии более чем в 25 раз выше, что можно исправить в обозримые сроки.
Для доступа к подземному теплу следует использовать методы бурения, разработанные для добычи сланцевого газа, включая горизонтальное бурение и гидроразрыв пластов. Закачивая в скважины жидкость под большим давлением, нефтяники расширяют существующие в породе трещины и создают новые, за счёт чего происходит приток нефти и других жидкостей к поверхности. В геотермальных системах с улучшенными характеристиками жидкость представляет собой просто горячую воду из естественных подземных резервуаров."
https://3dnews.ru/1118710/nesmotrya-na-risk-zemletryaseniy-geotermalnuyu-energiyu-gdyot-svetloe-budushchee-schitayut-uchyonie
"За последние 50 лет придуманные нефтяниками методы бурения и разрыва пластов открыли возможность доступа к теплу недр на большей части планеты, а не только рядом с вулканами. Пока новыми технологиями воспользовались лишь единичные компании, но в них скрыт огромный потенциал для производства электрической энергии в больших масштабах. Сегодня в глобальном масштабе доля геотермальной энергетики по-прежнему составляет менее половины процента. Доля солнечной и ветряной энергии более чем в 25 раз выше, что можно исправить в обозримые сроки.
Для доступа к подземному теплу следует использовать методы бурения, разработанные для добычи сланцевого газа, включая горизонтальное бурение и гидроразрыв пластов. Закачивая в скважины жидкость под большим давлением, нефтяники расширяют существующие в породе трещины и создают новые, за счёт чего происходит приток нефти и других жидкостей к поверхности. В геотермальных системах с улучшенными характеристиками жидкость представляет собой просто горячую воду из естественных подземных резервуаров."
https://3dnews.ru/1118710/nesmotrya-na-risk-zemletryaseniy-geotermalnuyu-energiyu-gdyot-svetloe-budushchee-schitayut-uchyonie
3DNews - Daily Digital Digest
Несмотря на риск землетрясений, геотермальную энергию ждёт светлое будущее, считают учёные
Новые методы бурения и прогрессивные технологии извлечения тепла из недр Земли обещают быстро сделать геотермальную энергетику конкурентоспособным игроком на рынке выработки электричества, уверены учёные из США.
#trading #metrics
https://medium.datadriveninvestor.com/performance-measures-for-quantitative-portfolio-and-strategy-evaluation-with-python-implementations-608e6b0c61b8
https://medium.datadriveninvestor.com/performance-measures-for-quantitative-portfolio-and-strategy-evaluation-with-python-implementations-608e6b0c61b8
Medium
Performance Measures for Quantitative Portfolio and Strategy Evaluation with Python Implementations
A comprehensive list of most used metrics to evaluate portfolios and strategies’ performance with implementations in Python.
#music #pain
Life will never turn out the way you want it
You gotta go on and on
https://youtu.be/DOkq0W0vcR4?si=AtX0uZK_wF1sz9xr
Life will never turn out the way you want it
You gotta go on and on
https://youtu.be/DOkq0W0vcR4?si=AtX0uZK_wF1sz9xr
YouTube
PAIN - On and On (OFFICIAL MUSIC VIDEO)
Official music video for "On and On" from the second studio album, Rebirth, released in 1999 by Peter Tägtgren's industrial metal project PAIN.
Listen to Rebirth: https://bfan.link/pain-rebirth.yde
SUBSCRIBE to Pain on YouTube:
https://www.youtube.com/s…
Listen to Rebirth: https://bfan.link/pain-rebirth.yde
SUBSCRIBE to Pain on YouTube:
https://www.youtube.com/s…
#charts #plotly
https://medium.com/data-science-collective/5-amazing-plotly-visualizations-you-didnt-know-you-could-create-1752b24ac9f5
https://medium.com/data-science-collective/5-amazing-plotly-visualizations-you-didnt-know-you-could-create-1752b24ac9f5
Medium
5 Amazing Plotly Visualizations You Didn’t Know You Could Create
Explore Waffle Charts, Calendar Plots, Hexagon Maps, Parliament Diagrams, and Bump Charts for Advanced Data Visualizations in Plotly
#business #skype
Ну не знаю, купить сервис за 8 лярдов и потом закрыть?
"Сервис одноранговых видеозвонков Skype был создан Никласом Зеннстрёмом (Niklas Zennström), Янусом Фриисом (Janus Friis) и четырьмя другими эстонскими разработчиками. После запуска в 2003 году Skype приобрёл широкую популярность. К осени 2005 года сервис привлек 40 млн активных пользователей и был приобретён eBay за $2,6 млрд. В 2011 году Microsoft приобрела у eBay сервис за $8,5 млрд.
Во время пандемии Skype окончательно уступил позиции Zoom. И когда Microsoft прекратила поддержку программы-клиента Skype for Business в 2021 году, дни Skype были уже сочтены. Microsoft отказалась сообщить последние данные о количестве пользователей Skype и заявила, что сокращений в команде специалистов в связи с переходом на Teams не будет. Она добавила, что у Teams около 320 млн активных пользователей в месяц.
«Skype стал неотъемлемой частью формирования современных коммуникаций и создания бесчисленных значимых моментов, и мы гордимся тем, что стали частью этого пути», — сообщили в Microsoft."
https://3dnews.ru/1119037/microsoft-podtverdila-zakritie-skype-v-mae-ego-zamenit-teams
Ну не знаю, купить сервис за 8 лярдов и потом закрыть?
"Сервис одноранговых видеозвонков Skype был создан Никласом Зеннстрёмом (Niklas Zennström), Янусом Фриисом (Janus Friis) и четырьмя другими эстонскими разработчиками. После запуска в 2003 году Skype приобрёл широкую популярность. К осени 2005 года сервис привлек 40 млн активных пользователей и был приобретён eBay за $2,6 млрд. В 2011 году Microsoft приобрела у eBay сервис за $8,5 млрд.
Во время пандемии Skype окончательно уступил позиции Zoom. И когда Microsoft прекратила поддержку программы-клиента Skype for Business в 2021 году, дни Skype были уже сочтены. Microsoft отказалась сообщить последние данные о количестве пользователей Skype и заявила, что сокращений в команде специалистов в связи с переходом на Teams не будет. Она добавила, что у Teams около 320 млн активных пользователей в месяц.
«Skype стал неотъемлемой частью формирования современных коммуникаций и создания бесчисленных значимых моментов, и мы гордимся тем, что стали частью этого пути», — сообщили в Microsoft."
https://3dnews.ru/1119037/microsoft-podtverdila-zakritie-skype-v-mae-ego-zamenit-teams
3DNews - Daily Digital Digest
Microsoft навсегда отключит Skype 5 мая и призывает пользователей перенести контакты и чаты в Teams, пока не поздно
Microsoft официально объявила о предстоящем закрытии сервиса интернет-звонков Skype, последний звонок в котором будет сделан 5 мая. Компания отметила в своём заявлении, что закрытие Skype позволит ей сосредоточиться на корпоративной платформе Teams, упростив…
👍1
#politics #negotiations #war #diplomacy #psychology
Хороший разбор
https://www.youtube.com/watch?v=LWzmk_0xzCA
Хороший разбор
https://www.youtube.com/watch?v=LWzmk_0xzCA
YouTube
Как поругались Трамп и Зеленский — разбор разговора (English subnoscripts) @Max_Katz
Разговор Трампа с Зеленским в Белом Доме — беспрецедентная история, которая будет иметь большие последствия. Но очень многие спикеры сделали выводы, не изучив весь материал, а только ознакомившись с конфликтом, который произошёл в последней четверти разговора.…
#religion
Леннокс весьма бодр, и старается разводить меньше демагогии, но всё же неизбежно в неё скатывается. Чего стоит хотя бы попытка приписать достижения науки религии. Понравилось утверждение Докинза о том, что религия и наука вовсе не существуют в разных реальностях, хотя бы потому, что религия делает утверждения о нашей Вселенной.
https://www.youtube.com/watch?v=LQdrzBhtbMg
Леннокс весьма бодр, и старается разводить меньше демагогии, но всё же неизбежно в неё скатывается. Чего стоит хотя бы попытка приписать достижения науки религии. Понравилось утверждение Докинза о том, что религия и наука вовсе не существуют в разных реальностях, хотя бы потому, что религия делает утверждения о нашей Вселенной.
https://www.youtube.com/watch?v=LQdrzBhtbMg
#trading #backtesting #masters
Пример реализации тестирования перестановкой из книги Мастерса.
Подчёркивается преимущество permutation test перед "простым" walkforward: OOS данные из walkforward очень ценны, и их желательно использовать пореже, чтобы не оверфиттиться на высоком уровне, а инсэмпловых перестановок намешать мы можем бесконечно много без проблем.
https://www.youtube.com/watch?v=NLBXgSmRBgU
Пример реализации тестирования перестановкой из книги Мастерса.
Подчёркивается преимущество permutation test перед "простым" walkforward: OOS данные из walkforward очень ценны, и их желательно использовать пореже, чтобы не оверфиттиться на высоком уровне, а инсэмпловых перестановок намешать мы можем бесконечно много без проблем.
https://www.youtube.com/watch?v=NLBXgSmRBgU
YouTube
How I Develop Trading Strategies | Permutation Tests and Trading Strategy Development with Python
This is how I develop trading strategies.
Code: https://github.com/neurotrader888/mcpt
Strategy Development Reference Books (Amazon Affiliate Links)
Permutation and Randomization Tests: https://amzn.to/4bmzdXS
Testing and Tuning Market Trading Systems:…
Code: https://github.com/neurotrader888/mcpt
Strategy Development Reference Books (Amazon Affiliate Links)
Permutation and Randomization Tests: https://amzn.to/4bmzdXS
Testing and Tuning Market Trading Systems:…
👍1
#timeseries #ensembling #todo #hetboost
Что мне тут нравится, ансамблируются не просто МЛ-модельки, а еще и статмодельки.
И вот здесь автора доклада рассматривает идею, которая и меня с недавних пор преследует: гетерогенный бустинг.
У меня планируется исследование/сравнение продвинутых методов ансамблирования, и даже есть идея своего метода.
Это будет микс гетерогенного бустинга, ансамблевого отбора и стэкинга.
https://www.youtube.com/watch?v=xnF9QajUzv0
Что мне тут нравится, ансамблируются не просто МЛ-модельки, а еще и статмодельки.
И вот здесь автора доклада рассматривает идею, которая и меня с недавних пор преследует: гетерогенный бустинг.
У меня планируется исследование/сравнение продвинутых методов ансамблирования, и даже есть идея своего метода.
Это будет микс гетерогенного бустинга, ансамблевого отбора и стэкинга.
https://www.youtube.com/watch?v=xnF9QajUzv0
YouTube
Boosting Time Series Accuracy: The Power of Ensemble Methods - Robert Haase (Paretos)
Boosting Time Series Accuracy: The Power of Ensemble Methods - Robert Haase (Paretos)
This talk explores the practical application of ensemble methods in time series analysis, based on Robert’s extensive experience at Pareto. It covers various ensembling…
This talk explores the practical application of ensemble methods in time series analysis, based on Robert’s extensive experience at Pareto. It covers various ensembling…
🔥1
#astronomy #askap #meerkat
https://3dnews.ru/1119276/vo-vselennoy-mnogestvo-tusklih-kruglih-obektov-kotorie-otkrili-noveyshie-radioteleskopi
https://3dnews.ru/1119276/vo-vselennoy-mnogestvo-tusklih-kruglih-obektov-kotorie-otkrili-noveyshie-radioteleskopi
3DNews - Daily Digital Digest
Во Вселенной нашлось множество тусклых круглых объектов — их разглядели новейшие радиотелескопы
Новейшие высокочувствительные радиотелескопы позволяют обнаружить то, что скрыто для наблюдения в других диапазонах — в видимом и инфракрасном свете.
#python #typing
Про Final не знал. Self, TypeAlias, Literal заслуживают внимания.
На самом деле всё ещё сложнее с TypeVar.
https://medium.com/techtofreedom/8-levels-of-using-type-hints-in-python-a6717e28f8fd
Про Final не знал. Self, TypeAlias, Literal заслуживают внимания.
На самом деле всё ещё сложнее с TypeVar.
https://medium.com/techtofreedom/8-levels-of-using-type-hints-in-python-a6717e28f8fd
Medium
8 Levels of Using Type Hints in Python
To make your programs more readable and easier to debug
👀1