Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#music #poetry #fantasy

"Beyond desertic fields of ice
Monstrous winds claim for their homeland
Defied, everything that stands still
Is hit by the cold in their hearts
Sung is this desolating
Victory, by the dead trees and the
Troubling choirs of tortured wind
Enchanting melodies of the Dark

Beyond the magnanimity
Of white snow's claimed purple gardens
One grand crystal palace was built
Symbol of the ruling of death
Hidden in a crystalline room
Stands the only living flower
Trapped in a magic box of the
Only ice beholder of a spark

Lost once more, I don't know where to go
Lost the sacred memory
I forgot, where am I from?
One broken branch from the grapevine

Lost my only heart's bed
No where can he rest all peacefully laid
Another lost wanderer was born
How could I lose myself so easily?

Behold the magic
From Gaia's darkest child's
Relentless lips
Kissing all your sins

Seduced, I finally
Stood still against the wind
My heart was not cold
My heart was no more

In the realm of Forever-Night,
My one and, one and only, my only heart is lost

The only thing for me to do is to
Free the last flower from its wicked prison
It has the power to unveil the truth and the honor
But this Forever-Night will last until Aeon's dawn

Beyond snow's invaded lands
An infant hides and stares at the sky
Covered by the dying clouds
Of greyness and of emptiness
Beyond the Forever-Night
An infant deprived from her heart
Gets up and begins his last walk
She's heading for the crystal palace

...where her last hope still lives"

https://soundcloud.com/anemonia/02-enchanting-melodies-of-eternal-nights
#ai #security

"Авторы статьи считают, что государства должны отдавать приоритет доктрине сдерживания, а не победе в гонке за искусственный сверхразум. MAIM подразумевает, что попытки любого государства достичь стратегической монополии в области ИИ столкнутся с ответными мерами со стороны других стран, а также приведут к соглашениям, направленным на ограничение поставок ИИ-чипов и open source моделей, которые по смыслу будут аналогичны соглашениям о контроле над ядерным оружием.

Чтобы обезопасить себя от атак на государственном уровне с целью замедлить развитие ИИ, в статье предлагается строить ЦОД в удалённых местах, чтобы минимизировать возможный ущерб, пишет Data Center Dynamics."

https://servernews.ru/1119678
#tesla #security

"Давно известно, что Tesla активно избавляется от лишних, по её мнению, датчиков на своих электромобилях, неустанно повторяя, что человеку для оценки дорожной обстановки достаточно глаз и головного мозга. Системы активной помощи водителю Tesla в настоящее время полагаются преимущественно на данные, получаемые с комплекса бортовых камер. Более осторожные автопроизводители предпочитают добавлять как минимум ультразвуковые датчики, а в идеале полагаться на данные оптических радаров (лидаров), распознающих препятствия даже в условиях ограниченной видимости.

Блогер Марк Робер сравнил эффективность систем автопилота, оснащённых лидаром и полагающихся исключительно на изображения с камер. В первом случае испытывался прототип на базе кроссовера Lexus, оснащённый дополнительным оборудованием, включая лидар. Во втором случае с ним сравнивалась штатная бортовая система Tesla Model Y. Последней, как пришлось выяснить по итогам серии экспериментов, не удалось обнаружить манекен пешехода в условиях сильного тумана или дождя."

https://youtu.be/IQJL3htsDyQ?t=968
😁1
#timeseries #ensembling #hetboost #pmdarima #todo

Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.

Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.

В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.

В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.

Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).

Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.

На этот год планирую сравнительное исследование )

Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.

Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.
🔥4👍1