NEW BOT Телеграм, страница

Proposal link: https://pretalx.com/euroscipy-2023/talk/UX8CTK/

Polars is the "relatively" new fast dataframe implementation that redefines what DataFrames are able to do on a single machine, both in regard to performance and dataset size.
In this talk, we…

95 viewsAnatoly Alekseev, edited 20:32

Aspiring Data Science

#ai #fun

Китайцы жгут. Особенно поржал с новости про лошадей и близлежащие фермы.

https://3dnews.ru/1119810/kitay-na-volne-patriotizma-vnedryaet-deepseek-vo-vseh-sferah-gizni-bez-razbora

3DNews - Daily Digital Digest

Китай на волне патриотизма внедряет DeepSeek во всех сферах жизни без разбора

Китайские компании в знак патриотизма и на волне ажиотажа, связанного с успехами отечественного ИИ-стартапа DeepSeek, активно внедряют модель рассуждений R1 и большую языковую модель V3 в свои сервисы и услуги, включая автопром, смартфоны, бытовую технику…

98 viewsAnatoly Alekseev, 14:50

Aspiring Data Science

#ai

"Сначала они тобой впечатлены, потом они тебя запрещают (

DeepSeek"

https://3dnews.ru/1119798/openai-predlogila-zapretit-yazikovie-modeli-deepseek-v-ssha

3DNews - Daily Digital Digest

OpenAI предложила запретить языковые модели DeepSeek в США

Как это часто бывает с передовыми для Китая технологиями, разработки DeepSeek быстро нашли недоброжелателей за его пределами.

103 viewsAnatoly Alekseev, edited 14:52

Aspiring Data Science

#tesla #security

"Давно известно, что Tesla активно избавляется от лишних, по её мнению, датчиков на своих электромобилях, неустанно повторяя, что человеку для оценки дорожной обстановки достаточно глаз и головного мозга. Системы активной помощи водителю Tesla в настоящее время полагаются преимущественно на данные, получаемые с комплекса бортовых камер. Более осторожные автопроизводители предпочитают добавлять как минимум ультразвуковые датчики, а в идеале полагаться на данные оптических радаров (лидаров), распознающих препятствия даже в условиях ограниченной видимости.

Блогер Марк Робер сравнил эффективность систем автопилота, оснащённых лидаром и полагающихся исключительно на изображения с камер. В первом случае испытывался прототип на базе кроссовера Lexus, оснащённый дополнительным оборудованием, включая лидар. Во втором случае с ним сравнивалась штатная бортовая система Tesla Model Y. Последней, как пришлось выяснить по итогам серии экспериментов, не удалось обнаружить манекен пешехода в условиях сильного тумана или дождя."

https://youtu.be/IQJL3htsDyQ?t=968

YouTube

Can You Fool A Self Driving Car?

Never underestimate the power of freakin' lasers! Have fun learning to think like an engineer and get 2 FREE boxes at: http://crunchlabs.com/Lidar

Get your CrunchLabs box today:
Build Box for kids click here: http://crunchlabs.com/Lidar
Hack Pack for teens…

113 viewsAnatoly Alekseev, 15:04

Aspiring Data Science

#astronomy #blackholes

https://youtu.be/CpHjxBAiSN4?si=YRPjNr9Vy3NJn9wt

YouTube

Прогресс в исследовании черных дыр

Черепащук А. М. "Прогресс в исследовании черных дыр"
Из цикла лекций "Современные проблемы астрономии"

117 viewsAnatoly Alekseev, edited 03:51

Aspiring Data Science

#polars

https://youtu.be/584AHQA9d8I?si=vbjSm6JaFMG9tvv3

YouTube

You Should Be Using Polars for DataFrames

Polars, Python, Narwhals, Rust, and Pandas: Marco Gorelli talks to @JonKrohnLearns about the many ways to use the newest data libraries available, the joys of open-source development, and the best method to win prizes in forecasting competitions.

Watch the…

94 viewsAnatoly Alekseev, edited 08:11

Aspiring Data Science

#polars

https://youtu.be/kVy3-gMdViM?si=v7lxw9Dy3IZfrn6a

YouTube

Polars: Blazingly Fast DataFrames in Rust and Python

This talk will introduce Polars a blazingly fast DataFrame library written in Rust on top of Apache Arrow. Its a DataFrame library that brings exploratory data analysis closer to the lessons learned in database research.

CPU's today's come with many cores…

118 viewsAnatoly Alekseev, edited 09:09

Aspiring Data Science

#polars

Они вкладываются еще и в парсинг паркета с помощью simd, как будто у них и так уже не лучший парсер. Круто.

https://youtu.be/yYAVrVMGaMY?si=eQh5dhZfdEyZC-NK

YouTube

Ritchie Vink - Polars 1.0 and beyond | PyData Amsterdam 2024

www.pydata.org

Polars is a novel query engine that focuses on DataFrame use front-end. This July it has hit the 1.0 milestone and this August it has landed GPU support.

The 1.0 milestone has made the Polars team confident about the API going forward and…

114 viewsAnatoly Alekseev, edited 10:40

Aspiring Data Science

#polars #functime

https://youtu.be/q1pN_Sg84h4?si=m-ax_W0fdPu9AGIb

YouTube

Mathieu Cayssol & Chris Lo- We rewrote tsfresh in Polars and why you should too | PyData Global 2023

www.pydata.org

tsfresh is a popular time-series feature extraction library with over 7500 stars and thousands of downloads per day. tsfresh, however, is over 6 years old and suffers from slow performance and an outdated API. These features describe key characteristics…

104 viewsAnatoly Alekseev, edited 02:27

Aspiring Data Science

#polars #functime

https://youtu.be/XpLfIpWZtt8?si=AvyLavBPd7oDJ5kc

YouTube

Luca Baggi - functime: a next generation ML forecasting library powered by Polars

95 viewsAnatoly Alekseev, edited 02:53

Aspiring Data Science

#polars

https://youtu.be/GOOYbl3cqlc?si=wz4UT5WEEiKnko7z

YouTube

Ritchie Vink - Keynote Polars | PyCon Lithuania 2024

96 viewsAnatoly Alekseev, edited 03:52

Aspiring Data Science

#tdd #hypothesys

https://youtu.be/NL7-eNPr_oI?si=jGWiTJHWA4EUQT87

YouTube

Andy Fundinger - Adventures in not writing tests | PyData London 2024

PyData
Website: www.pydata.org
LinkedIn: https://www.linkedin.com/company/pydata-global
Twitter: https://twitter.com/PyData

Developing reliable code without writing tests may be a far off dream, but Hypothesis' ghostwriter function will generate tests from…

98 viewsAnatoly Alekseev, edited 22:07

Aspiring Data Science

#zarr

https://youtu.be/OYaMi9WnQpA?si=zSkQ5184OBiCR1dw

YouTube

Sanket Verma: The Beauty of Zarr

In this talk, I’d be talking about Zarr, an open-source data format for storing chunked, compressed N-dimensional arrays. This talk presents a systematic approach to understanding and implementing Zarr by showing how it works, the need for using it, and a…

104 viewsAnatoly Alekseev, edited 22:29

Aspiring Data Science

#skrub

Эту полезную либу мы уже рассматривали. Есть поддержка поларс, надо бы проверить.

https://youtu.be/Oho53bvl4rg?si=pDGUanxgDycLvvBr

YouTube

Gaël Varoquaux: Prepping Tables for Machine Learning Gets Easier [PyData Südwest]

Recorded live at PyData Südwest 27 June 2023 at Mathematikon, University of Heidelberg

Skrub: Prepping Tables for Machine Learning Gets Easier
Gaël Varoquaux, Research Director, Inria, France

In standard data-science practice, a significant effort is spent…

107 viewsAnatoly Alekseev, edited 22:41

Aspiring Data Science

drivendata-ebook-reliable-data-science.pdf

2.8 MB

#mlops

https://drivendata.co/insights

103 viewsAnatoly Alekseev, 06:48

Aspiring Data Science

#mlops

Надо бы этот bulwark посмотреть.

https://youtu.be/dxUMBVTvbWw

YouTube

The 10 Commandments of Reliable Data Science - Isaac Slavitt - PyData Global 2022

Data science as a professional discipline is still in its infancy, and our field lacks widespread technical norms around project organization, collaboration, and reproducibility. This is painful both for practitioners and their end users because disorganized…

135 viewsAnatoly Alekseev, edited 06:49

Aspiring Data Science

#fun

😁1

124 viewsAnatoly Alekseev, 07:46

Aspiring Data Science

#timeseries #ensembling #hetboost #pmdarima #todo

Вот попался классный пример, где идея "гетерогенного бустинга" отлично отрабатывает.

Лектор на синтетике сравнивает ариму и ансамбль линрег+дерево.

В задачах на временные ряды декомпозиция на тренд, сезонность и остаточные нерегулярный сигнал очевидна и необходима, но можно посмотреть на проблему в общем - классы моделей имеют свои ограничения (деревянные модели регрессии, к примеру, плохо моделируют линейные зависимости), и обучение модели одного класса на невязках модели другого класса способно показать отличные результаты.

В то же время, сейчас самыми распространёнными методами ансамблирования являются стэкинг (когда для моделей последующего уровня меняется признаковое пространство) и гомогенный бустинг (например, градиентный над деревьями в catboost/xgboost/lightgbm), а вот идею бустинга гетерогенного как будто никто и не рассматривает, и как будто бы нет опенсорсных реализаций.

Истоки такого предубеждения, похоже, растут из ранних статей о бустинговом подходе над "слабыми моделями" (weak learners). Выбор именно слабых моделей аргументировался контролем переобучения, равномерностью шагов процесса обучения, фокусом на сложных для предсказания примерах (которые более сильная модель могла бы просто запомнить).

Мне кажется, "слабость" и одинаковость участников ансамбля не всегда благо, и на практике есть смысл в каждой конкретной задаче проверять (на CV) наиболее выгодный подход к ансамблированию, от простого усреднения моделей и ensemble selection (который мы недавно рассматривали) до стэкинга и двух видов бустинга, одно- и разнородного.

На этот год планирую сравнительное исследование )

Видимо, относительно небольшая статья о том, как стать лучше в DS, которую я подготовил, столкнувшись с неспособностью современных библиотек градиентного бустинга хорошо смоделировать простую зависимость Y=X, вырастет в большое сравнение алгоритмов ансамблирования.

Постараюсь захватить Ensemble Selection (1, 2, 3), опции ансамблирования рассмотренные в #kagglebook (1, 2, 3), и Cascade Generalization/Cascading/Delegating (or Selective Routing)/Arbitrating.

Aspiring Data Science

#ensembling #hpo #hpt #autosklearn

Вот какой интересный метод ансамблирования опробовали авторы оптимизатора auto-sklearn:

"Two important problems in AutoML are that (1) no single machine learning method performs best on all datasets and (2) some machine…

🔥4👍1

141 viewsAnatoly Alekseev, edited 18:14

Aspiring Data Science

#ensembling #tabm #anns

Из интересного:

эмбеддинги непрерывных признаков позволяют лучше учиться - выучивают "высокочастотные" зависимости, делают сеть НЕинвариантной к поворотам
ансамбли оптимизируются как единое целое, синхронно по итерациям

https://www.youtube.com/watch?v=qpdGUFF7vsI

YouTube

Открытая лекция: DL в табличных данных

Занятие ведёт Юра Горишний, исследователь из Yandex Research, автор научных статей по обучению нейросетей на табличных данных.

Ссылка на материалы занятия:

- Презентация: https://drive.google.com/file/d/1SO4CMRmNQQljBzOD8ZYOGQMCl6h51Qef/view?usp=sharing…

👍1

115 viewsAnatoly Alekseev, edited 17:42

Aspiring Data Science

#automl #tabpfn

А вот и Фрэнк на подкасте.

https://www.youtube.com/watch?v=BAYsT0wxP90

YouTube

863: TabPFN: Deep Learning for Tabular Data (That Actually Works!) — with Prof. Frank Hutter

#TabPFN #DeepLearning #Tabular

@JonKrohnLearns talks tabular data with Frank Hutter, Professor of Artificial Intelligence at Universität Freiburg in Germany. Despite the great steps that deep learning has made in analysing images, audio, and natural language…

113 viewsAnatoly Alekseev, 02:35

Aspiring Data Science

#hpo #hpt #optuna

Приятное интро в Оптуну, с примерами, в т.ч. пруннинга. Вообще у него классный ютуб-канал по ML/DS, такие темы отличные поднимает, и очень продуктивный лектор.

https://www.youtube.com/live/QejQVLkkgRA?si=eiBKOrAQ6bbt4y24

YouTube

Optuna: a hyperparameter optimization framework

Scikit-learn allows you to perform hyperparameter search but a lot of it happens in memory. Sometimes you want to have a storage layer for these hyperparameters and that's where a project like Optuna might be helpful. We will explore it in this livestream…

174 viewsAnatoly Alekseev, edited 12:46

About

Blog

Apps

Platform