NEW BOT Телеграм, страница

INCREDIBLE Game! GM Daniel Naroditsky vs GM Markus Ragger 05.02.2025

GM Daniel Naroditsky young and very talented chess streamer played online chess with a strong chess player GM Markus Ragger in the tournament Titled Tuesday on the platform chess.com

…

102 viewsAnatoly Alekseev, 00:46

Aspiring Data Science

#timeseries

Неглубокий, но качественный доклад. Из интересного: лаги для комбинаций категорией, кастомные лоссы для бустинга. Оптуна и Шап.

https://www.youtube.com/watch?v=MF3ZNET89F0

YouTube

Optimizing Ad Conversions with DS / Yael Kiselman (DigitalTurbine)

DigitalTurbine is a leading brand in the mobile advertising industry.
In this talk Yael Kiselman (DS at DigitalTurbine) would share a few tips and tricks optimizing mobile app recommendation on the DT On-Device product.
Yael would share:
- The use of XGBoost…

171 viewsAnatoly Alekseev, edited 06:28

Aspiring Data Science

#weather #meteorology

https://www.youtube.com/watch?v=o808OnudGRk

YouTube

MIT on Chaos and Climate: From Determinism to Probability in Numerical Weather Prediction

MIT on Chaos and Climate is a two-day centenary celebration of Jule Charney and Ed Lorenz.

Speaker: Tim Palmer, Royal Society Research Professor, University of Oxford

Find out more: https://eapsweb.mit.edu/news/2018/celebration-two-pioneers-modern-meteorology

96 viewsAnatoly Alekseev, edited 07:11

Aspiring Data Science

#polars #deltalake #deltars

По сути, deltalake - это субд на паркетных файлах и поларсе, с версионированием изменений и time travel.
Есть компактификация/речанкинг маленьких файлов, "бесшовная" работа с облаком, даже ADIC транзакции.

https://youtu.be/ZIrq9GsN2HM?si=SPDEsBoqvQVxZnBO

YouTube

Liam Brannigan - Build simple & scalable data pipelines with Polars & DeltaLake | PyData Global 2024

www.pydata.org

Data scientists in the real world have to manage messy datasets that evolve over time. New data must be added, old data must be removed and changes to columns must be handled gracefully. Furthermore, many real world datasets grow from a size…

103 viewsAnatoly Alekseev, edited 12:08

Aspiring Data Science

#polars

https://www.youtube.com/watch?v=u5mIDz5ldmI

YouTube

Why I Switched From Pandas to Polars | TDE Workshop

In this workshop, Ben breaks down the 3 reasons he has permanently switched from Pandas to Polars and goes through a demo with code.

Led by: Ben Feifke

More Resources
TDS Article: https://medium.com/towards-data-science/the-3-reasons-why-i-have-permanently…

95 viewsAnatoly Alekseev, 15:17

Aspiring Data Science

#polars

Тонкость, что maintain_order предпочтительное пост-сортировки в group_by.

https://youtu.be/CJ0f45evuME

92 viewsAnatoly Alekseev, edited 02:04

Aspiring Data Science

#pandas #dask #polars

Интересное сравнительное тестирjвание, в т.ч пандаса с разными бэкендами - нампай и эрроу, + с Copy On Write. Про dask-expr я даже не знал.

https://www.youtube.com/watch?v=IGgh9Aj9qiE

YouTube

Ian Ozsvald & Giles Weaver - Pandas 2, Dask or Polars? Tackling larger data on a single machine

www.pydata.org

Pandas 2 brings new Arrow data types, faster calculations and better scalability. Dask scales Pandas across cores and recently released a new "expressions" optimization for faster computations. Polars is a new competitor to Pandas designed…

108 viewsAnatoly Alekseev, edited 02:39

Aspiring Data Science

#polars #books

Вот есть явно хорошая книжка, "Effective Polars: Optimized Data Manipulation".

Уже даже пройтись по примерам кода очень полезно, покрывает, наверное, 85% информации из книги.

Можно узнать про такие способности поларс:

>>> def standardize(col):
...   return (col - col.mean()) / col.std()

>>> print(autos
...   .filter(standardize(pl.col('city08')) > 3)
...   .select(['year', 'make', 'model', 'VClass', 'city08'])
... )


More Filtering with Window Expressions
>>> print(autos
...  .with_columns(
...      model_age=(pl.col('year').max() - pl.col('year').min())
...                 .over('model'))
... )

>>> print(autos
...  .select(pl.all().is_null().mean() * 100)
... )


>>> print(autos
...  .with_columns(pl.col('make').cast(pl.String))
...  .sort(by=pl.col('make').str.len_chars())
... )


...  .filter(~pl.all_horizontal(pl.col('devil', 'snake').is_null()))
...  .plot(x='datetime', y=['devil', 'snake'], rot=45, noscript='Gage Height', 
...        width=1800, height=600)


Using XGBoost to Predict Mileage
>>> import polars.selectors as cs
>>> X = (autos
...  .select(cs.numeric() - cs.matches('(city08|highway08)'))
... )
>>> y = (autos.select(pl.col('city08')))

https://www.amazon.com/Effective-Polars-Optimized-Manipulation-Treading

GitHub

effective_polars_book/polars-github.ipynb at main · mattharrison/effective_polars_book

Code and materials for Effective Polars book. Contribute to mattharrison/effective_polars_book development by creating an account on GitHub.

136 viewsAnatoly Alekseev, 03:45

Aspiring Data Science

#polars #patito #mlops

https://youtu.be/emrMc85jJ4A?si=onmWLqSOcK5Db5AD

YouTube

How to Validate Polars DataFrames with Patito

118 viewsAnatoly Alekseev, edited 07:10

Aspiring Data Science

#jobs

https://www.youtube.com/watch?v=X0PYfLTka7A

YouTube

PyData Boston March 2025 Meetup | Best practices for hiring data scientists

www.pydata.org

PyData is an educational program of NumFOCUS, a 501(c)3 non-profit organization in the United States. PyData provides a forum for the international community of users and developers of data analysis tools to share ideas and learn from each…

125 viewsAnatoly Alekseev, 18:12

Aspiring Data Science

#animals

"Благодаря десятилетиям подводных записей исследователям удалось связать некоторые базовые действия с определёнными звуками. Например, им удалось выявить характерные свисты, которые, по-видимому, используются как имена, что позволяет двум особям находить друг друга на большом расстоянии. Дельфины также постоянно издают звуковые паттерны, названные учёными «пронзительный крик», во время конфликтов.

Конечная цель WDP — заговорить на дельфиньем языке, если он действительно существует. Это стремление привело к созданию огромного, тщательно размеченного набора данных, который слишком трудоёмок для анализа человеком, но, по словам Google, идеально подходит для обработки с помощью генеративного ИИ.

Генеративная ИИ-модель DolphinGemma основана на открытых моделях искусственного интеллекта Gemma от Google. Она использует разработанную Google аудиотехнологию SoundStream. Модель была обучена с использованием акустического архива проекта Wild Dolphin. Команда надеется, что DolphinGemma поможет выявить сложные закономерности, которые позволят создать общий словарь.

DolphinGemma работает так же, как языковые модели, ориентированные на человека: она получает запрос и предсказывает следующий токен. Учёные полагают, что эти предсказанные токены могут оказаться звуковыми последовательностями, которые будут поняты дельфинами."

https://3dnews.ru/1121267/google-sozdala-iimodel-dolphingemma-dlya-obshcheniya-s-delfinami

3DNews - Daily Digital Digest

Google создала ИИ-модель DolphinGemma для общения с дельфинами

Дельфины считаются одними из самых умных существ на планете.

113 viewsAnatoly Alekseev, 18:17

Aspiring Data Science

#polars

Книжка сама не очень, кстати, я читал. Собственно, и доклад не блещет инсайтами, зато приводится профит от перехода на поларс в конкретно взятом проекте. Расходы на расчёты снизились с 120 до 4 тыс баксов.

https://www.youtube.com/watch?v=B2Ljp2Fb-l0

YouTube

Janssens & Nieuwdorp - What we learned by converting a large codebase from Pandas to Polars

www.pydata.org

In this talk, we'll share our experience of converting a substantial data processing codebase from Pandas to Polars. We’ll discuss the motivations behind the switch, the challenges faced during the transition, and the significant performance…

117 viewsAnatoly Alekseev, edited 02:50

Aspiring Data Science

#featureselection #shap #shapselect

Типа несколько новый подход к отбору признаков.

То же RFCE, на авторы почему-то скромно выделяют свой подход прямо в отдельный класс.

Фишка в том, что по shap-значениям признаков на таргет строится отдельная регрессия. Признаки с незначимымы или отрицательными коэф-тами этой регрессии удаляются. Мне пока неясно, какие это даёт преимущества по сравнению просто с расчётом среднего и отклонений шап-значений признаков по всем примерам.

"Экспериментальная проверка", которую эти мощные учёные проводят в конце статьи, по глубине, достоверности и ширине охвата сравнима со школьным экспериментом по пуканью на зажигалку - один датасет, одна модель, один сид.

Но, может, я чего-то не понимаю, и это крутая идея?

https://www.youtube.com/watch?v=pmqvyrIyB_8

119 viewsAnatoly Alekseev, edited 05:02

Aspiring Data Science

#jobs

https://www.youtube.com/watch?v=ra8UhlWOwqI

YouTube

5 удаленок на $10-15к изнутри за 5 лет: собесы, процессы, дэйлики, команды, задачи, скиллы, код

Чем занимаются гоферы на удаленках, где платят $10-15к в месяц? Ответ в этом видео на примере 5 моих контрактов за последние 5 лет. В 4-х из этих 5 компаний я все еще работал в 2024 году.

Мой клуб АйТи Красавчиков: https://boosty.to/itkrasavchik - подключайся…

111 viewsAnatoly Alekseev, 13:50

Aspiring Data Science

#astronomy

Хм, возможно, в будущем потянет на нобелевку.

"Преобладание одного направления вращения галактик может указывать на то, что вещество в пространстве до образования звёзд и галактик уже вращалось — и с предельно возможной скоростью, что также задало импульс вращения более сложной материи, появившейся во Вселенной. Но даже за 13,8 млрд лет своего существования Вселенная не успела совершить и одного полного оборота. На это могут уйти триллионы лет.

Строго говоря, в новой работе учёные не пытались создать максимально полную модель вращающейся Вселенной. Эта задача будет решаться на следующих этапах исследований. Пока они лишь продемонстрировали влияние вращения Вселенной на постоянную Хаббла — величину, характеризующую скорость её расширения, которая остаётся одной из главных загадок современной космологии. Точнее, с помощью гипотезы о вращающейся Вселенной учёные попытались объяснить так называемую «напряжённость Хаббла» — расхождение между скоростью расширения Вселенной в раннюю эпоху и в современную.

Моделирование блестяще справилось с поставленной задачей. Если Вселенная действительно вращается, это может объяснить, почему скорость её расширения в первые миллионы лет была немного ниже, чем та, что наблюдается сегодня. Более того, модель вращающейся Вселенной остаётся непротиворечивой с другими космологическими моделями её развития. "

https://3dnews.ru/1121381/nasha-vselennaya-vrashchaetsya-pokazalo-modelirovanie-i-eto-obyasnyaet-mnogoe

3DNews - Daily Digital Digest

Наша Вселенная вращается, показало моделирование, и это объясняет многое

Легендарную фразу Галилео Галилея «И всё-таки она вертится!», якобы сказанную после суда инквизиции над ним за опровержение геоцентрической модели Солнечной системы, возможно, вскоре можно будет применить ко всей Вселенной.

102 viewsAnatoly Alekseev, 03:00

Aspiring Data Science

#datasets

"Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей»."

https://3dnews.ru/1121452/vikipediya-vipustila-nabor-dannih-dlya-obucheniya-ii-chtobi-boti-ne-peregrugali-eyo-serveri

3DNews - Daily Digital Digest

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным…

👍1

98 viewsAnatoly Alekseev, 17:50

Aspiring Data Science

#automl #metaleraning

Очень понравилась эта лекция, без хвастовства, по делу, интересно.

https://www.youtube.com/watch?v=8YxIGdZHcUg

YouTube

Машинное обучение 2, лекция 14 — AutoML

Курс «Машинное обучение 2», ПМИ ФКН ВШЭ

Лектор — Дмитрий Симаков

Страничка курса: http://wiki.cs.hse.ru/Машинное_обучение_2

Все видео курса: https://www.youtube.com/playlist?list=PLEwK9wdS5g0p7A6gXsuXnLZpfrMyqrJKP

154 viewsAnatoly Alekseev, 02:01

Aspiring Data Science

#autogluon #automl

Эти товарищи реально слишком много хвалятся, но, если верить разработчикам lightghtautoml, глюон не в лидерах )

что понравилось:

ограничения на время инференса (!)
шаг пост-калибрации в конвейере (температурное шкалирование), такое вижу впервые в пакете automl
MultiModalPredictor (!)

Скоро его попробую на реальной задаче, вместе с Ламой.

https://www.youtube.com/watch?v=VAAITEds-28

YouTube

AutoML Fall School 2022 - Hands-on tutorial AutoGluon

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

146 viewsAnatoly Alekseev, edited 11:09

Aspiring Data Science

#at #fun

https://3dnews.ru/1121513/sredi-polzovateley-chatgpt-zavirusilas-novaya-zabava-poisk-mestopologeniya-po-foto

3DNews - Daily Digital Digest

Среди пользователей ChatGPT завирусилась новая забава — поиск местоположения по фото

На этой неделе OpenAI выпустила новейшие модели искусственного интеллекта o3 и o4-mini, способные рассуждать, используя загружаемые пользователями фотографии.

88 viewsAnatoly Alekseev, 00:54

Aspiring Data Science

#rust

Надо учить раст, похоже.

https://youtu.be/E_je8_5WeDk?si=XuSgoJABfnG7gfHb

YouTube

A Data Scientist's Guide to the Rust Programming Language | Sussex Data Science

High performance code for Data Science: Does Rust have a place in the data scientist's toolbox?

Rated developer's most loved language three years running on Stackoverflow, the Rust programming language is going from strength to strength.

However, its penetration…

111 viewsAnatoly Alekseev, edited 04:17

Aspiring Data Science

#dask #polars #duckdb

Что-то не верю я этим тестам. поларс медленнее даска? Да когда такое было? И как вдруг чудесным образом у даска заработал оптимизатор, если синтаксис вызовов не поменялся? У поларс то он возможен, потому что синтаксис операций на фрейме совсем другой.

https://www.youtube.com/watch?v=qyvLJ2LvKLc

YouTube

Pandas + Dask DataFrame 2.0 - Comparison to Spark, DuckDB and Polars [PyCon DE & PyData Berlin 2024]

🔊 Recorded at PyCon DE & PyData Berlin 2024, 23.04.2024
https://2024.pycon.de/program/N9DEVW/

🎓 Watch how Dask DataFrame 2.0's improved performance and new features compare to Spark, DuckDB, and Polars, offering a faster and more robust system for big data…

111 viewsAnatoly Alekseev, edited 04:36

About

Blog

Apps

Platform