#polars #books
Вот есть явно хорошая книжка, "Effective Polars: Optimized Data Manipulation".
Уже даже пройтись по примерам кода очень полезно, покрывает, наверное, 85% информации из книги.
Можно узнать про такие способности поларс:
https://www.amazon.com/Effective-Polars-Optimized-Manipulation-Treading
Вот есть явно хорошая книжка, "Effective Polars: Optimized Data Manipulation".
Уже даже пройтись по примерам кода очень полезно, покрывает, наверное, 85% информации из книги.
Можно узнать про такие способности поларс:
>>> def standardize(col):
... return (col - col.mean()) / col.std()
>>> print(autos
... .filter(standardize(pl.col('city08')) > 3)
... .select(['year', 'make', 'model', 'VClass', 'city08'])
... )
More Filtering with Window Expressions
>>> print(autos
... .with_columns(
... model_age=(pl.col('year').max() - pl.col('year').min())
... .over('model'))
... )
>>> print(autos
... .select(pl.all().is_null().mean() * 100)
... )
>>> print(autos
... .with_columns(pl.col('make').cast(pl.String))
... .sort(by=pl.col('make').str.len_chars())
... )
... .filter(~pl.all_horizontal(pl.col('devil', 'snake').is_null()))
... .plot(x='datetime', y=['devil', 'snake'], rot=45, noscript='Gage Height',
... width=1800, height=600)
Using XGBoost to Predict Mileage
>>> import polars.selectors as cs
>>> X = (autos
... .select(cs.numeric() - cs.matches('(city08|highway08)'))
... )
>>> y = (autos.select(pl.col('city08')))
https://www.amazon.com/Effective-Polars-Optimized-Manipulation-Treading
GitHub
effective_polars_book/polars-github.ipynb at main · mattharrison/effective_polars_book
Code and materials for Effective Polars book. Contribute to mattharrison/effective_polars_book development by creating an account on GitHub.
#animals
"Благодаря десятилетиям подводных записей исследователям удалось связать некоторые базовые действия с определёнными звуками. Например, им удалось выявить характерные свисты, которые, по-видимому, используются как имена, что позволяет двум особям находить друг друга на большом расстоянии. Дельфины также постоянно издают звуковые паттерны, названные учёными «пронзительный крик», во время конфликтов.
Конечная цель WDP — заговорить на дельфиньем языке, если он действительно существует. Это стремление привело к созданию огромного, тщательно размеченного набора данных, который слишком трудоёмок для анализа человеком, но, по словам Google, идеально подходит для обработки с помощью генеративного ИИ.
Генеративная ИИ-модель DolphinGemma основана на открытых моделях искусственного интеллекта Gemma от Google. Она использует разработанную Google аудиотехнологию SoundStream. Модель была обучена с использованием акустического архива проекта Wild Dolphin. Команда надеется, что DolphinGemma поможет выявить сложные закономерности, которые позволят создать общий словарь.
DolphinGemma работает так же, как языковые модели, ориентированные на человека: она получает запрос и предсказывает следующий токен. Учёные полагают, что эти предсказанные токены могут оказаться звуковыми последовательностями, которые будут поняты дельфинами."
https://3dnews.ru/1121267/google-sozdala-iimodel-dolphingemma-dlya-obshcheniya-s-delfinami
"Благодаря десятилетиям подводных записей исследователям удалось связать некоторые базовые действия с определёнными звуками. Например, им удалось выявить характерные свисты, которые, по-видимому, используются как имена, что позволяет двум особям находить друг друга на большом расстоянии. Дельфины также постоянно издают звуковые паттерны, названные учёными «пронзительный крик», во время конфликтов.
Конечная цель WDP — заговорить на дельфиньем языке, если он действительно существует. Это стремление привело к созданию огромного, тщательно размеченного набора данных, который слишком трудоёмок для анализа человеком, но, по словам Google, идеально подходит для обработки с помощью генеративного ИИ.
Генеративная ИИ-модель DolphinGemma основана на открытых моделях искусственного интеллекта Gemma от Google. Она использует разработанную Google аудиотехнологию SoundStream. Модель была обучена с использованием акустического архива проекта Wild Dolphin. Команда надеется, что DolphinGemma поможет выявить сложные закономерности, которые позволят создать общий словарь.
DolphinGemma работает так же, как языковые модели, ориентированные на человека: она получает запрос и предсказывает следующий токен. Учёные полагают, что эти предсказанные токены могут оказаться звуковыми последовательностями, которые будут поняты дельфинами."
https://3dnews.ru/1121267/google-sozdala-iimodel-dolphingemma-dlya-obshcheniya-s-delfinami
3DNews - Daily Digital Digest
Google создала ИИ-модель DolphinGemma для общения с дельфинами
Дельфины считаются одними из самых умных существ на планете.
#polars
Книжка сама не очень, кстати, я читал. Собственно, и доклад не блещет инсайтами, зато приводится профит от перехода на поларс в конкретно взятом проекте. Расходы на расчёты снизились с 120 до 4 тыс баксов.
https://www.youtube.com/watch?v=B2Ljp2Fb-l0
Книжка сама не очень, кстати, я читал. Собственно, и доклад не блещет инсайтами, зато приводится профит от перехода на поларс в конкретно взятом проекте. Расходы на расчёты снизились с 120 до 4 тыс баксов.
https://www.youtube.com/watch?v=B2Ljp2Fb-l0
YouTube
Janssens & Nieuwdorp - What we learned by converting a large codebase from Pandas to Polars
www.pydata.org
In this talk, we'll share our experience of converting a substantial data processing codebase from Pandas to Polars. We’ll discuss the motivations behind the switch, the challenges faced during the transition, and the significant performance…
In this talk, we'll share our experience of converting a substantial data processing codebase from Pandas to Polars. We’ll discuss the motivations behind the switch, the challenges faced during the transition, and the significant performance…
#featureselection #shap #shapselect
Типа несколько новый подход к отбору признаков.
То же RFCE, на авторы почему-то скромно выделяют свой подход прямо в отдельный класс.
Фишка в том, что по shap-значениям признаков на таргет строится отдельная регрессия. Признаки с незначимымы или отрицательными коэф-тами этой регрессии удаляются. Мне пока неясно, какие это даёт преимущества по сравнению просто с расчётом среднего и отклонений шап-значений признаков по всем примерам.
"Экспериментальная проверка", которую эти мощные учёные проводят в конце статьи, по глубине, достоверности и ширине охвата сравнима со школьным экспериментом по пуканью на зажигалку - один датасет, одна модель, один сид.
Но, может, я чего-то не понимаю, и это крутая идея?
https://www.youtube.com/watch?v=pmqvyrIyB_8
Типа несколько новый подход к отбору признаков.
То же RFCE, на авторы почему-то скромно выделяют свой подход прямо в отдельный класс.
Фишка в том, что по shap-значениям признаков на таргет строится отдельная регрессия. Признаки с незначимымы или отрицательными коэф-тами этой регрессии удаляются. Мне пока неясно, какие это даёт преимущества по сравнению просто с расчётом среднего и отклонений шап-значений признаков по всем примерам.
"Экспериментальная проверка", которую эти мощные учёные проводят в конце статьи, по глубине, достоверности и ширине охвата сравнима со школьным экспериментом по пуканью на зажигалку - один датасет, одна модель, один сид.
Но, может, я чего-то не понимаю, и это крутая идея?
https://www.youtube.com/watch?v=pmqvyrIyB_8
#astronomy
Хм, возможно, в будущем потянет на нобелевку.
"Преобладание одного направления вращения галактик может указывать на то, что вещество в пространстве до образования звёзд и галактик уже вращалось — и с предельно возможной скоростью, что также задало импульс вращения более сложной материи, появившейся во Вселенной. Но даже за 13,8 млрд лет своего существования Вселенная не успела совершить и одного полного оборота. На это могут уйти триллионы лет.
Строго говоря, в новой работе учёные не пытались создать максимально полную модель вращающейся Вселенной. Эта задача будет решаться на следующих этапах исследований. Пока они лишь продемонстрировали влияние вращения Вселенной на постоянную Хаббла — величину, характеризующую скорость её расширения, которая остаётся одной из главных загадок современной космологии. Точнее, с помощью гипотезы о вращающейся Вселенной учёные попытались объяснить так называемую «напряжённость Хаббла» — расхождение между скоростью расширения Вселенной в раннюю эпоху и в современную.
Моделирование блестяще справилось с поставленной задачей. Если Вселенная действительно вращается, это может объяснить, почему скорость её расширения в первые миллионы лет была немного ниже, чем та, что наблюдается сегодня. Более того, модель вращающейся Вселенной остаётся непротиворечивой с другими космологическими моделями её развития. "
https://3dnews.ru/1121381/nasha-vselennaya-vrashchaetsya-pokazalo-modelirovanie-i-eto-obyasnyaet-mnogoe
Хм, возможно, в будущем потянет на нобелевку.
"Преобладание одного направления вращения галактик может указывать на то, что вещество в пространстве до образования звёзд и галактик уже вращалось — и с предельно возможной скоростью, что также задало импульс вращения более сложной материи, появившейся во Вселенной. Но даже за 13,8 млрд лет своего существования Вселенная не успела совершить и одного полного оборота. На это могут уйти триллионы лет.
Строго говоря, в новой работе учёные не пытались создать максимально полную модель вращающейся Вселенной. Эта задача будет решаться на следующих этапах исследований. Пока они лишь продемонстрировали влияние вращения Вселенной на постоянную Хаббла — величину, характеризующую скорость её расширения, которая остаётся одной из главных загадок современной космологии. Точнее, с помощью гипотезы о вращающейся Вселенной учёные попытались объяснить так называемую «напряжённость Хаббла» — расхождение между скоростью расширения Вселенной в раннюю эпоху и в современную.
Моделирование блестяще справилось с поставленной задачей. Если Вселенная действительно вращается, это может объяснить, почему скорость её расширения в первые миллионы лет была немного ниже, чем та, что наблюдается сегодня. Более того, модель вращающейся Вселенной остаётся непротиворечивой с другими космологическими моделями её развития. "
https://3dnews.ru/1121381/nasha-vselennaya-vrashchaetsya-pokazalo-modelirovanie-i-eto-obyasnyaet-mnogoe
3DNews - Daily Digital Digest
Наша Вселенная вращается, показало моделирование, и это объясняет многое
Легендарную фразу Галилео Галилея «И всё-таки она вертится!», якобы сказанную после суда инквизиции над ним за опровержение геоцентрической модели Солнечной системы, возможно, вскоре можно будет применить ко всей Вселенной.
#datasets
"Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».
Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.
Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей»."
https://3dnews.ru/1121452/vikipediya-vipustila-nabor-dannih-dlya-obucheniya-ii-chtobi-boti-ne-peregrugali-eyo-serveri
"Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».
Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.
Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей»."
https://3dnews.ru/1121452/vikipediya-vipustila-nabor-dannih-dlya-obucheniya-ii-chtobi-boti-ne-peregrugali-eyo-serveri
3DNews - Daily Digital Digest
«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом
Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным…
👍1
#automl #metaleraning
Очень понравилась эта лекция, без хвастовства, по делу, интересно.
https://www.youtube.com/watch?v=8YxIGdZHcUg
Очень понравилась эта лекция, без хвастовства, по делу, интересно.
https://www.youtube.com/watch?v=8YxIGdZHcUg
YouTube
Машинное обучение 2, лекция 14 — AutoML
Курс «Машинное обучение 2», ПМИ ФКН ВШЭ
Лектор — Дмитрий Симаков
Страничка курса: http://wiki.cs.hse.ru/Машинное_обучение_2
Все видео курса: https://www.youtube.com/playlist?list=PLEwK9wdS5g0p7A6gXsuXnLZpfrMyqrJKP
Лектор — Дмитрий Симаков
Страничка курса: http://wiki.cs.hse.ru/Машинное_обучение_2
Все видео курса: https://www.youtube.com/playlist?list=PLEwK9wdS5g0p7A6gXsuXnLZpfrMyqrJKP
#autogluon #automl
Эти товарищи реально слишком много хвалятся, но, если верить разработчикам lightghtautoml, глюон не в лидерах )
что понравилось:
ограничения на время инференса (!)
шаг пост-калибрации в конвейере (температурное шкалирование), такое вижу впервые в пакете automl
MultiModalPredictor (!)
Скоро его попробую на реальной задаче, вместе с Ламой.
https://www.youtube.com/watch?v=VAAITEds-28
Эти товарищи реально слишком много хвалятся, но, если верить разработчикам lightghtautoml, глюон не в лидерах )
что понравилось:
ограничения на время инференса (!)
шаг пост-калибрации в конвейере (температурное шкалирование), такое вижу впервые в пакете automl
MultiModalPredictor (!)
Скоро его попробую на реальной задаче, вместе с Ламой.
https://www.youtube.com/watch?v=VAAITEds-28
YouTube
AutoML Fall School 2022 - Hands-on tutorial AutoGluon
Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.
#at #fun
https://3dnews.ru/1121513/sredi-polzovateley-chatgpt-zavirusilas-novaya-zabava-poisk-mestopologeniya-po-foto
https://3dnews.ru/1121513/sredi-polzovateley-chatgpt-zavirusilas-novaya-zabava-poisk-mestopologeniya-po-foto
3DNews - Daily Digital Digest
Среди пользователей ChatGPT завирусилась новая забава — поиск местоположения по фото
На этой неделе OpenAI выпустила новейшие модели искусственного интеллекта o3 и o4-mini, способные рассуждать, используя загружаемые пользователями фотографии.
#dask #polars #duckdb
Что-то не верю я этим тестам. поларс медленнее даска? Да когда такое было? И как вдруг чудесным образом у даска заработал оптимизатор, если синтаксис вызовов не поменялся? У поларс то он возможен, потому что синтаксис операций на фрейме совсем другой.
https://www.youtube.com/watch?v=qyvLJ2LvKLc
Что-то не верю я этим тестам. поларс медленнее даска? Да когда такое было? И как вдруг чудесным образом у даска заработал оптимизатор, если синтаксис вызовов не поменялся? У поларс то он возможен, потому что синтаксис операций на фрейме совсем другой.
https://www.youtube.com/watch?v=qyvLJ2LvKLc
YouTube
Pandas + Dask DataFrame 2.0 - Comparison to Spark, DuckDB and Polars [PyCon DE & PyData Berlin 2024]
🔊 Recorded at PyCon DE & PyData Berlin 2024, 23.04.2024
https://2024.pycon.de/program/N9DEVW/
🎓 Watch how Dask DataFrame 2.0's improved performance and new features compare to Spark, DuckDB, and Polars, offering a faster and more robust system for big data…
https://2024.pycon.de/program/N9DEVW/
🎓 Watch how Dask DataFrame 2.0's improved performance and new features compare to Spark, DuckDB, and Polars, offering a faster and more robust system for big data…
#religion
Мне нравилась ориентация папы Франциска на скромность и помощь бедным.
https://www.youtube.com/watch?v=gK-IzvROdwA
Мне нравилась ориентация папы Франциска на скромность и помощь бедным.
https://www.youtube.com/watch?v=gK-IzvROdwA
YouTube
Папа Римский Франциск умер | Кем он был и как будут выбирать следующего (English sub) @Max_Katz
Заказать худи «До завтра» и книгу «История новой России»: https://history-books.co
21 апреля умер Папа Римский Франциск. Его жизнь не была такой, какую обычно ведут в его сане, а его смерть запустила механизм, который определит будущее католической церкви…
21 апреля умер Папа Римский Франциск. Его жизнь не была такой, какую обычно ведут в его сане, а его смерть запустила механизм, который определит будущее католической церкви…
#healthcare #medicine #timeseries #wavelets
Интересно, как CWT хорошо зашло в качестве дискриминирующего признака.
https://www.youtube.com/watch?v=xzKlTcUhsh8
Интересно, как CWT хорошо зашло в качестве дискриминирующего признака.
https://www.youtube.com/watch?v=xzKlTcUhsh8
YouTube
Tomasz Melcer: Extracting repetitive features from biomedical time series: a case study
Contributed Talk at the PL in ML: Polish View on Machine Learning 2018 Conference (plinml.mimuw.edu.pl).
Abstract:
Application of machine learning methods to biomedical signals often requires extraction of features occurring in a fairly repetitive way.
This…
Abstract:
Application of machine learning methods to biomedical signals often requires extraction of features occurring in a fairly repetitive way.
This…