NEW BOT Телеграм, страница

Реальность:
- надоело ждать полного прогона тестов на CI, между делом спрятал некоторые долгие джобы под if, чтобы они триггерились только для релевантных изменений.

Потенциальный пост в Linkedin:
- Pioneered a transformative project as part of a company-wide infrastructure efficiency and cost optimization strategy, establishing a scalable model that achieved a sustainable 40% reduction in CI operational costs across the AI organization.

80 viewsAnatoly Alekseev, 18:50

Aspiring Data Science

Forwarded from partially unsupervised

Почти в каждом deep learning-based продукте, над которым я работал, на каком-то этапе где-то сбоку появляется небольшая линейная модель, обучаемая отдельно, иногда даже на классических фичах. Она, конечно, не может решать основную сложную задачу, но внезапно сильно помогает с каким-нибудь корнеркейсом. Например:
- определять резкую смену контекста (и необходимость сбросить стейт),
- детектить потенциальные ошибки или аномалии,
- слегка уточнять результаты сложного пайплайна,
- роутить инпут между компонентами,
- заполнять недостающий параметр, если в API вдруг не приходит какое-то поле, а менять что-то на клиенте слишком дорого,
- подсвечивать потенциальные проблемы человекам in the loop.

Этой модели никогда нет в изначальном дизайне: если проблема была бы заметна изначально, она бы зачастую решалась элегантнее - например, добавлением дополнительной головы в основную модель. Она появляется, когда все вроде почти работает, и не хватает совсем чуть-чуть.

Вот сейчас у меня есть матрица расстояний в чем-то вроде матчинга, и нужно оценивать уверенность матча, потому что иногда лучше ответить ничего, чем неправильно. Сначала берешь собственно дистанцию, потом хочется добавить еще пару эвристик типа расстояния до second best кандидата, их нужно как-то взвешивать... Так что не надо брезговать классикой, и умение выжать лишний процент из линейной модели все еще полезно.

75 viewsAnatoly Alekseev, 18:51

Aspiring Data Science

Forwarded from partially unsupervised

Наткнулся на пост Top Python libraries of 2024, и набор библиотек в очередной раз затрагивает давно наболевшие топики:

1) несовершенство языка и пакетного менеджера (uv вместо pip, Whenever как лучший datetime, streamable как альтернатива встроенным коллекциям, очередной генератор/валидатор типов...);
2) все низкоуровневые штуки продолжают переписывать на rust;
3) главная проблема и в LLM-driven мире осталась все той же - перегонять данные из формата в формат, только к привычным HTML/JSON/markdown/датаклассам добавляются попытки сделать LLM-native форматы (BAML), LLM-native датаклассы (PydanticAI) etc.

Правда, из всего списка сколько-то массовый адопшен случился пока только у uv.

87 viewsAnatoly Alekseev, 18:51

Aspiring Data Science

#hardware #inference

"В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood. Это уже седьмое поколение ИИ-процессоров компании и первый TPU, оптимизированный для инференса — работы уже обученных ИИ-моделей. Процессор будет использоваться в Google Cloud и поставляться в системах двух конфигураций: серверах из 256 таких процессоров и кластеров из 9216 таких чипов.

Анонс Ironwood состоялся на фоне усиливающейся конкуренции в сегменте разработок проприетарных ИИ-ускорителей. Хотя Nvidia доминирует на этом рынке, свои технологические решения также продвигают Amazon и Microsoft. Первая разработала ИИ-процессоры Trainium, Inferentia и Graviton, которые используются в её облачной инфраструктуре AWS, а Microsoft применяет собственные ИИ-чипы Cobalt 100 в облачных инстансах Azure.

Ironwood обладает пиковой вычислительной производительностью 4614 Тфлопс или 4614 триллионов операций в секунду. Таким образом кластер из 9216 таких чипов предложит производительность в 42,5 Экзафлопс.

Каждый процессор оснащён 192 Гбайт выделенной оперативной памяти с пропускной способностью 7,4 Тбит/с. Также чип включает усовершенствованное специализированное ядро SparseCore для обработки типов данных, распространённых в рабочих нагрузках «расширенного ранжирования» и «рекомендательных систем» (например, алгоритм, предлагающий одежду, которая может вам понравиться). Архитектура TPU оптимизирована для минимизации перемещения данных и задержек, что, по утверждению Google, приводит к значительной экономии энергии.

Компания планирует использовать Ironwood в своём модульном вычислительном кластере AI Hypercomputer в составе Google Cloud."

https://3dnews.ru/1121018/google-predstavila-svoy-samiy-moshchniy-iiprotsessor-ironwood-do-46-kvadrilliona-operatsiy-v-sekundu

3DNews - Daily Digital Digest

Google представила свой самый мощный ИИ-процессор Ironwood — до 4,6 квадриллиона операций в секунду

В рамках конференции Cloud Next на этой неделе компания Google представила новый специализированный ИИ-чип Ironwood. Это уже седьмое поколение ИИ-процессоров компании и первый TPU, оптимизированный для инференса — работы уже обученных ИИ-моделей. Процессор…

90 viewsAnatoly Alekseev, 00:43

Aspiring Data Science

#criminology

Почему бы и да!

"Министерство юстиции Великобритании ведёт разработку алгоритма, предназначенного для выявления людей, которые могут стать убийцами. В рамках «Проекта по прогнозированию убийств» (Homicide Prediction Project) используются данные британской полиции — вероятно, включая информацию о жертвах, свидетелях и подозреваемых."

https://3dnews.ru/1121002/osoboe-mnenie-stalo-realnostyu-britanskie-vlasti-sozdadut-algoritm-dlya-poiska-potentsialnih-ubiyts

3DNews - Daily Digital Digest

«Особое мнение» стало реальностью: британские власти создадут алгоритм для поиска потенциальных убийц

Министерство юстиции Великобритании ведёт разработку алгоритма, предназначенного для выявления людей, которые могут стать убийцами.

🤡1

105 viewsAnatoly Alekseev, 00:46

Aspiring Data Science

#chess

https://www.youtube.com/watch?v=bdaFWqG8VHI

YouTube

INCREDIBLE Game! GM Daniel Naroditsky vs GM Markus Ragger

INCREDIBLE Game! GM Daniel Naroditsky vs GM Markus Ragger 05.02.2025

GM Daniel Naroditsky young and very talented chess streamer played online chess with a strong chess player GM Markus Ragger in the tournament Titled Tuesday on the platform chess.com

…

102 viewsAnatoly Alekseev, 00:46

Aspiring Data Science

#timeseries

Неглубокий, но качественный доклад. Из интересного: лаги для комбинаций категорией, кастомные лоссы для бустинга. Оптуна и Шап.

https://www.youtube.com/watch?v=MF3ZNET89F0

YouTube

Optimizing Ad Conversions with DS / Yael Kiselman (DigitalTurbine)

DigitalTurbine is a leading brand in the mobile advertising industry.
In this talk Yael Kiselman (DS at DigitalTurbine) would share a few tips and tricks optimizing mobile app recommendation on the DT On-Device product.
Yael would share:
- The use of XGBoost…

171 viewsAnatoly Alekseev, edited 06:28

Aspiring Data Science

#weather #meteorology

https://www.youtube.com/watch?v=o808OnudGRk

YouTube

MIT on Chaos and Climate: From Determinism to Probability in Numerical Weather Prediction

MIT on Chaos and Climate is a two-day centenary celebration of Jule Charney and Ed Lorenz.

Speaker: Tim Palmer, Royal Society Research Professor, University of Oxford

Find out more: https://eapsweb.mit.edu/news/2018/celebration-two-pioneers-modern-meteorology

96 viewsAnatoly Alekseev, edited 07:11

Aspiring Data Science

#polars #deltalake #deltars

По сути, deltalake - это субд на паркетных файлах и поларсе, с версионированием изменений и time travel.
Есть компактификация/речанкинг маленьких файлов, "бесшовная" работа с облаком, даже ADIC транзакции.

https://youtu.be/ZIrq9GsN2HM?si=SPDEsBoqvQVxZnBO

YouTube

Liam Brannigan - Build simple & scalable data pipelines with Polars & DeltaLake | PyData Global 2024

www.pydata.org

Data scientists in the real world have to manage messy datasets that evolve over time. New data must be added, old data must be removed and changes to columns must be handled gracefully. Furthermore, many real world datasets grow from a size…

103 viewsAnatoly Alekseev, edited 12:08

Aspiring Data Science

#polars

https://www.youtube.com/watch?v=u5mIDz5ldmI

YouTube

Why I Switched From Pandas to Polars | TDE Workshop

In this workshop, Ben breaks down the 3 reasons he has permanently switched from Pandas to Polars and goes through a demo with code.

Led by: Ben Feifke

More Resources
TDS Article: https://medium.com/towards-data-science/the-3-reasons-why-i-have-permanently…

95 viewsAnatoly Alekseev, 15:17

Aspiring Data Science

#polars

Тонкость, что maintain_order предпочтительное пост-сортировки в group_by.

https://youtu.be/CJ0f45evuME

92 viewsAnatoly Alekseev, edited 02:04

Aspiring Data Science

#pandas #dask #polars

Интересное сравнительное тестирjвание, в т.ч пандаса с разными бэкендами - нампай и эрроу, + с Copy On Write. Про dask-expr я даже не знал.

https://www.youtube.com/watch?v=IGgh9Aj9qiE

YouTube

Ian Ozsvald & Giles Weaver - Pandas 2, Dask or Polars? Tackling larger data on a single machine

www.pydata.org

Pandas 2 brings new Arrow data types, faster calculations and better scalability. Dask scales Pandas across cores and recently released a new "expressions" optimization for faster computations. Polars is a new competitor to Pandas designed…

108 viewsAnatoly Alekseev, edited 02:39

Aspiring Data Science

#polars #books

Вот есть явно хорошая книжка, "Effective Polars: Optimized Data Manipulation".

Уже даже пройтись по примерам кода очень полезно, покрывает, наверное, 85% информации из книги.

Можно узнать про такие способности поларс:

>>> def standardize(col):
...   return (col - col.mean()) / col.std()

>>> print(autos
...   .filter(standardize(pl.col('city08')) > 3)
...   .select(['year', 'make', 'model', 'VClass', 'city08'])
... )


More Filtering with Window Expressions
>>> print(autos
...  .with_columns(
...      model_age=(pl.col('year').max() - pl.col('year').min())
...                 .over('model'))
... )

>>> print(autos
...  .select(pl.all().is_null().mean() * 100)
... )


>>> print(autos
...  .with_columns(pl.col('make').cast(pl.String))
...  .sort(by=pl.col('make').str.len_chars())
... )


...  .filter(~pl.all_horizontal(pl.col('devil', 'snake').is_null()))
...  .plot(x='datetime', y=['devil', 'snake'], rot=45, noscript='Gage Height', 
...        width=1800, height=600)


Using XGBoost to Predict Mileage
>>> import polars.selectors as cs
>>> X = (autos
...  .select(cs.numeric() - cs.matches('(city08|highway08)'))
... )
>>> y = (autos.select(pl.col('city08')))

https://www.amazon.com/Effective-Polars-Optimized-Manipulation-Treading

GitHub

effective_polars_book/polars-github.ipynb at main · mattharrison/effective_polars_book

Code and materials for Effective Polars book. Contribute to mattharrison/effective_polars_book development by creating an account on GitHub.

136 viewsAnatoly Alekseev, 03:45

Aspiring Data Science

#polars #patito #mlops

https://youtu.be/emrMc85jJ4A?si=onmWLqSOcK5Db5AD

YouTube

How to Validate Polars DataFrames with Patito

118 viewsAnatoly Alekseev, edited 07:10

Aspiring Data Science

#jobs

https://www.youtube.com/watch?v=X0PYfLTka7A

YouTube

PyData Boston March 2025 Meetup | Best practices for hiring data scientists

www.pydata.org

PyData is an educational program of NumFOCUS, a 501(c)3 non-profit organization in the United States. PyData provides a forum for the international community of users and developers of data analysis tools to share ideas and learn from each…

125 viewsAnatoly Alekseev, 18:12

Aspiring Data Science

#animals

"Благодаря десятилетиям подводных записей исследователям удалось связать некоторые базовые действия с определёнными звуками. Например, им удалось выявить характерные свисты, которые, по-видимому, используются как имена, что позволяет двум особям находить друг друга на большом расстоянии. Дельфины также постоянно издают звуковые паттерны, названные учёными «пронзительный крик», во время конфликтов.

Конечная цель WDP — заговорить на дельфиньем языке, если он действительно существует. Это стремление привело к созданию огромного, тщательно размеченного набора данных, который слишком трудоёмок для анализа человеком, но, по словам Google, идеально подходит для обработки с помощью генеративного ИИ.

Генеративная ИИ-модель DolphinGemma основана на открытых моделях искусственного интеллекта Gemma от Google. Она использует разработанную Google аудиотехнологию SoundStream. Модель была обучена с использованием акустического архива проекта Wild Dolphin. Команда надеется, что DolphinGemma поможет выявить сложные закономерности, которые позволят создать общий словарь.

DolphinGemma работает так же, как языковые модели, ориентированные на человека: она получает запрос и предсказывает следующий токен. Учёные полагают, что эти предсказанные токены могут оказаться звуковыми последовательностями, которые будут поняты дельфинами."

https://3dnews.ru/1121267/google-sozdala-iimodel-dolphingemma-dlya-obshcheniya-s-delfinami

3DNews - Daily Digital Digest

Google создала ИИ-модель DolphinGemma для общения с дельфинами

Дельфины считаются одними из самых умных существ на планете.

113 viewsAnatoly Alekseev, 18:17

Aspiring Data Science

#polars

Книжка сама не очень, кстати, я читал. Собственно, и доклад не блещет инсайтами, зато приводится профит от перехода на поларс в конкретно взятом проекте. Расходы на расчёты снизились с 120 до 4 тыс баксов.

https://www.youtube.com/watch?v=B2Ljp2Fb-l0

YouTube

Janssens & Nieuwdorp - What we learned by converting a large codebase from Pandas to Polars

www.pydata.org

In this talk, we'll share our experience of converting a substantial data processing codebase from Pandas to Polars. We’ll discuss the motivations behind the switch, the challenges faced during the transition, and the significant performance…

117 viewsAnatoly Alekseev, edited 02:50

Aspiring Data Science

#featureselection #shap #shapselect

Типа несколько новый подход к отбору признаков.

То же RFCE, на авторы почему-то скромно выделяют свой подход прямо в отдельный класс.

Фишка в том, что по shap-значениям признаков на таргет строится отдельная регрессия. Признаки с незначимымы или отрицательными коэф-тами этой регрессии удаляются. Мне пока неясно, какие это даёт преимущества по сравнению просто с расчётом среднего и отклонений шап-значений признаков по всем примерам.

"Экспериментальная проверка", которую эти мощные учёные проводят в конце статьи, по глубине, достоверности и ширине охвата сравнима со школьным экспериментом по пуканью на зажигалку - один датасет, одна модель, один сид.

Но, может, я чего-то не понимаю, и это крутая идея?

https://www.youtube.com/watch?v=pmqvyrIyB_8

119 viewsAnatoly Alekseev, edited 05:02

Aspiring Data Science

#jobs

https://www.youtube.com/watch?v=ra8UhlWOwqI

YouTube

5 удаленок на $10-15к изнутри за 5 лет: собесы, процессы, дэйлики, команды, задачи, скиллы, код

Чем занимаются гоферы на удаленках, где платят $10-15к в месяц? Ответ в этом видео на примере 5 моих контрактов за последние 5 лет. В 4-х из этих 5 компаний я все еще работал в 2024 году.

Мой клуб АйТи Красавчиков: https://boosty.to/itkrasavchik - подключайся…

111 viewsAnatoly Alekseev, 13:50

Aspiring Data Science

#astronomy

Хм, возможно, в будущем потянет на нобелевку.

"Преобладание одного направления вращения галактик может указывать на то, что вещество в пространстве до образования звёзд и галактик уже вращалось — и с предельно возможной скоростью, что также задало импульс вращения более сложной материи, появившейся во Вселенной. Но даже за 13,8 млрд лет своего существования Вселенная не успела совершить и одного полного оборота. На это могут уйти триллионы лет.

Строго говоря, в новой работе учёные не пытались создать максимально полную модель вращающейся Вселенной. Эта задача будет решаться на следующих этапах исследований. Пока они лишь продемонстрировали влияние вращения Вселенной на постоянную Хаббла — величину, характеризующую скорость её расширения, которая остаётся одной из главных загадок современной космологии. Точнее, с помощью гипотезы о вращающейся Вселенной учёные попытались объяснить так называемую «напряжённость Хаббла» — расхождение между скоростью расширения Вселенной в раннюю эпоху и в современную.

Моделирование блестяще справилось с поставленной задачей. Если Вселенная действительно вращается, это может объяснить, почему скорость её расширения в первые миллионы лет была немного ниже, чем та, что наблюдается сегодня. Более того, модель вращающейся Вселенной остаётся непротиворечивой с другими космологическими моделями её развития. "

https://3dnews.ru/1121381/nasha-vselennaya-vrashchaetsya-pokazalo-modelirovanie-i-eto-obyasnyaet-mnogoe

3DNews - Daily Digital Digest

Наша Вселенная вращается, показало моделирование, и это объясняет многое

Легендарную фразу Галилео Галилея «И всё-таки она вертится!», якобы сказанную после суда инквизиции над ним за опровержение геоцентрической модели Солнечной системы, возможно, вскоре можно будет применить ко всей Вселенной.

102 viewsAnatoly Alekseev, 03:00

Aspiring Data Science

#datasets

"Wikimedia объявил о заключении партнёрского соглашения с Kaggle, ведущей платформой для специалистов в области Data Science и машинного обучения, принадлежащей Google. В рамках соглашения на ней будет опубликована бета-версия набора данных «структурированного контента “Википедии” на английском и французском языках».

Согласно Wikimedia, набор данных, размещённый Kaggle, был «разработан с учётом рабочих процессов машинного обучения», что упрощает разработчикам ИИ доступ к машиночитаемым данным статей для моделирования, тонкой настройки, сравнительного анализа, выравнивания и анализа. Содержимое набора данных имеет открытую лицензию. По состоянию на 15 апреля набор включает в себя обзоры исследований, краткие описания, ссылки на изображения, данные инфобоксов и разделы статей — за исключением ссылок или неписьменных элементов, таких как аудиофайлы.

Как сообщает Wikimedia, «хорошо структурированные JSON-представления контента “Википедии”», доступные пользователям Kaggle, должны быть более привлекательной альтернативой «скрейпингу или анализу сырого текста статей»."

https://3dnews.ru/1121452/vikipediya-vipustila-nabor-dannih-dlya-obucheniya-ii-chtobi-boti-ne-peregrugali-eyo-serveri

3DNews - Daily Digital Digest

«Википедия» выпустила набор данных для обучения ИИ, чтобы боты не перегружали её серверы скрейпингом

Фонд Wikimedia (некоммерческая организация, управляющая «Википедией») предложил компаниям вместо веб-скрейпинга контента «Википедии» с помощью ботов, который истощает её ресурсы и перегружает серверы трафиком, воспользоваться набором данных, специально оптимизированным…

👍1

98 viewsAnatoly Alekseev, 17:50

About

Blog

Apps

Platform