Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#godmother

"Известный специалист по компьютерным наукам Фэй-Фэй Ли (Fei-Fei Li), которую называют «крёстной матерью искусственного интеллекта», основала стартап World Labs, который всего за четыре месяца своего существования достиг оценки более миллиарда долларов.

Фэй-Фэй Ли известна своим вкладом в компьютерное зрение — область ИИ, посвящённую помощи машинам в интерпретации и понимании визуальной информации. Она возглавляла разработку ImageNet — обширной визуальной базы данных, используемой для исследований в области распознавания визуальных объектов. С 2017 по 2018 год Ли руководила отделом ИИ в Google Cloud, а в настоящее время консультирует рабочую группу Белого дома по ИИ."

Чего? Кто её называет «крёстной матерью искусственного интеллекта»? Впервые слышу это ФИО. А вы?

https://3dnews.ru/1108120/noviy-startap-kryostnoy-materi-ii-otsenili-v-1-milliard-dollarov
💯1
#opticloud #mlperf #tabularml

Новости по проекту. Немного затормозил с оптимизированным сохранением результатов инвентаризации системы в базу, но в итоге всё работает как и планировалось - данные быстро дедуплицируются и эффективно хранятся, используется кэш "железной" детализации.

Улучшил парсинг dmidecode и lscpu. Добавил сохранение battery_info, power_plan, large_pages_support (всё кросс-платформенно).

Начал крутить тесты, и тут вылезли интересные детали. Как меня и предупреждали, тайминги обучения модели (даже относительные, например, катбуст CPU vs катбуст GPU) оказались сильно зависимы не только от типа задачи (к примеру, регрессия vs мультирегрессия), но и от размера датасета (разница от 2 до 5 раз).

(Кстати, пришлось некоторые гиперпараметры жёстко прописать, типа border_count= 128,learning_rate=0.1 для катбуста, если этого не сделать, по умолчанию в CPU-режиме border_count будет назначен вдвое выше, и будет казаться, что CPU-версия еще медленнее, чем она есть. а learning_rate при её неуказывании вообще подбирается адаптивно и во многом случайно.)

Скорее всего, обнаружатся такие гиперпараметры, которые будут сильно сдвигать соотношения таймингов CPU vs GPU, но тут ничего не сделать, кроме как запускать тест в 3 вариантах (small, medium, big) и, возможно, в нескольких наиболее часто используемых конфигах (но каких?).

Главное, чтобы соотношения таймингов не сдвигались по железу. Попытаюсь это проверить, думаю сгенерить какую-то детерминированную россыпь гиперпараметров и по ней пройтись на нескольких разных машинах. Если соотношения (в разбивке по HP) между машинами примерно сохранятся, норм.
👍2
#hardware #benchmarking #dl

"Deep learning is a field with intense computational requirements, and your choice of GPU will fundamentally determine your deep learning experience. But what features are important if you want to buy a new GPU? GPU RAM, cores, tensor cores, caches? How to make a cost-efficient choice? This blog post will delve into these questions, tackle common misconceptions, give you an intuitive understanding of how to think about GPUs, and will lend you advice, which will help you to make a choice that is right for you."

Не знал про Tensor Memory Accelerator (TMA). Кстати, весьма странно, что Nvidia не даёт возможности программно запросить количество набортных Tensor Cores и RT cores (хотя десятки других параметров доступны через Cuda API). Зажрались!

https://timdettmers.com/2023/01/30/which-gpu-for-deep-learning/
#cloud #aws #tuning

Оказывается, некоторые облачные машины можно затюнить под конкретную вычислительную задачу по P- и C- состояниям.

"In this example, vCPUs 21 and 28 are running at their maximum Turbo Boost frequency because the other cores have entered the C6 sleep state to save power and provide both power and thermal headroom for the working cores. vCPUs 3 and 10 (each sharing a processor core with vCPUs 21 and 28) are in the C1 state, waiting for instruction.

In the following example, all 18 cores are actively performing work, so there is no headroom for maximum Turbo Boost, but they are all running at the "all core Turbo Boost" speed of 3.2 GHz.


You can reduce the variability of processor frequency with P-states. P-states control the desired performance (in CPU frequency) from a core. Most workloads perform better in P0, which requests Turbo Boost. But you may want to tune your system for consistent performance rather than bursty performance that can happen when Turbo Boost frequencies are enabled.

Intel Advanced Vector Extensions (AVX or AVX2) workloads can perform well at lower frequencies, and AVX instructions can use more power. Running the processor at a lower frequency, by disabling Turbo Boost, can reduce the amount of power used and keep the speed more consistent. For more information about optimizing your instance configuration and workload for AVX."

https://docs.aws.amazon.com/linux/al2/ug/processor_state_control.html
#pytorch #benchmarking #dl

TorchBench: Benchmarking PyTorch with High API Surface Coverage

В статье рассматриваются (на базе сравнений производительности подзадач) интересные аспекты разработки моделек в pytorch, в частности, недозагрузка GPU, Nvidia vs AMD, преимущества TorchInductor и TF32, etc.

В частности, показано, что в среднем задачи RL (в их популярных реализациях) загружают GPU всего на 10%, что аттрибутируется "взаимодействию с окружением". Я как знал, что объектно-ориентированный RL-код это ужасный тормоз.

https://arxiv.org/pdf/2304.14226
#shap

Что получается, если самому реализовать расчёт значений Шэпли в ML с помощью "наивного" определения (как взвешенной суммы разностей вкладов коалиций с- и без- признака). Особенно интересно сравнение с библиотекой shap по части коррелированных признаков.

https://edden-gerber.github.io/shapley-part-2/
1
#shap

Кстати, хорошая новость. Пару лет тому я сообщал, что библиотека shap заброшена, автор забил на неё болт. Многое изменилось! У него хватило совести поручить развитие активистам, и сейчас активно релизятся новые версии. Не обошлось и без ломающих изменений, к сожалению, но так гораздо лучше, чем никак.

Работа с багрепортами осталась дрянная.

https://shap.readthedocs.io/en/latest/release_notes.html
🔥21
#directml #microsoft

Узнал, что у MS есть directml:

"DirectML is a low-level hardware abstraction layer that enables you to run machine learning workloads on any DirectX 12 compatible GPU.

If you need to optimize your machine learning performance for real-time, high-performance, low-latency, or resource-constrained scenarios, DirectML gives you the most control and flexibility. You can use DirectML to integrate machine learning directly into your existing engine or rendering pipeline, or to build your own custom machine learning frameworks and middleware on Windows.

You can also use DirectML indirectly through the ONNX Runtime, which is a cross-platform library that supports the open standard ONNX format for machine learning models. The ONNX Runtime can use DirectML as one of its execution providers, along with other backends such as CPU, CUDA, or TensorRT. This way, you can leverage the performance and compatibility of DirectML without writing any DirectML code yourself."

Есть интеграция с torch.

https://learn.microsoft.com/en-us/windows/ai/directml/dml
#neuralink

"Семь лет назад Арбо пережил несчастный случай, получил повреждение спинного мозга и оказался парализован, а в январе 2024 года стал первым добровольцем, которому установили имплант Neuralink — он по беспроводному каналу передаёт команды из мозга на компьютер. Чтобы отдать команду, Ноланд представляет движение, которое хочет совершить — устройство получает сигналы мозга и переводит их в команды, причём оно дополнительно обучается. В какой-то момент работа с устройством вышла на новый уровень: если раньше пользователь пытался совершить движение, чтобы курсор его повторил, то сейчас просто думает, чтобы тот двигался, и курсор ему подчиняется. «Я больше не пытаюсь совершить само движение, чтобы курсор двигался, я лишь думаю о том, чтобы он двигался, и он движется», — рассказывает подопытный.

Также Арбо поделился своим мнением касательно того, что многие электроды устройства Neuralink в его голове сместились и перестали снимать сигналы в процессе использования. Несмотря на первоначальные трудности, связанные с отходом электродов от мозга, Арбо отмечает значительный прогресс после проведенной перенастройки устройства. По словам подопытного, хотя в настоящее время функционирует лишь около 15 % электродов, эффективность импланта заметно возросла по сравнению с тем, что было в начале. «Сейчас я способен на гораздо большее, чем в начале эксперимента. Это просто сносит крышу», — подчеркнул он.

Энтузиазм Арбо распространяется и на будущее технологии. Он предполагает, что если у следующих участников эксперимента удастся достичь полной или почти полной активации электродов, это может открыть совершенно новые возможности. В целом, Арбо остается оптимистичным и воодушевленным результатами эксперимента, подчеркивая, что даже при текущих ограничениях технология демонстрирует впечатляющий потенциал."

https://3dnews.ru/1108484/perviy-polzovatel-mozgovogo-implanta-neuralink-rasskazal-o-gizni-s-nim
🔥3
#codegems

Смотрю и поражаюсь - как же можно такой говнокод писать?
😭1
#yellowbrick

Либа yellowbrick с красивыми и полезными визулизациями для DS. Мне понравились Cook’s Distance, Class Balance, Parallel Coordinates, Feature Dropping Curves, Missing Values Bar.

"The Yellowbrick library is a diagnostic visualization platform for machine learning that allows data scientists to steer the model selection process. Yellowbrick extends the Scikit-Learn API with a new core object: the Visualizer. Visualizers allow visual models to be fit and transformed as part of the Scikit-Learn Pipeline process, providing visual diagnostics throughout the transformation of high dimensional data."

https://www.scikit-yb.org/en/latest/tutorial.html
1
#pycaret

pycaret - ещё одна удобная либа для машинного обучения. Проанализирует датасет, разобъёт признаки на группы, проведёт препроцессинг, обработает пропуски. Всё настраивается.

В одну строчку на итоговом датасете можно обучить много моделек (включая современные градиентные бустинги) и посмотреть их сравнительные метрики, затюнить гиперпараметры (можно использовать оптуну), сделать простое (даже слишком простое) ансамблирование. Поддерживается логирование экспериментов (mlflow etc).

Я не уверен пока, поддерживается ли симметричное early stopping. Очень понравился их Fairness Report, я изобретал сам нечто похожее, а тут у них уже есть готовенькое и красивое.
Можно даже одним вызовом создать API для инференса, докер контейнер, и якобы даже развернуть в облаке (не тестил).

https://www.youtube.com/watch?v=gRGVwNggMX0
👍3