Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)
Python & ML tasks
Задачи по Python и машинному обучению

Today I want to share with you a telegram channel which will help you retain your knowledge of python and maybe learn something new.

Every day a question is posted and you can answer it using the quiz under the question.
If your answer is wrong, you can find out the correct one and read the explanation.

#armknowledgesharing #armtelegram #python
Forwarded from New Yorko Times (Yury Kashnitsky)
Книга про ML собеседования
#ml #books #career #interview

Дочитал драфт книги Chip Huyen про ML интервью https://huyenchip.com/ml-interviews-book

Чип https://twitter.com/chipro - незаурядная личность: популярная вьетнамская писательница, выпускница Стэнфорда, поработала в NVIDIA, Netflix и паре стартапов, сейчас свой тащит и преподает ML system design. Я делал обзор на ее книгу Designing Machine Learning Systems» тут https://news.1rj.ru/str/new_yorko_times/43

Книга про интервью рассматривает виды работы в области ML (research, applied science, ML engineering), мл сисдиз и MLOps (это по сути краткая выжимка упомянутой выше книги). Далее обсуждаются типы интервью, поведенческие тоже, что говорить и что нет. Далее - что делать с оффером, как переговариваться, как устроена компенсация оплаты в бигтехе. Рассматриваются ресурсы для подготовки (одсовцы найдут целых две пасхалки в части 4.2 про блоги и 4.3.1 про курсы) и наконец, добрая половина книги - это список вопросов к собесам по математике, CS и ML.
👍2
#stats #informationtheory #sklearn #bollocks

Я сильно верил во взаимную информацию, потому что сам много лет назад делал её расчёты, и у меня были прекрасные результаты. Но как же это понятие изгадили в sklearn... У меня просто глаза на лоб полезли от этой "реализации". Позапускайте несколько раз:

mutual_info_regression(
np.arange(10).reshape(-1, 1),
(np.arange(10) * 2).ravel(),
)
reported a bug
👍1
#ml #sklearn #quasitolerance #bollocks

Sklearn продолжает отжигать. В новой версии они удалили датасет Бостон из-за какой-то надуманной херни. А ведь на него завязана уже было куча примеров в сторонних либах. BorutaShap вообще при импорте сломался.

"load_boston has been removed from scikit-learn since version 1.2.

The Boston housing prices dataset has an ethical problem: as
investigated in [1], the authors of this dataset engineered a non-invertible variable "B" assuming that racial self-segregation had a
positive impact on house prices [2]. Furthermore the goal of the
research that led to the creation of this dataset was to study the
impact of air quality but it did not give adequate demonstration of the validity of this assumption.

The scikit-learn maintainers therefore strongly discourage the use of this dataset unless the purpose of the code is to study and educate about ethical issues in data science and machine learning."

Что на очереди? BreastCancer, потому что там нет данных мужиков и геев? А все ли цвета радуги есть в ирисах Фишера, может, лучше их тоже удалить во избежание?
👀2😁1
#cpu #arm #hpc #ml #graviton

Всё ещё считаешь на Интелях, в лучшем случае, на АМД? Оказывается, ARM-процессор Graviton уже рвёт старичков на куски в compute-intensive задаах, в т.ч. ML.

https://community.arm.com/arm-community-blogs/b/infrastructure-solutions-blog/posts/xgboost-lightgbm-aws-graviton3
#AWS #EC2

https://www.nakivo.com/blog/the-definitive-guide-to-aws-ec2-instance-types/

А вообще, вот путеводитель по типам инстансов в Amazon AWS. Тут можно получить машинки с 24Tb RAM. 448 vCPUs, десятками TB SSD/NVME/HDD. Для ML интересны ускорители Inferentia, Trainium (аналог гугловских TPU) для Deep Learning, DL1 (Gaudi), F1 (FPGA). Ни одну из этих диковинок я ещё не пробовал, кто знает, отпишитесь, как они? Работал лишь на серверах p4d с ускорителями А100 (см пикчу). Кстати, а где H100, почему их ещё нет?

PS. В гугл клауд, помнится, есть сервера с ещё большим числом vCPU. Хотелось бы сравнить этот новый Trainium с TPUv3. НА годовалом DL проекте у меня TPU выходил в полтора раза дешевле, чем сервер на A100. Но tensorflow тогда имел проблемы с огромными динамическими графами, и пришлось всё же обучаться на A100, не знаю, исправлено ли это уже.
Forwarded from DevFM
Классные pre-commit хуки

Мы уже рассказывали, что на всех проектах используем утилиту pre-commit с линтерами. Но её можно настроить на другие полезные штуки. Нашли репозиторий с различными pre-commit хуками.

Нам показались интересными:
– проверка на добавление больших файлов в репозиторий. Бывает полезно, чтобы случайно что-то большое и лишнее не закомитить
– проверить, что исполняемые файлы содержат шебанг
– проверить корректность json-, toml-, xml-файлов
– проверить, что у файлов с тестами корректные названия. Это особенно важно, когда тесты автоматически прогоняются в CI/CD-пайплайнах
– проверить, что нигде случайно не комитятся секреты. Это частая проблема, когда в репозиториях находят какие-нибудь переменные окружения SECRET_KEY

Список не ограничивается перечисленным, загляните в репозиторий, может обнаружите что-то интересное для себя.
#skills
2
#sklearn #ml #timeseries #cv #retrainfrequency

О недостатке sklearn-овской реализации TimeSeriesSplit. Важной частью работы дата сайентиста является обучение моделек на данных, имеющих временное измерение. В них нельзя применить простое Kfold разбиение на группы, т.к. обучение "на будущем" в реальном использовании невозможно, а в кросс-валидацию внесёт оптимистичное смещение (bias, data leak). Поэтому почти всегда с такими данными используется вариация TimeSeriesSplit, в базовой версии имеющей сигнатуру (n_splits=5, *, max_train_size=None, test_size=None, gap=0). Минимальный размер трейна тут всегда равен размеру теста (что логично), максимальный может регулироваться параметром. gap позволяет делать разрывы между фолдами, чтобы нивелировать влияние корреляции между концом трейна и началом теста (и совсем избежать пресловутого смещения). В целом мощная функция, правда, есть недочёт. На больших данных каждый fit идёт очень долго и стоит дорого, а predict быстр и дёшев. А предсказания мы делаем всего лишь на текущий test, хотя могли бы делать на все оставшиеся данные. Для чего последнее могло бы понадобиться? А чтобы посмотреть, как долго держится предсказательная сила модели, и сделать вывод о требуемой частоте переобучения. Например, пройти по такому "длинному предикту" скользящим окном в неделю, месяц, полгода, и в рамках окна уже считать нужные метрики (точность, полноту, RMSE, к примеру). Этого можно добиться, субклассировав TimeSeriesSplit и расширяя её test_index, либо написав свою cross_validate и вызывая метод split() самостоятельно.
1👍1🔥1
Как для задач DS в экосистеме Питона извлечь кубический корень для нормализации признака с выбросами, который к тому же может принимать негативные значения?
Anonymous Quiz
33%
df[var]**(1/3)
11%
Предыдущее не сработает, только np.pow(df[var],1/3)
11%
Предыдущее не сработает, только np.cbrt(df[var],1/3)
44%
Предыдущее не сработает, только np.cbrt(df[var])
https://3dnews.ru/1081573/umer-avraam-lempel-sozdatel-tehnologii-sgatiya-dannih-stavshey-osnovoy-mp3-i-pdf

"Лемпель совместно с израильским математиком Яаковом Зивом написал научные работы на тему алгоритмов сжатия данных в 1977 и 1978 годах. Описанный в их работах алгоритм получил название алгоритма Лемпеля-Зива, а семейство алгоритмов получило обозначение LZ. Разработки учёных легли в основу нескольких форматов сжатия данных, включая PNG, ZIP и GIF, а также сыграли ключевую роль в создании формата PDF для документов."
1
"Рост интереса к умным устройствам обусловлен трендом на цифровизацию и автоматизацию домашнего пространства, а также расширением ассортимента и удешевлением устройств. Вместе с тем, уровень проникновения потребительских IoT-устройств в России по-прежнему значительно меньше, чем в Европе и США — менее 4 % против 35 % в американских домохозяйствах в третьем квартале 2022 года (по данным Edison Research)."

https://3dnews.ru/1081628/naibolshey-populyarnostyu-u-rossiyan-sredi-ustroystv-dlya-umnogo-doma-polzuyutsya-umnie-kolonki-i-robotipilesosi
1
#music #fishing #lindemann

Тилль в своём репертуаре )

Catching ladies is my delight
So I go fishing by shiny night
Doesn't matter black or blond
I threw my worm into the pond
Water, water in the sea
Bring your creatures up to me
I pull them up, release my spawn
Fish on
Water, water, soaky cloud
Help me get your creatures out
Let them come release my spawn
Fish on
It smells like fish, I take a sniff
The bait is fresh, my rod is stiff
The hook is big, made from steel
I put some grease upon my reel
Some are bigger, some are small
I don't care, I catch them all

https://www.youtube.com/watch?v=qPrsbYxSY1k&ab_channel=MUSICALWORLD
😁2
https://3dnews.ru/1081702/roscosmos-100-kosmicheskih-zapuskov-podryad

«46 стартов выполнено с космодрома Байконур, 36 — с Плесецка, по девять — с космодрома Восточный и из Гвианского космического центра», — говорится в сообщении «Роскосмоса».

82 успешных запуска пришлись на семейство ракет «Союз», 11 — на ракеты-носители Протон-М», также были осуществлены четыре пуска «Ангары» и три пуска ракет-носителей «Рокот».
1
Давно хотела посоветовать свой любимый подкаст про технологии, и вчера они как раз дали повод это сделать - выпустили эпизод про нашу любимую модель:

https://zapuskzavtra.libsyn.com/chatgpt
В выпуске рассказывается про темы, связанные не только с ChatGPT, но и с GPT-2/3. В том числе затронута тема стартапов, которые используют доступ к этим моделям через API в своих продуктах. Рассказчик-гость эпизода ранее работал в Replica в роли Head of AI и поэтому имеет свою собственную историю на эту тему, с которой я прооралась. 😂 То, как подошли к обсуждению вопроса наличия сознания у больших моделей в начале выпуска мне, правда, не очень понравилось, но, так и быть, в этот раз душнить не буду!
А вот еще несколько моих любимых выпусков:

https://zapuskzavtra.libsyn.com/-iphone
В этом выпуске рассказывается про то, как изготавливаются современные процессоры. Я слушала его, когда ехала на работу в автобусе, но к середине прослушивания автобус вокруг словно исчез, а я как бы оказалась в научно-фантатическом фильме, настолько увлекательно и красочно описаны все эти сверх-чистые лаборатории и сверх-точные технологические процессы. Кроме того, меня поразила длина и хрупкость производственных цепочек, через которые чип проходит прежде чем оказаться в компьютере или телефоне.

https://zapuskzavtra.libsyn.com/h4zvpz8xv3cv
Послушав этот выпуск, я, наконец, немножко поняла, что такое квантовые компьютеры и запутанность (в моем базовом курсе квантмеха в универе до этого не дошло). Очень заинтересовало то, что квантовые вычисления на протяжении последних десятилетий преодолели уже несколько препятствующих их развитию барьеров один за другим, что в эту тему все больше инвестируют большие корпорации, а также то, что Google уже начал вводить для каких-то вещей постквантовые алгоритмы шифрования. Думаю, это аргументы в пользу того, чтобы следить за новостями в этой области. Чем черт не шутит, может быть лет через десять-пятнадцать настанет пора переквалифицироваться в квантового MLщика. 🤔

https://zapuskzavtra.libsyn.com/ouyk5ev41yzr
История развития журнала "Хакер". Во время прослушивания не покидала ностальгия по нулевым, когда я находила этот журнал в библиотеках и читала истории из него, воображая себе как вырасту и взломаю Пентагон (вопрос "зачем" подростковвй мозг себе не задавал). А если удавалось накопить на покупку "Хакера" в ларьке вместе с диском, это была большая радость, ведь на этих дисках можно было найти множество полезных утилит, а иногда и дистрибутив какой-нибудь ОС - Линукса или FreeBSD.

https://zapuskzavtra.libsyn.com/k15wwhke3n5s
https://zapuskzavtra.libsyn.com/arse0vj75ds0
Ну и на засыпку еще два общеобразовательных выпуска - про то, как устроены Интернет и Сотовая связь. Естественно, все изложение сдобрено интересными рассказиками и прикольными историями из практики рассказчиков, работа которых как раз очень тесно связана с тематиками выпусков.

В описании к эпизодам часто можно найти ссылки на дополнительные статьи и материалы. А еще подкаст есть в Яндекс музыке и на Apple Подкастах.

#подкасты #учебные_материалы
Please open Telegram to view this post
VIEW IN TELEGRAM
2