NEW BOT Телеграм, страница

Aspiring Data Science

https://www.youtube.com/watch?v=iKW-WQO1d1A

#ml #timeseries #nixtla

Хочу потестить эту Никстлу, кто-нить уже пробовал?

YouTube

NixtlaVerse, bridging the gap between statistics and deep learning for time series | PyData NYC 2022

Time-series modeling – analysis, and prediction of trends and seasonalities for data collected over time – is a rapidly growing category of software applications.

Businesses, ranging from finance to healthcare analytics, collect time-series data daily to…

106 viewsedited 14:40

Aspiring Data Science

Forwarded from NOdata Миша

Посмотрел, что умеет Notion и написал об этом на vc

Если статья окажется для вас интересной, то не забудьте поставить ей лайк 👍

https://vc.ru/future/599192-notion-ai-iskusstvennyy-intellekt-uzhe-i-v-zametkah

#статьи

vc.ru

Notion AI. Искусственный интеллект уже и в заметках — Будущее на vc.ru

Сегодня, когда я зашел Notion, то увидел это

❤1

59 views15:49

Aspiring Data Science

Forwarded from Вастрик.Пынь

🤖 ChatGPT. Когда уже нейросети наконец-то заменят кожаных ублюдков?

Много меня просили написать свои мысли по поводу ChatGPT. Написал пока три.

1. ChatGPT заменит людей, но только тех, которые не осилят сам ChatGPT. А для остальных он станет просто ежедневным компаньоном (уже стал)

2. «Большие дядьки» обосрутся и побегут скорее запрещать и ограничивать нейросети. А у простых людей прокачается новый скилл: детектор, что перед тобой нейросеть

3. Да, поисковики умрут, но не потому что ChatGPT их заменит

Развернул тут: https://vas3k.blog/notes/chatgpt/

😁1

46 views15:50

Aspiring Data Science

#numpy #stats #percentile

А Вы задумывались, что вообще-то для вычисления перцентилей/квантилей есть КУЧА методов? По дефолту идёт линейный, но в доках в общем случае для неизвестного распределения рекомендуется median_unbiased.

Облом состоит в том, что numba параметр method не поддерживает.

👍1

61 viewsedited 23:28

Aspiring Data Science

https://www.johndcook.com/blog/2009/06/23/tukey-median-ninther/

#stats #tukey #ninther

Как эффективно вычислять медиану: взгляд из 1978.

John D. Cook | Applied Mathematics Consulting

John Tukey's median of medians | ninther

Yesterday I got an email from Jestin Abraham asking a question about Tukey's "median of medians" paper from 1978. (The full noscript is "The Ninther, a Technique for Low-Effort Robust (Resistant) Location in Large Samples.") Jestin thought I might be familiar…

60 views02:54

Aspiring Data Science

#entropy #antropy #stats #informationtheory

Ботанам, которые любят считать энтропию, пригодится!

https://raphaelvallat.com/antropy/build/html/index.html

✍2

57 views09:27

Aspiring Data Science

#stats #r2

Удивительное рядом. При разных наклонах линии регрессии коэффициент детерминации для по сути одного и того же ряда варьируется от 0 до 0.9! Кто знал, что так бывает, ставьте необычный эмодзи )

https://stats.stackexchange.com/questions/519784/linear-regression-r-squared-vs-slope

☃2🌚1🆒1

55 viewsedited 17:00

Aspiring Data Science

Кто пользовался средним Тьюки? https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%B5_%D0%A2%D1%8C%D1%8E%D0%BA%D0%B8

Anonymous Poll

Приходилось пользоваться, было полезно

10%

Приходилось пользоваться, ничего не дало

10%

Знаю про эту концепцию, но не использовали на практике

Знал[а] про заборы Тьюки, но не про среднее

80%

Кто такой Тьюки?

10 voters58 views17:08

Aspiring Data Science

Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)

Python & ML tasks
Задачи по Python и машинному обучению

Today I want to share with you a telegram channel which will help you retain your knowledge of python and maybe learn something new.

Every day a question is posted and you can answer it using the quiz under the question.
If your answer is wrong, you can find out the correct one and read the explanation.

#armknowledgesharing #armtelegram #python

56 views19:01

Aspiring Data Science

Forwarded from New Yorko Times (Yury Kashnitsky)

Книга про ML собеседования
#ml #books #career #interview

Дочитал драфт книги Chip Huyen про ML интервью https://huyenchip.com/ml-interviews-book

Чип https://twitter.com/chipro - незаурядная личность: популярная вьетнамская писательница, выпускница Стэнфорда, поработала в NVIDIA, Netflix и паре стартапов, сейчас свой тащит и преподает ML system design. Я делал обзор на ее книгу Designing Machine Learning Systems» тут https://news.1rj.ru/str/new_yorko_times/43

Книга про интервью рассматривает виды работы в области ML (research, applied science, ML engineering), мл сисдиз и MLOps (это по сути краткая выжимка упомянутой выше книги). Далее обсуждаются типы интервью, поведенческие тоже, что говорить и что нет. Далее - что делать с оффером, как переговариваться, как устроена компенсация оплаты в бигтехе. Рассматриваются ресурсы для подготовки (одсовцы найдут целых две пасхалки в части 4.2 про блоги и 4.3.1 про курсы) и наконец, добрая половина книги - это список вопросов к собесам по математике, CS и ML.

X (formerly Twitter)

Chip Huyen (@chipro) on X

AI Engineering: https://t.co/94dv4uTU1H
Designing ML Sys: https://t.co/G81hL2dWmr
Entanglements: https://t.co/W27aXeiySY
@aisysbooks

👍2

46 views14:58

Aspiring Data Science

Forwarded from There will be no singularity

❤1

48 views16:54

Aspiring Data Science

#stats #informationtheory #sklearn #bollocks

Я сильно верил во взаимную информацию, потому что сам много лет назад делал её расчёты, и у меня были прекрасные результаты. Но как же это понятие изгадили в sklearn... У меня просто глаза на лоб полезли от этой "реализации". Позапускайте несколько раз:

mutual_info_regression(
np.arange(10).reshape(-1, 1),
(np.arange(10) * 2).ravel(),
)
reported a bug

GitHub

Proposal to change default value of n_neighbors in mutual_info_regression · Issue #25580 · scikit-learn/scikit-learn

Describe the bug Hi, recently I figured out that for short sequences default value of 3 is way too unstable and gives poor results. Don't know the reasons why 3 was used, my testing shows t...

👍1

73 viewsedited 22:38

Aspiring Data Science

#ml #sklearn #quasitolerance #bollocks

Sklearn продолжает отжигать. В новой версии они удалили датасет Бостон из-за какой-то надуманной херни. А ведь на него завязана уже было куча примеров в сторонних либах. BorutaShap вообще при импорте сломался.

"load_boston has been removed from scikit-learn since version 1.2.

The Boston housing prices dataset has an ethical problem: as
investigated in [1], the authors of this dataset engineered a non-invertible variable "B" assuming that racial self-segregation had a
positive impact on house prices [2]. Furthermore the goal of the
research that led to the creation of this dataset was to study the
impact of air quality but it did not give adequate demonstration of the validity of this assumption.

The scikit-learn maintainers therefore strongly discourage the use of this dataset unless the purpose of the code is to study and educate about ethical issues in data science and machine learning."

Что на очереди? BreastCancer, потому что там нет данных мужиков и геев? А все ли цвета радуги есть в ирисах Фишера, может, лучше их тоже удалить во избежание?

👀2😁1

67 viewsedited 11:20

Aspiring Data Science

#cpu #arm #hpc #ml #graviton

Всё ещё считаешь на Интелях, в лучшем случае, на АМД? Оказывается, ARM-процессор Graviton уже рвёт старичков на куски в compute-intensive задаах, в т.ч. ML.

https://community.arm.com/arm-community-blogs/b/infrastructure-solutions-blog/posts/xgboost-lightgbm-aws-graviton3

56 viewsedited 02:25

Aspiring Data Science

#AWS #EC2

https://www.nakivo.com/blog/the-definitive-guide-to-aws-ec2-instance-types/

А вообще, вот путеводитель по типам инстансов в Amazon AWS. Тут можно получить машинки с 24Tb RAM. 448 vCPUs, десятками TB SSD/NVME/HDD. Для ML интересны ускорители Inferentia, Trainium (аналог гугловских TPU) для Deep Learning, DL1 (Gaudi), F1 (FPGA). Ни одну из этих диковинок я ещё не пробовал, кто знает, отпишитесь, как они? Работал лишь на серверах p4d с ускорителями А100 (см пикчу). Кстати, а где H100, почему их ещё нет?

PS. В гугл клауд, помнится, есть сервера с ещё большим числом vCPU. Хотелось бы сравнить этот новый Trainium с TPUv3. НА годовалом DL проекте у меня TPU выходил в полтора раза дешевле, чем сервер на A100. Но tensorflow тогда имел проблемы с огромными динамическими графами, и пришлось всё же обучаться на A100, не знаю, исправлено ли это уже.

58 viewsedited 02:45

Aspiring Data Science

Forwarded from DevFM

Классные pre-commit хуки

Мы уже рассказывали, что на всех проектах используем утилиту pre-commit с линтерами. Но её можно настроить на другие полезные штуки. Нашли репозиторий с различными pre-commit хуками.

Нам показались интересными:
– проверка на добавление больших файлов в репозиторий. Бывает полезно, чтобы случайно что-то большое и лишнее не закомитить
– проверить, что исполняемые файлы содержат шебанг
– проверить корректность json-, toml-, xml-файлов
– проверить, что у файлов с тестами корректные названия. Это особенно важно, когда тесты автоматически прогоняются в CI/CD-пайплайнах
– проверить, что нигде случайно не комитятся секреты. Это частая проблема, когда в репозиториях находят какие-нибудь переменные окружения SECRET_KEY

Список не ограничивается перечисленным, загляните в репозиторий, может обнаружите что-то интересное для себя.
#skills

DevFM

Pre-commit — must have утилита любого проекта

Бывает смотришь на код и сразу видно, что код плохой. Признаков может быть множество:
— разные куски кода по-разному отформатированы
— импорты в файлах никак не структурированы
— используются вперемешку синтаксис…

❤2

50 views15:19

Aspiring Data Science

https://3dnews.ru/1081582/poiskovik-microsoft-bing-so-vstroennim-iibotom-chatgpt-stal-dostupen-obichnim-polzovatelyam

3DNews - Daily Digital Digest

Поисковик Microsoft Bing со встроенным ИИ-ботом ChatGPT стал доступен обычным пользователям, но с ограничениями

Microsoft запустила сегодня обновлённый поисковик Bing, который теперь наделён искусственным интеллектом.

50 views21:55

Aspiring Data Science

https://3dnews.ru/1081553/arm-narastila-prodagi-i-zaplanirovala-ipo

3DNews - Daily Digital Digest

Выручка Arm взлетела на 28 % — компания готовится выйти на биржу в этом году

Входящая в конгломерат SoftBank Group компания Arm, специализирующаяся на разработке процессорных архитектур и ядер, сообщила о росте выручки в минувшем квартале на 28 % по сравнению с тем же периодом прошлого года, а также о подготовке к первичному публичному…

51 views21:59

Aspiring Data Science

#sklearn #ml #timeseries #cv #retrainfrequency

О недостатке sklearn-овской реализации TimeSeriesSplit. Важной частью работы дата сайентиста является обучение моделек на данных, имеющих временное измерение. В них нельзя применить простое Kfold разбиение на группы, т.к. обучение "на будущем" в реальном использовании невозможно, а в кросс-валидацию внесёт оптимистичное смещение (bias, data leak). Поэтому почти всегда с такими данными используется вариация TimeSeriesSplit, в базовой версии имеющей сигнатуру (n_splits=5, *, max_train_size=None, test_size=None, gap=0). Минимальный размер трейна тут всегда равен размеру теста (что логично), максимальный может регулироваться параметром. gap позволяет делать разрывы между фолдами, чтобы нивелировать влияние корреляции между концом трейна и началом теста (и совсем избежать пресловутого смещения). В целом мощная функция, правда, есть недочёт. На больших данных каждый fit идёт очень долго и стоит дорого, а predict быстр и дёшев. А предсказания мы делаем всего лишь на текущий test, хотя могли бы делать на все оставшиеся данные. Для чего последнее могло бы понадобиться? А чтобы посмотреть, как долго держится предсказательная сила модели, и сделать вывод о требуемой частоте переобучения. Например, пройти по такому "длинному предикту" скользящим окном в неделю, месяц, полгода, и в рамках окна уже считать нужные метрики (точность, полноту, RMSE, к примеру). Этого можно добиться, субклассировав TimeSeriesSplit и расширяя её test_index, либо написав свою cross_validate и вызывая метод split() самостоятельно.

✍1👍1🔥1

98 views03:49

Aspiring Data Science

Как для задач DS в экосистеме Питона извлечь кубический корень для нормализации признака с выбросами, который к тому же может принимать негативные значения?

Anonymous Quiz

33%

df[var]**(1/3)

11%

Предыдущее не сработает, только np.pow(df[var],1/3)

11%

Предыдущее не сработает, только np.cbrt(df[var],1/3)

44%

Предыдущее не сработает, только np.cbrt(df[var])

9 voters52 views10:37

Aspiring Data Science

https://3dnews.ru/1081573/umer-avraam-lempel-sozdatel-tehnologii-sgatiya-dannih-stavshey-osnovoy-mp3-i-pdf

"Лемпель совместно с израильским математиком Яаковом Зивом написал научные работы на тему алгоритмов сжатия данных в 1977 и 1978 годах. Описанный в их работах алгоритм получил название алгоритма Лемпеля-Зива, а семейство алгоритмов получило обозначение LZ. Разработки учёных легли в основу нескольких форматов сжатия данных, включая PNG, ZIP и GIF, а также сыграли ключевую роль в создании формата PDF для документов."

3DNews - Daily Digital Digest

Умер Авраам Лемпель — создатель алгоритма сжатия данных, ставшего основой GIF, ZIP и PDF

В Израиле в возрасте 86 лет умер Авраам Лемпель, один из создателей алгоритма сжатия данных, который стал основой для форматов файлов PDF, ZIP, PNG и других.

❤1

50 views12:18

About

Blog

Apps

Platform