NEW BOT Телеграм, страница

Aspiring Data Science

Кто пользовался средним Тьюки? https://ru.wikipedia.org/wiki/%D0%A1%D1%80%D0%B5%D0%B4%D0%BD%D0%B5%D0%B5_%D0%A2%D1%8C%D1%8E%D0%BA%D0%B8

Anonymous Poll

Приходилось пользоваться, было полезно

10%

Приходилось пользоваться, ничего не дало

10%

Знаю про эту концепцию, но не использовали на практике

Знал[а] про заборы Тьюки, но не про среднее

80%

Кто такой Тьюки?

10 voters58 views17:08

Aspiring Data Science

Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)

Python & ML tasks
Задачи по Python и машинному обучению

Today I want to share with you a telegram channel which will help you retain your knowledge of python and maybe learn something new.

Every day a question is posted and you can answer it using the quiz under the question.
If your answer is wrong, you can find out the correct one and read the explanation.

#armknowledgesharing #armtelegram #python

56 views19:01

Aspiring Data Science

Forwarded from New Yorko Times (Yury Kashnitsky)

Книга про ML собеседования
#ml #books #career #interview

Дочитал драфт книги Chip Huyen про ML интервью https://huyenchip.com/ml-interviews-book

Чип https://twitter.com/chipro - незаурядная личность: популярная вьетнамская писательница, выпускница Стэнфорда, поработала в NVIDIA, Netflix и паре стартапов, сейчас свой тащит и преподает ML system design. Я делал обзор на ее книгу Designing Machine Learning Systems» тут https://news.1rj.ru/str/new_yorko_times/43

Книга про интервью рассматривает виды работы в области ML (research, applied science, ML engineering), мл сисдиз и MLOps (это по сути краткая выжимка упомянутой выше книги). Далее обсуждаются типы интервью, поведенческие тоже, что говорить и что нет. Далее - что делать с оффером, как переговариваться, как устроена компенсация оплаты в бигтехе. Рассматриваются ресурсы для подготовки (одсовцы найдут целых две пасхалки в части 4.2 про блоги и 4.3.1 про курсы) и наконец, добрая половина книги - это список вопросов к собесам по математике, CS и ML.

X (formerly Twitter)

Chip Huyen (@chipro) on X

AI Engineering: https://t.co/94dv4uTU1H
Designing ML Sys: https://t.co/G81hL2dWmr
Entanglements: https://t.co/W27aXeiySY
@aisysbooks

👍2

46 views14:58

Aspiring Data Science

Forwarded from There will be no singularity

❤1

48 views16:54

Aspiring Data Science

#stats #informationtheory #sklearn #bollocks

Я сильно верил во взаимную информацию, потому что сам много лет назад делал её расчёты, и у меня были прекрасные результаты. Но как же это понятие изгадили в sklearn... У меня просто глаза на лоб полезли от этой "реализации". Позапускайте несколько раз:

mutual_info_regression(
np.arange(10).reshape(-1, 1),
(np.arange(10) * 2).ravel(),
)
reported a bug

GitHub

Proposal to change default value of n_neighbors in mutual_info_regression · Issue #25580 · scikit-learn/scikit-learn

Describe the bug Hi, recently I figured out that for short sequences default value of 3 is way too unstable and gives poor results. Don't know the reasons why 3 was used, my testing shows t...

👍1

73 viewsedited 22:38

Aspiring Data Science

#ml #sklearn #quasitolerance #bollocks

Sklearn продолжает отжигать. В новой версии они удалили датасет Бостон из-за какой-то надуманной херни. А ведь на него завязана уже было куча примеров в сторонних либах. BorutaShap вообще при импорте сломался.

"load_boston has been removed from scikit-learn since version 1.2.

The Boston housing prices dataset has an ethical problem: as
investigated in [1], the authors of this dataset engineered a non-invertible variable "B" assuming that racial self-segregation had a
positive impact on house prices [2]. Furthermore the goal of the
research that led to the creation of this dataset was to study the
impact of air quality but it did not give adequate demonstration of the validity of this assumption.

The scikit-learn maintainers therefore strongly discourage the use of this dataset unless the purpose of the code is to study and educate about ethical issues in data science and machine learning."

Что на очереди? BreastCancer, потому что там нет данных мужиков и геев? А все ли цвета радуги есть в ирисах Фишера, может, лучше их тоже удалить во избежание?

👀2😁1

67 viewsedited 11:20

Aspiring Data Science

#cpu #arm #hpc #ml #graviton

Всё ещё считаешь на Интелях, в лучшем случае, на АМД? Оказывается, ARM-процессор Graviton уже рвёт старичков на куски в compute-intensive задаах, в т.ч. ML.

https://community.arm.com/arm-community-blogs/b/infrastructure-solutions-blog/posts/xgboost-lightgbm-aws-graviton3

56 viewsedited 02:25

Aspiring Data Science

#AWS #EC2

https://www.nakivo.com/blog/the-definitive-guide-to-aws-ec2-instance-types/

А вообще, вот путеводитель по типам инстансов в Amazon AWS. Тут можно получить машинки с 24Tb RAM. 448 vCPUs, десятками TB SSD/NVME/HDD. Для ML интересны ускорители Inferentia, Trainium (аналог гугловских TPU) для Deep Learning, DL1 (Gaudi), F1 (FPGA). Ни одну из этих диковинок я ещё не пробовал, кто знает, отпишитесь, как они? Работал лишь на серверах p4d с ускорителями А100 (см пикчу). Кстати, а где H100, почему их ещё нет?

PS. В гугл клауд, помнится, есть сервера с ещё большим числом vCPU. Хотелось бы сравнить этот новый Trainium с TPUv3. НА годовалом DL проекте у меня TPU выходил в полтора раза дешевле, чем сервер на A100. Но tensorflow тогда имел проблемы с огромными динамическими графами, и пришлось всё же обучаться на A100, не знаю, исправлено ли это уже.

58 viewsedited 02:45

Aspiring Data Science

Forwarded from DevFM

Классные pre-commit хуки

Мы уже рассказывали, что на всех проектах используем утилиту pre-commit с линтерами. Но её можно настроить на другие полезные штуки. Нашли репозиторий с различными pre-commit хуками.

Нам показались интересными:
– проверка на добавление больших файлов в репозиторий. Бывает полезно, чтобы случайно что-то большое и лишнее не закомитить
– проверить, что исполняемые файлы содержат шебанг
– проверить корректность json-, toml-, xml-файлов
– проверить, что у файлов с тестами корректные названия. Это особенно важно, когда тесты автоматически прогоняются в CI/CD-пайплайнах
– проверить, что нигде случайно не комитятся секреты. Это частая проблема, когда в репозиториях находят какие-нибудь переменные окружения SECRET_KEY

Список не ограничивается перечисленным, загляните в репозиторий, может обнаружите что-то интересное для себя.
#skills

DevFM

Pre-commit — must have утилита любого проекта

Бывает смотришь на код и сразу видно, что код плохой. Признаков может быть множество:
— разные куски кода по-разному отформатированы
— импорты в файлах никак не структурированы
— используются вперемешку синтаксис…

❤2

50 views15:19

Aspiring Data Science

https://3dnews.ru/1081582/poiskovik-microsoft-bing-so-vstroennim-iibotom-chatgpt-stal-dostupen-obichnim-polzovatelyam

3DNews - Daily Digital Digest

Поисковик Microsoft Bing со встроенным ИИ-ботом ChatGPT стал доступен обычным пользователям, но с ограничениями

Microsoft запустила сегодня обновлённый поисковик Bing, который теперь наделён искусственным интеллектом.

50 views21:55

Aspiring Data Science

https://3dnews.ru/1081553/arm-narastila-prodagi-i-zaplanirovala-ipo

3DNews - Daily Digital Digest

Выручка Arm взлетела на 28 % — компания готовится выйти на биржу в этом году

Входящая в конгломерат SoftBank Group компания Arm, специализирующаяся на разработке процессорных архитектур и ядер, сообщила о росте выручки в минувшем квартале на 28 % по сравнению с тем же периодом прошлого года, а также о подготовке к первичному публичному…

51 views21:59

Aspiring Data Science

#sklearn #ml #timeseries #cv #retrainfrequency

О недостатке sklearn-овской реализации TimeSeriesSplit. Важной частью работы дата сайентиста является обучение моделек на данных, имеющих временное измерение. В них нельзя применить простое Kfold разбиение на группы, т.к. обучение "на будущем" в реальном использовании невозможно, а в кросс-валидацию внесёт оптимистичное смещение (bias, data leak). Поэтому почти всегда с такими данными используется вариация TimeSeriesSplit, в базовой версии имеющей сигнатуру (n_splits=5, *, max_train_size=None, test_size=None, gap=0). Минимальный размер трейна тут всегда равен размеру теста (что логично), максимальный может регулироваться параметром. gap позволяет делать разрывы между фолдами, чтобы нивелировать влияние корреляции между концом трейна и началом теста (и совсем избежать пресловутого смещения). В целом мощная функция, правда, есть недочёт. На больших данных каждый fit идёт очень долго и стоит дорого, а predict быстр и дёшев. А предсказания мы делаем всего лишь на текущий test, хотя могли бы делать на все оставшиеся данные. Для чего последнее могло бы понадобиться? А чтобы посмотреть, как долго держится предсказательная сила модели, и сделать вывод о требуемой частоте переобучения. Например, пройти по такому "длинному предикту" скользящим окном в неделю, месяц, полгода, и в рамках окна уже считать нужные метрики (точность, полноту, RMSE, к примеру). Этого можно добиться, субклассировав TimeSeriesSplit и расширяя её test_index, либо написав свою cross_validate и вызывая метод split() самостоятельно.

✍1👍1🔥1

98 views03:49

Aspiring Data Science

Как для задач DS в экосистеме Питона извлечь кубический корень для нормализации признака с выбросами, который к тому же может принимать негативные значения?

Anonymous Quiz

33%

df[var]**(1/3)

11%

Предыдущее не сработает, только np.pow(df[var],1/3)

11%

Предыдущее не сработает, только np.cbrt(df[var],1/3)

44%

Предыдущее не сработает, только np.cbrt(df[var])

9 voters52 views10:37

Aspiring Data Science

https://3dnews.ru/1081573/umer-avraam-lempel-sozdatel-tehnologii-sgatiya-dannih-stavshey-osnovoy-mp3-i-pdf

"Лемпель совместно с израильским математиком Яаковом Зивом написал научные работы на тему алгоритмов сжатия данных в 1977 и 1978 годах. Описанный в их работах алгоритм получил название алгоритма Лемпеля-Зива, а семейство алгоритмов получило обозначение LZ. Разработки учёных легли в основу нескольких форматов сжатия данных, включая PNG, ZIP и GIF, а также сыграли ключевую роль в создании формата PDF для документов."

3DNews - Daily Digital Digest

Умер Авраам Лемпель — создатель алгоритма сжатия данных, ставшего основой GIF, ZIP и PDF

В Израиле в возрасте 86 лет умер Авраам Лемпель, один из создателей алгоритма сжатия данных, который стал основой для форматов файлов PDF, ZIP, PNG и других.

❤1

50 views12:18

Aspiring Data Science

https://3dnews.ru/1081599/rukovoditelyam-srednego-zvena-v-meta-predlogili-vernutsya-k-neposredstvennoy-rabote-ili-uyti

С этого поржал. Больше боссы по-прежнему слишком важные, чтобы работать, а вот середнячкам дали понять, что просто так их кормить больше не собираются, надо что-то полезное начать делать )

3DNews - Daily Digital Digest

Руководителям среднего звена в Meta✴ предложили вернуться к непосредственной работе или уйти

В рамках программы по повышению эффективности компания Meta Platforms обратилась к сотрудникам на менеджерских и директорских должностях с предложением вернуться к исполнению непосредственных рабочих обязанностей или уволиться.

😁2

55 views12:19

Aspiring Data Science

"Рост интереса к умным устройствам обусловлен трендом на цифровизацию и автоматизацию домашнего пространства, а также расширением ассортимента и удешевлением устройств. Вместе с тем, уровень проникновения потребительских IoT-устройств в России по-прежнему значительно меньше, чем в Европе и США — менее 4 % против 35 % в американских домохозяйствах в третьем квартале 2022 года (по данным Edison Research)."

https://3dnews.ru/1081628/naibolshey-populyarnostyu-u-rossiyan-sredi-ustroystv-dlya-umnogo-doma-polzuyutsya-umnie-kolonki-i-robotipilesosi

3DNews - Daily Digital Digest

Россияне стали покупать больше устройств для умного дома — самыми популярными являются умные колонки и роботы-пылесосы

В России начали расти продажи потребительских устройств для умного дома, пишут «Ведомости» со ссылкой на данные экспертов, хотя уровень проникновения таких гаджетов всё ещё отстаёт от европейского и американского.

❤1

58 views16:34

Aspiring Data Science

#music #fishing #lindemann

Тилль в своём репертуаре )

Catching ladies is my delight
So I go fishing by shiny night
Doesn't matter black or blond
I threw my worm into the pond
Water, water in the sea
Bring your creatures up to me
I pull them up, release my spawn
Fish on
Water, water, soaky cloud
Help me get your creatures out
Let them come release my spawn
Fish on
It smells like fish, I take a sniff
The bait is fresh, my rod is stiff
The hook is big, made from steel
I put some grease upon my reel
Some are bigger, some are small
I don't care, I catch them all

https://www.youtube.com/watch?v=qPrsbYxSY1k&ab_channel=MUSICALWORLD

YouTube

LINDEMANN FISH ON (OFFICIAL AUDIO)

CANCION FISH ON
ARTISTA LINDEMANN
ALBUM SKILLS IN PILLS
AÑO 2015
COMPOSITORES TILL LINDEMANN AND PETER TAGTGREN
DISCOGRAFICA (WARNER MUSIC GROUP GERMANY AND WARNER MUSIC GROUP COMPANY)

😁2

61 viewsedited 18:25

Aspiring Data Science

#re #conceptart #games

https://3dnews.ru/1081659/insayder-pokazal-kontsept-arty-otmenyonnoy-versii-resident-evil-7-s-leonom-i-vodyanymi-monstrami

3DNews - Daily Digital Digest

Инсайдер показал концепт-арты отменённой версии Resident Evil 7 — с Леоном и водяными монстрами

Инсайдер AestheticGamer (он же Dusk Golem) обнаружил в блоге украинского художника по концептам Сергея Калинина иллюстрации к отменённой версии хоррора от первого лица Resident Evil 7 — так называемой Resident Evil 6.

🔥1

54 views20:42

Aspiring Data Science

#showmethecode

Казалось бы, зачем вам тензор Формена - Риччи?...

https://www.youtube.com/watch?v=gUNWHrSxbBY

YouTube

Colleen M. Farrelly - Geometry for Social Good | PyData Global 2022

www.pydata.org

Lightning Talks are short 5-10 minute sessions presented by community members on a variety of interesting topics.

PyData is an educational program of NumFOCUS, a 501(c)3 non-profit organization in the United States. PyData provides a forum…

55 viewsedited 16:00

Aspiring Data Science

https://3dnews.ru/1081702/roscosmos-100-kosmicheskih-zapuskov-podryad

«46 стартов выполнено с космодрома Байконур, 36 — с Плесецка, по девять — с космодрома Восточный и из Гвианского космического центра», — говорится в сообщении «Роскосмоса».

82 успешных запуска пришлись на семейство ракет «Союз», 11 — на ракеты-носители Протон-М», также были осуществлены четыре пуска «Ангары» и три пуска ракет-носителей «Рокот».

3DNews - Daily Digital Digest

Роскосмос выполнил 100 успешных космических запусков подряд — это новый рекорд

Госкорпорация «Роскосмос» совершила 100 успешных космических запусков подряд с 2018 года, сообщает официальный Telegram-канал российского космического ведомства.

❤1

51 views16:14

Aspiring Data Science

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Давно хотела посоветовать свой любимый подкаст про технологии, и вчера они как раз дали повод это сделать - выпустили эпизод про нашу любимую модель:

https://zapuskzavtra.libsyn.com/chatgpt
В выпуске рассказывается про темы, связанные не только с ChatGPT, но и с GPT-2/3. В том числе затронута тема стартапов, которые используют доступ к этим моделям через API в своих продуктах. Рассказчик-гость эпизода ранее работал в Replica в роли Head of AI и поэтому имеет свою собственную историю на эту тему, с которой я прооралась. 😂 То, как подошли к обсуждению вопроса наличия сознания у больших моделей в начале выпуска мне, правда, не очень понравилось, но, так и быть, в этот раз душнить не буду!
А вот еще несколько моих любимых выпусков:

https://zapuskzavtra.libsyn.com/-iphone
В этом выпуске рассказывается про то, как изготавливаются современные процессоры. Я слушала его, когда ехала на работу в автобусе, но к середине прослушивания автобус вокруг словно исчез, а я как бы оказалась в научно-фантатическом фильме, настолько увлекательно и красочно описаны все эти сверх-чистые лаборатории и сверх-точные технологические процессы. Кроме того, меня поразила длина и хрупкость производственных цепочек, через которые чип проходит прежде чем оказаться в компьютере или телефоне.

https://zapuskzavtra.libsyn.com/h4zvpz8xv3cv
Послушав этот выпуск, я, наконец, немножко поняла, что такое квантовые компьютеры и запутанность (в моем базовом курсе квантмеха в универе до этого не дошло). Очень заинтересовало то, что квантовые вычисления на протяжении последних десятилетий преодолели уже несколько препятствующих их развитию барьеров один за другим, что в эту тему все больше инвестируют большие корпорации, а также то, что Google уже начал вводить для каких-то вещей постквантовые алгоритмы шифрования. Думаю, это аргументы в пользу того, чтобы следить за новостями в этой области. Чем черт не шутит, может быть лет через десять-пятнадцать настанет пора переквалифицироваться в квантового MLщика. 🤔

https://zapuskzavtra.libsyn.com/ouyk5ev41yzr
История развития журнала "Хакер". Во время прослушивания не покидала ностальгия по нулевым, когда я находила этот журнал в библиотеках и читала истории из него, воображая себе как вырасту и взломаю Пентагон (вопрос "зачем" подростковвй мозг себе не задавал). А если удавалось накопить на покупку "Хакера" в ларьке вместе с диском, это была большая радость, ведь на этих дисках можно было найти множество полезных утилит, а иногда и дистрибутив какой-нибудь ОС - Линукса или FreeBSD.

https://zapuskzavtra.libsyn.com/k15wwhke3n5s
https://zapuskzavtra.libsyn.com/arse0vj75ds0
Ну и на засыпку еще два общеобразовательных выпуска - про то, как устроены Интернет и Сотовая связь. Естественно, все изложение сдобрено интересными рассказиками и прикольными историями из практики рассказчиков, работа которых как раз очень тесно связана с тематиками выпусков.

В описании к эпизодам часто можно найти ссылки на дополнительные статьи и материалы. А еще подкаст есть в Яндекс музыке и на Apple Подкастах.

#подкасты #учебные_материалы

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

45 views20:16

About

Blog

Apps

Platform