NEW BOT Телеграм, страница

Aspiring Data Science

#cpu #arm #hpc #ml #graviton

Всё ещё считаешь на Интелях, в лучшем случае, на АМД? Оказывается, ARM-процессор Graviton уже рвёт старичков на куски в compute-intensive задаах, в т.ч. ML.

https://community.arm.com/arm-community-blogs/b/infrastructure-solutions-blog/posts/xgboost-lightgbm-aws-graviton3

56 viewsedited 02:25

Aspiring Data Science

#AWS #EC2

https://www.nakivo.com/blog/the-definitive-guide-to-aws-ec2-instance-types/

А вообще, вот путеводитель по типам инстансов в Amazon AWS. Тут можно получить машинки с 24Tb RAM. 448 vCPUs, десятками TB SSD/NVME/HDD. Для ML интересны ускорители Inferentia, Trainium (аналог гугловских TPU) для Deep Learning, DL1 (Gaudi), F1 (FPGA). Ни одну из этих диковинок я ещё не пробовал, кто знает, отпишитесь, как они? Работал лишь на серверах p4d с ускорителями А100 (см пикчу). Кстати, а где H100, почему их ещё нет?

PS. В гугл клауд, помнится, есть сервера с ещё большим числом vCPU. Хотелось бы сравнить этот новый Trainium с TPUv3. НА годовалом DL проекте у меня TPU выходил в полтора раза дешевле, чем сервер на A100. Но tensorflow тогда имел проблемы с огромными динамическими графами, и пришлось всё же обучаться на A100, не знаю, исправлено ли это уже.

58 viewsedited 02:45

Aspiring Data Science

Forwarded from DevFM

Классные pre-commit хуки

Мы уже рассказывали, что на всех проектах используем утилиту pre-commit с линтерами. Но её можно настроить на другие полезные штуки. Нашли репозиторий с различными pre-commit хуками.

Нам показались интересными:
– проверка на добавление больших файлов в репозиторий. Бывает полезно, чтобы случайно что-то большое и лишнее не закомитить
– проверить, что исполняемые файлы содержат шебанг
– проверить корректность json-, toml-, xml-файлов
– проверить, что у файлов с тестами корректные названия. Это особенно важно, когда тесты автоматически прогоняются в CI/CD-пайплайнах
– проверить, что нигде случайно не комитятся секреты. Это частая проблема, когда в репозиториях находят какие-нибудь переменные окружения SECRET_KEY

Список не ограничивается перечисленным, загляните в репозиторий, может обнаружите что-то интересное для себя.
#skills

DevFM

Pre-commit — must have утилита любого проекта

Бывает смотришь на код и сразу видно, что код плохой. Признаков может быть множество:
— разные куски кода по-разному отформатированы
— импорты в файлах никак не структурированы
— используются вперемешку синтаксис…

❤2

50 views15:19

Aspiring Data Science

https://3dnews.ru/1081582/poiskovik-microsoft-bing-so-vstroennim-iibotom-chatgpt-stal-dostupen-obichnim-polzovatelyam

3DNews - Daily Digital Digest

Поисковик Microsoft Bing со встроенным ИИ-ботом ChatGPT стал доступен обычным пользователям, но с ограничениями

Microsoft запустила сегодня обновлённый поисковик Bing, который теперь наделён искусственным интеллектом.

50 views21:55

Aspiring Data Science

https://3dnews.ru/1081553/arm-narastila-prodagi-i-zaplanirovala-ipo

3DNews - Daily Digital Digest

Выручка Arm взлетела на 28 % — компания готовится выйти на биржу в этом году

Входящая в конгломерат SoftBank Group компания Arm, специализирующаяся на разработке процессорных архитектур и ядер, сообщила о росте выручки в минувшем квартале на 28 % по сравнению с тем же периодом прошлого года, а также о подготовке к первичному публичному…

51 views21:59

Aspiring Data Science

#sklearn #ml #timeseries #cv #retrainfrequency

О недостатке sklearn-овской реализации TimeSeriesSplit. Важной частью работы дата сайентиста является обучение моделек на данных, имеющих временное измерение. В них нельзя применить простое Kfold разбиение на группы, т.к. обучение "на будущем" в реальном использовании невозможно, а в кросс-валидацию внесёт оптимистичное смещение (bias, data leak). Поэтому почти всегда с такими данными используется вариация TimeSeriesSplit, в базовой версии имеющей сигнатуру (n_splits=5, *, max_train_size=None, test_size=None, gap=0). Минимальный размер трейна тут всегда равен размеру теста (что логично), максимальный может регулироваться параметром. gap позволяет делать разрывы между фолдами, чтобы нивелировать влияние корреляции между концом трейна и началом теста (и совсем избежать пресловутого смещения). В целом мощная функция, правда, есть недочёт. На больших данных каждый fit идёт очень долго и стоит дорого, а predict быстр и дёшев. А предсказания мы делаем всего лишь на текущий test, хотя могли бы делать на все оставшиеся данные. Для чего последнее могло бы понадобиться? А чтобы посмотреть, как долго держится предсказательная сила модели, и сделать вывод о требуемой частоте переобучения. Например, пройти по такому "длинному предикту" скользящим окном в неделю, месяц, полгода, и в рамках окна уже считать нужные метрики (точность, полноту, RMSE, к примеру). Этого можно добиться, субклассировав TimeSeriesSplit и расширяя её test_index, либо написав свою cross_validate и вызывая метод split() самостоятельно.

✍1👍1🔥1

98 views03:49

Aspiring Data Science

Как для задач DS в экосистеме Питона извлечь кубический корень для нормализации признака с выбросами, который к тому же может принимать негативные значения?

Anonymous Quiz

33%

df[var]**(1/3)

11%

Предыдущее не сработает, только np.pow(df[var],1/3)

11%

Предыдущее не сработает, только np.cbrt(df[var],1/3)

44%

Предыдущее не сработает, только np.cbrt(df[var])

9 voters52 views10:37

Aspiring Data Science

https://3dnews.ru/1081573/umer-avraam-lempel-sozdatel-tehnologii-sgatiya-dannih-stavshey-osnovoy-mp3-i-pdf

"Лемпель совместно с израильским математиком Яаковом Зивом написал научные работы на тему алгоритмов сжатия данных в 1977 и 1978 годах. Описанный в их работах алгоритм получил название алгоритма Лемпеля-Зива, а семейство алгоритмов получило обозначение LZ. Разработки учёных легли в основу нескольких форматов сжатия данных, включая PNG, ZIP и GIF, а также сыграли ключевую роль в создании формата PDF для документов."

3DNews - Daily Digital Digest

Умер Авраам Лемпель — создатель алгоритма сжатия данных, ставшего основой GIF, ZIP и PDF

В Израиле в возрасте 86 лет умер Авраам Лемпель, один из создателей алгоритма сжатия данных, который стал основой для форматов файлов PDF, ZIP, PNG и других.

❤1

50 views12:18

Aspiring Data Science

https://3dnews.ru/1081599/rukovoditelyam-srednego-zvena-v-meta-predlogili-vernutsya-k-neposredstvennoy-rabote-ili-uyti

С этого поржал. Больше боссы по-прежнему слишком важные, чтобы работать, а вот середнячкам дали понять, что просто так их кормить больше не собираются, надо что-то полезное начать делать )

3DNews - Daily Digital Digest

Руководителям среднего звена в Meta✴ предложили вернуться к непосредственной работе или уйти

В рамках программы по повышению эффективности компания Meta Platforms обратилась к сотрудникам на менеджерских и директорских должностях с предложением вернуться к исполнению непосредственных рабочих обязанностей или уволиться.

😁2

55 views12:19

Aspiring Data Science

"Рост интереса к умным устройствам обусловлен трендом на цифровизацию и автоматизацию домашнего пространства, а также расширением ассортимента и удешевлением устройств. Вместе с тем, уровень проникновения потребительских IoT-устройств в России по-прежнему значительно меньше, чем в Европе и США — менее 4 % против 35 % в американских домохозяйствах в третьем квартале 2022 года (по данным Edison Research)."

https://3dnews.ru/1081628/naibolshey-populyarnostyu-u-rossiyan-sredi-ustroystv-dlya-umnogo-doma-polzuyutsya-umnie-kolonki-i-robotipilesosi

3DNews - Daily Digital Digest

Россияне стали покупать больше устройств для умного дома — самыми популярными являются умные колонки и роботы-пылесосы

В России начали расти продажи потребительских устройств для умного дома, пишут «Ведомости» со ссылкой на данные экспертов, хотя уровень проникновения таких гаджетов всё ещё отстаёт от европейского и американского.

❤1

58 views16:34

Aspiring Data Science

#music #fishing #lindemann

Тилль в своём репертуаре )

Catching ladies is my delight
So I go fishing by shiny night
Doesn't matter black or blond
I threw my worm into the pond
Water, water in the sea
Bring your creatures up to me
I pull them up, release my spawn
Fish on
Water, water, soaky cloud
Help me get your creatures out
Let them come release my spawn
Fish on
It smells like fish, I take a sniff
The bait is fresh, my rod is stiff
The hook is big, made from steel
I put some grease upon my reel
Some are bigger, some are small
I don't care, I catch them all

https://www.youtube.com/watch?v=qPrsbYxSY1k&ab_channel=MUSICALWORLD

YouTube

LINDEMANN FISH ON (OFFICIAL AUDIO)

CANCION FISH ON
ARTISTA LINDEMANN
ALBUM SKILLS IN PILLS
AÑO 2015
COMPOSITORES TILL LINDEMANN AND PETER TAGTGREN
DISCOGRAFICA (WARNER MUSIC GROUP GERMANY AND WARNER MUSIC GROUP COMPANY)

😁2

61 viewsedited 18:25

Aspiring Data Science

#re #conceptart #games

https://3dnews.ru/1081659/insayder-pokazal-kontsept-arty-otmenyonnoy-versii-resident-evil-7-s-leonom-i-vodyanymi-monstrami

3DNews - Daily Digital Digest

Инсайдер показал концепт-арты отменённой версии Resident Evil 7 — с Леоном и водяными монстрами

Инсайдер AestheticGamer (он же Dusk Golem) обнаружил в блоге украинского художника по концептам Сергея Калинина иллюстрации к отменённой версии хоррора от первого лица Resident Evil 7 — так называемой Resident Evil 6.

🔥1

54 views20:42

Aspiring Data Science

#showmethecode

Казалось бы, зачем вам тензор Формена - Риччи?...

https://www.youtube.com/watch?v=gUNWHrSxbBY

YouTube

Colleen M. Farrelly - Geometry for Social Good | PyData Global 2022

www.pydata.org

Lightning Talks are short 5-10 minute sessions presented by community members on a variety of interesting topics.

PyData is an educational program of NumFOCUS, a 501(c)3 non-profit organization in the United States. PyData provides a forum…

55 viewsedited 16:00

Aspiring Data Science

https://3dnews.ru/1081702/roscosmos-100-kosmicheskih-zapuskov-podryad

«46 стартов выполнено с космодрома Байконур, 36 — с Плесецка, по девять — с космодрома Восточный и из Гвианского космического центра», — говорится в сообщении «Роскосмоса».

82 успешных запуска пришлись на семейство ракет «Союз», 11 — на ракеты-носители Протон-М», также были осуществлены четыре пуска «Ангары» и три пуска ракет-носителей «Рокот».

3DNews - Daily Digital Digest

Роскосмос выполнил 100 успешных космических запусков подряд — это новый рекорд

Госкорпорация «Роскосмос» совершила 100 успешных космических запусков подряд с 2018 года, сообщает официальный Telegram-канал российского космического ведомства.

❤1

51 views16:14

Aspiring Data Science

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Давно хотела посоветовать свой любимый подкаст про технологии, и вчера они как раз дали повод это сделать - выпустили эпизод про нашу любимую модель:

https://zapuskzavtra.libsyn.com/chatgpt
В выпуске рассказывается про темы, связанные не только с ChatGPT, но и с GPT-2/3. В том числе затронута тема стартапов, которые используют доступ к этим моделям через API в своих продуктах. Рассказчик-гость эпизода ранее работал в Replica в роли Head of AI и поэтому имеет свою собственную историю на эту тему, с которой я прооралась. 😂 То, как подошли к обсуждению вопроса наличия сознания у больших моделей в начале выпуска мне, правда, не очень понравилось, но, так и быть, в этот раз душнить не буду!
А вот еще несколько моих любимых выпусков:

https://zapuskzavtra.libsyn.com/-iphone
В этом выпуске рассказывается про то, как изготавливаются современные процессоры. Я слушала его, когда ехала на работу в автобусе, но к середине прослушивания автобус вокруг словно исчез, а я как бы оказалась в научно-фантатическом фильме, настолько увлекательно и красочно описаны все эти сверх-чистые лаборатории и сверх-точные технологические процессы. Кроме того, меня поразила длина и хрупкость производственных цепочек, через которые чип проходит прежде чем оказаться в компьютере или телефоне.

https://zapuskzavtra.libsyn.com/h4zvpz8xv3cv
Послушав этот выпуск, я, наконец, немножко поняла, что такое квантовые компьютеры и запутанность (в моем базовом курсе квантмеха в универе до этого не дошло). Очень заинтересовало то, что квантовые вычисления на протяжении последних десятилетий преодолели уже несколько препятствующих их развитию барьеров один за другим, что в эту тему все больше инвестируют большие корпорации, а также то, что Google уже начал вводить для каких-то вещей постквантовые алгоритмы шифрования. Думаю, это аргументы в пользу того, чтобы следить за новостями в этой области. Чем черт не шутит, может быть лет через десять-пятнадцать настанет пора переквалифицироваться в квантового MLщика. 🤔

https://zapuskzavtra.libsyn.com/ouyk5ev41yzr
История развития журнала "Хакер". Во время прослушивания не покидала ностальгия по нулевым, когда я находила этот журнал в библиотеках и читала истории из него, воображая себе как вырасту и взломаю Пентагон (вопрос "зачем" подростковвй мозг себе не задавал). А если удавалось накопить на покупку "Хакера" в ларьке вместе с диском, это была большая радость, ведь на этих дисках можно было найти множество полезных утилит, а иногда и дистрибутив какой-нибудь ОС - Линукса или FreeBSD.

https://zapuskzavtra.libsyn.com/k15wwhke3n5s
https://zapuskzavtra.libsyn.com/arse0vj75ds0
Ну и на засыпку еще два общеобразовательных выпуска - про то, как устроены Интернет и Сотовая связь. Естественно, все изложение сдобрено интересными рассказиками и прикольными историями из практики рассказчиков, работа которых как раз очень тесно связана с тематиками выпусков.

В описании к эпизодам часто можно найти ссылки на дополнительные статьи и материалы. А еще подкаст есть в Яндекс музыке и на Apple Подкастах.

#подкасты #учебные_материалы

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

45 views20:16

Aspiring Data Science

#programming #dry #solid
Изучаю код сторонних библиотек, дабы прокачать свой уровень. Код поражает красотой и эффективностью.

😁1

49 views20:21

Aspiring Data Science

#LudovicoTechnique

Every day I'm poisoned
By the lies I tell myself
Every day I'm poisoned
By the truth that I once held
Every day I'm waking
In the hope of something else
Every day I'm poisoned
By the lies I tell myself

https://www.youtube.com/watch?v=GTn5Y3igJIY&t=40s&ab_channel=LudovicoTechnique-Topic

YouTube

Poisoned

Provided to YouTube by TuneCore

Poisoned · Ludovico Technique

Poisoned

℗ 2021 Antipathy

Released on: 2021-05-24

Auto-generated by YouTube.

🔥1

50 views23:08

Aspiring Data Science

#codegems #python #pandas

Продолжаю изучать распространённые ML либы. Репозиторий с 1300 звёздами, 226 форками и 90 коммитами. Знаете, как проверить, что перед вами именно датафрейм Пандас? Правильно, надо получить его values, заставив его сформировать единый ndarray. Так и представляю себе это для 50Гб датасета в конвейере. Чувак, ты же написал такой сложный модуль для высокопроизводительного ML, ты чего, об isinstance(x, pd.DataFrame) не слышал? А если у тебя детальнее покопаться, что ещё всплывёт?

😁3🔥1

61 viewsedited 00:42

Aspiring Data Science

#programming #ml #codequality

Вообще вот моё краткое заключение по ведущим питоновским ML библам для explainability (Shape) и feature selection (BorutaPy, BorutaShap): код оставляет желать лучшего, нечитаем, неоптимален, иногда и вообще с ошибками, автор не понимает, что и зачем делает. Для принятия решений используются устаревшие статметоды (спасибо, что поправки Бонферрони есть, но могли бы и иерархический Байес завезти). А ведь это лучшее, что есть. А вы чем пользуетесь?

😢4👎1

57 viewsedited 00:52

Aspiring Data Science

https://www.youtube.com/watch?v=wiGkV37Kbxk&ab_channel=PyData

#python #factorial #optimization #kogansums #neumeiersums #partialsums

Шок-контент! На вычислении факториалов экономят с помощью теории групп!

YouTube

Raymond Hettinger: Numerical Marvels Inside Python - Keynote | PyData Tel Aviv 2022

Bio:
Raymond has been a prolific contributor to the CPython project for over a decade, having implemented and maintained many of Python's great features. He has been instrumental in modules like bisect, collections, decimal, functools, itertools, math, random…

❤1

57 viewsedited 04:10

Aspiring Data Science

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Ладно, не буду больше откладывать и напишу про свою линию исследований про TDA в NLP.

Все началось с моей старой, совсем неказистой статьи https://www.mathnet.ru/php/archive.phtml?wshow=paper&jrnid=ista&paperid=225 (годов 2018-2019), которую я написала в аспирантуре с небольшой помощью друга (соавтора) и научника. По всей видимости, эти два человека - единственные, кто прочитал ее целиком (рецензирование в журнале Интеллектуальные системы, мягко говоря, хромает), поэтому я не уверена ни в том, что там нет ошибок, ни в том, что это не велосипед.
Теоретическая часть статьи (сейчас будет скриммер в виде мат.терминов) заключалась в том, что я определила персистентные гомологии (условно) "на Марковских цепях" через прокси-конструкцию - неориентированный граф, вершины которого совпадают с состояниями Марковской цепи, а вес ребра между двумя состояниями соответствует сумме вероятностей перехода из первого во второе и из второго в первое. На таком графе уже можно ввести фильтрацию и через нее пробросить определение персистентности, порадовав читателей рядом лемм и теорем и бесконечными (в буквальном смысле) коммутативными диаграммами.
Практическая часть статьи заключалась в том, что я показала, как с помощью этих гомологий отличать осмысленные тексты от текстов с перемешанными словами. А именно, я обучила 50 Марковских цепей на текстах, написанных людьми и 50 - на текстах с теми же наборами слов, но перемешанными. Затем по каждой Марковской цепи посчитала размерности своих групп гомологий (самых-самых простых, которые соответствуют количеству компонент связности прокси-графа на разных порогах) и получила 100 векторов с признаками. Затем на 90 примерах обучила лог.регрессию, и она "очень хорошо" предсказала по оставшимся 10 примерам, построены ли они по текстам, написанным человеком, либо по текстам с перемешанными словами.
Это "очень хорошо" в статье было расписано словами "с точностью от 96% до 100%", которые я, спустя пять лет, уже совсем не понимаю. Как на множестве из 10 примеров в принципе могла быть достигнута точность, не кратная 10%? Может быть, это усреднение по нескольким запускам? Но откуда тогда взялись 100%? Это точность на трейне? Никто уже не ответит на эти вопросы. Как бы то ни было, мой метод побеждал Bag of Words, который по определению не мог отличить текст с перемешанными словами от связного текста, что в тот момент принесло мне достаточно удовлетворения для того, чтобы опубликоваться.
В общем, в то время у меня было слабое представление о том, как надо ставить и описывать эксперименты для статей по машинному обучению, поэтому практическая часть получилась такой невнятной. Не повторяйте моих ошибок и всегда описывайте результаты в статьях как можно более точно и внятно, чтобы потом сами не забыть, что они означают. А лучше всего найдите хорошего научного руководителя, который будет целенаправленно учить вас писать хорошие статьи.

Тем не менее, какой бы ни была спорной эта статья, она стала одним из моих первых шагов к публикациям в области машинного обучения (раз речь про ML, я не учитываю свои изыски в элементарной математике и в чистой алгебраической топологии). Так сказатб, эта статья стала той самой непонятной прыгающей фигней из начала видео про Boston Dynamics, которая выглядела как техноересь, но потом дала начало чему-то большему.

#объяснения_статей

❤1⚡1

42 views11:54

About

Blog

Apps

Platform