Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#hardware #aws

"NVIDIA GH200 NVL32 представляет собой готовую систему, выполненную в формате стандартной серверной стойки. Она объединяет 32 гибридных ускорителя NVIDIA GH200 Grace Hopper Superchip, которые представляют собой двухчиповую систему из центрального процессора с 72 ядрами Arm Neoverse и графического процессора NVIDIA H100

Система обладает 2304 процессорными Arm-ядрами, 20 Тбайт оперативной памяти, включая 4,5 Тбайт HBM3e с общей пропускной способностью 157 Тбайт/с. За связь между суперчипами GH200 отвечают девять коммутаторов NVSwitch и интерфейс NVLink с общей пропускной способностью 57,6 Тбайт/с. Применяется система жидкостного охлаждения. AWS первой предложит системы GH200 NVL32 в составе облачной платформы NVIDIA DGX Cloud. Более того, Amazon даст возможность клиентам объединять новые системы NVIDIA в кластеры EC2 UltraClasters, получая в своё распоряжение тысячи ускорителей GH200 Superchip."

https://3dnews.ru/1096649/nvidia-i-amazon-anonsirovali-moshchneyshiy-oblachniy-iisuperkompyuter-project-ceiba
🆒1
#hardware #aws #trainium #graviton

"AWS Trainium2, способен обеспечить в четыре раза более высокую производительность и в два раза более высокую энергоэффективность по сравнению с первым поколением Trainium, представленным в декабре 2020 года. Trainium2 будет доступен клиентам Amazon Web Services в инстансах EC Trn2 в кластерах из 16-ти чипов. В решении AWS EC2 UltraCluster клиенты смогут получить в своё распоряжении до 100 000 чипов Trainium2 для обучения больших языковых моделей.

Кластер из 100 000 чипов Trainium2 способен обучить большую языковую модель ИИ (LLM – large language model) с 300 миллиардами параметров всего за несколько недель. Раньше на такие задачи уходили месяцы обучения. Отметим, что параметры в парадигме LLM — это элементы модели, полученные на обучающих датасетах и, по сути, определяющие мастерство модели в решении той или иной задачи, к примеру, генерации текста или кода. 300 миллиардов параметров — это примерно в 1,75 раза больше, чем у GPT-3 от OpenAI.

Второй чип, анонсированный Amazon сегодня — Arm-процессор Graviton4. Amazon утверждает, что он обеспечивает на 30 % более высокую производительность, на 50 % больше ядер и на 75 % более высокую пропускную способность памяти, чем процессор предыдущего поколения Graviton3 (но не более современный Graviton3E), работающий применяемый в облаке Amazon EC2. Таким образом Graviton4 предложат до 96 ядер (но будут и другие конфигурации) и поддержку до 12 каналов оперативной памяти DDR5-5600.

Ещё один апгрейд по сравнению с Graviton3 состоит в том, что все физические аппаратные интерфейсы Graviton4 зашифрованы. По заявлению Amazon, это должно надёжнее защищать рабочие нагрузки клиентов по обучению ИИ и клиентские данные с повышенными требованиями к конфиденциальности.

«Graviton4 — это четвёртое поколение процессоров, которое мы выпустили всего за пять лет, и это самый мощный и энергоэффективный чип, когда-либо созданный нами для широкого спектра рабочих нагрузок, — говорится в заявлении Дэвида Брауна. — Затачивая наши чипы на реальные рабочие нагрузки, которые очень важны для клиентов, мы можем предоставить им самую передовую облачную инфраструктуру».

Graviton4 будет доступен в массивах Amazon EC2 R8g, которые уже сегодня открыты для пользователей в предварительной версии."

https://3dnews.ru/1096644/amazon-predstavila-novie-chipi-dlya-obucheniya-i-zapuska-modeley-iskusstvennogo-intellekta
1
#deepmind #gnome #materials #gnn

"Алгоритм, получивший название GNoME, был обучен на основе данных из проекта «Материалы» — бесплатной базы данных, содержащей 150 000 известных материалов, которую курирует Перссон. Используя эту информацию, система искусственного интеллекта предложила проекты материалов, содержащие 2,2 миллиона новых кристаллов, из которых 380 000 были признаны стабильными. Они не разлагаются и не взрываются, а значит, наиболее подходят для синтеза в лаборатории, что расширило диапазон известных стабильных материалов почти в 10 раз. В статье, опубликованной сегодня в Nature, авторы пишут, что в этой расширенной базе данных может скрываться следующий инновационный твердотельный электролит, или материал для солнечных батарей, или высокотемпературный сверхпроводник.

GNoME использует подход, называемый активным обучением. Сначала графовая нейронная сеть (GNN) использует базу данных материалов для изучения закономерностей в стабильных структурах и выяснения того, как минимизировать энергию атомных связей в новых структурах. Используя весь диапазон периодической таблицы Менделеева, она выдает тысячи потенциально стабильных кандидатов в материалы. Следующий шаг — их проверка и корректировка с помощью метода квантовой механики, называемого теорией функционала плотности, или DFT. На следующем этапе эти уточнённые результаты снова подключаются к обучающим датасетам, и процесс повторяется."

https://3dnews.ru/1096709/iskusstvenniy-intellekt-google-deepmind-izobryol-380000-novih-materialov
#timeseries #dsp #fourier #fft #psd

"After we have transformed a signal to the frequency-domain, we can extract features from each of these transformed signals and use these features as input in standard classifiers like Random Forest, Logistic Regression, Gradient Boosting or Support Vector Machines.

Which features can we extract from these transformations? A good first step is the value of the frequencies at which oscillations occur and the corresponding amplitudes. In other words; the x and y-position of the peaks in the frequency spectrum."

https://ataspinar.com/2018/04/04/machine-learning-with-signal-processing-techniques/
#timeseries #wavelets #scaleogram #dwt #cwt

В комментах сравнительная таблица точностей разных вейвлетов на нескольких ML-задачах.

https://ataspinar.com/2018/12/21/a-guide-for-using-the-wavelet-transform-in-machine-learning/
#gpt #hardware #imbue

"Независимая исследовательская ИИ-компания Imbue и Dell Technologies объявили о заключении соглашения по созданию нового высокопроизводительного вычислительного кластера на основе серверов PowerEdge для обучения базовых моделей. Проект оценивается в $150 млн.

Imbue разрабатывает собственные базовые ИИ-модели, оптимизированные специально для рассуждений: они способны при необходимости запрашивать дополнительную информацию, анализировать и критиковать свои собственные результаты, а также разбивать сложную задачу на несколько более простых для повышения эффективности выполнения."

https://servernews.ru/1096726
1
#politics

Посмотрел вчера лекцию Соловья о политической ситуации в России в 2024-м году. Он и его источники дают очень конкретные и легко проверяемые расклады вплоть до того, на какие должности в новом правительстве назначат Мишустина, Медведева, дочерей тирана, кого выставят на мороз (Володин, Кириенко). Как я понял, перемены начнут проводиться с декабря 2023го. Исполнение или неисполнение этих прогнозов автоматически изменит степень доверия к этому источнику, поскольку это уникальная информация, которую никто другой пока не даёт и не подтверждает. В целом, согласно Соловью, россиян в следующем году ждёт карательная психиатрия, чекистизация экономики (и, как следствие, экономический кризис), национализация крупных активов "в правильные руки", передел сфер влияния. Ах да, якобы по результатам переговоров между влиятельными людьми на выборы президента всё же пойдёт нынешняя набившая оскомину фигура, но через полгода она скажет "я устал, я ухожу", и назначит и.о. сельского министра, который и унаследует трон. Доживём - увидим. Неужели на мнение наших граждан можно вот так откровенно плевать? Хотя... А есть ли вообще у нас мнение?
🤡2
Forwarded from По сути
Американский исследовательский институт RLI (институт Роберта Лансинга): Новая война возможна в Латинской Америке

Венесуэла может вскоре вторгнуться в маленькую южноамериканскую страну Гайану, чтобы аннексировать ее регион Эсекибо, который составляет более 60% территории страны. В случае успеха этого сценария вероятен крупный региональный конфликт, в который могут вовлечься не только Гайана и Венесуэла, но и Бразилия, другие соседние страны, а также США.

3 декабря Венесуэла планирует провести так называемый референдум о своих "правах" на Эсекибо. Гражданам Венесуэлы предложат пять вопросов, один из которых будет звучать так: "Согласны ли вы противостоять, всеми законными средствами, одностороннему захвату Гайаной моря, ожидающего разграничения, незаконно и в нарушение международного права".

Территориальный спор между Венесуэлой и Гайаной восходит к колониальным временам и усилился после обнаружения Гайаной запасов нефти и газа возле морской границы.

Венесуэльский режим начал агрессивную пропагандистскую кампанию в контролируемых им СМИ. Ожидается, что в референдуме будет подавляющее большинство голосов "за", так как даже оппоненты Мадуро либо воздержались от критики референдума, либо фактически его поддержали.

Министр обороны Венесуэлы Владимир Падрино Лопес сказал, что спор с Гайаной "пока не является вооруженной войной. Идите и голосуйте". Он также отметил, что Вооруженные силы Венесуэлы (FANB) будут "постоянно бдительны".

По сути. Подпишись на самые важные новости.
#spotify

Нафига там ТАК МНОГО сотрудников вообще работает, начнём с этого?!

"В обращении к сотрудникам основатель и глава Spotify Даниэль Эк (Daniel Ek) заявил, что правильное определение численности персонала имеет решающее значение для компании, чтобы справиться с «предстоящими вызовами». Необходимость сокращения штата сотрудников он связал с медленным экономическим ростом и увеличением капитальных затрат. «Я понимаю, что это повлияет на некоторых людей, которые внесли ценный вклад. Откровенно говоря, компанию покинет много умных, талантливых и трудолюбивых людей», — говорится в сообщении главы Spotify, которое было опубликовано в блоге компании.

В настоящее время в Spotify работают около 10 тыс. человек. Это означает, что новый этап увольнений затронет более 1,5 тыс. человек. Согласно имеющимся данным, сотрудники, которым придётся покинуть компанию, будут уведомлены об этом своевременно. Напомним, в июне этого года Spotify провела сокращение около 6 % персонала, а ещё несколько сотен сотрудников покинули компанию в январе"

https://3dnews.ru/1096920/spotify-sokratit-17-sotrudnikov-na-fone-rosta-kapitalnih-zatrat
1
Forwarded from Д-р Соловей
Благотворительная ярмарка в пользу бездомных животных! 9-17 декабря. Проводит фонд "Возьми счастье в дом".
Посетите и участвуйте!

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ СОЛОВЬЕМ ВАЛЕРИЕМ ДМИТРИЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА СОЛОВЬЯ ВАЛЕРИЯ ДМИТРИЕВИЧА. 18+

https://takehappiness.ru/ng-yarmarka/news/
#compression #pandas

Часто бывает, что приходится джойнить много файлов: всякие там csv, parquet, feather, pickle, с текстом и без, разные типы столбцов, и не всегда понятно, какой формат выбрать для промежуточного и финального хранения данных. Уже второй раз сталкиваюсь с КРАТНОЙ разницей по времени обработки (записи, чтения) и размеру итоговых файлов, а также по использованию CPU и RAM. А значит, пришло время написать утилитку быстрого тестирования. Идея в том, чтобы отдать ей небольшой кусок основного файла, посмотреть сравнительную таблицу каждой комбинации формата/сжатия, и принять решение, в каком же формате и с какими параметрами сжатия его хранить.

https://www.youtube.com/watch?v=u4rsA5ZiTls
#fun #poetry

Кстати, ребят. Минутка поэзии. + выяснилось, что это не просто шутка, видос глубже, чем я думал.
#pandas #conventions

Нахрена такое делать? Неужели нельзя параметр path одинаково назвать было?

pandas.read_pickle(filepath_or_buffer, compression='infer', storage_options=None)

DataFrame.to_pickle(
path, compression='infer', protocol=5, storage_options=None)
#pandas #compression

Итак, результаты бенчмарка на фрейме пандас с широким текстовым столбцом. Код в комментах.

benchmark_dataframe_compression(df=df, head=1000, benchmark_dir_path=r"R:\Data", nrepeats=10, verbose=True)


Pandas: 2.0.3, DF size: 7.15Mb, Dtypes: {dtype('O'): 17, dtype('float64'): 2, dtype('float32'): 2, dtype('<M8[ns]'): 1}


Лучшие результаты показал пикл+xz сжатие. Наименьший итоговый размер файла, очень быстрое чтение, правда, за счёт долгой записи.

Паркетный brotli ошарашил своим экстремально долгим архивированием. Но только в реализации fastparquet! В версии pyarrow brotli оказался лучшим паркетным вариантом для моей конкретной задачи.
1
#pyhon #conda

Хотел потестить сохранение в hdf. Пандас попросил установить через conda pytables. Уже часов 6 конда мне устанавливает. И такое не впервые. Я что-то делаю не так, или оно всегда такое?
#gcp #cloud #tpu #hardware

"Сегодня Google объявила о запуске новой большой языковой модели Gemini. Вместе с ней компания представила свой новый ИИ-ускоритель Cloud TPU v5e (Tensor processing unit — тензорный процессор). Кластер на базе новых TPU состоит из 8960 чипов v5p и оснащён самым быстрым интерконнектом Google — скорость передачи данных может достигать 4800 Гбит/с на чип.

Cloud TPU v5e оснащён 95 Гбайт памяти HBM3 с пропускной способностью 2765 Гбайт/с. Производительность в целочисленных операциях INT8 составляет 918 TOPS (триллионов операций в секунду), тогда как производительность в вычислениях на числах с плавающей запятой BF16 составляет 459 Тфлопс.

Google утверждает, что новые чипы значительно быстрее, чем образец предыдущего поколения TPU v4. Новый Cloud TPU v5p предложит двукратное увеличение производительности в операциях с плавающей запятой (FLOPS) и трёхкратное увеличение объёма памяти с высокой пропускной способностью.

Что интересно, по производительности на доллар v5p слегка проигрывает представленным недавно ускорителям TPU v5e. Однако последние можно собирать в кластеры лишь до 256 чипов, а один чип обеспечит лишь 197 Тфлопс в BF16 против 275 Тфлопс у TPU v4 и 459 Тфлопс у TPU v5p."

https://3dnews.ru/1097088/google-anonsirovala-svoy-samiy-bistriy-uskoritel-iskusstvennogo-intellekta-cloud-v5p