NEW BOT Телеграм, страница

Aspiring Data Science

#preprocessing #cleaning #anomalydetection

Не в первый раз ловлю себя на том, что данные, которые не получается хорошо промоделировать, хочется выкинуть из датасета, и переобучиться. Нормально ли это?

Anonymous Poll

30%

Да, т.к. часто входные данные зашумлены, а обучение на шуме портит метрики для "нормальной" части

Специально так всегда делаю

10%

Нет! Удаление таких точек прячет факт, что на таргет влияют другие

30%

Специально так никогда не делаю

10%

Никогда об этом не приходилось задумываться

40%

Выбираю метод в зависимости от датасета и доверия к качеству меток

У меня встроенный детектор аномалий и fit_resample

10 voters96 viewsAnatoly Alekseev, 05:39

Aspiring Data Science

#preprocessing #cleaning #anomalydetection

85 viewsAnatoly Alekseev, 06:46

Aspiring Data Science

#nvidia #cuda

В AMD продолжают рвать волосы под мышками от зависти, видимо. Как же так, карл, наши видеокарточки ведь ничем не хуже по железу, а поди-ка ты, никому и нахрен не нужны, кроме геймеров...

"Аналитики полагают, что продажи ускорителей NVIDIA H100 и A100 превысят полмиллиона единиц в четвертом квартале 2023 года. Между тем, спрос на H100 и A100 настолько велик, что срок поставки серверов на базе этих GPU достигает 52 недель. В то же время Omdia сообщает, что в целом объём поставок серверов в 2023 году сократится на 17–20 % по сравнению с прошлым годом, но при этом выручка в этом направлении вырастет на 6–8 % в годовом исчислении.

Следует также отметить, что многие из крупнейших покупателей специализированных ускорителей NVIDIA H100 и A100 сами разрабатывают собственные специализированные GPU для задач ИИ, высокопроизводительных вычислений и графики. Поэтому в перспективе объёмы закупок оборудования у NVIDIA этими компаниями снизятся по мере перехода на собственные решения.

Эксперты Omdia считают, что крупнейшими покупателями графических ускорителей NVIDIA H100 являются компании Meta и Microsoft. По мнению аналитиков, каждая из них закупила по 150 тыс. указанных ускорителей. В свою очередь Google, Amazon, Oracle и Tencent купили по 50 тыс. указанных специализированных ускорителей. Примечательно, что основная часть серверных ускорителей поставляется операторам гипермасштабируемых облачных услуг. В свою очередь, OEM-производители серверов (Dell, Lenovo, HPE) пока не могут забронировать достаточное количество графических процессоров для ИИ и высокопроизводительных вычислений, чтобы выполнить свои заказы на поставки серверов, утверждают специалисты Omdia."

https://3dnews.ru/1096589/nvidia-prodala-pochti-polmilliona-spetsializirovannih-iiuskoriteley-v-tretem-kvartale-utvergdayut-analitiki-omdia

3DNews - Daily Digital Digest

NVIDIA продала почти полмиллиона ИИ-ускорителей в третьем квартале, а новые партии расписаны на год вперёд

Основная доля выручки NVIDIA в размере $14,5 млрд в сегменте оборудования для центров обработки данных в третьем квартале пришлась на продажи специализированных графических ускорителей H100 для ИИ и высокопроизводительных вычислений (HPC).

👍1

85 viewsAnatoly Alekseev, edited 09:56

Aspiring Data Science

#vr #xr
Варио молодцы, очень сильным был ход со снижением стоимости Aero. Я, правда, не купил, несколько разуверился в шлемах с подключением по кабелю. Помню, купил дорогой оптоволоконный кабель для Квеста, и на 2й день прищемил его дверью, летально )

https://3dnews.ru/1096587/varjo-predstavila-garnituru-smeshannoy-realnosti-xr4-korporativnogo-urovnya-stoimostyu-ot-3990

3DNews - Daily Digital Digest

Apple Vision Pro, подвинься: Varjo представила гарнитуру смешанной реальности XR-4 по цене от $3990

Финский стартап Varjo, занимающийся разработкой гарнитур смешанной реальности, представил новую модель гарнитуры XR-4.

89 viewsAnatoly Alekseev, 10:01

Aspiring Data Science

#astronomy #sun #sdo #photosphere #chromospherel #transitionzone #convectionzone #radiativezone #corona #flares #spots #holes #spicules #filaments #rain #granules

Как устроено Солнце?

https://www.youtube.com/watch?v=6EbuAEagQj4

YouTube

The Deepest We Have Ever Seen Into the Sun | SDO 4K

How viewing the Sun in ultraviolet can uncover its secrets. Get a 20% discount on your next VisiSolar purchase when you use this link: https://bit.ly/49G6XhX
Part 2: https://www.youtube.com/watch?v=6EbuAEagQj4

Astrum Podcast: https://www.buzzsprout.com/2250635/share…

80 viewsAnatoly Alekseev, edited 10:30

Aspiring Data Science

#chess

В очередной раз гениальный шахматист доказал, что шахматный уровень и общий интеллект слабо связаны между собой. А я-то раньше Крамника уважал.

"@kainxjm
12 часов назад
Kramnik is living proof that chess ability and intelligence are two completely separate things.

@TENTAKILLSMOBILEGAMING
19 часов назад
Kramnik slowly becoming crazy same as fisher
"

https://www.youtube.com/watch?v=bVR5lcItYzM

YouTube

Kramnik thinks Hikaru is sussy

➡️ 40% OFF BLACK FRIDAY COURSES: https://www.chessly.com/
➡️ Get my best-selling chess book: https://geni.us/gothamchess

Photos by Lennart Ootes and Chess.com: https://www.chessphotoshop.com/Paris-GCT-2018/i-B4qvh46 https://x.com/chesscom/status/1665434449738178562…

94 viewsAnatoly Alekseev, edited 15:00

Aspiring Data Science

#hardware #aws

"NVIDIA GH200 NVL32 представляет собой готовую систему, выполненную в формате стандартной серверной стойки. Она объединяет 32 гибридных ускорителя NVIDIA GH200 Grace Hopper Superchip, которые представляют собой двухчиповую систему из центрального процессора с 72 ядрами Arm Neoverse и графического процессора NVIDIA H100

Система обладает 2304 процессорными Arm-ядрами, 20 Тбайт оперативной памяти, включая 4,5 Тбайт HBM3e с общей пропускной способностью 157 Тбайт/с. За связь между суперчипами GH200 отвечают девять коммутаторов NVSwitch и интерфейс NVLink с общей пропускной способностью 57,6 Тбайт/с. Применяется система жидкостного охлаждения. AWS первой предложит системы GH200 NVL32 в составе облачной платформы NVIDIA DGX Cloud. Более того, Amazon даст возможность клиентам объединять новые системы NVIDIA в кластеры EC2 UltraClasters, получая в своё распоряжение тысячи ускорителей GH200 Superchip."

https://3dnews.ru/1096649/nvidia-i-amazon-anonsirovali-moshchneyshiy-oblachniy-iisuperkompyuter-project-ceiba

3DNews - Daily Digital Digest

NVIDIA и Amazon анонсировали мощнейший облачный ИИ-суперкомпьютер Project Ceiba

Компания NVIDIA совместно с облачным провайдером Amazon Web Services (AWS) представила ряд новых совместных решений, в основном, связанных с ИИ.

🆒1

91 viewsAnatoly Alekseev, 05:44

Aspiring Data Science

#hardware #aws #trainium #graviton

"AWS Trainium2, способен обеспечить в четыре раза более высокую производительность и в два раза более высокую энергоэффективность по сравнению с первым поколением Trainium, представленным в декабре 2020 года. Trainium2 будет доступен клиентам Amazon Web Services в инстансах EC Trn2 в кластерах из 16-ти чипов. В решении AWS EC2 UltraCluster клиенты смогут получить в своё распоряжении до 100 000 чипов Trainium2 для обучения больших языковых моделей.

Кластер из 100 000 чипов Trainium2 способен обучить большую языковую модель ИИ (LLM – large language model) с 300 миллиардами параметров всего за несколько недель. Раньше на такие задачи уходили месяцы обучения. Отметим, что параметры в парадигме LLM — это элементы модели, полученные на обучающих датасетах и, по сути, определяющие мастерство модели в решении той или иной задачи, к примеру, генерации текста или кода. 300 миллиардов параметров — это примерно в 1,75 раза больше, чем у GPT-3 от OpenAI.

Второй чип, анонсированный Amazon сегодня — Arm-процессор Graviton4. Amazon утверждает, что он обеспечивает на 30 % более высокую производительность, на 50 % больше ядер и на 75 % более высокую пропускную способность памяти, чем процессор предыдущего поколения Graviton3 (но не более современный Graviton3E), работающий применяемый в облаке Amazon EC2. Таким образом Graviton4 предложат до 96 ядер (но будут и другие конфигурации) и поддержку до 12 каналов оперативной памяти DDR5-5600.

Ещё один апгрейд по сравнению с Graviton3 состоит в том, что все физические аппаратные интерфейсы Graviton4 зашифрованы. По заявлению Amazon, это должно надёжнее защищать рабочие нагрузки клиентов по обучению ИИ и клиентские данные с повышенными требованиями к конфиденциальности.

«Graviton4 — это четвёртое поколение процессоров, которое мы выпустили всего за пять лет, и это самый мощный и энергоэффективный чип, когда-либо созданный нами для широкого спектра рабочих нагрузок, — говорится в заявлении Дэвида Брауна. — Затачивая наши чипы на реальные рабочие нагрузки, которые очень важны для клиентов, мы можем предоставить им самую передовую облачную инфраструктуру».

Graviton4 будет доступен в массивах Amazon EC2 R8g, которые уже сегодня открыты для пользователей в предварительной версии."

https://3dnews.ru/1096644/amazon-predstavila-novie-chipi-dlya-obucheniya-i-zapuska-modeley-iskusstvennogo-intellekta

3DNews - Daily Digital Digest

Amazon представила мощные ускорители Trainium2 для обучения больших ИИ-моделей, а также Arm-процессоры Graviton4

Рост спроса на генеративный искусственный интеллект, который зачастую обучается и запускается на специализированных ускорителях на графических процессорах (GPU), во всём мире наблюдается дефицит таких ускорителей.

⚡1

93 viewsAnatoly Alekseev, 05:47

Aspiring Data Science

#deepmind #gnome #materials #gnn

"Алгоритм, получивший название GNoME, был обучен на основе данных из проекта «Материалы» — бесплатной базы данных, содержащей 150 000 известных материалов, которую курирует Перссон. Используя эту информацию, система искусственного интеллекта предложила проекты материалов, содержащие 2,2 миллиона новых кристаллов, из которых 380 000 были признаны стабильными. Они не разлагаются и не взрываются, а значит, наиболее подходят для синтеза в лаборатории, что расширило диапазон известных стабильных материалов почти в 10 раз. В статье, опубликованной сегодня в Nature, авторы пишут, что в этой расширенной базе данных может скрываться следующий инновационный твердотельный электролит, или материал для солнечных батарей, или высокотемпературный сверхпроводник.

GNoME использует подход, называемый активным обучением. Сначала графовая нейронная сеть (GNN) использует базу данных материалов для изучения закономерностей в стабильных структурах и выяснения того, как минимизировать энергию атомных связей в новых структурах. Используя весь диапазон периодической таблицы Менделеева, она выдает тысячи потенциально стабильных кандидатов в материалы. Следующий шаг — их проверка и корректировка с помощью метода квантовой механики, называемого теорией функционала плотности, или DFT. На следующем этапе эти уточнённые результаты снова подключаются к обучающим датасетам, и процесс повторяется."

https://3dnews.ru/1096709/iskusstvenniy-intellekt-google-deepmind-izobryol-380000-novih-materialov

117 viewsAnatoly Alekseev, edited 19:49

Aspiring Data Science

#timeseries #dsp #fourier #fft #psd

"After we have transformed a signal to the frequency-domain, we can extract features from each of these transformed signals and use these features as input in standard classifiers like Random Forest, Logistic Regression, Gradient Boosting or Support Vector Machines.

Which features can we extract from these transformations? A good first step is the value of the frequencies at which oscillations occur and the corresponding amplitudes. In other words; the x and y-position of the peaks in the frequency spectrum."

https://ataspinar.com/2018/04/04/machine-learning-with-signal-processing-techniques/

107 viewsAnatoly Alekseev, edited 07:55

Aspiring Data Science

#timeseries #wavelets #scaleogram #dwt #cwt

В комментах сравнительная таблица точностей разных вейвлетов на нескольких ML-задачах.

https://ataspinar.com/2018/12/21/a-guide-for-using-the-wavelet-transform-in-machine-learning/

95 viewsAnatoly Alekseev, edited 09:16

Aspiring Data Science

#gpt #hardware #imbue

"Независимая исследовательская ИИ-компания Imbue и Dell Technologies объявили о заключении соглашения по созданию нового высокопроизводительного вычислительного кластера на основе серверов PowerEdge для обучения базовых моделей. Проект оценивается в $150 млн.

Imbue разрабатывает собственные базовые ИИ-модели, оптимизированные специально для рассуждений: они способны при необходимости запрашивать дополнительную информацию, анализировать и критиковать свои собственные результаты, а также разбивать сложную задачу на несколько более простых для повышения эффективности выполнения."

https://servernews.ru/1096726

ServerNews - все из мира больших мощностей

Dell построит ИИ-кластер из 10 тыс. NVIDIA H100 для компании Imbue

Независимая исследовательская ИИ-компания Imbue и Dell Technologies объявили о заключении соглашения по созданию нового высокопроизводительного вычислительного кластера на основе серверов PowerEdge для обучения базовых моделей. Проект оценивается в $150 млн.

⚡1

100 viewsAnatoly Alekseev, 11:05

Aspiring Data Science

#tesla

А может кто-нибудь мне объяснить, почему люди хотят за большие деньги купить уродски выглядящие автомобили?

https://3dnews.ru/1096741/segodnya-tesla-provedyot-prezentatsiyu-cybertruck-budut-zapushcheni-prodagi-raskriti-harakteristiki-i-tseni

3DNews - Daily Digital Digest

Сегодня Tesla проведёт презентацию Cybertruck — будут запущены продажи, раскрыты характеристики и цены

Компания Tesla сегодня проведёт мероприятие, посвящённое долгожданному началу поставок футуристического электрического пикапа Cybertruck.

108 viewsAnatoly Alekseev, 11:12

Aspiring Data Science

#cybertruck #tesla

https://youtu.be/cX58W4_5hmw

YouTube

Tesla's CyberTruck Delivery Event: Everything Revealed in 5 Minutes

Watch Tesla CEO Elon Musk deliver the first CyberTruck's to customers at the company's Design Studio in Austin, TX.

Subscribe to CNET: https://www.youtube.com/user/CNETTV
Never miss a deal again! See CNET’s browser extension 👉 https://bit.ly/3lO7sOU
Check…

114 viewsAnatoly Alekseev, 06:19

Aspiring Data Science

#politics

Посмотрел вчера лекцию Соловья о политической ситуации в России в 2024-м году. Он и его источники дают очень конкретные и легко проверяемые расклады вплоть до того, на какие должности в новом правительстве назначат Мишустина, Медведева, дочерей тирана, кого выставят на мороз (Володин, Кириенко). Как я понял, перемены начнут проводиться с декабря 2023го. Исполнение или неисполнение этих прогнозов автоматически изменит степень доверия к этому источнику, поскольку это уникальная информация, которую никто другой пока не даёт и не подтверждает. В целом, согласно Соловью, россиян в следующем году ждёт карательная психиатрия, чекистизация экономики (и, как следствие, экономический кризис), национализация крупных активов "в правильные руки", передел сфер влияния. Ах да, якобы по результатам переговоров между влиятельными людьми на выборы президента всё же пойдёт нынешняя набившая оскомину фигура, но через полгода она скажет "я устал, я ухожу", и назначит и.о. сельского министра, который и унаследует трон. Доживём - увидим. Неужели на мнение наших граждан можно вот так откровенно плевать? Хотя... А есть ли вообще у нас мнение?

🤡2

119 viewsAnatoly Alekseev, 06:51

Aspiring Data Science

#fun

Минутка юмора

https://www.youtube.com/shorts/rXf7GWQ7Ee8

YouTube

Зачем отрезать кутикулу? 🫰🏼 #женскийстендап #тнт #юмор #shorts

Enjoy the videos and music you love, upload original content, and share it all with friends, family, and the world on YouTube.

98 viewsAnatoly Alekseev, 09:34

Aspiring Data Science

Forwarded from По сути

Американский исследовательский институт RLI (институт Роберта Лансинга): Новая война возможна в Латинской Америке

Венесуэла может вскоре вторгнуться в маленькую южноамериканскую страну Гайану, чтобы аннексировать ее регион Эсекибо, который составляет более 60% территории страны. В случае успеха этого сценария вероятен крупный региональный конфликт, в который могут вовлечься не только Гайана и Венесуэла, но и Бразилия, другие соседние страны, а также США.

3 декабря Венесуэла планирует провести так называемый референдум о своих "правах" на Эсекибо. Гражданам Венесуэлы предложат пять вопросов, один из которых будет звучать так: "Согласны ли вы противостоять, всеми законными средствами, одностороннему захвату Гайаной моря, ожидающего разграничения, незаконно и в нарушение международного права".

Территориальный спор между Венесуэлой и Гайаной восходит к колониальным временам и усилился после обнаружения Гайаной запасов нефти и газа возле морской границы.

Венесуэльский режим начал агрессивную пропагандистскую кампанию в контролируемых им СМИ. Ожидается, что в референдуме будет подавляющее большинство голосов "за", так как даже оппоненты Мадуро либо воздержались от критики референдума, либо фактически его поддержали.

Министр обороны Венесуэлы Владимир Падрино Лопес сказал, что спор с Гайаной "пока не является вооруженной войной. Идите и голосуйте". Он также отметил, что Вооруженные силы Венесуэлы (FANB) будут "постоянно бдительны".

По сути. Подпишись на самые важные новости.

102 viewsAnatoly Alekseev, 12:17

Aspiring Data Science

#spotify

Нафига там ТАК МНОГО сотрудников вообще работает, начнём с этого?!

"В обращении к сотрудникам основатель и глава Spotify Даниэль Эк (Daniel Ek) заявил, что правильное определение численности персонала имеет решающее значение для компании, чтобы справиться с «предстоящими вызовами». Необходимость сокращения штата сотрудников он связал с медленным экономическим ростом и увеличением капитальных затрат. «Я понимаю, что это повлияет на некоторых людей, которые внесли ценный вклад. Откровенно говоря, компанию покинет много умных, талантливых и трудолюбивых людей», — говорится в сообщении главы Spotify, которое было опубликовано в блоге компании.

В настоящее время в Spotify работают около 10 тыс. человек. Это означает, что новый этап увольнений затронет более 1,5 тыс. человек. Согласно имеющимся данным, сотрудники, которым придётся покинуть компанию, будут уведомлены об этом своевременно. Напомним, в июне этого года Spotify провела сокращение около 6 % персонала, а ещё несколько сотен сотрудников покинули компанию в январе"

https://3dnews.ru/1096920/spotify-sokratit-17-sotrudnikov-na-fone-rosta-kapitalnih-zatrat

3DNews - Daily Digital Digest

Spotify уволит более 1500 сотрудников на фоне роста капитальных затрат

Стало известно, что популярный стриминговый музыкальный сервис Spotify сократит около 17 % сотрудников — более 15 00 человек.

⚡1

107 viewsAnatoly Alekseev, 13:45

Aspiring Data Science

Forwarded from Д-р Соловей

Благотворительная ярмарка в пользу бездомных животных! 9-17 декабря. Проводит фонд "Возьми счастье в дом".
Посетите и участвуйте!

НАСТОЯЩИЙ МАТЕРИАЛ (ИНФОРМАЦИЯ) ПРОИЗВЕДЕН, РАСПРОСТРАНЕН И (ИЛИ) НАПРАВЛЕН ИНОСТРАННЫМ АГЕНТОМ СОЛОВЬЕМ ВАЛЕРИЕМ ДМИТРИЕВИЧЕМ ЛИБО КАСАЕТСЯ ДЕЯТЕЛЬНОСТИ ИНОСТРАННОГО АГЕНТА СОЛОВЬЯ ВАЛЕРИЯ ДМИТРИЕВИЧА. 18+

https://takehappiness.ru/ng-yarmarka/news/

Фонд помощи животным «Возьми счастье в дом»

Фонд «Возьми счастье в дом» проведет в Москве благотворительную новогоднюю ярмарку - Фонд помощи животным «Возьми счастье в дом»

Фонд «Возьми счастье в дом» проведет благотворительную новогоднюю ярмарку. Вырученные средства будут направлены на помощь животным, а также создание центра по инклюзивному обращению с животными «Дом»

112 viewsAnatoly Alekseev, 07:58

Aspiring Data Science

#tesla #cybertruck

https://www.youtube.com/watch?v=XxOh12Uhg08

YouTube

Driving Tesla Cybertruck: Everything You Need to Know!

Behind the wheel and every detail and spec of the new "Beast Mode" Cybertruck from Tesla!

Get Ridge's Carry-On and more at https://ridge.com/MKBHD and use code MKBHD for 10% off

Get our merch: http://shop.MKBHD.com

Get discounts off most Tesla products…

92 viewsAnatoly Alekseev, 08:35

Aspiring Data Science

#compression #pandas

Часто бывает, что приходится джойнить много файлов: всякие там csv, parquet, feather, pickle, с текстом и без, разные типы столбцов, и не всегда понятно, какой формат выбрать для промежуточного и финального хранения данных. Уже второй раз сталкиваюсь с КРАТНОЙ разницей по времени обработки (записи, чтения) и размеру итоговых файлов, а также по использованию CPU и RAM. А значит, пришло время написать утилитку быстрого тестирования. Идея в том, чтобы отдать ей небольшой кусок основного файла, посмотреть сравнительную таблицу каждой комбинации формата/сжатия, и принять решение, в каком же формате и с какими параметрами сжатия его хранить.

https://www.youtube.com/watch?v=u4rsA5ZiTls

YouTube

This INCREDIBLE trick will speed up your data processes.

In this video we discuss the best way to save off data as files using python and pandas. When you are working with large datasets there comes a time when you need to store your data. Most people turn to CSV files because they are easy to share and universally…

99 viewsAnatoly Alekseev, edited 11:36

About

Blog

Apps

Platform