Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#GPT #Bloomberg

"Bloomberg потратила около 1,3 млн GPU-часов на обучение BloombergGPT на ускорителях NVIDIA A100 в облаке AWS. Обучение проводилось на 64 кластерах ускорителей, в каждом из которых было по восемь A100 (40 Гбайт), объединённых NVswitch. Для связи использовались 400G-подключения посредством AWS Elastic Fabric и NVIDIA GPUDirect Storage, а для хранения данных была задействована распределённая параллельная файловая система Lustre с поддержкой скорости чтения и записи до 1000 Мбайт/с. Общего объёма памяти всех ускорителей оказалось недостаточно, поэтому Bloomberg произвела оптимизацию для обучения модели: разбиение на отдельные этапы, использование вычислений смешанной точности (BF16/FP32) и т.д. «После экспериментов с различными технологиями мы достигли [производительности] в среднем 102 Тфлопс, а каждый этап тренировки занимал 32,5 с», — сообщили исследователи.

Bloomberg задействовала чуть больше половины (54 %) имеющегося у неё набора данных — 363 млрд документов (с 2007 года) из внутренней базы данных Bloomberg. Остальные 345 млрд документов были получены из общедоступных пресс-релизов, новостей Bloomberg, публичных документов и даже Википедии. Документы получили название «токен». Исследователи стремились, чтобы обучающие последовательности имели длину 2048 токенов, чтобы поддерживать максимально высокий уровень использования ускорителей."

https://servernews.ru/1084721
👍1
#ml #graphs #sberbank

"«Визуализация графов» отвечает за доступ к интерактивному просмотру графов и выявляет скрытые взаимосвязи между компаниями и физлицами, а сервис поиск неявных связей Link Prediction — за неизвестные факты о связанности клиентов, если данные о них изначально отсутствовали или были скрыты.

Среди сервисов также есть «Графовые нейронные сети» (GNN) — это готовый пайплайн обучения Graph Convolutional Network на базе PyTorch Geometric по собственным таргетам. «Встраиваемая графовая база данных» подходит для нестандартных решений. В ядре платформы Сбера находится собственная производительная база данных FastGraph, а также open-source-технологии стека Hadoop.

Как отмечают в компании, уже собрано более 17 Пбайт плотно связанной между собой неоднородной обезличенной информации. Сервисы платформы применяются в десятках автоматизированных бизнес-процессов Сбера. BI-инструментами и данными платформы пользуется 6,5 тыс. специалистов компании."

https://servernews.ru/1084444
image_2023-04-09_06-19-45.png
37.4 KB
Хотел использовать ЧатГПТ для помощи со статьёй, плюнул. Городит чушь, не знаю, что там она за диагнозы пациентам ставит.
Aspiring Data Science
#ApproximateEntropy #SampleEntropy #FuzzyEntropy #DistributionEntropy #PermutationEntropy #antropy #EntropyHub Измерение сложности сигнала https://www.youtube.com/watch?v=5vOYgJ-80Bg https://github.com/raphaelvallat/antropy
Заинтересовал вопрос, а можно ли с помощью этих методов различить случайный и структурированный сигнал. Так что зачем-то вместо сна я всю ночь делал расчёты и писал статью. Отправил на ревью в TowardsDataScience, посмотрим, примут ли.
🤯1
#trading

Лидер.
😍2
#diet

Прельстился в магазине сладкой водичкой по скидке. Дома после жадного свинчивания крышки двухлитровая бутыль извергла такой столб содержимого, что липкой сладкой хренью забрызгало всё в радиусе полутора метров, включая меня, ноут, кресло и внешнюю клаву. Теперь залипает часть кнопок. А ведь мне даже не понравился вкус.
#atms #ml #sberbank

Про придумывание истории после перемещения банкомата кажется бредом, про подбор лагов на CV интересная идея, но не раскрыта.

https://www.youtube.com/watch?v=s7cYqaiA2mE&t=3s
🤔1
#mlops #dvc

Уже в который раз смотрю материалы про dvc, и никак не могу понять, нафига это нужно. А вы пользуетесь DVC или каким-либо другим инструментом версионирования данных?

https://www.youtube.com/watch?v=FbIyKjOdiI8
#towardsdatascience

Немного помоев в лицо. Видимо, моя работа слишком хороша для них.

"Hi Anatoly,

Thank you for considering Towards Data Science. Our team has decided not to publish the post you shared with us, but we appreciate the chance to read your work.
👀1