#coiled #aws #burstable #steal
Турбо-инстансы ожидаемо оказались дороже для DS-нагрузок.
https://medium.com/coiled-hq/burstable-vs-non-burstable-aws-instance-types-for-data-engineering-workloads-540b7f10f6eb
Турбо-инстансы ожидаемо оказались дороже для DS-нагрузок.
https://medium.com/coiled-hq/burstable-vs-non-burstable-aws-instance-types-for-data-engineering-workloads-540b7f10f6eb
Medium
Burstable vs non-burstable AWS instance types for data engineering workloads
Author: Nat Tabris
#dask #coiled
История миграции со Spark на Dask.
Сокращение расходов на 40%, уменьшение времени обработки на 30%.
https://youtu.be/jR0Y7NqKJs8
История миграции со Spark на Dask.
Сокращение расходов на 40%, уменьшение времени обработки на 30%.
https://youtu.be/jR0Y7NqKJs8
YouTube
Spark vs Dask | Why We Switched from Spark to Dask | Sébastien Arnaud at Steppingblocks | June 2022
Learn more at https://bit.ly/3oTtMIN
Spark vs Dask for big data analytics...which should you pick?
Steppingblocks is a big data analytics company that provides workforce and education analytics on over 130 million individuals in the U.S to universities…
Spark vs Dask for big data analytics...which should you pick?
Steppingblocks is a big data analytics company that provides workforce and education analytics on over 130 million individuals in the U.S to universities…
❤1
#hardware
"Компания Seagate представила свой самый ёмкий жёсткий диск с технологией обычной магнитной записи (CMR). Новинка IronWolf Pro 22TB имеет объём 22 Тбайт. Компания оценила HDD в $600, однако в настоящий момент он доступен в продаже по цене $400."
https://3dnews.ru/1085053/seagate-vipustila-gyostkiy-disk-ironwolf-pro-obyomom-22-tbayt-on-predlagaetsya-po-znachitelnoy-skidke
"Компания Seagate представила свой самый ёмкий жёсткий диск с технологией обычной магнитной записи (CMR). Новинка IronWolf Pro 22TB имеет объём 22 Тбайт. Компания оценила HDD в $600, однако в настоящий момент он доступен в продаже по цене $400."
https://3dnews.ru/1085053/seagate-vipustila-gyostkiy-disk-ironwolf-pro-obyomom-22-tbayt-on-predlagaetsya-po-znachitelnoy-skidke
3DNews - Daily Digital Digest
Всего $18 за 1 Тбайт: Seagate выпустила жёсткий диск IronWolf Pro объёмом 22 Тбайт
Компания Seagate представила свой самый ёмкий жёсткий диск с технологией обычной магнитной записи (CMR).
Forwarded from Борис опять
#лабораторный_журнал
Мы запустили наш проект.
Со стороны выглядит неприлично просто. На одном экране видишь карту фабрики и статус локаций с растениями. По клику на локацию переходишь в инструмент разметки. Если отмечаешь там проблему, то на карте иконка становится красной. Размечаешь как отсутствие проблемы — становится зеленой.
Удивительно как много сложности скрывается за этим фасадом. Пользователю не видно, что для этой простой работы нужно было связать между собой изображения, данные о засеянных продуктах и данные о прогонах робота. Не видно как нам пришлось связывать координаты фотографий от робота с локацией на фабрике. Не видно и всех бекграунд джоб, мониторинговых штук и прочей обвязки.
Показали результат агрономам. Я постоянно ожидаю, что мне скажут: “Это все очень круто, вы молодцы, но это не то, что нужно.” Но нет: им снова понравилось. С понедельника они будут это использовать. Во время демонстрации мы даже вместе нашли проблему с растениями на фото и агрономы пошли разбираться. Вообще постоянно ожидаю, что мы что-то не учли, но все подозрительно хорошо работает и даже с первого раза.
Тем временем у нас накопилось более 400к свеженьких фотографий. Примерно по 60к поступает каждый день. Благодаря тому, что мы связали изображения с данными о растениях, мы уже можем обучать модели на некоторые задачи. Например, предсказывать возраст растения и классифицировать тип. Это позволит претрейнить модели для других задач. С такими объемами даты нам даже доступен self-supervised learning. Уверен, что скоро у нас будет самая крутая модель для растений среди всех компаний занимающихся вертикальными фермами, если не вообще в мире. Мы начинаем делать ML!
Теперь я могу сказать, что есть компания, где я сделал ML с нуля.
Мы запустили наш проект.
Со стороны выглядит неприлично просто. На одном экране видишь карту фабрики и статус локаций с растениями. По клику на локацию переходишь в инструмент разметки. Если отмечаешь там проблему, то на карте иконка становится красной. Размечаешь как отсутствие проблемы — становится зеленой.
Удивительно как много сложности скрывается за этим фасадом. Пользователю не видно, что для этой простой работы нужно было связать между собой изображения, данные о засеянных продуктах и данные о прогонах робота. Не видно как нам пришлось связывать координаты фотографий от робота с локацией на фабрике. Не видно и всех бекграунд джоб, мониторинговых штук и прочей обвязки.
Показали результат агрономам. Я постоянно ожидаю, что мне скажут: “Это все очень круто, вы молодцы, но это не то, что нужно.” Но нет: им снова понравилось. С понедельника они будут это использовать. Во время демонстрации мы даже вместе нашли проблему с растениями на фото и агрономы пошли разбираться. Вообще постоянно ожидаю, что мы что-то не учли, но все подозрительно хорошо работает и даже с первого раза.
Тем временем у нас накопилось более 400к свеженьких фотографий. Примерно по 60к поступает каждый день. Благодаря тому, что мы связали изображения с данными о растениях, мы уже можем обучать модели на некоторые задачи. Например, предсказывать возраст растения и классифицировать тип. Это позволит претрейнить модели для других задач. С такими объемами даты нам даже доступен self-supervised learning. Уверен, что скоро у нас будет самая крутая модель для растений среди всех компаний занимающихся вертикальными фермами, если не вообще в мире. Мы начинаем делать ML!
Теперь я могу сказать, что есть компания, где я сделал ML с нуля.
🏆4👍1
#games #fantasy
"Он подобрался, услышав сзади, в траве, шорох и скрип тетивы. Четыре года назад Балин, не раздумывая, плюхнулся бы на землю, затаился. Но государь Мории больше не отступал перед опасностью. Смело глядел он в глаза смерти, встречал врагов в полный рост, с оружием в руках. Седобородый старик в мгновение ока развернулся. Почудилось, будто гигантская, титанически огромная пружина вмиг высвободила свою энергию. Алый плащ взвился за широченными плечами. Мускулы на могучих руках напряглись, вскидывая над головой топор.
Короткая чёрная стрела вспорола щеку, раскрошила зубы и воткнулась куда-то глубоко, обдав тело дрожью. Ноги подкосились, и тупая, страшная боль швырнула сознание вниз, словно в холодную, глубокую яму.
Высокий серебристый шлем без забрала скатился по откосу берега, и чёрная вода беззвучно сомкнулась над ним."
https://www.youtube.com/watch?v=75nbOL7GOPE
"Он подобрался, услышав сзади, в траве, шорох и скрип тетивы. Четыре года назад Балин, не раздумывая, плюхнулся бы на землю, затаился. Но государь Мории больше не отступал перед опасностью. Смело глядел он в глаза смерти, встречал врагов в полный рост, с оружием в руках. Седобородый старик в мгновение ока развернулся. Почудилось, будто гигантская, титанически огромная пружина вмиг высвободила свою энергию. Алый плащ взвился за широченными плечами. Мускулы на могучих руках напряглись, вскидывая над головой топор.
Короткая чёрная стрела вспорола щеку, раскрошила зубы и воткнулась куда-то глубоко, обдав тело дрожью. Ноги подкосились, и тупая, страшная боль швырнула сознание вниз, словно в холодную, глубокую яму.
Высокий серебристый шлем без забрала скатился по откосу берега, и чёрная вода беззвучно сомкнулась над ним."
https://www.youtube.com/watch?v=75nbOL7GOPE
YouTube
The Lord of the Rings™: Return to Moria™ - Official Announcement Trailer 4K
The only survival crafting game set in the Fourth Age of Middle-earth™, the iconic fantasy world created by J.R.R. Tolkien
Find out more at www.ReturnToMoria.com
Find out more at www.ReturnToMoria.com
❤1
#energy
"Другие европейские страны намного раньше Германии начали отказываться от ядерной энергетики. Первой была Швеция, вскоре после Чернобыля заявившая о постепенном прекращении использования атомной энергии, как и Италия, которая после этой катастрофы тоже решила закрыть две свои атомные электростанции. На сегодняшний день только Италия оставила давнее категорическое решение в силе, тогда как Швеция отменила постепенный отказ от атомной энергетики ещё в 1996 году. Сегодня она располагает шестью атомными электростанциями, которые производят около 30 % необходимой стране электроэнергии.
Другие европейские страны, например, Нидерланды и Польша планируют расширить или вообще создать новые ядерные энергетические платформы. Бельгия, в свою очередь, отложила запланированный ранее постепенный отказ от использования атомной энергии. Франция, имея 57 реакторов, всегда была ведущей страной Европы в области ядерной энергетики, и таковой она намерена оставаться в будущем. В целом, 13 из 27 стран ЕС намерены использовать атомную энергетику в ближайшие годы, причем некоторые из них расширят свои мощности."
https://3dnews.ru/1085116/v-subbotu-germaniya-zakrivaet-poslednie-tri-atomnie-elektrostantsii-v-strane
"Другие европейские страны намного раньше Германии начали отказываться от ядерной энергетики. Первой была Швеция, вскоре после Чернобыля заявившая о постепенном прекращении использования атомной энергии, как и Италия, которая после этой катастрофы тоже решила закрыть две свои атомные электростанции. На сегодняшний день только Италия оставила давнее категорическое решение в силе, тогда как Швеция отменила постепенный отказ от атомной энергетики ещё в 1996 году. Сегодня она располагает шестью атомными электростанциями, которые производят около 30 % необходимой стране электроэнергии.
Другие европейские страны, например, Нидерланды и Польша планируют расширить или вообще создать новые ядерные энергетические платформы. Бельгия, в свою очередь, отложила запланированный ранее постепенный отказ от использования атомной энергии. Франция, имея 57 реакторов, всегда была ведущей страной Европы в области ядерной энергетики, и таковой она намерена оставаться в будущем. В целом, 13 из 27 стран ЕС намерены использовать атомную энергетику в ближайшие годы, причем некоторые из них расширят свои мощности."
https://3dnews.ru/1085116/v-subbotu-germaniya-zakrivaet-poslednie-tri-atomnie-elektrostantsii-v-strane
3DNews - Daily Digital Digest
В субботу Германия закроет три последние атомные электростанции в стране
15 апреля Германия закрывает три последние атомные электростанции в стране.
❤1
#dask #coiled
Экспериментирую с Dask и Coiled. Первые впечатления - всё смешалось, кони, люди. Кластеру coiled при старте передаётся параметр n_workers=int, который в обычном dask значит то ли число узлов (компьютеров, виртуальных машин), то ли число процессов на узле, в зависимости от настроек. Я попробовал заказать n_workers=8 на AWS c compute_purchase_option="spot", он мне бахнул 8 инстансов t3.xlarge (4 vCPU, 16Gb RAM), надеюсь, спотовых, +1 scheduler, если верить доке, шедулер всегда не-спотовый. Но через пару секунд всё это добро удалилось тк coiled не смог восстановить окружение моего ноута: "ClusterCreationError: Cluster status is error (reason: Scheduler Stopped -> Software build failed -> Conda package install failed with the following errors: package anaconda-2022.10-py310_0 requires pip 22.2.2 py310h06a4308_0, but none of the providers can be installed) (cluster_id: 194588)."
Придётся сначала создавать софтовое окружение явно, как я и думал. Но уже видно, что, несмотря на огромную проделанную работу, coiled не довели её до совершенства. При работе с облаком всегда актуален вопрос стоимости, а тут никаких тебе оптимизаций цен. Максимум они могут "посоветовать" регион с высокими шансами получить машины. Можно указать перечень допустимых инстансов и регион, но цены на них ты должен вызнавать самостоятельно. И никак не регламентировано, как создаются гетерогенные кластера с инстансами разных типов. Такое ощущение, что coiled просто насыпает каких-то рандомных или же дефолтных инстансов, какие может получить от облачного провайдера.
Экспериментирую с Dask и Coiled. Первые впечатления - всё смешалось, кони, люди. Кластеру coiled при старте передаётся параметр n_workers=int, который в обычном dask значит то ли число узлов (компьютеров, виртуальных машин), то ли число процессов на узле, в зависимости от настроек. Я попробовал заказать n_workers=8 на AWS c compute_purchase_option="spot", он мне бахнул 8 инстансов t3.xlarge (4 vCPU, 16Gb RAM), надеюсь, спотовых, +1 scheduler, если верить доке, шедулер всегда не-спотовый. Но через пару секунд всё это добро удалилось тк coiled не смог восстановить окружение моего ноута: "ClusterCreationError: Cluster status is error (reason: Scheduler Stopped -> Software build failed -> Conda package install failed with the following errors: package anaconda-2022.10-py310_0 requires pip 22.2.2 py310h06a4308_0, but none of the providers can be installed) (cluster_id: 194588)."
Придётся сначала создавать софтовое окружение явно, как я и думал. Но уже видно, что, несмотря на огромную проделанную работу, coiled не довели её до совершенства. При работе с облаком всегда актуален вопрос стоимости, а тут никаких тебе оптимизаций цен. Максимум они могут "посоветовать" регион с высокими шансами получить машины. Можно указать перечень допустимых инстансов и регион, но цены на них ты должен вызнавать самостоятельно. И никак не регламентировано, как создаются гетерогенные кластера с инстансами разных типов. Такое ощущение, что coiled просто насыпает каких-то рандомных или же дефолтных инстансов, какие может получить от облачного провайдера.
❤1✍1
#dask #coiled
Ураа, после пары часов танцев удалось запустить вычисления на кластере AWS через coiled. Уже хотел отказаться от этой затеи, т.к. постоянно выкидывало ошибку что не установлен мой модуль, хотя я его копировал на узлы с помощью client.upload_file. Уже было расстроился, что не получается сделать прозрачную замену локального dask на распределённый, но оказалось, в той функции, что требуется запустить на кластере, надо сделать импорт из нужного модуля, и тогда всё заработает. Это нигде не документировано и в поисковике не находится, не удивлюсь, если многие до этой проблемы дошли и бросили. Ну ладно, все проблемы решены, получается? Нет, конечно.
Замерил использование CPU на воркере, похоже, всегда загружено только 1 ядро, что за чёрт? Запостил вопрос на их гитхабе (другой поддержки там не предусмотрено).
Похоже, стартап с US$ 21M финансированием, цель которого демократизировать кластерные вычисления питонистов в облаках... решил, что поддерживать многопроцессовость vs многопотоковость, которая нужна для чистого питон-кода, не умеющего обходить GIL, (и которая уже была в dask) не надо, и так сойдёт. Как говорится, что это, глупость или предательство?
Пока что мне подсказали использовать много машинок не более чем с 2 vCPU. По результатам теста, действительно, это позволяет извлечь максимум из железа: 1 ядро по-любому подсунут виртуальное (HT), и оно даёт +15% к производительнсти, даже с учётом того, что dask от coiled на потоках (не знаю, как это получается). Но при добавлении ещё одного реального и виртуального ядра это масштабирается ещё на 15% вместо 50%, что уже невыгодно. Конечно, создавать каждый раз вирутальный сервер со своим полноразмерным образом диска ради 2 потоков глупо, ну а что делать.
Ураа, после пары часов танцев удалось запустить вычисления на кластере AWS через coiled. Уже хотел отказаться от этой затеи, т.к. постоянно выкидывало ошибку что не установлен мой модуль, хотя я его копировал на узлы с помощью client.upload_file. Уже было расстроился, что не получается сделать прозрачную замену локального dask на распределённый, но оказалось, в той функции, что требуется запустить на кластере, надо сделать импорт из нужного модуля, и тогда всё заработает. Это нигде не документировано и в поисковике не находится, не удивлюсь, если многие до этой проблемы дошли и бросили. Ну ладно, все проблемы решены, получается? Нет, конечно.
Замерил использование CPU на воркере, похоже, всегда загружено только 1 ядро, что за чёрт? Запостил вопрос на их гитхабе (другой поддержки там не предусмотрено).
Похоже, стартап с US$ 21M финансированием, цель которого демократизировать кластерные вычисления питонистов в облаках... решил, что поддерживать многопроцессовость vs многопотоковость, которая нужна для чистого питон-кода, не умеющего обходить GIL, (и которая уже была в dask) не надо, и так сойдёт. Как говорится, что это, глупость или предательство?
Пока что мне подсказали использовать много машинок не более чем с 2 vCPU. По результатам теста, действительно, это позволяет извлечь максимум из железа: 1 ядро по-любому подсунут виртуальное (HT), и оно даёт +15% к производительнсти, даже с учётом того, что dask от coiled на потоках (не знаю, как это получается). Но при добавлении ещё одного реального и виртуального ядра это масштабирается ещё на 15% вместо 50%, что уже невыгодно. Конечно, создавать каждый раз вирутальный сервер со своим полноразмерным образом диска ради 2 потоков глупо, ну а что делать.
GitHub
Making a worker use processes rather than cores · Issue #238 · coiled/feedback
Hi, I am trying to run distributed computing on AWS using coiled. My code is pure Python and therefore can not bypass the GIL. When testing with local Dask on my laptop, to activate all cores I had...
Что-то мне уже кажется, что проще самому написать поднятие контейнера с установленным dask для воркеров и шедулера, присоединение к кластеру, отработку задач и удаление кластера, чем убеждать команду coiled из 30 человек добавить функциональность многопроцессовости, раз уж они за несколько лет не захотели/не смогли/не догадались это сделать. Ну как так можно работать, тупо штаны протирать годами. Я за 1 день столько проблем увидел, требующих решения, а у них там и конь не валялся, хотя в штате 30 высококлассных спецов и это платный сервис, т.е. они должны быть заинтересованы в развитии продукта. Самая очевидная проблема в подборе инстансов, регионов и облаков оптимальных по цене/скорости работы для данной клиентской нагрузки. А они в доке уныло бубнят, мол, мы не знаем, какой инстанс будет лучше для вашей задачи, попробуйте сами несколько.. Так блять сделайте удбную фишку для клиента, чтобы его нагрузка бенчилась автоматом на нескольких инстансах,и потом ему предлагалась лучшая конфигурация, возьмите за это больше денег.. Добавьте ML чтобы предсказывать производительнось, не гоняя нагрузку на всех 100500 возможных инстансах... Да нет, нахер надо.
А, так у них ещё и конский ценник.
10,000 CPU-hours free every month
$0.05 per CPU-hour thereafter
Bulk discounts starting at $10,000
(Costs are in addition to your AWS or Google Cloud costs, which we work to help you minimize.)
Эти 10k CPU-часов пролетят незаметно, за сутки работы 200 мелких машинок с 2 ядрами. А потом надо будет платить coiled по сути БОЛЬШЕ, чем за сами сервера облачному провайдеру, потому что на спот-рынке даже не самые мелкие 2 vCPU сервера стоят $0.0134/hr. А Coiled за такой будет брать уже 0.05*2=$0.1/hr, фига себе, в 10 раз больше.
10,000 CPU-hours free every month
$0.05 per CPU-hour thereafter
Bulk discounts starting at $10,000
(Costs are in addition to your AWS or Google Cloud costs, which we work to help you minimize.)
Эти 10k CPU-часов пролетят незаметно, за сутки работы 200 мелких машинок с 2 ядрами. А потом надо будет платить coiled по сути БОЛЬШЕ, чем за сами сервера облачному провайдеру, потому что на спот-рынке даже не самые мелкие 2 vCPU сервера стоят $0.0134/hr. А Coiled за такой будет брать уже 0.05*2=$0.1/hr, фига себе, в 10 раз больше.
Forwarded from Техножрица 👩💻👩🏫👩🔧
Разные области математики в представлении бота Kandinsky 2:
- Mathematical analysis
- Linear algebra
- Abstract algebra
- Topology
- Geometry
- Mathematical statistics and probability
- Number theory
- Equations of Mathematical Physics
- Category theory
- Foundations of Mathematics (4k).
P.S. Чтобы не получать в генерации обложки учебников, можно добавить модификатор стиля (4k) или переформулировать запрос
- Mathematical analysis
- Linear algebra
- Abstract algebra
- Topology
- Geometry
- Mathematical statistics and probability
- Number theory
- Equations of Mathematical Physics
- Category theory
- Foundations of Mathematics (4k).
P.S. Чтобы не получать в генерации обложки учебников, можно добавить модификатор стиля (4k) или переформулировать запрос
❤2❤🔥1🆒1