#ml #contest
Это было первое моё соревнование в DS. Я тогда ни фига не знал, раскрыв рот смотрел на бэйзлайн, в котором использовался pandas. Прошло 6 лет, а всё так же ничего не знаю, по ощущениям. Но по-прежнему жутко интересно.
https://www.youtube.com/watch?v=BRwIIEXnXXU
Это было первое моё соревнование в DS. Я тогда ни фига не знал, раскрыв рот смотрел на бэйзлайн, в котором использовался pandas. Прошло 6 лет, а всё так же ничего не знаю, по ощущениям. Но по-прежнему жутко интересно.
https://www.youtube.com/watch?v=BRwIIEXnXXU
YouTube
Sberbank Data Science Contest: предсказание пола клиента — Михаил Горкунов
Михаил Горкунов рассказывает, как можно подойти к задаче предсказания пола клиента в банке, которая решалась в рамках Sberbank Data Science Contest. Из видео вы сможете узнать:
- Можно ли деанонимизировать платежные данные
- Какие признаки можно строить…
- Можно ли деанонимизировать платежные данные
- Какие признаки можно строить…
#diet
Прельстился в магазине сладкой водичкой по скидке. Дома после жадного свинчивания крышки двухлитровая бутыль извергла такой столб содержимого, что липкой сладкой хренью забрызгало всё в радиусе полутора метров, включая меня, ноут, кресло и внешнюю клаву. Теперь залипает часть кнопок. А ведь мне даже не понравился вкус.
Прельстился в магазине сладкой водичкой по скидке. Дома после жадного свинчивания крышки двухлитровая бутыль извергла такой столб содержимого, что липкой сладкой хренью забрызгало всё в радиусе полутора метров, включая меня, ноут, кресло и внешнюю клаву. Теперь залипает часть кнопок. А ведь мне даже не понравился вкус.
#atms #ml #sberbank
Про придумывание истории после перемещения банкомата кажется бредом, про подбор лагов на CV интересная идея, но не раскрыта.
https://www.youtube.com/watch?v=s7cYqaiA2mE&t=3s
Про придумывание истории после перемещения банкомата кажется бредом, про подбор лагов на CV интересная идея, но не раскрыта.
https://www.youtube.com/watch?v=s7cYqaiA2mE&t=3s
YouTube
"Data Science на примере управления банкоматной сетью Банка"
Александр Ульянов, Сбербанк, Data Science Executive Director.СПЕЦИАЛИСТЫ В ОБЛАСТИ
DATA SCIENCE И DATA ENGINEERINGhttp://newprolab.com
DATA SCIENCE И DATA ENGINEERINGhttp://newprolab.com
🤔1
#mlops #dvc
Уже в который раз смотрю материалы про dvc, и никак не могу понять, нафига это нужно. А вы пользуетесь DVC или каким-либо другим инструментом версионирования данных?
https://www.youtube.com/watch?v=FbIyKjOdiI8
Уже в который раз смотрю материалы про dvc, и никак не могу понять, нафига это нужно. А вы пользуетесь DVC или каким-либо другим инструментом версионирования данных?
https://www.youtube.com/watch?v=FbIyKjOdiI8
YouTube
Estefania Barreto-Ojeda - Applications in ML Drug Discovery pipelines | PyData NYC 2022
www.pydata.org
Development of Machine Learning (ML) pipelines in drug discovery faces different challenges from those in traditional software development. In addition to unique challenges during the data engineering stage, drug discovery pipelines require…
Development of Machine Learning (ML) pipelines in drug discovery faces different challenges from those in traditional software development. In addition to unique challenges during the data engineering stage, drug discovery pipelines require…
#towardsdatascience
Немного помоев в лицо. Видимо, моя работа слишком хороша для них.
"Hi Anatoly,
Thank you for considering Towards Data Science. Our team has decided not to publish the post you shared with us, but we appreciate the chance to read your work.
Немного помоев в лицо. Видимо, моя работа слишком хороша для них.
"Hi Anatoly,
Thank you for considering Towards Data Science. Our team has decided not to publish the post you shared with us, but we appreciate the chance to read your work.
👀1
#statistics #informationtheory #entropy #python #featureselection #featureengineering
Ну да ладно, пока просто в личном блоге опубликую, оказывается, вроде потом можно будет статью прикрепить к паблику.
https://medium.com/@fingoldo/15819b261de0
Ну да ладно, пока просто в личном блоге опубликую, оказывается, вроде потом можно будет статью прикрепить к паблику.
https://medium.com/@fingoldo/15819b261de0
Medium
How to distinguish between structured and random signals in Python
Distinguishing random from structured signals is a fundamental task in statistics, machine learning, and data science in general, as it…
❤2
#coiled #aws #burstable #steal
Турбо-инстансы ожидаемо оказались дороже для DS-нагрузок.
https://medium.com/coiled-hq/burstable-vs-non-burstable-aws-instance-types-for-data-engineering-workloads-540b7f10f6eb
Турбо-инстансы ожидаемо оказались дороже для DS-нагрузок.
https://medium.com/coiled-hq/burstable-vs-non-burstable-aws-instance-types-for-data-engineering-workloads-540b7f10f6eb
Medium
Burstable vs non-burstable AWS instance types for data engineering workloads
Author: Nat Tabris
#dask #coiled
История миграции со Spark на Dask.
Сокращение расходов на 40%, уменьшение времени обработки на 30%.
https://youtu.be/jR0Y7NqKJs8
История миграции со Spark на Dask.
Сокращение расходов на 40%, уменьшение времени обработки на 30%.
https://youtu.be/jR0Y7NqKJs8
YouTube
Spark vs Dask | Why We Switched from Spark to Dask | Sébastien Arnaud at Steppingblocks | June 2022
Learn more at https://bit.ly/3oTtMIN
Spark vs Dask for big data analytics...which should you pick?
Steppingblocks is a big data analytics company that provides workforce and education analytics on over 130 million individuals in the U.S to universities…
Spark vs Dask for big data analytics...which should you pick?
Steppingblocks is a big data analytics company that provides workforce and education analytics on over 130 million individuals in the U.S to universities…
❤1
#hardware
"Компания Seagate представила свой самый ёмкий жёсткий диск с технологией обычной магнитной записи (CMR). Новинка IronWolf Pro 22TB имеет объём 22 Тбайт. Компания оценила HDD в $600, однако в настоящий момент он доступен в продаже по цене $400."
https://3dnews.ru/1085053/seagate-vipustila-gyostkiy-disk-ironwolf-pro-obyomom-22-tbayt-on-predlagaetsya-po-znachitelnoy-skidke
"Компания Seagate представила свой самый ёмкий жёсткий диск с технологией обычной магнитной записи (CMR). Новинка IronWolf Pro 22TB имеет объём 22 Тбайт. Компания оценила HDD в $600, однако в настоящий момент он доступен в продаже по цене $400."
https://3dnews.ru/1085053/seagate-vipustila-gyostkiy-disk-ironwolf-pro-obyomom-22-tbayt-on-predlagaetsya-po-znachitelnoy-skidke
3DNews - Daily Digital Digest
Всего $18 за 1 Тбайт: Seagate выпустила жёсткий диск IronWolf Pro объёмом 22 Тбайт
Компания Seagate представила свой самый ёмкий жёсткий диск с технологией обычной магнитной записи (CMR).
Forwarded from Борис опять
#лабораторный_журнал
Мы запустили наш проект.
Со стороны выглядит неприлично просто. На одном экране видишь карту фабрики и статус локаций с растениями. По клику на локацию переходишь в инструмент разметки. Если отмечаешь там проблему, то на карте иконка становится красной. Размечаешь как отсутствие проблемы — становится зеленой.
Удивительно как много сложности скрывается за этим фасадом. Пользователю не видно, что для этой простой работы нужно было связать между собой изображения, данные о засеянных продуктах и данные о прогонах робота. Не видно как нам пришлось связывать координаты фотографий от робота с локацией на фабрике. Не видно и всех бекграунд джоб, мониторинговых штук и прочей обвязки.
Показали результат агрономам. Я постоянно ожидаю, что мне скажут: “Это все очень круто, вы молодцы, но это не то, что нужно.” Но нет: им снова понравилось. С понедельника они будут это использовать. Во время демонстрации мы даже вместе нашли проблему с растениями на фото и агрономы пошли разбираться. Вообще постоянно ожидаю, что мы что-то не учли, но все подозрительно хорошо работает и даже с первого раза.
Тем временем у нас накопилось более 400к свеженьких фотографий. Примерно по 60к поступает каждый день. Благодаря тому, что мы связали изображения с данными о растениях, мы уже можем обучать модели на некоторые задачи. Например, предсказывать возраст растения и классифицировать тип. Это позволит претрейнить модели для других задач. С такими объемами даты нам даже доступен self-supervised learning. Уверен, что скоро у нас будет самая крутая модель для растений среди всех компаний занимающихся вертикальными фермами, если не вообще в мире. Мы начинаем делать ML!
Теперь я могу сказать, что есть компания, где я сделал ML с нуля.
Мы запустили наш проект.
Со стороны выглядит неприлично просто. На одном экране видишь карту фабрики и статус локаций с растениями. По клику на локацию переходишь в инструмент разметки. Если отмечаешь там проблему, то на карте иконка становится красной. Размечаешь как отсутствие проблемы — становится зеленой.
Удивительно как много сложности скрывается за этим фасадом. Пользователю не видно, что для этой простой работы нужно было связать между собой изображения, данные о засеянных продуктах и данные о прогонах робота. Не видно как нам пришлось связывать координаты фотографий от робота с локацией на фабрике. Не видно и всех бекграунд джоб, мониторинговых штук и прочей обвязки.
Показали результат агрономам. Я постоянно ожидаю, что мне скажут: “Это все очень круто, вы молодцы, но это не то, что нужно.” Но нет: им снова понравилось. С понедельника они будут это использовать. Во время демонстрации мы даже вместе нашли проблему с растениями на фото и агрономы пошли разбираться. Вообще постоянно ожидаю, что мы что-то не учли, но все подозрительно хорошо работает и даже с первого раза.
Тем временем у нас накопилось более 400к свеженьких фотографий. Примерно по 60к поступает каждый день. Благодаря тому, что мы связали изображения с данными о растениях, мы уже можем обучать модели на некоторые задачи. Например, предсказывать возраст растения и классифицировать тип. Это позволит претрейнить модели для других задач. С такими объемами даты нам даже доступен self-supervised learning. Уверен, что скоро у нас будет самая крутая модель для растений среди всех компаний занимающихся вертикальными фермами, если не вообще в мире. Мы начинаем делать ML!
Теперь я могу сказать, что есть компания, где я сделал ML с нуля.
🏆4👍1
#games #fantasy
"Он подобрался, услышав сзади, в траве, шорох и скрип тетивы. Четыре года назад Балин, не раздумывая, плюхнулся бы на землю, затаился. Но государь Мории больше не отступал перед опасностью. Смело глядел он в глаза смерти, встречал врагов в полный рост, с оружием в руках. Седобородый старик в мгновение ока развернулся. Почудилось, будто гигантская, титанически огромная пружина вмиг высвободила свою энергию. Алый плащ взвился за широченными плечами. Мускулы на могучих руках напряглись, вскидывая над головой топор.
Короткая чёрная стрела вспорола щеку, раскрошила зубы и воткнулась куда-то глубоко, обдав тело дрожью. Ноги подкосились, и тупая, страшная боль швырнула сознание вниз, словно в холодную, глубокую яму.
Высокий серебристый шлем без забрала скатился по откосу берега, и чёрная вода беззвучно сомкнулась над ним."
https://www.youtube.com/watch?v=75nbOL7GOPE
"Он подобрался, услышав сзади, в траве, шорох и скрип тетивы. Четыре года назад Балин, не раздумывая, плюхнулся бы на землю, затаился. Но государь Мории больше не отступал перед опасностью. Смело глядел он в глаза смерти, встречал врагов в полный рост, с оружием в руках. Седобородый старик в мгновение ока развернулся. Почудилось, будто гигантская, титанически огромная пружина вмиг высвободила свою энергию. Алый плащ взвился за широченными плечами. Мускулы на могучих руках напряглись, вскидывая над головой топор.
Короткая чёрная стрела вспорола щеку, раскрошила зубы и воткнулась куда-то глубоко, обдав тело дрожью. Ноги подкосились, и тупая, страшная боль швырнула сознание вниз, словно в холодную, глубокую яму.
Высокий серебристый шлем без забрала скатился по откосу берега, и чёрная вода беззвучно сомкнулась над ним."
https://www.youtube.com/watch?v=75nbOL7GOPE
YouTube
The Lord of the Rings™: Return to Moria™ - Official Announcement Trailer 4K
The only survival crafting game set in the Fourth Age of Middle-earth™, the iconic fantasy world created by J.R.R. Tolkien
Find out more at www.ReturnToMoria.com
Find out more at www.ReturnToMoria.com
❤1
#energy
"Другие европейские страны намного раньше Германии начали отказываться от ядерной энергетики. Первой была Швеция, вскоре после Чернобыля заявившая о постепенном прекращении использования атомной энергии, как и Италия, которая после этой катастрофы тоже решила закрыть две свои атомные электростанции. На сегодняшний день только Италия оставила давнее категорическое решение в силе, тогда как Швеция отменила постепенный отказ от атомной энергетики ещё в 1996 году. Сегодня она располагает шестью атомными электростанциями, которые производят около 30 % необходимой стране электроэнергии.
Другие европейские страны, например, Нидерланды и Польша планируют расширить или вообще создать новые ядерные энергетические платформы. Бельгия, в свою очередь, отложила запланированный ранее постепенный отказ от использования атомной энергии. Франция, имея 57 реакторов, всегда была ведущей страной Европы в области ядерной энергетики, и таковой она намерена оставаться в будущем. В целом, 13 из 27 стран ЕС намерены использовать атомную энергетику в ближайшие годы, причем некоторые из них расширят свои мощности."
https://3dnews.ru/1085116/v-subbotu-germaniya-zakrivaet-poslednie-tri-atomnie-elektrostantsii-v-strane
"Другие европейские страны намного раньше Германии начали отказываться от ядерной энергетики. Первой была Швеция, вскоре после Чернобыля заявившая о постепенном прекращении использования атомной энергии, как и Италия, которая после этой катастрофы тоже решила закрыть две свои атомные электростанции. На сегодняшний день только Италия оставила давнее категорическое решение в силе, тогда как Швеция отменила постепенный отказ от атомной энергетики ещё в 1996 году. Сегодня она располагает шестью атомными электростанциями, которые производят около 30 % необходимой стране электроэнергии.
Другие европейские страны, например, Нидерланды и Польша планируют расширить или вообще создать новые ядерные энергетические платформы. Бельгия, в свою очередь, отложила запланированный ранее постепенный отказ от использования атомной энергии. Франция, имея 57 реакторов, всегда была ведущей страной Европы в области ядерной энергетики, и таковой она намерена оставаться в будущем. В целом, 13 из 27 стран ЕС намерены использовать атомную энергетику в ближайшие годы, причем некоторые из них расширят свои мощности."
https://3dnews.ru/1085116/v-subbotu-germaniya-zakrivaet-poslednie-tri-atomnie-elektrostantsii-v-strane
3DNews - Daily Digital Digest
В субботу Германия закроет три последние атомные электростанции в стране
15 апреля Германия закрывает три последние атомные электростанции в стране.
❤1
#dask #coiled
Экспериментирую с Dask и Coiled. Первые впечатления - всё смешалось, кони, люди. Кластеру coiled при старте передаётся параметр n_workers=int, который в обычном dask значит то ли число узлов (компьютеров, виртуальных машин), то ли число процессов на узле, в зависимости от настроек. Я попробовал заказать n_workers=8 на AWS c compute_purchase_option="spot", он мне бахнул 8 инстансов t3.xlarge (4 vCPU, 16Gb RAM), надеюсь, спотовых, +1 scheduler, если верить доке, шедулер всегда не-спотовый. Но через пару секунд всё это добро удалилось тк coiled не смог восстановить окружение моего ноута: "ClusterCreationError: Cluster status is error (reason: Scheduler Stopped -> Software build failed -> Conda package install failed with the following errors: package anaconda-2022.10-py310_0 requires pip 22.2.2 py310h06a4308_0, but none of the providers can be installed) (cluster_id: 194588)."
Придётся сначала создавать софтовое окружение явно, как я и думал. Но уже видно, что, несмотря на огромную проделанную работу, coiled не довели её до совершенства. При работе с облаком всегда актуален вопрос стоимости, а тут никаких тебе оптимизаций цен. Максимум они могут "посоветовать" регион с высокими шансами получить машины. Можно указать перечень допустимых инстансов и регион, но цены на них ты должен вызнавать самостоятельно. И никак не регламентировано, как создаются гетерогенные кластера с инстансами разных типов. Такое ощущение, что coiled просто насыпает каких-то рандомных или же дефолтных инстансов, какие может получить от облачного провайдера.
Экспериментирую с Dask и Coiled. Первые впечатления - всё смешалось, кони, люди. Кластеру coiled при старте передаётся параметр n_workers=int, который в обычном dask значит то ли число узлов (компьютеров, виртуальных машин), то ли число процессов на узле, в зависимости от настроек. Я попробовал заказать n_workers=8 на AWS c compute_purchase_option="spot", он мне бахнул 8 инстансов t3.xlarge (4 vCPU, 16Gb RAM), надеюсь, спотовых, +1 scheduler, если верить доке, шедулер всегда не-спотовый. Но через пару секунд всё это добро удалилось тк coiled не смог восстановить окружение моего ноута: "ClusterCreationError: Cluster status is error (reason: Scheduler Stopped -> Software build failed -> Conda package install failed with the following errors: package anaconda-2022.10-py310_0 requires pip 22.2.2 py310h06a4308_0, but none of the providers can be installed) (cluster_id: 194588)."
Придётся сначала создавать софтовое окружение явно, как я и думал. Но уже видно, что, несмотря на огромную проделанную работу, coiled не довели её до совершенства. При работе с облаком всегда актуален вопрос стоимости, а тут никаких тебе оптимизаций цен. Максимум они могут "посоветовать" регион с высокими шансами получить машины. Можно указать перечень допустимых инстансов и регион, но цены на них ты должен вызнавать самостоятельно. И никак не регламентировано, как создаются гетерогенные кластера с инстансами разных типов. Такое ощущение, что coiled просто насыпает каких-то рандомных или же дефолтных инстансов, какие может получить от облачного провайдера.
❤1✍1