Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#trading

Лидер.
😍2
#diet

Прельстился в магазине сладкой водичкой по скидке. Дома после жадного свинчивания крышки двухлитровая бутыль извергла такой столб содержимого, что липкой сладкой хренью забрызгало всё в радиусе полутора метров, включая меня, ноут, кресло и внешнюю клаву. Теперь залипает часть кнопок. А ведь мне даже не понравился вкус.
#atms #ml #sberbank

Про придумывание истории после перемещения банкомата кажется бредом, про подбор лагов на CV интересная идея, но не раскрыта.

https://www.youtube.com/watch?v=s7cYqaiA2mE&t=3s
🤔1
#mlops #dvc

Уже в который раз смотрю материалы про dvc, и никак не могу понять, нафига это нужно. А вы пользуетесь DVC или каким-либо другим инструментом версионирования данных?

https://www.youtube.com/watch?v=FbIyKjOdiI8
#towardsdatascience

Немного помоев в лицо. Видимо, моя работа слишком хороша для них.

"Hi Anatoly,

Thank you for considering Towards Data Science. Our team has decided not to publish the post you shared with us, but we appreciate the chance to read your work.
👀1
#statistics #informationtheory #entropy #python #featureselection #featureengineering

Ну да ладно, пока просто в личном блоге опубликую, оказывается, вроде потом можно будет статью прикрепить к паблику.

https://medium.com/@fingoldo/15819b261de0
2
#hardware

"Компания Seagate представила свой самый ёмкий жёсткий диск с технологией обычной магнитной записи (CMR). Новинка IronWolf Pro 22TB имеет объём 22 Тбайт. Компания оценила HDD в $600, однако в настоящий момент он доступен в продаже по цене $400."

https://3dnews.ru/1085053/seagate-vipustila-gyostkiy-disk-ironwolf-pro-obyomom-22-tbayt-on-predlagaetsya-po-znachitelnoy-skidke
Forwarded from Борис опять
#лабораторный_журнал

Мы запустили наш проект.

Со стороны выглядит неприлично просто. На одном экране видишь карту фабрики и статус локаций с растениями. По клику на локацию переходишь в инструмент разметки. Если отмечаешь там проблему, то на карте иконка становится красной. Размечаешь как отсутствие проблемы — становится зеленой.

Удивительно как много сложности скрывается за этим фасадом. Пользователю не видно, что для этой простой работы нужно было связать между собой изображения, данные о засеянных продуктах и данные о прогонах робота. Не видно как нам пришлось связывать координаты фотографий от робота с локацией на фабрике. Не видно и всех бекграунд джоб, мониторинговых штук и прочей обвязки.

Показали результат агрономам. Я постоянно ожидаю, что мне скажут: “Это все очень круто, вы молодцы, но это не то, что нужно.” Но нет: им снова понравилось. С понедельника они будут это использовать. Во время демонстрации мы даже вместе нашли проблему с растениями на фото и агрономы пошли разбираться. Вообще постоянно ожидаю, что мы что-то не учли, но все подозрительно хорошо работает и даже с первого раза.

Тем временем у нас накопилось более 400к свеженьких фотографий. Примерно по 60к поступает каждый день. Благодаря тому, что мы связали изображения с данными о растениях, мы уже можем обучать модели на некоторые задачи. Например, предсказывать возраст растения и классифицировать тип. Это позволит претрейнить модели для других задач. С такими объемами даты нам даже доступен self-supervised learning. Уверен, что скоро у нас будет самая крутая модель для растений среди всех компаний занимающихся вертикальными фермами, если не вообще в мире. Мы начинаем делать ML!

Теперь я могу сказать, что есть компания, где я сделал ML с нуля.
🏆4👍1
#games #fantasy

"Он подобрался, услышав сзади, в траве, шорох и скрип тетивы. Четыре года назад Балин, не раздумывая, плюхнулся бы на землю, затаился. Но государь Мории больше не отступал перед опасностью. Смело глядел он в глаза смерти, встречал врагов в полный рост, с оружием в руках. Седобородый старик в мгновение ока развернулся. Почудилось, будто гигантская, титанически огромная пружина вмиг высвободила свою энергию. Алый плащ взвился за широченными плечами. Мускулы на могучих руках напряглись, вскидывая над головой топор.

Короткая чёрная стрела вспорола щеку, раскрошила зубы и воткнулась куда-то глубоко, обдав тело дрожью. Ноги подкосились, и тупая, страшная боль швырнула сознание вниз, словно в холодную, глубокую яму.

Высокий серебристый шлем без забрала скатился по откосу берега, и чёрная вода беззвучно сомкнулась над ним."

https://www.youtube.com/watch?v=75nbOL7GOPE
1
#energy

"Другие европейские страны намного раньше Германии начали отказываться от ядерной энергетики. Первой была Швеция, вскоре после Чернобыля заявившая о постепенном прекращении использования атомной энергии, как и Италия, которая после этой катастрофы тоже решила закрыть две свои атомные электростанции. На сегодняшний день только Италия оставила давнее категорическое решение в силе, тогда как Швеция отменила постепенный отказ от атомной энергетики ещё в 1996 году. Сегодня она располагает шестью атомными электростанциями, которые производят около 30 % необходимой стране электроэнергии.

Другие европейские страны, например, Нидерланды и Польша планируют расширить или вообще создать новые ядерные энергетические платформы. Бельгия, в свою очередь, отложила запланированный ранее постепенный отказ от использования атомной энергии. Франция, имея 57 реакторов, всегда была ведущей страной Европы в области ядерной энергетики, и таковой она намерена оставаться в будущем. В целом, 13 из 27 стран ЕС намерены использовать атомную энергетику в ближайшие годы, причем некоторые из них расширят свои мощности."

https://3dnews.ru/1085116/v-subbotu-germaniya-zakrivaet-poslednie-tri-atomnie-elektrostantsii-v-strane
1
#dask #coiled

Экспериментирую с Dask и Coiled. Первые впечатления - всё смешалось, кони, люди. Кластеру coiled при старте передаётся параметр n_workers=int, который в обычном dask значит то ли число узлов (компьютеров, виртуальных машин), то ли число процессов на узле, в зависимости от настроек. Я попробовал заказать n_workers=8 на AWS c compute_purchase_option="spot", он мне бахнул 8 инстансов t3.xlarge (4 vCPU, 16Gb RAM), надеюсь, спотовых, +1 scheduler, если верить доке, шедулер всегда не-спотовый. Но через пару секунд всё это добро удалилось тк coiled не смог восстановить окружение моего ноута: "ClusterCreationError: Cluster status is error (reason: Scheduler Stopped -> Software build failed -> Conda package install failed with the following errors: package anaconda-2022.10-py310_0 requires pip 22.2.2 py310h06a4308_0, but none of the providers can be installed) (cluster_id: 194588)."
Придётся сначала создавать софтовое окружение явно, как я и думал. Но уже видно, что, несмотря на огромную проделанную работу, coiled не довели её до совершенства. При работе с облаком всегда актуален вопрос стоимости, а тут никаких тебе оптимизаций цен. Максимум они могут "посоветовать" регион с высокими шансами получить машины. Можно указать перечень допустимых инстансов и регион, но цены на них ты должен вызнавать самостоятельно. И никак не регламентировано, как создаются гетерогенные кластера с инстансами разных типов. Такое ощущение, что coiled просто насыпает каких-то рандомных или же дефолтных инстансов, какие может получить от облачного провайдера.
11
#dask #coiled

Ещё что интересно, coiled поддерживает dask-овые ресурсы, но аннотировать рабочие узлы ресурсами нужно самостоятельно, что крайне странно. Ну неужели нельзя было нормально сделать, чтобы железо аннотировалось автоматически?