Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#opticloud

Итак, первый шаг к сервису поиска оптимального облака под коротко- и среднесрочные расчёты сделан. Пока только для AWS, начат сбор спотовых цен на EC2 с высокой гранулярностью и для всех 27 публичных регионов. Уже, кстати, видно, что некоторые регионы проводят активное ценообразование, другие же спотовые цены почти не меняют. Сегодня добавляю сбор цен ondemand и заполнение таблицы "железных" характеристик инстансов. В будущем эта информация дополнится унифицированными листингами железа, снятыми непосредственно агентом внутри ВМ, и целым набором бенчмарков из разных областей. В течение недели поиск TOP N регионов/инстансов по соотношению производительность/цена на 1 vCore/Гб RAM/Тб HDD станет доступен в виде платного API.

Ещё планируются:
1) включение GCP и Azure
2) на более дорогом уровне: выдача не просто инстансов оптимальных СЕЙЧАС, а (с помощью ML) оптимальных в течение времени, нужного клиенту для вычислений. Например, банк проводит вычисления длительностью в 3 часа в 15-00 каждый день, где ему лучше запускаться сегодня, чтобы суммарная ожидаемая стоимость была минимальной? А завтра?

О ценообразовании:

Логичным кажется получение % от экономии, достигнутой с помощью сервиса, на какой-то стандартной нагрузке. Скажем, под фильтр клиента попадают N валидных комбинаций инстансов/регионов/зон. Тогда экономия составит mean(SportPrices(N))-min(SportPrices(N)) на инстанс в час.
👍2
#gpt

"Акаш Нигам (Akash Nigam) оформил для всех 120 работников стартапа Genies подписку на платную версию ИИ-бота ChatGPT Plus, и уже спустя месяц это заметно ускорило работу. Стартап Genies с рыночной стоимостью $1 млрд занимается созданием виртуальных аватаров, которые используют, в том числе, звёзды Джастин Бибер и Карди Би . Эксперимент с ИИ-ботом обходится компании в $2400 в месяц. ChatGPT оказался полезным при разработке плана компании с изложением её стратегии в отношении выпуска нового продукта. По словам Нигам, процесс составления плана «обычно требует много часов» мозгового штурма, но вместо этого ИИ-боту предоставили всю необходимую информацию, и попросили организовать её в виде диаграммы с делегированием задач соответствующим командам специалистов. ИИ-бот помог решить этот вопрос в кратчайшие сроки."

https://3dnews.ru/1085986/glava-startapaedinoroga-genies-oplatil-podpisku-chatgpt-plus-vsem-sotrudnikam-dlya-prirosta-proizvoditelnosti
2
#starship

"В ходе пуска многое пошло не по плану. Хотя Маск ещё до старта сообщал о том, что вероятность полного успеха относительно невелика, оказалось, что неудачи начались с самого начала. Ракета практически полностью уничтожила бетонную стартовую площадку, соседний город накрыло облаком пыли, а после пуска не все двигатели сработали и на четвёртой минуте полёта ракета потеряла управление, а одна ступень не смогла отделиться от другой. Наконец, какое-то время Starship падала, уже получив сигнал о взрыве.

Даже после задержки взрыва неприятности продолжали множиться. Так, после того как ракета, наконец, взорвалась, обломки разлетелись на площади в несколько сотен гектар над космодромом SpaceX и экопарком Boca Chica State Park.

Федеральное управление гражданской авиации США (FAA) уже сообщило, что расследует события и новый Starship не взлетит, пока ведомство не решит, что «любые система, процесс или процедура, связанные с происшествием, не влияют на общественную безопасность». Даже с учётом всех предшествовавших событий Маск назвал запуск «успешным» и «возможно, слегка превзошедшим его ожидания».

По его словам, «целью этих миссий является информация. У нас нет полезной нагрузки или чего-то ещё — это делается просто для того, чтобы узнать как можно больше»."


https://3dnews.ru/1085990/raketa-starship-samolikvidirovalas-lish-cherez-40-sekund-posle-signala-spacex
1
#opticloud

В общем, всё оказалось не так просто. И наличие инстансов в определённом облачном регионе/зоне надо как-то оценивать (цена не имеет смысла, если мало или совсем нет товара), и об экономном расходовании места в базе думать, и код отрефакторить, чтоб был красивым, и мониторинг задач настроить.
👀2
#algorithms

Так, кто готовился к собесам, что за алгоритм решает следующую задачу:

есть N авторов с произвольным количеством книг у каждого (не более 10).
Нужно упаковать книги в наименьшее число рюкзаков (вместимость рюкзака не более 10 книг), при этом книги одного автора не должны находиться в разных рюкзаках.
1
#algorithms

Вам требуется оценить наличие книг автора A в магазинах книжной сети. На Ваш запрос в стороннюю АСУ, есть ли на складе магазинов сети определённое число книг N, система учёта по странной причине выдаёт по всем магазинам не точный остаток книг, а нормированную по всей сети и затем разбитую по 10%-ным бинам вероятность того, что в данном магазине есть как минимум N книг. Например, если в сети 3 магазина с 2, 15, 40 книг автора на складе, и Вы запрашиваете, есть ли в магазинах 50 книг, АСУ рассчитает вероятности как [2/50, 15/50, 40/50]=[0.04, 0.3, 0.8], применит насыщение до 1 (останутся те же числа т.к. у нас числа не превышают 1), нормирует на максимальное число 0,8 получит [0.05 , 0.375, 1. ], разобъёт на 10% бины и вернёт ответ [10%, 40%, 100%], Каждый запрос в систему платный, и Вы хотите выяснить если не точное количество книг автора во всех магазинах (так как система округляет бин в правую сторону), то хотя бы их помагазинное соотношение, но при этом минимизировать стоимость получения этой информации. Система ограничивает параметр N до N_MAX=100, то есть наличие больше ста книг проверить не получится. Изменить систему учёта нельзя, можно манипулировать только параметром N и числом отправленных запросов. Как будете действовать?
#chess

WFM ANNA CRAMLING vs FM МАКСИМ ОМАРИЕВ

https://www.youtube.com/watch?v=WMCtlsrGAzo
Понемногу почитываю после работы книгу "Десять уравнений, которые правят миром" (Рис. 1). Пока что дочитала до половины, и ее содержимое меня уже несколько разочаровало.
Я бы не сказала, что книга является откровенной техноересью, но она не очень хорошо продумана и не очень хорошо написана. Иногда встречаются ошибки и недоработки в рассуждениях, особенно в главе про формулу Байеса (из-за избытка проблем в рассуждениях - а именно, в части посылок и выводов - эту главу читать не советую). Две трети занимает просто какая-то нейтральная графомания, которую не очень интересно читать и которую можно убрать без вреда для повествования - так сказать, филлер. Иногда встречаются и вполне нормальные объяснения математики, но их мало относительно общего объема текста.
Почитав информацию про автора и посмотрев его личный сайт, я пришла к выводу, что основная цель книги, скорее всего, заключается в том, чтобы прославлять ум и сообразительность автора и укреплять его авторитет как консультанта для бизнеса в вопросах применения сложной математической статистики - так сказать, продвигать личный бренд. Поэтому забота о содержимом тут на втором месте.

В свете этого вывода, меня сильно позабавил текст, изображенный на рис. 2 а). Во-первых, потому что если хочешь, чтобы бизнес-аналитики хотели с тобой консультироваться, настолько открыто их обсирать становится каким-то абсурдным занятием; а во-вторых, потому что я представила себе, что лицо автора во время написания этих строк выглядело как лицо персонажей из мема на рис. 2б).
А бизнес-аналитики-то и не знают, в чем прикол математики))))) жаль не понять гуманитариям)))))))

Посмотрим, может, в конце будет еще что-то интересное.

#книги
1
#sumpter

↑ Это отличная книга, мне очень понравилась. Воды тут немного. В популярной форме рассматриваются логрег, байес, проверка гипотез, марковские поцессы, pagerank и граф связей, corrcoeff, обучение с подкреплением, антиградиент ошибки. Всё это иллюстрируется реальными бизнес-примерами из ставок на спорт, финансов, рекламы. Есть и доля философских рассуждений о математике, религии, морали. Очень интересно написано и очень мотивирует. И набор тем, которыми занимается автор, очень сильно пересекается с моими интересами.
1🌚1
#hardwar #hdd

"Компания предложила статистику по 236 893 накопителям 30 моделей почти за 10 лет, исключив накопители, которые только проходят тестирование, а также модели, представленные менее чем 60 экземплярами в её серверах. Среднегодовая частота отказов (AFR) продолжила рост и достигла 1,4 %. Самый низкий AFR в 0,28 % показала 16-Тбайт модель Western Digital WUH721816ALE6L4 с выборкой в 14 098 единиц. Самый высокий AFR в 2,57 % и, вместе с тем, 2,2 млн дней наработки показал 4-Тбайт Seagate ST4000DM000. В ходе предыдущего отчёта в феврале Backblaze пояснила, что при более высокой частоте отказов диски Seagate предлагаются по более скромным ценникам, что обеспечивает их рентабельность."

https://3dnews.ru/1086207/backblaze-sredniy-vozrast-gyostkih-diskov-pered-otkazom-sostavlyaet-vsego-25-goda
#mindreading #ai

Неужели правда?

"Очередной шаг в направлении неинвазивных методов регистрации мыслей сделали учёные из Техасского университета в Остине, представив семантический декодер. Они использовали метод функциональной магнитно-резонансной томографии (фМРТ) для регистрации активности головного мозга пациентов, которую с помощью ИИ — машинного обучения на больших языковых моделях, подобных GPT от Open AI — транслировали в образы с помощью текстовых сообщений. Проще говоря, модель прямым текстом в чате сообщала всё то, о чём в данный момент думает человек. Но при этом всё не так просто.

Во-первых, описание было тем точнее, чем охотнее пациент сотрудничал с учёными. Это, кстати, предотвращает насильственное чтение мыслей. Если вы не хотите выдавать «мысли» — думайте о чём-то другом. Во-вторых, данные интерпретировались правильно только в том случае, если ИИ обучался на конкретном пациенте. В частности, каждый из испытуемых в течение 16 часов прослушивал устную речь, в процессе чего модель изучала активность его мозга. Если же ИИ пытался расшифровать мысли, не обучаясь на мозговой активности подопытного, то результаты были неразборчивыми."

https://3dnews.ru/1086021/ii-nauchili-chitat-misli-bez-implantatov-no-tolko-esli-vi-etogo-zahotite
Раньше я думала, что предельный возможный размер транзистора уже достигнут, и параметр "кол-во транзисторов на единицу площади процессора" увеличивают за счет увеличения количества слоев в процессоре, а не за счет уменьшения физического размера транзистора. Сегодня в дискуссии узнала, что на самом деле физические размеры транзисторов все-таки продолжают уменьшать.

Для доказательства этого факта мне скинули вот эту ссылку:
https://semiwiki.com/semiconductor-manufacturers/intel/314047-intel-4-presented-at-vlsi
Однако, статья оказалась для меня слишком сложной, чтобы сходу понять, о чем речь. Было непонятно, что изображено на рисунках (особенно рис.5), смутил незнакомый в этом контексте термин cell и другие незнакомые термины.
Я решила поискать информацию о том, как обозначают разные части транзистора, чтобы понять, что же нарисовано на рис.5 и что там за подписи. Это было непросто, но, в конце концов, информация-таки нашлась.

Из этой статьи:
https://deep-review.com/articles/what-is-nanometer-process/
стало понятно, что из себя представляют торчащие штуки (fin pitch) на схемах. Оказалось, это просто так канал, по которому проходит ток в транзисторе (fin), сжали, словно шакал постарался, и наверх вытянули. А все для того, чтобы он стал уже в разрезе. А штучку, по которой запирающее напряжение подается (gate) они сверху кладут. Кроме того, один транзистор, оказывается, может иметь несколько fin'ов.

В этой статье:
https://www.anandtech.com/show/13405/intel-10nm-cannon-lake-and-core-i3-8121u-deep-dive-review/3
меня заинтересовали разделы "Fin Mechanics", а также "Building A Cell, and Managing Cell Size". Благодаря первому, стала лучше ясна терминология касательно транзисторов в современных процессорах и того, как они могут выглядеть, а благодаря второму, наконец-то - что такое cell. Там рассказано, что "A cell is a combination of a fixed number of fins with a varying amount of gates" и изображена картинка, как это выглядит ("Here is an Intel SEM image"). Таким образом, cell может выполнять функцию одного транзистора или как бы нескольких, соединенных друг за другом (поправьте, если снова ошибаюсь).

Теперь, вернувшись к первой ссылке, можно, наконец, понять, что из себя представляют разные подписи на Рис.5, а оттуда уже составить примерное представление, о чем говорится в таблице на Рис.4, в которой сравнивают размер разных элементов в условно 3-, 4- и 5-нм тех.процессе. "Условно" потому что 3, 4 и 5 нм не являются обозначениями размеров конкретных частей ячейки. Уменьшение тех.процесса, конечно же, коррелирует с уменьшением размера ячейки, но я не знаю, по какой точно формуле он рассчитывается, так как в указанных статьях я ее не нашла, и в данный момент меня это не интересовало.

Ну хотя бы узнала, что транзисторы действительно все-таки уменьшаются, а также уточнила, как именно они выглядят в современных чипах. Теперь будет легче не запутаться, если увижу таблицы или картинки, похожие на Рис.4 и Рис.5.
Так и весь вечер прошел...

P.S. Нашла попутно ещё одну статью, очень старую:
https://habr.com/ru/amp/publications/108615/
В ней рекомендую посмотреть картинку со слоями проводников и объяснения к ней. Все, что касается производства, однако, уже устарело, потому что статья 2010-го.
👍1