NEW BOT Телеграм, страница

Aspiring Data Science

#featureselection #masters #mlgems

Нашёл в книге Тима Мастерса "Data Mining Algorithms in C++" такую любопытную модификацию Forward Selection:

Forward Selection Preserving Subsets

"There is a straightforward extension of forward stepwise selection that can often produce a significant improvement in performance at little cost. We simply preserve the best few candidates at each step, rather than preserving just the single best. For example, we may find that X4, X7, and X9 are the three best single variables. (Three is an arbitrary choice made by the developer, considering the trade-off between quality and compute time.) We then test X4 paired with each remaining candidate, X7 paired with each, and finally X9 paired with each. Of these many pairs tested, we identify the best three pairs. These pairs will each be tested with the remaining candidates as trios, and so forth. The beauty of this algorithm is that we gain a lot with relatively little cost. The chance of missing an important combination is greatly reduced, while compute time goes up linearly, not exponentially. I highly recommend this approach."

👍2

145 viewsAnatoly Alekseev, edited 06:41

Aspiring Data Science

#featureselection #masters #mlgems #chisquare #cramerv

The chi-square test need not be restricted to categorical variables. It is legitimate to partition the range of numeric variables into bins and treat these bins as if they were categories. Of course, this results in some loss of information because variation within each bin is ignored. But if the data is noisy or if one wants to detect relationship patterns of any form without preconceptions, a chi-square formulation may be appropriate.

Chi-squared itself has little intuitive meaning in terms of its values. It is highly dependent on the number of cases and the number of bins for each variable, so any numeric value of chi-squared is essentially uninterpretable. This can be remedied by a simple monotonic transformation to produce a quantity called Cramer’s V.

110 viewsAnatoly Alekseev, edited 06:52

Aspiring Data Science

#news #tesla

"В 2020 году один из институциональных инвесторов Tesla, пенсионный фонд, подал иск к членам совета директоров компании, обвинив их в получении неоправданно высоких вознаграждений за свою деятельность в виде акций, которые они получали с июня 2017 года. Суд в итоге обязал членов совета директоров Tesla вернуть компании $735 млн.
Как поясняет CNBC, решение по отдельному иску к Илону Маску (Elon Musk), который оспаривает справедливость выплаты ему $56 млрд компенсации за работу, пока не принято, а потому будет вынесено чуть позже. Членам совета директоров, тем не менее, предстоит вернуть компании $735 млн, которые были в форме акций Tesla выплачены им за период с июня 2017 года по 2020 год. За это время члены совета директоров компании получили 11 млн акций Tesla в качестве вознаграждения, из них они обязуются вернуть в стоимостном эквиваленте 3,1 млн штук.

Члены совета директоров Tesla также обязуются воздержаться от получения вознаграждений за 2021, 2022 и 2023 годы в указанной форме, а также пересмотреть систему компенсации, которая до этого позволяла им получать существенные суммы после реализации полученных акций компании на рынке. Tesla пыталась защитить интересы членов совета директоров, ссылаясь на существенный рост котировок акций, который и привёл к пропорциональному обогащению членов правления, а также упоминая об общности интересов руководства и инвесторов компании."

https://3dnews.ru/1090122/sud-obyazal-chlenov-soveta-direktorov-tesla-vernut-poluchennie-735-mln

3DNews - Daily Digital Digest

Суд обязал членов совета директоров Tesla вернуть компании $735 млн вознаграждений за их работу

В 2020 году один из институциональных инвесторов Tesla, пенсионный фонд, подал иск к членам совета директоров компании, обвинив их в получении неоправданно высоких вознаграждений за свою деятельность в виде акций, которые они получали с июня 2017 года.

113 viewsAnatoly Alekseev, 09:06

Aspiring Data Science

#interviews #fun

🥴1

117 viewsAnatoly Alekseev, 09:20

Aspiring Data Science

#wildlife #rescue

https://www.youtube.com/watch?v=D9_cLFsiMKw

YouTube

История спасение дикого кабанчика. Кабанчик нуждался в помощи.

Эта история про дикого кабаненка, которого совершенно случайно увидели неравнодушные люди. Дикий кабанчик очень нуждался в помощи. Люди заметили что-то странное в кустарнике. Это оказался дикий кабан. Кабанчик-подросток лежал на-половину в воде и не мог подняться.…

105 viewsAnatoly Alekseev, 00:18

Aspiring Data Science

#hpc #tesla #dojo

"Tesla сообщила о запуске производства суперкомпьютера собственной разработки Dojo, предназначенного для обучения систем автопилота. Компания собирается потратить на проект $1 млрд. Компания рассчитывает уже к октябрю следующего года преодолеть барьер в 100 Эфлопс производительности — это более чем в 60 раз мощнее самого мощного суперкомпьютера на сегодняшний день."

https://3dnews.ru/1090287/tesla-zapustila-proizvodstvo-superkompyuterov-dojo-dlya-obucheniya-avtopilota-na-proekt-potratyat-1-milliard

3DNews - Daily Digital Digest

Tesla запустила производство суперкомпьютеров Dojo и за 15 месяцев хочет достичь производительности в 100 Эфлопс

Tesla сообщила о запуске производства суперкомпьютера собственной разработки Dojo, предназначенного для обучения систем автопилота.

98 viewsAnatoly Alekseev, 13:42

Aspiring Data Science

#hardware #storage

15Tb -версия будет стоить около $1800, как я понимаю.

"Компания Solidigm анонсировала SSD семейства D5-P5336, предназначенные для построения СХД высокой плотности. Решения подходят для решения ресурсоёмких задач, связанных с генеративным ИИ, обработкой больших данных и пр. Изделия выполнены в форм-факторе E1.L.
В основу новинок положены 192-слойные микрочипы флеш-памяти QLC 3D NAND. Задействован интерфейс PCIe 4.0 x4 (спецификация NVMe 1.4). Заявленная производительность достигает 7000 Мбайт/с в режиме последовательного чтения и 3100–3300 Мбайт/с в режиме последовательной записи (в зависимости от модификации).

В серию вошли четыре модели — вместимостью 7,68; 15,36; 30,72 и 61,44 Тбайт."

https://servernews.ru/1090285

ServerNews - все из мира больших мощностей

Solidigm представила SSD D5-P5336 формата E1.L вместимостью до 61,44 Тбайт

Компания Solidigm анонсировала SSD семейства D5-P5336, предназначенные для построения СХД высокой плотности. Решения подходят для решения ресурсоёмких задач, связанных с генеративным ИИ, обработкой больших данных и пр. Изделия выполнены в форм-факторе E1.L.

107 viewsAnatoly Alekseev, edited 14:16

Aspiring Data Science

#hacking #mitnick

Удивительно, Кевин, как и я, родился 6 августа. Приятное совпадение.

"Раскаявшийся и вставший на путь исправления хакер Кевин Митник (Kevin Mitnick), когда-то бывший одним из самых разыскиваемых компьютерных преступников США, в минувшее воскресенье ушёл из жизни — причиной смерти стали осложнения, связанные с раком поджелудочной железы. Митнику было 59 лет."

https://3dnews.ru/1090299/legendarniy-haker-kevin-mitnik-ushyol-iz-gizni-v-59-let

3DNews - Daily Digital Digest

Все самое интересное из мира IT-индустрии

Самые интересные и оперативные новости из мира высоких технологий. На нашем портале - все о компьютерном железе, гаджетах, ноутбуках и других цифровых устройствах. А также обзоры новых игр, достижения современной науки и самые любопытные онлайн-проекты.

❤2

110 viewsAnatoly Alekseev, 06:02

Aspiring Data Science

#mlops #degradation #resilience

Лайфхак про чернокожих женщин прикольный )

https://www.youtube.com/watch?v=l1ZF7gyci20

YouTube

Дмитрий Колодезев - Reliable ML: Устойчивость моделей после выкатки в прод

Скачать презентацию: https://kolodezev.ru/model_sustainability.html

Дмитрий Колодезев, директор Promsoft, с докладом от нашего канала - с обзором подходов к обеспечению надежной работы моделей после развертывания.

Что такое устойчивость моделей после выкатки…

123 viewsAnatoly Alekseev, edited 09:33

Aspiring Data Science

#dishbrain

"Массив микроэлектродов в основе DishBrain способен не только считывать активность в клетках мозга, но и стимулировать их электрическими сигналами, поэтому исследовательская группа создала версию Pong, в которой клетки полубиологического искусственного мозга получали информацию о перемещении мяча и могли воздействовать на ракетку, перемещая её влево и вправо.

Затем была разработана очень простая система стимуляции, использующая стремление небольших скоплений клеток мозга сводить к минимуму непредсказуемость окружающей их среды. Если ракетка отбивает мяч, клетки получают поощрение — предсказуемый стимул, а при промахе — четыре секунды непредсказуемого воздействия. Это первый случай, когда клетки мозга, выращенные в лаборатории, получили возможность не только ощущать мир, но и воздействовать на него, и результаты были впечатляющими."

https://3dnews.ru/1090373/uchyonie-obedinili-kompyuterniy-chip-s-tkanyu-chelovecheskogo-mozga-poluchivshiysya-razum-prodemonstriroval-sposobnost-k-obucheniyu

3DNews - Daily Digital Digest

Все самое интересное из мира IT-индустрии

127 viewsAnatoly Alekseev, 07:16

Aspiring Data Science

#news #nft

Люблю такие новости, приятно,что твои траты по глупости ещё не самые примечательные )

"Криптовалютный предприниматель иранского происхождения Сина Эстави (Sina Estavi) вновь выставил на аукцион NFT-токен самого первого твита в Twitter, приобретённый им за $2,9 млн. Похоже, что эта, далеко не первая попытка бизнесмена получить прибыль от продажи NFT-токена, вновь окажется безуспешной, поскольку максимальная ставка на него сейчас составляет всего 1 Ethereum, что эквивалентно $1895.

Эстави уже несколько раз пытался продать NFT-токен первого твита на аукционе OpenSea. Примерно через год после приобретения первого твита прежнего главы сервиса микроблоггинга Джека Дорси (Jack Dorsey) «just setting up my twttr» («просто настраиваю свой Twitter») он выставил его на продажу, рассчитывая получить $48 млн. Однако к его покупке не проявили никакого интереса — поступило всего семь предложений с максимальной ценой 0,09 Ethereum ($277 по курсу на тот момент)."

https://3dnews.ru/1090440/za-nfttoken-pervogo-tvita-dgeka-dorsi-kuplenniy-za-29-mln-predlogili-na-auktsione-2000

3DNews - Daily Digital Digest

За NFT самого первого твита в мире, который был продан за $2,9 млн, теперь предложили менее $2000

Криптовалютный предприниматель иранского происхождения Сина Эстави (Sina Estavi) вновь выставил на аукцион NFT-токен самого первого твита в Twitter, приобретённый им за $2,9 млн.

🏆1

91 viewsAnatoly Alekseev, 13:29

Aspiring Data Science

#bootstrap #loocv #raschka

↓ Кто-то использует 0.632 bootstrap? отпишитесь )

Ещё понравилась идея one-standard error method [Breiman et al., 1984] :
1. Consider the numerically optimal estimate and its standard error.
2. Select the [most compact/simplest] model whose performance is within one standard error of the value obtained in step 1.

81 viewsAnatoly Alekseev, edited 14:18

Aspiring Data Science

Forwarded from Artem Ryblov’s Data Science Weekly (Artem Ryblov)

Model Evaluation, Model Selection, and Algorithm Selection in Machine Learning by Sebastian Raschka

The correct use of model evaluation, model selection, and algorithm selection techniques is vital in academic machine learning research as well as in many industrial settings.
This article reviews different techniques that can be used for each of these three subtasks and discusses the main advantages and disadvantages of each technique with references to theoretical and empirical studies. Further, recommendations are given to encourage best yet feasible practices in research and applications of machine learning.

Link
https://arxiv.org/abs/1811.12808

Navigational hashtags: #armknowledgesharing #armarticles
General hashtags: #machinelearning #ml #modelevaluation #evaluation #selection #cv #crossvalidation

@accelerated_learning

83 viewsAnatoly Alekseev, 14:18

Aspiring Data Science

#news #law

Маразм продолжается. Скоро нам запретят и заходить на иностранные сайты. А затем запретят неправильно думать.

"Согласно новым законодательным нормам, регистрация на сайтах рунета будет возможна только с использованием российских телефонных номеров, Единой биометрической системы, через электронную почту, зарегистрированную в сервисах РФ, через портал «Госуслуг» и с использованием идентификаторов на российских ресурсах. По словам главы комитета Госдумы по информполитике Александра Хинштейна, нововведение касается только тех российских сайтов, где есть регистрация и аутентификация пользователей. «В список не входят аккаунты, зарегистрированные через иностранные сервисы, например Google или Apple ID», — пояснил он в своём Telegram-канале."

https://3dnews.ru/1090540/v-gosdume-odobrili-vo-ii-chtenii-zapret-na-registratsiyu-v-runete-s-pomoshchyu-inostrannoy-elektronnoy-pochti

3DNews - Daily Digital Digest

В Госдуме одобрили во II чтении запрет на регистрацию в рунете с помощью иностранной электронной почты

Госдума одобрила на пленарном заседании во втором чтении законопроект об ограничении иностранного участия в новостных агрегаторах, согласно которому контрольный пакет акций (более 50 %) в новостных агрегаторах РФ должен принадлежать российским лицам, сообщило…

🤮1

94 viewsAnatoly Alekseev, edited 02:36

Aspiring Data Science

#twitter #musk #x

Похоже, пэйпаловские флэшбэки не дают Илону покоя ) Ну да и к лучшему, пусть у этих зажравшихся Страйпов и Пэйпалов появится конкурент.

"«Twitter был поглощён X Corp как для обеспечения свободы слова, так и в качестве ускорителя X — приложения [для] всего. Это не просто компания, которая меняет имя, но продолжает делать то же самое. Название Twitter имело смысл, когда туда-сюда ходили всего 140 символов — как птички чирикали, — но сейчас можно публиковать почти всё что угодно, в том числе несколько часов видео. В ближайшие месяцы мы добавим всестороннее общение и возможность управлять всем вашим финансовым миром. В этом контексте название Twitter не имеет смысла, так что нам нужно попрощаться с птичкой», — рассказал Маск."

https://3dnews.ru/1090518/ilon-mask-obyasnil-pochemu-pereimenoval-twitter-v-x

3DNews - Daily Digital Digest

Илон Маск объяснил, почему переименовал Twitter в X: это не просто смена названия

Илон Маск (Elon Musk) объяснил своё решение отказаться от знаменитого логотипа Twitter в виде синей птички стремлением превратить соцсеть в платформу для связи и финансовых транзакций — в «приложение для всего», как выразился бизнесмен.

94 viewsAnatoly Alekseev, edited 02:43

Aspiring Data Science

#hardware #intel #avx #cpu

Мне кажется, вся затея с гибридными ядрами P и E - полный бред. Скрестили ужа и ежа. Хотя кому нужна скорость, могли раньше отдельно купить достаточно ежей, а кому гибкость/энергоэффективность - сколько надо ужей. А так под гибридного монстра понадобилось менять и софт, и стандарты, и зачем всё это нужно было - непонятно.

"Вместе с расширениями архитектуры APX, компания Intel представила сегодня новый набор команд AVX10 (Advanced Vector Extensions 10). Он является дальнейшим развитием AVX-512 и будет поддерживаться в перспективных гибридных процессорах не только производительными, но и энергоэффективными ядрами.

Основная цель внедрения AVX10 — подведение векторных инструкций, которые могут выполняться разными типами ядер Intel, под единый стандарт. Актуальный набор векторных инструкций AVX-512 позволяет работать с 512-битными операндами, однако поддерживается исключительно большими P-ядрами. Маленькие E-ядра имеют лишь 256-битные регистры, поэтому AVX-512 в них не работает. Это приводит к тому, что в гибридных процессорах вроде Alder Lake или Raptor Lake поддержку AVX-512 приходится отключать.

Набор AVX10 должен решить эту проблему, однако несколько своеобразным способом. Регистры шириной 512 бит в E-ядрах не появятся, но он позволит выполнять одни и те же векторные инструкции набора AVX-512 как P-, так и E-ядрами, но применительно к регистрам разной размерности: в первом случае – 512, а во втором — 256 бит. Вопрос совместимости результатов операций Intel собирается решить добавлением в AVX10 флага размерности AVX512VL и специальных 256-битных инструкций со встроенным округлением."

https://3dnews.ru/1090519/intel-anonsirovala-perehod-ot-avx512-k-avx10-naboru-instruktsiy-kotoriy-smoget-rabotat-vezde

3DNews - Daily Digital Digest

Intel заменит AVX-512 на AVX10 — набор инструкций, который сможет работать везде

Вместе с расширениями архитектуры APX, компания Intel представила сегодня новый набор команд AVX10 (Advanced Vector Extensions 10).

👍1

122 viewsAnatoly Alekseev, 02:51

Aspiring Data Science

#ml #masters #cv #refit

Читаю книги Тима Мастерса "Data Mining Algorithms in C++" и "Assessing and Improving Prediction and Classification". Он не классический МЛ-щик, мне кажется, до всего дошёл сам, порой его идеи очень глубоки.

"The importance of consistent performance is often ignored, with average performance being the focal point instead. However, in most cases, a model that performs fairly well across the majority of training cases will ultimately outperform a model that performs fabulously most of the time but occasionally fails catastrophically. Properly designed training sets and optimization criteria can take consistency into account."

А ведь и правда, ну кто смотрит на разброс метрик по фолдам CV? Да никто. Даже в процедурах модуля model_selection (GridSearchCV итд) по умолчанию берутся просто среднеарифметические метрики по тестовым кускам. А ведь постоянство метрик может быть очень важным качеством в реальных приложениях. Наверное, лучшим подходом будет при сравнении моделек от средних значений метрик отнимать их стандартное отклонение (с неким коэффициентом, например, делённое на 2). В sklearn это можно сделать, если передать в процедуру model_selection кастомный refit.

scikit-learn

Custom refit strategy of a grid search with cross-validation

This examples shows how a classifier is optimized by cross-validation, which is done using the GridSearchCV object on a development set that comprises only half of the available labeled data. The p...

👍7

2.32K viewsAnatoly Alekseev, edited 04:00

Aspiring Data Science

#ml #masters #bayes #hypothesistesting

Ещё интересные мысли.

"Many applications require not only a prediction but a measure of confidence in the decision as well. Some developers prefer a hypothesis-testing approach, while others favor Bayesian methods. The truth is that whenever possible, both methods should be used, as they provide very different types of information. And most people ignore a critical additional step: computing confidence in the confidence figure!"

"Often, an essential part of development is estimating model parameters for examination. The utility of these estimates is greatly increased if you can also compute the bias and variance of the estimates, or even produce confidence intervals for them."

👍2

127 viewsAnatoly Alekseev, edited 04:20

Aspiring Data Science

#ml #masters #ensembling #featureengineering #entropy

Продолжаем.

"A common procedure is to train several competing models on the same training set and then choose the best performer for deployment. However, it is usually advantageous to use all of the competing models and intelligently combine their predictions or class decisions to produce a consensus opinion."

"It is not widely known that the entropy of a predictor variable can have a profound impact on the ability of many models to make effective use of the variable. Responsible researchers will compute the entropy of every predictor and take remedial action if any predictor has low entropy."

Первая идея не нова, в соревах все стэкают модели. Но опять-таки, это до сих пор не стандарт в МЛ, и тот же sklearn просто отбрасывает все модели за исключением "лучшей", там даже опции нет сохранить остальные, или, упаси Боже, совместно их использовать.

А вот энтропийный подход к выбору и предобработке предикторов оригинален, такой идеи я нигде не встречал больше. Что нам предлагает классика? Генерить побольше потенциальных признаков произвольной природы, пока Ваша модель не захлебнётся по ресурсам. Но ведь можно действовать умнее. Эту идею можно использовать при комбинации нескольких признаков: к примеру, оставлять только те комбинации, чья энтропия превышает энтропии родителей.

👍3

228 viewsAnatoly Alekseev, edited 04:35

Aspiring Data Science

#trading #masters #aronson

Читаю книжку David Aronson, Timothy Masters - Statistically sound machine learning for algorithmic trading of financial instruments. Приводят весьма чёткие обоснования, почему торговая система должна быть автоматизированной.

•Intelligently designed automated trading systems can and often do outperform human-driven systems. An effective data-mining program can discover subtle patterns in market behavior that most humans would not have a chance of seeing.

• An automated system is absolutely repeatable, while a human-driven system is subject to human whims. Consistency of decision-making is a vital property of a system that can consistently show a profit. Repeatability is also valuable because it allows examination of trades in order to study operation and perhaps improve performance.

• Most properly designed automated trading systems are amenable to rigorous statistical analysis that can assess performance measures such as expected future performance and the probability that the system could have come into existence due to good luck rather than true power.

• Unattended operation is possible.

👍2

305 viewsAnatoly Alekseev, edited 04:57

Aspiring Data Science

Forwarded from Техножрица 👩‍💻👩‍🏫👩‍🔧

Настроение: в максимально нежных и любовных тонах, смакуя каждую фразу, каждое слово, словно вкусный ванильный эклер, расписать раздел "Contributions" в статье, которая готовится к публикации на ближайшую конференцию, а потом надеть майку с надписью "I ♥ NY", усесться на подоконник с чашкой кофе с корицей, глубоко затянуться дымом из тонкой сигареты, которую я возьму двумя пальчиками с маникюром небесного цвета, медленно выдохнуть, тряхнуть такими же нежно-голубыми волосами и задумчиво всмотреться в бесконечную даль туманного мегаполиса, думая о нем - о машинном обучении, пока по моему лицу будут стекать капли... но это будут не слёзы счастья, нет. Это будет всего лишь вода, которой меня будет поливать система автоматического пожаротушения, установленная на потолке. 🏠

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣2

89 viewsAnatoly Alekseev, 20:39

About

Blog

Apps

Platform