Aspiring Data Science – Telegram
Aspiring Data Science
385 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#nvidia

Охренеть.

"Компания NVIDIA близка к тому, чтобы опередить по рыночной стоимости Apple и занять второе место в рейтинге самых крупных по рыночной капитализации компаний в мире, уступая лишь Microsoft. В настоящее время стоимость активов NVIDIA находится в районе $2,38 трлн, отставая от Apple примерно на $230 млрд и от занимающей первую позицию Microsoft примерно на $645 млрд.

Благодаря буму на рынке ИИ рыночная стоимость NVIDIA всего за 9 месяцев выросла с $1 трлн до более чем $2 трлн, обогнав на пути к вершинам рейтинга Amazon, Alphabet и Saudi Aramco. Неустанный рост акций NVIDIA, занимающей 80 % рынка высокопроизводительных ИИ-чипов, обеспечил ей более 5 % удельного веса в фондовом индексе S&P 500. В последние недели NVIDIA также заместила Tesla в качестве обладателя наиболее торгуемых акций Уолл-стрит."

https://3dnews.ru/1101458/nvidia-gotova-operedit-po-rinochnoy-stoimosti-apple-stolknuvsheysya-s-zamedleniem-prodag-iphone
#ml #terminology

Ещё одно неудачное название в науке о данных: independent variables. Кто-то видел в реальном примере из жизни, чтобы факторы, описывающие какое-то явление, реально были все независимы друг от друга? Если бы такое было возможно, не существовало бы понятий типа IterativeImputer.

Простой пример: в базе клиентов есть поля Город проживания, ВУЗ, семейный доход. Если определён город, то разброс ВУЗов резко сужается. Если известен семейный доход, то разброс сокращается ещё больше.

Куда более точное название, я считаю, influencing variables - влияющие переменные, или explanatory variables - объясняющие переменные. А ещё более точное - potentially influencing variables, так как поначалу мы накидываем как гипотезу всё что можно, и до шага FS (а зачастую и последнего, модельного) хз кто там на самом деле влияет )
#books

Впервые увидел благодарности, которые интересно читать. Книга М. Никитин. «Происхождение жизни. От туманности до клетки»

"Благодарности

Эта книга появилась на свет благодаря многим людям, и я хочу поблагодарить их за то, что они сделали. Начать ее историю стоит, пожалуй, с вышедшей в 1999 году книги палеонтолога Кирилла Еськова «История Земли и жизни на ней». Она во многом стала для автора образцом стиля, связности и логичности изложения и повлияла на мой интерес к проблеме возникновения жизни. Если бы не труд Кирилла Юрьевича, эта книга не стала бы такой, какая она есть.

Далее следует благодарить профессора Армена Мулкиджаняна. С его рассказа о теории «цинкового мира» на семинаре нашего института в 2008 году начался мой пристальный интерес к свежим работам в области происхождения жизни. Шестая и пятнадцатая главы этой книги построены в основном на работах Армена Яковлевича. Вполне возможно, что его идеям в книге уделено больше внимания, чем другим альтернативам, но эта необъективность остается на совести автора.
В основу книги лег курс лекций, который автор читал школьникам 10-го класса в Летней экологической школе (ЛЭШ). Я благодарен всем, кто делает ЛЭШ и дает возможность преподавать там уникальные курсы уникальным школьникам. Марина Фридман, услышав мои лекции в ЛЭШ, предложила записать их и издать циклом статей в журнале «Химия и жизнь –XXI век». Текст стал гораздо лучше и был опубликован благодаря редактору журнала Елене Клещенко.

Этот цикл статей, вышедший в «Химии и жизни» в 2013 году, был отмечен литературной премией имени Александра Беляева. На вручении премии автора приперли к стене представители издательств и потребовали писать книгу.
Книга превратилась из научной в хотя бы слегка популярную благодаря редакторам Елене Наймарк и Виктору Сурдину, а также бета-читателям: Александру Хохлову, Марине Мамаевой, Наталье Агаповой и Ларисе Бучок. Естественно, благодарность заслужили работавшие над книгой сотрудники издательства «Альпина нон-фикшн». И последней, но не по значимости, я благодарю замечательную Елену Кармальскую, которая поддерживала меня во всем и наполняла жизнь радостью. Лена, я предлагаю тебе руку, сердце и соавторство в следующей книге!"
#featureselection #kuhn

Читаю по рекомендации товарища книжку по ML. В главе по FS есть задание, мимо которого не смог пройти ) Надо будет потестить на нём Диогена. А возьмётся кто-то из читателей потестить на этом примере алгоритмы sklearn/mlxtend?
👍1
#uplift #kuhn

Понравилась идея matched samples в аплифт-моделировании.

"Another approach could be to use more sophisticated sampling techniques to create an appropriate training set. For the table above, it is impossible to contact and to not contact the same customer. However, in medical research, this problem is often faced when evaluating a new treatment against an existing therapy. Here, clinical trials sometimes use matched samples. Two subjects are found that are nearly identical and are randomized into treatment groups. The idea is that the only differentiating factor is the treatment, and the patient response can be estimated more accurately than without matching. The important idea here is that the subjects are no longer the experimental unit. The matched pair itself becomes the primary data point in the analysis."
#novelty #outlier #kuhn

Вот такая простая, но перспективная идея по самодельному детектору новизны.
🆒1
#chess

Получил посылку )
🔥7
#vr #mx #visionpro

Какие классические британские имена у хирургов )

"Во время операции на позвоночнике в больнице Кромвеля в Лондоне хирургам помогала операционная сестра в шлеме смешанной реальности Apple Vision Pro.

"Устройство предоставила специализирующаяся на технических платформах для больниц с использованием ИИ и пространственных вычислений компания eXeX. Участвовавшие в операции хирурги Фади Седра (Fady Sedra) и Саид Афтаб (Syed Aftab) не использовали Apple Vision Pro, но высоко оценили его возможности.

«Использованное благодаря сотрудничеству с eXeX устройство Apple Vision Pro значительно изменило работу с пациентами. Программное обеспечение работает идеально и повышает эффективность работы специалистов по комплесному лечению позвоночника. Для меня большая честь быть частью первой в Великобритании и Европе команды, использовавшей это программное обеспечение в хирургии. Я с нетерпением ожидаю развития технологии и её применения в больницах Великобритании», — прокомментировал Саид Афтаб."

https://3dnews.ru/1101681/v-evrope-proveli-pervuyu-hirurgicheskuyu-operatsiyu-s-pomoshchyu-apple-vision-pro
#china

"Протокол управления данными для внедрения ИИ-алгоритмов на железной дороге в Китае был внедрён оператором национальной сети железных дорог — китайской государственной компанией China State Railway Group — в 2022 году. Доступ к данным должен был быть ограничен и защищён от стороннего вмешательства и утечек. Алгоритмы управления были проверены людьми, и только после этого они были внедрены. Масштабные испытания начались в 2023 году. Результат ошеломил — железная дорога стала работать даже лучше, чем новая (сразу после ввода участков и составов в строй).

Датчики установлены на объектах инфраструктуры, на колёсные пары, на вагоны, чтобы учитывать вибрации, ускорение и амплитуды и это не говоря об обычной сигнальной автоматике. Объём собираемых для анализа данных достиг 200 Тбайт, а ведь это не картинки или видео, а обычные состояния регистров. Человек и сколь угодно большой коллектив не смог бы оперативно обрабатывать такой объём информации. Всё это данные о 45 тыс. км путей — это длиннее, чем экватор Земли. Обслужить всё это не хватит никакой рабочей силы.

Размещённая в Пекине система искусственного интеллекта в режиме реального времени обрабатывает огромные объёмы данных со всей страны и может предупреждать ремонтные бригады о нештатных ситуациях в течение 40 минут с точностью до 95 %. Рекомендации обычно направлены на предотвращение неисправностей — на профилактику потенциальных проблем. ИИ во всём этом потоке данных научили находить связи между событиями, которые недоступны для осознания в реальном масштабе времени.

За прошедший год ни одна из действующих высокоскоростных железнодорожных линий Китая не получила ни единого предупреждения о необходимости снижения скорости из-за серьёзных проблем с неровностями пути, в то время как количество мелких неисправностей на путях сократилось на 80 % по сравнению с предыдущим годом. Алгоритмы действуют настолько чётко, что даже повышают плавность хода в условиях сильных ветров и на мостах, снижая амплитуду колебаний составов и уменьшая нагрузку на пути и инфраструктуру. Звучит, как фантастика.

Подобные решения не только уменьшают потребность в обслуживающем персонале, но также снижают финансовую нагрузку на содержание железных дорог и, что самое важное, повышают безопасность движения. В Китае признают своё отставание от США в плане развития искусственного интеллекта, но если США не сможет конвертировать возможности ИИ в повышение производительности труда в материальной сфере, то это их преимущество будет лишь иллюзией."

https://3dnews.ru/1101627/v-kitae-iskusstvenniy-intellekt-navyol-poryadok-na-geleznoy-doroge
1👍1
Designing Machine Learning Systems by Chip Huyen

Machine learning systems are both complex and unique. Complex because they consist of many different components and involve many different stakeholders. Unique because they're data dependent, with data varying wildly from one use case to the next. In this book, you'll learn a holistic approach to designing ML systems that are reliable, scalable, maintainable, and adaptive to changing environments and business requirements.

Author Chip Huyen, co-founder of Claypot AI, considers each design decision--such as how to process and create training data, which features to use, how often to retrain models, and what to monitor--in the context of how it can help your system as a whole achieve its objectives. The iterative framework in this book uses actual case studies backed by ample references.

This book will help you tackle scenarios such as:
- Engineering data and choosing the right metrics to solve a business problem
- Automating the process for continually developing, evaluating, deploying, and updating models
- Developing a monitoring system to quickly detect and address issues your models might encounter in production
- Architecting an ML platform that serves across use cases
- Developing responsible ML systems

Link: https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/

Navigational hashtags: #armknowledgesharing #armbooks
General hashtags: #machinelearningsystemdesign #systemdesign #machinelearning #ml #designingmachinelearningsystems

@data_science_weekly
#spacex #starship

"Вчерашний полёт гигантского космического корабля Starship компании SpaceX вдохновил любителей космоса по всему миру, несмотря на неудачное завершение. Ускоритель первой ступени Super Heavy и сам космический корабль были потеряны при возвращении на Землю. Но мегаракета полетела быстрее, дальше и дольше, чем раньше, вселяя уверенность в компанию и NASA, чья программа «Артемида» планирует использовать Starship для высадки астронавтов на Луну."

https://youtu.be/Dr8ZaMAa5jw
#vr

Какой квест брать, с 512 или 128 Гб памяти? Так поржал с этого коммента )
😁1
#hardware #laptop

выбираю новый ноут для ML-задач, за 8-10 тыс баксов можно взять ноут который почти ВО ВСЕХ аспектах (CPU, GPU, тоже 128GB но более скоростная RAM) лучше (иногда в разы) моего домашнего полноразмерного сервера 😂
правда, сервер я собирал в 2012м

хорошей альтернативой кажется Alienware M18 за $4,199.99, в нём памяти всего 64GB и RTX 4090 вместо ADA 5000, так зато и вдвое дешевле. эх, если бы туда RAM ещё больше можно было заказать...

кто посоветует хороший ноут для ML?

https://www.dell.com/en-us/shop/gaming-laptops/alienware-m18-r2-gaming-laptop/spd/alienware-m18-r2-laptop/
#hardware #laptop

Всё, хороший ноут для работы найден.

Intel 14th Generation Raptor Lake Refresh i9-14900HX 24 Core - 32 Thread Processor, 1.6 GHz (Max Turbo Frequency 5.8 GHz), 36 MB Smart Cache

NVIDIA GeForce RTX 4090 w/ 16 GB GDDR6

18" UHD+ (3840 x 2400) 120Hz screen

24 TB (3 x 8 TB) M.2 PCIe 4.0 x4 NVMe SSD

192 GB (4 x 48 GB) of fast DDR5 5600MHz dual channel system memory

Если брать только 1 SSD из 3х, можно уложиться в $6k.

Осталось придумать, как его импортировать )
#hardware

"Тот факт, что Micron решила показать свои модули памяти MCRDIMM объёмом 256 Гбайт именно на конференции Nvidia GTC 2024, посвящённой ИИ, может говорить о том, что компания рассматривает этот продукт в качестве решения для ИИ-серверов нового поколения, например, на базе процессоров Intel Xeon Scalable Granite Rapids. Системы на их основе будут использовать огромные объёмы памяти для обучения ИИ-моделей, поэтому указанные модули ОЗУ придутся как нельзя кстати. Сами чипы Intel Xeon Scalable Granite Rapids будут поддерживать 12-канальный режим работы памяти по два модуля на канал. Таким образом, на основе модулей Micron можно будет создавать серверы с 3 Тбайт ОЗУ при использовании 12 слотов памяти и до 6 Тбайт ОЗУ при использовании 24 слотов памяти."

https://3dnews.ru/1102149/micron-pokazala-ogromnie-moduli-ozu-mcrdimm-ddr58800-obyomom-256-gbayt-dlya-serverov