Aspiring Data Science – Telegram
Aspiring Data Science
386 subscribers
465 photos
12 videos
12 files
2.15K links
Заметки экономиста о программировании, прогнозировании и принятии решений, научном методе познания.
Контакт: @fingoldo

I call myself a data scientist because I know just enough math, economics & programming to be dangerous.
Download Telegram
#mlops #monitoring #drift #evidently #greatexpectations

Мониторить нужно:
1) распределение входных признаков
2) распределение предсказаний
3) невязку моделей
4) неуверенность моделей (trust score; conformal?)
5) прокси-метрики, если метки созревают медленно

Держать теневые (shadow) модели.
Записывать боевые предикты.
Interleaving deploy of ML models instead of full A/B.
Устаревание модели можно тоже моделировать.

https://www.youtube.com/watch?v=rD2Ydyr3Sdc
#nvidia #routing #tsp #vrp #cuopt

Привлекло внимание, что в рамках NVIDIA NIM Agent Blueprint Нвидия предлагет решение по оптимизации маршрутов. Сольвер cuOpt теперь развёрнут в облаке (видимо, по подписке).

"One of the biggest challenges in the commercial fleet industry is routing optimization. This is prevalent in many industries, where determining the most cost-effective route can contribute significant cost savings for meal delivery where a single restaurant franchise can deliver millions of meals a day, or a telecommunications company that dispatches millions of jobs per year. In these types of large scale scenarios, inefficient routes can cost billions of dollars in operational costs as well as reduce our environmental carbon footprint. A computational solver can minimize these inefficiencies by finding the most optimal routes across a list of locations. Computational CPU based solvers are available today but using the massive throughput of GPU acceleration, more ambitious algorithms will help fuel our future.

Route optimization problems such as those described above are commonly known as the Traveling Salesperson (TSP) problem. To reduce the time to develop a GPU accelerated TSP solution, NVIDIA has developed the route optimization AI workflow to streamline development of Vehicle Routing Problem (VRP) solutions."

https://docs.nvidia.com/ai-enterprise/workflows-route-optimization/0.1.0/technical-brief.html
#neurons #anns #wetware

Теперь у нас есть и wetware. Чёт немного жутковато. Они применяют Raspberri Pi для стимуляции органоидов, InfluxDB для хранения энцефалограм.

"Органоиды, наполненные нейронами, обладают исключительной способностью к обучению и обработке информации. Один такой органоид, по оценкам, содержит 10 000 живых человеческих нейронов. По мнению компании, использование биопроцессоров, основанных на биологических нейронах, вместо транзисторов, может значительно сократить потребление энергии в технологическом мире. «Экономия миллиардов ватт при обучении больших языковых моделей или других ресурсоёмких задач станет в том числе позитивным фактором и для окружающей среды», — подчёркивают в FinalSpark.

Архитектура платформы сочетает в себе аппаратное обеспечение, программное обеспечение и биологию. Она основана на использовании многоэлектродных массивов (MEA), в которых размещаются органоиды человеческого мозга в микрофлюидной системе жизнеобеспечения. 3D-тканевые массы связаны и стимулируются восемью электродами, с камерами наблюдения и настроенным программным стеком для того, чтобы исследователи могли вводить переменные данных, а также считывать и интерпретировать выходные данные процессора.

Платформа предлагает четыре общих органоида, которые могут быть арендованы за $500 в месяц на пользователя. Для некоторых проектов доступ предоставляется бесплатно. FinalSpark утверждает, что эта цена включает в себя доступ к полностью управляемой удалённой нейроплатформе, позволяющей проводить исследования в области биовычислений."

"Over the past three years, the Neuroplatform was utilized with over 1,000 brain organoids, enabling the collection of more than 18 terabytes of data. A dedicated Application Programming Interface (API) has been developed to conduct remote research directly via our Python library or using interactive compute such as Jupyter Notebooks. In addition to electrophysiological operations, our API also controls pumps, digital cameras and UV lights for molecule uncaging. This allows for the execution of complex 24/7 experiments, including closed-loop strategies and processing using the latest deep learning or reinforcement learning libraries. Furthermore, the infrastructure supports entirely remote use. Currently in 2024, the system is freely available for research purposes, and numerous research groups have begun using it for their experiments."

https://3dnews.ru/1110090/organoidi-mozga-v-arendu-za-500-neuroplatform-pomoget-uchyonim-sdelat-ii-bolee-chelovechnim
🤯1
Forwarded from Data Secrets
Генерация комментариев к коммитам от Андрея Карпаты

Еще один крутой пет-проект этих выходных. Андрей увидел в Твиттере мем и решил, что надо бы исправлять ситуацию: сел и написал утилиту, которая с помощью gpt4o-mini сама посмотрит на ваш diff и сгенерирует git commit message.

Простой функционал позволит в случае чего перегенерировать или изменить сообщение. И все в одном файле .sh!

Учимся у Андрея правильно реагировать на мемы
Forwarded from Data Secrets
Непопулярное мнение об ИИ Стивена Вольфрама: нам нужны философы

Стивен Вольфрам – это ученый, фаундер Wolfram Alpha и Wolfram Language, который выпустил свою первую статью в 15 лет, а в 20 получил докторскую в Калтехе.

Так вот, он заявляет, что по мере того, как мы все больше и больше взаимодействуем с ИИ, раздумья о последствиях становятся уже не аналитическим, а философским вопросом.

«Хватит относится к этому только как к математической задаче. Это уже давно вышло за грани одной только математики»
#wisdom

"If writing down your ideas always makes them more precise and more complete, then no one who hasn’t written about a topic has fully formed ideas about it.

And someone who never writes has no fully formed ideas about anything nontrivial."

— Paul Graham
👍1🤔1
#hardware #cpu #intel

А я же говорил, разные ядра в составе одного процессора - это дебилизм.

"В семейство процессоров Xeon 6 вошли две линейки: Granite Rapids и Sierra Forest. Они кардинально отличаются друг от друга.

Процессоры Granite Rapids предложат до 128 ядер, причём это всё производительные P-ядра на архитектуре Redwood Cove, аналогичной той, что используются в потребительских процессорах Meteor Lake.

В свою очередь, процессоры Sierra Forest полностью построены на энергоэффективных E-ядрах в количестве до 288 штук.

Флагманом семейства Granite Rapids станет 128-ядерный процессор Xeon 6 6980P.

В компании с гордостью отметили, что флагманский Xeon 6 с P-ядрами продемонстрировал в среднем 1,9-кратное увеличение производительности в ИИ-задачах по сравнению с процессорами Xeon Scalable 5-го поколения.

Процессор Xeon 6 6980P имеет 504 Мбайт кеш-памяти LLC (Last Level Cache) и обладает базовой частотой 2,0 ГГц. Этот чип потребляет до 500 Вт энергии."

https://3dnews.ru/1110149/intel-vipustit-novie-servernie-protsessori-xeon-6-granite-rapids-v-sentyabre
#python #fun

Goose Typing
😁1
#hardware #workstations

По виду хорошая машинка. Но мне интересен % наценки сборщиков. 20-30% из 12 млн руб.? Больше? Пробую поискать комплектующие на ебэй.

6 Тбайт высокопроизводительной оперативной памяти в виде 256-Гбайт модулей Hynix DDR5-4800; $2.5k*24=$60k

две видеокарты NVIDIA RTX 6000 ADA Generation, каждая с 18 176 ядрами CUDA и 48 Гбайт памяти GDDR6; $11k*2=$22k


мать Gigabyte MZ73-LM0+два серверных процессора AMD EPYC 9754 с 128 ядрами и 256 потоками каждый, а также частотой 2,25–3,1 ГГц; $10k

четыре сверхбыстрых SSD Sabrent Rocket 4 Plus на 8 Тбайт каждый, общей ёмкостью 32 Тбайт. $0.9k*4=$3.6k

БП +корпус $1k (?)
Водяное охлаждение $1k (?)
Доставка комплектующих - $1k (?)


Итого примерно $98k. Значит, наценка за сборку и правда около 30% ( 3 млн рублей).

https://3dnews.ru/1110142/servernaya-moshch-v-nastolnom-korpuse-hyperpc-postroila-moshchneyshuyu-rabochuyu-stantsiyu-s-6-tbayt-operativnoy-pamyati
#music

Студийка https://www.youtube.com/watch?v=DekeSsJTdM0

А вот финалочка.

"Ist mein Denken selbstgerecht, wenn du mich am Leben lässt?
Wenn ich sage: Ich war der, der gab dir das Elixier,
Das dich glauben lässt, du seist wertvoll und ein kluger Geist.
Bin ich Gott, der Leben schafft, oder treibt mich tiefster Hass?"
#hardware #intel #gaudi

Чипы Gaudi3 добавлены в IBM Cloud. Я так и не добрался до их реального тестирования. Таблицы,что даёт Интел, выглядят подкрученными. В любом случае, конкуренция потребителю на пользу.

https://servernews.ru/1103065
Forwarded from asisakov
Книжный фундамент по машинному обучению

Впереди выходные. А значит есть время для интересного чтива. Если вы уже прочли трилогию «Задачи трёх тел», прочитали всех Стругацких и не знаете, на что же ещё накинуться, то я нашёл для вас решение!

Рассмотрим ключевые книги по ML (кстати, ни одну из них я не осилил до конца 😈):

1. "Pattern Recognition and Machine Learning" — Christopher Bishop

Основы распознавания образов, байесовские сети, графовые модели, методы SVM. Неплохая теоретическая база, хорошо раскрывается на примерах.
Конечно, может быть сложновато читать на английском языке, но для особо пытливых существует перевод. Хотя бы раз попробовать почитать эту книгу - база. Рекомендовано для глубокого погружения в теорию ML.

2. "Elements of Statistical Learning" — Trevor Hastie, Robert Tibshirani, Jerome Friedman

Статистические методы обучения, линейные методы, оценка моделей, бустинги. Для тех, кто предпочитает глубокий статистический анализ. Ну и понятно, что просто так без подготовки не осилить.
Зато можно понять математическую основу алгоритмов обучения.

3. "Machine Learning: A Probabilistic Perspective" — Kevin Murphy

Вероятностные модели, байесовский вывод. Немного даже теории информации. По классике, примеры на практике и есть даже введение в рекомендательные системы того времени!

Вы наверно спросите: «А как же русские книги?» А я отвечу, вот пожалуйста, но только одна:

4. "Глубокое обучение" — С. Николенко, А. Кадурин, Е. Архангельская

Классно, что написана на русском понятном языке. Здесь рассмотрены концепции и методы глубокого обучения, включая нейронные сети, свёрточные и рекуррентные сети. Допом были методы оптимизации. Тут основной акцент на глубоком обучении, поэтому методов классического машинного обучения не так много. Но это единственная зачитанная до дыр книга не из переведённых, которая норм зашла 🧠
В свободном доступе так сразу быстро не нашёл, но особо пытливые могут попробовать поискать и дальше первой ссылки выдачи.

Прошу обратить внимание, что я выделил фундаментальные по моему мнению книги. Хорошего вам погружения в материалы, ну и делитесь своим топом книг в комментарии. А среди вас я знаю точно найдутся те, кому есть что докинуть.
(только книги, а не статьи!)

#books
Please open Telegram to view this post
VIEW IN TELEGRAM
#python #books

Ссылки на посты по книжке "Л. Рамальо. Python – к вершинам мастерства: Лаконичное и эффективное программирование" (в оригинале - Fluent Python, 2nd Edition). Содержат материал, который показался мне интересным и вошёл в категорию #codegems.

Затрагиваются механизмы сопоставления (match), классы данных и их аналоги, аннотирование типами, инструменты itertools, работа с классами/ООП, генераторы, контекстные менеджеры, асинхронка, дескрипторы классов.

Пробегитесь по темам, если есть незнакомые слова, возможно, есть смысл перечитать актуальную доку Питон )

1. [], {} и ()/match/ChainMap/MappingProxyType
2. class init/dict/json
3. unicode: NFC/NDF, strxfrm/NamedTuple/dataclass
4. more dataclass/typehints
5. weakrefs/functional programming/more typehints
6. Any/|/TypeVar/TypeAlias/typing.Protocol
7. positional-only/closures/singledispath/decorator via class
8. getattr/reduce via initializer/zip,zip_longest/principle of failing fast
9. goose typing/vurtual subclass/Hashable/ABC/Decimal
10. UserDict, UserList, UserString/MRO/mixin/get_annotations
11. (sub)generator/coprogram/type: ignore/with/@contextmanager
12. else in for,while,try/scientific sins/GIL/getswitchinterval/asyncio
13. asyncio.to_thread/asyncpg/asyncio.Semaphore/async with/keyword.iskeyword
14. property/vars/metaprogramming
15. class denoscriptors

Если решите читать книгу - ТОЛЬКО в оригинале, русский перевод плох.
1
Forwarded from Data Secrets
Media is too big
VIEW IN TELEGRAM
У CEO Anthropic Дарио Амадея вышло новое интересное интервью. Краткое содержание:

➡️ По мнению Дарио, в будущем большие и мощные ИИ-модели будут порождать и координировать более мелкие для помощи в выполнении задач. Этот процесс будет похож на создание роевого интеллекта, и необходимость человеческого участия в нем будет близка к нулю.

➡️ Если масштабирование не выйдет на плато и мы не наткнемся на ранее не учтенные трудности, то, учитывая реалии, модель стоимостью 100 миллиардов долларов должна иметь интеллект уровня лауреата Нобелевской премии.

➡️ Ну и классика: ИИ может увеличить скорость научных открытий в 100 раз. Тем самым мы можем пройти путь, соразмерный прогрессу 20-го и 21-го века вместе взятых, всего за несколько лет.

Полностью интервью можно посмотреть здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
#gpt #llms #ai

"Испугался роботов".

Есть такой учёный, астроном, Владимир Сурдин. Классно рассказывает об астрономии, читает много лекций, в т.ч. не просто научно-популярных для широкой аудитории, но и на высоком техническом уровне для студентов-астрономов. При этом задаёт аудитории вопросы, на которые та зачастую затрудняется найти ответ.

Ну я возьми и напиши ему, мол, Владимир Георгиевич, используете ли современный ИИ в работе, если нет, попробуйте, может помочь на многих фронтах. На что он ответил: "Обращаться к ИИ за новыми идеями - значит перестать тренировать свою голову."

Я пишу, мол, ну мы же перестали делать умножение в столбик на бумаге, потом даже и калькуляторы забросили, стали вычислять на компьютерах - значит ли это, что мы перестали тренировать свою голову и всё плохо? Мы же стали заниматься более сложными задачами, сложив рутинную работу на машину, нет?

Дай, думаю, покажу ему возможности того же чатгпт в понимании естественного языка. Попросил сервис (на русском) сгенерить фотографию астероида Оумуамуа, улетающего от Земли на фоне Солнца и космоса. потом спросил, кто такой Владимир Сурдин, на что получил достаточно полное резюме, сгенерировал несколько астрономических шуток, спросил ИИ, почему этот учёный избегает помощи ИИ и какие аргументы ему привести (на что получил отличный ответ).

Ну, думаю, всё, человек сейчас в изумлении ответит: Ого, вот это инструмент, ОНО НАС ПОНИМАЕТ! Как же это ускорит мою работу по подготовке планов выступлений, иллюстраций, кода для вычислений, перевода, генерации новых идей! В ответ он придрался к тому, что в саммари о нём была указана неверная дата рождения, а астероид на фотографии оказался не сигарообразным (это и правда был косяк генерации, в промпте я просил сигарообразный. возможно, английский промпт сработал бы лучше, или дело просто в том, что генерация картинок пока в бете), да и шутки плоские. И заключил: "Нет, с роботами мне обсуждать нечего".

Первым порывом было попросить его придумать самому тонкую шутку, ну или предложить спросить у его студентов его дату рождения, но потом дошло, что бесполезно продолжать.

И я с ужасом подумал, батюшки, а я же этого человека считал отличным кандидатом на должность главы Роскосмоса, или чего-то подобного. А он, оказывается, отвергает прогресс, не понимает, боится его.

Пришла такая мысль: неужели это общая закономерность, и на управляющих должностях НЕЛЬЗЯ держать людей старше лет 50? Неужели они все цепляются за прошлое и не способны к инновациям?
👍2