NEW BOT Телеграм, страница - 462103276

Интересное что-то

517 subscribers

2.71K photos

253 videos

138 files

4.51K links

Материалы и мысли, понадерганные отовсюду
Блог: https://news.1rj.ru/str/asisakov_channel
Чат: https://news.1rj.ru/str/youknowds_chat

Download Telegram

About

Blog

Apps

Platform

Интересное что-то

517 subscribers

Интересное что-то

Forwarded from DevFM

Тернистый путь к ClickHouse

Статья ClickHouse: Путь джедая, искавшего дом для своих данных не о самой технологии, а о неоднозначном, сложном пути выбора технологии. И в этом её особенная ценность.

Внедрение новой технологии не возникает на пустом месте. Нужно критически подходить к этому вопросу.
1. Сначала обнаруживается проблема. Если проблемы нет, то и чинить не нужно. В статье обозначена проблема сбора и анализа большого количества данных о действиях пользователей из разных систем и их вечном хранении.
2. Решение следует начинать с анализа предметной области и формирования важных критериев. Автор выделил сложность внедрения и сопровождения, порог входа для аналитиков данных, цену использования.
3. Предлагаемые решения сравниваются по сформированным критериям.

Помимо описания процесса выбора и возникающих сложностей интересно узнать в ретроспективе об архитектуре хранения и работы с данными: MariaDB -> Elasticsearch -> ClickHouse.

Для желающих погрузиться в технические особенности рекомендуем статью от тех же авторов: Репликация ClickHouse без костылей: ожидание и реальность
#skills #softskills

ClickHouse: Путь джедая, искавшего дом для своих данных

* Юристы попросили нас написать, что картинка шуточная, и мы уважаем всех гордых любителей разных систем хранения данных. В разные эпохи развития нашего проекта в качестве основного хранилища, которое...

22 views08:42

Интересное что-то

19 views13:09

Интересное что-то

Forwarded from ИЦ "ГЕВИССТА"

Шпаргалка по подбору p, d, q для ARIMA

17 views13:09

Интересное что-то

#mlops
Setup for API

17 views13:36

Интересное что-то

Forwarded from Борис опять

#лабораторный_журнал

Время закатать рукава и сделать что-то полезное: написать API для базы данных с изображениями.

Больше года не писал API, но я съел на этом столько собак, что код сам вылетает из под пальцев.
Мой любимый сетап:
* DB - PostgreSQL
* ORM - SqlAlchemy
* Миграции - Alembic
* API - Flask
* Сериализация/валидация - Marshmallow
* Тесты - Pytest
* Форматирование кода - Black
* Деплой - Nginx + UWSGI, которые общаются по файлу-сокету как описано здесь. Такой сетап работает даже быстрее, чем uvicorn, потому что быстрее NGINX с настроенным кешированием просто некуда.

Разработка ведется через Docker. docker-compose run —rm —service-ports app bash поднимает локальный postgres, контейнер с приложением, контейнер с NGINX. Код передается в контейнер через volume. Разрабатываешь внутри контейнера, даже никаких venv/poetry/conda не надо - докер обеспечивает environment. Если надо можно подключиться к постгресу любым DB клиентом. Все это целиком повторяет то, как система выглядит в продакшне, поэтому нет проблемы “но на моем компьютере-то работает!”. Более того, деплой можно организовать через запуск такого же docker-compose.yml, только с другими параметрами.

Этот надежный как швейцарские часы сетап покрывает все нужды типичной API. При необходимости к нему без труда прикручиваются другие приблуды типа RabbitMQ + Celery для асинхронных тасок.

Есть только одна загадка: зачем нужен Django?

15 views13:36

Интересное что-то

Forwarded from Борис опять

Кстати на весь этот сетап можно посмотреть здесь: https://github.com/btseytlin/cowork-19

Это сайт с резюме и вакансиями, который я сделал в Первый Ковид, чтобы помочь сокращенным друзьям найти работу.

GitHub - btseytlin/cowork-19

Contribute to btseytlin/cowork-19 development by creating an account on GitHub.

15 views13:38

Интересное что-то

#mlops
Немного о ClearML

https://habr.com/ru/post/691314/

ClearML | Туториал

Исходники: https://github.com/allegroai/clearml Документация: https://clear.ml/docs/latest/docs/ Лицензия: Apache License 2.0 ClearML — это фреймворк для трекинга ML-экспериментов. Это основное его...

17 views07:39

Интересное что-то

#mlops
Ещё про ClearML

https://yandex.ru/q/machine-learning/11449503234/

https://yandex.ru/q/machine-learning/11450406146/?w_s=messenger_announce&w_a=messenger_announcement_action&w=messenger_announcement

Яндекс Кью

«Weights & Biases - 3 простых шага для оптимизации гиперпараметров» — Яндекс Кью

Поиск наиболее производительной модели в многомерном пространстве гиперпараметров может очень быстро стать громоздким. Анализ гиперпараметров с использованием инструмента Hyperparameter Sweeps от п...

16 views07:42

Интересное что-то

15 views07:43

Интересное что-то

Forwarded from BOGDAN

кто дошёл до выбора метрик для своего сервиса, вот чеклист от микромягкого

https://www.microsoft.com/en-us/research/group/experimentation-platform-exp/articles/stedii-properties-of-a-good-metric/

17 views07:43

Интересное что-то

#mlops

https://www.researchgate.net/publication/354805553_Demystifying_MLOps_and_Presenting_a_Recipe_for_the_Selection_of_Open-Source_Tools

(PDF) Demystifying MLOps and Presenting a Recipe for the Selection of Open-Source Tools

PDF | Nowadays, machine learning projects have become more and more relevant to various real-world use cases. The success of complex Neural Network... | Find, read and cite all the research you need on ResearchGate

17 views07:43

Интересное что-то

16 views07:44

Интересное что-то

Forwarded from Илона Ковалёва

Мне очень нравится блог на neptune.ai . Вот несколько статей оттуда: Best ML Model Registry Tools (обновл 30 сентября 2022), The Best MLOps Tools and How to Evaluate Them (обновл 19 августа 2022), Best End-to-End MLOps Platforms: Leading Machine Learning Platforms That Every Data Scientist Need to Know (обновл 21 июля 2022) . Кстати, с этой платформой я тоже знакомилась в рамках курса MLOps ( https://yandex.ru/q/tech/11450986242/ ) По моему опыту (познакомилась с 5-ю платформами), статьи и обзоры не очень сильно проясняют ситуацию, но там есть критерии и чекбоксы, которые дают некоторый ориентир. При выборе инструмента для себя имеет смысл потратить время и познакомиться с несколькими вариантами. По моим личным впечатлениям - WandB - отличный вариант с самым низким порогом вхождения и плавной кривой обучения если нужно запускать поиск гиперпараметров и сравнивать очень много моделей между собой, очень удобно для совместной работы и быстрого формирования ярких и наглядных отчетов, ClearML - отличный инструмент, если главным является налаживание пайплайнов и трекинга моделей, при более подробном знакомстве - это мощный инструмент (вся система локально - это 6 докер-контейнеров для трекинга моделей и ещё 7 контейнеров для деплоя и мониторинга на стадии продукта), MLFlow - легковесный инструмент для трекинга и деплоя, https://abacus.ai/ - очень эффективный инструмент, позволяющий деплоить прямо из ноутбука, при этом налажены и встроены мониторинг model drift и data drift, neptune.ai - мощная и обширная платформа, постоянно развивается, шикарный блог.

Blog - neptune.ai

Blog for ML/AI practicioners with articles about LLMOps. You'll find here guides, tutorials, case studies, tools reviews, and more.

22 views07:44

Интересное что-то

#causal
Интересная книга:
https://chabefer.github.io/STCI/

chabefer.github.io

Statistical Tools for Causal Inference

This is an open source collaborative book.

19 views12:58

Интересное что-то

#datasets #crypto

19 views15:10

Интересное что-то

Forwarded from Dan Okhlopkov - канал

📚 Анализ данных в крипте

У меня в канале много ML-щиков, которые хотят погружаться в мир блокчейнов. Нейронки вам вряд ли пригодятся, но вот вам полезные источники данных. Научитесь с ними работать, укажите в резюме и сможете устроиться в крипто стартапы аналитиком.

- dune.com - люди загружают датасеты про блокчейн, ты пишешь к ним SQL! Отдельно интересно смотреть горячие дешборды, чтобы понимать, что сейчас происходит в мире крипты. Например, сейчас все опять обсуждают бан кошельков USDT и остановку BNB Chain. Парсится питоном сложно, с selenium должно быть ок.

- tenderly.co - если интересно понять что-то про транзакцию (какой контракт и как был вызван, почему упала транзакция). API платный, но сайт парсится на ура.

- nansen.ai - если нужно узнать больше про адрес. Показывает не только балансы токенов, NFT и стейкинг в разных сетях, но и похожие аккаунты, с какими контрактами/кошельками взаимодействует, выставляет labels, полезен для антифрода и “пробива”. Сложно парсится питоном.

Блок эксплореры типа etherscan выдают минимум инфы, только для 1 чейна, а их API максимально скуден и отличается от чейна к чейну. Если дергать напрямую ноды через RPC, то там еще меньше базового функционала (из-за этого и появились сканнеры). Нужно знать, какой минимум можно получить от них, так как они парсятся на ура.

Также периодически можно найти крутые сайты с ценными данными, которые так и хочется спарсить. Один из таких скину завтра, подписывайтесь :)

21 views15:10

Интересное что-то

17 views21:52

Интересное что-то

Forwarded from Поступашки - ШАД, Стажировки и Магистратура

#How_to_заботать

How to заботать Deep Learning?

Как и обещали за (((много огоньков и шэров)) наш преподаватель по ML/DL делится своим видением How to заботать Deep Learning.
Овладев ML (Смотрите How to заботать Machine Learning), самое время присмотреться к глубокому обучению. Ведь куча современных прорывных и революционных технологий в области искусственного интеллекта основываются именно на нейронных сетях. Благодаря им машины способны отличать котиков от собачек, анализировать тексты, сжимать данные и пробовать себя в рэпе.

Как всегда, для начала отлично подойдет какой-нибудь курсик:
1) Deep Learning School
Курс по глубокому обучению от МФТИ, ориентирован в том числе на школьников.
Математическая часть освещается, но более на интуитивном уровне. Основной упор сделан на практику.
Практических заданий много, они позволяют deep погрузиться в материал и научиться с умом
применять нейронные сети под разные задачи. Есть базовый и продвинутый поток. Советую брать продвинутый,
особенно если вы уже освоились в питоне и классическом машинном обучении, ибо на нем больше заданий. После
окончания выдается сертификат и делается итоговый проект. Первый семестр посвящен работе с изображениями,
второй - работе с текстами и аудио. Очень хороший курс, и многие ныне успешные handmade persons😎😎 в индустрии начинали
именно с него (потому что больше ничего особо и не было).
2) Курсы cs от Стэнфорда
Посвященные разным аспектам глубокого обучения. Есть курс, посвященный NLP,
и даже отдельный курс, посвященный машинному обучению на графах. Практические задания есть, но они не
самые обширные, и немалый упор делается на теорию и внутреннюю работу всего происходящего. По графам,
по личному мнению автора, нет курса лучше, чем стэнфордский cs224w.
3) Natural Language Processing от ods.ai.
Тоже достаточно большой и полный курс, освещающий большую часть современной
обработки текстов. Несомненным плюсом является то, что курс, в отличие от стэнфордских, полностью на
русском языке.
4) Нейронные сети и компьютерное зрение от Samsung Research Center
Рассчитан в том числе на школьников, в нем достаточно сильно разжевываются основные понятия нейронных сетей, и от них
идет переход уже к обработке изображений.
5) An Introduction to Deep Reinforcement Learning
Если хочется чего-то экзотического, например, заботать обучение с подкреплением, то есть отлчиный курс от
Huggingface. Он на английском, но это не делает его менее бомбическим.
После прохождения каких-то курсов и преисполнения в своём познании, можно переходить сами знаете к чему— практике, как действовать уже писали тут.

Книг же по глубокому обучению столь же много, сколько и курсов, но, что является недостатком для начинающего, к книгам не прилагаются качественные практические задания. То, что безусловно можно посоветовать - "Глубокое обучение" от Яна Гудфеллоу (лежит в комментариях). Книга является очень классической, и в то же время содержит множество полезных приёмов и объяснений, почему работает именно так, а не иначе. Более того, в ней очень много материала, про который не расскажут практически ни на каком дополнительном курсе. Поэтому она однозначно получает огонек от (((админа)))🔥🔥.

22 views21:52

Интересное что-то

19 views22:05

Интересное что-то

Forwarded from Erjan G

ок раскажу про свой челендж:
литкод ( 2400 задач)
binarysearch com (1067)
codingchef ~2k problems
hacker earth com - 1500
quant questions - 200
strata scratch - 500
я хочу все сделать подобные сайты. на кодфорс не могу смотреть - там слишком сложно.
я не могу полдня сидеть на 1 задаче!

22 views22:05

Интересное что-то

21 views17:13