Forwarded from Data Science News (Andrey)
Практический курс "введение в статистику и машинное обучение" от Стэнфорда. Регрессия, методы классификации, выборки, SVM, кластеризация, деревья решений. Хорошо и на примерах разобраны такие статистические инструменты как LDA/QDA, PCR, PCA. По каждому разделу есть лабы на R.
Forwarded from Хроники ботки (Aleksei Shestov 𓆏)
AutoML это алгоритмы, которые подбирают алгоритм, параметры и их комбинации специально для конкретного датасета. То есть такая замена дата саентиста. Сбербанк выпустил свой опенсорсный автомл фреймворк на питоне, призываю все пользоваться, шарить и распространять :) Александр Рыжков, Дмитрий Симаков и их коллеги разрабатывают автомл в Сбере, они уже делали доклад в декабре
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)
Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
https://www.youtube.com/watch?v=ci8uqgWFJGg&list=PLYeFZ_T6PUrILcK5rKHlb9PdBp-ySitUN,
а сейчас можно посмотреть участие автомл в каггл соревнование и его выигрыш относительно других автомл
https://www.kaggle.com/alexryzhkov/tps-april-21-lightautoml-starter (не жалейте ваши апвоуты этому ноутбуку на каггле :)
Проект в опенсорсе - https://github.com/sberbank-ai-lab/LightAutoML
И бенчмарки: https://github.com/sberbank-ai-lab/automlbenchmark/tree/lightautoml
YouTube
Александр Рыжков, Дмитрий Симаков - АвтоМЛ LightAutoML (или коротко LAMA)
LightAutoML (или коротко LAMA) - новая библиотека для автоматизации построения ML моделей. Мы расскажем, для решения каких задач создавался наш LightAutoML, чем он выделяется на фоне конкурентов и какую пользу способен принести пользователям и бизнесу.
…
…
Forwarded from DL in NLP (Vlad Lialin)
Давно у нас не было постов вида "держите кучу ссылок"
1. Applied PyTorch 101 от Abhishek Thakur — самые основы пайторча начиная с тензоров и заканчивая даталоадерами (будут ещё видео). Выглядит неплохо, буду советовать студентам.
1. Language Interpretability Tool — тулза для визуализации и интерпретации трансформеров, кроме этого позволяет анализировать ошибки модели и прочие вещи. Выглядит куда более проработанной чем всё, что я видел раньше (демо, гитхаб)
1. NLP In Video Games — мне очень нравится эта идея в принципе, тк она может позволить упростить какие-то моменты геймдева, но NLP всё-таки ещё сыроват. Несмотря на это можно уже посмотреть на первые попытки что-то такое сделать.
1. What Will it Take to Fix Benchmarking in Natural Language Understanding? — рассуждения на тему того, почему текущие бенчмарки плохи и как делать более хорошие.
1. torchtyping — попытка решить проблему документации шейпов тензоров, а заодно и проверять это всё на лету. Надо будет попробовать.
1. MLOps: жизненный цикл ML-моделей — как известно, обучение моделек это 5% работы, в этом выступлении обсуждают остальные 95%.
1. Why Do Local Methods Solve Nonconvex Problems — современный обзор текущей теории обучения в диплёрнинге или попытки ответить на вопрос почему в нейросетках почти все локальные минимумы близки к глобальному.
1. Applied PyTorch 101 от Abhishek Thakur — самые основы пайторча начиная с тензоров и заканчивая даталоадерами (будут ещё видео). Выглядит неплохо, буду советовать студентам.
1. Language Interpretability Tool — тулза для визуализации и интерпретации трансформеров, кроме этого позволяет анализировать ошибки модели и прочие вещи. Выглядит куда более проработанной чем всё, что я видел раньше (демо, гитхаб)
1. NLP In Video Games — мне очень нравится эта идея в принципе, тк она может позволить упростить какие-то моменты геймдева, но NLP всё-таки ещё сыроват. Несмотря на это можно уже посмотреть на первые попытки что-то такое сделать.
1. What Will it Take to Fix Benchmarking in Natural Language Understanding? — рассуждения на тему того, почему текущие бенчмарки плохи и как делать более хорошие.
1. torchtyping — попытка решить проблему документации шейпов тензоров, а заодно и проверять это всё на лету. Надо будет попробовать.
1. MLOps: жизненный цикл ML-моделей — как известно, обучение моделек это 5% работы, в этом выступлении обсуждают остальные 95%.
1. Why Do Local Methods Solve Nonconvex Problems — современный обзор текущей теории обучения в диплёрнинге или попытки ответить на вопрос почему в нейросетках почти все локальные минимумы близки к глобальному.
YouTube
PyTorch 101: An Applied Tutorial
Tool for visualizing attention in the Transformer model
https://github.com/jessevig/bertviz
https://github.com/jessevig/bertviz
GitHub
GitHub - jessevig/bertviz: BertViz: Visualize Attention in NLP Models (BERT, GPT2, BART, etc.)
BertViz: Visualize Attention in NLP Models (BERT, GPT2, BART, etc.) - GitHub - jessevig/bertviz: BertViz: Visualize Attention in NLP Models (BERT, GPT2, BART, etc.)
Forwarded from Small Data Science for Russian Adventurers
Bigbookofr
Welcome :)
Forwarded from Хабр Разработка
Тихая революция и новый дикий запад в ComputerVision http://amp.gs/6f7J
Хабр
Тихая революция и новый дикий запад в ComputerVision
Казалось бы, революция с Computer Vision уже была. В 2012 году выстрелили алгоритмы основанные на сверточных нейронных сетях . Года с 2014 они дошли до продакшна, а года с 2016 заполонили все . Но, в...
Forwarded from Parsing Conf
Parsing Conf
—————————————————————————
Дата: 27 апреля
Время: 20-00 по Москве
—————————————————————————
1. @ziflex. "Библиотека ferret. Обзор. Рассказ автора"
2. @Bundleman. "Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней"
3. @roman_kucev. "Как собрать датасет для аутентификации человека по лицу через Толоку."
Мероприятие бесплатное
Онлайн
—————————————————————————
Дата: 27 апреля
Время: 20-00 по Москве
—————————————————————————
1. @ziflex. "Библиотека ferret. Обзор. Рассказ автора"
2. @Bundleman. "Еще одна архитектура системы мониторинга цен и место библиотеки ferret в ней"
3. @roman_kucev. "Как собрать датасет для аутентификации человека по лицу через Толоку."
Мероприятие бесплатное
Онлайн
Forwarded from DL in NLP (nlpcontroller_bot)
Samsung Innovation Campus - AI Lectorium
youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK
Внезапно обнаружил много лекций от московского Samsung AI Center. Уроверь скорее advanced и ожидает, что вы уже хорошо знакомы с нейростеками. По большей части лекции ближе по тематике к CV, но есть и более общие темы: например о том, как ускорять инференс и ставить эксперименты. Ещё очень хочу выделить лекцию про GAN, где они рассматриваются достаточно абстрактно и не присязаны сильно к изображениям — получилось просто 🔥.
Кстати у них в конце плейлиста видно запланированную на 28 апреля лекцию по суммаризации текста, так что можно ожидать больше NLP.
youtube.com/playlist?list=PLJEYfuHbcEIB-DdeoWaQ6Bzt0903kbmWK
Внезапно обнаружил много лекций от московского Samsung AI Center. Уроверь скорее advanced и ожидает, что вы уже хорошо знакомы с нейростеками. По большей части лекции ближе по тематике к CV, но есть и более общие темы: например о том, как ускорять инференс и ставить эксперименты. Ещё очень хочу выделить лекцию про GAN, где они рассматриваются достаточно абстрактно и не присязаны сильно к изображениям — получилось просто 🔥.
Кстати у них в конце плейлиста видно запланированную на 28 апреля лекцию по суммаризации текста, так что можно ожидать больше NLP.
Постеры с PYTORCH ECOSYSTEM DAY 2021
https://pytorch.org/ecosystem/pted/2021
https://pytorch.org/ecosystem/pted/2021
PyTorch
Ecosystem Day 2021
Обнаружение объектов с помощью YOLO и Weights & Biases
https://wandb.ai/authors/sat_2/reports/-YOLO-Weights-Biases--Vmlldzo3MTIyNTE
https://wandb.ai/authors/sat_2/reports/-YOLO-Weights-Biases--Vmlldzo3MTIyNTE
W&B
Обнаружение объектов с помощью YOLO и Weights & Biases
W&B интегрирован с YOLOv5. Вот что вам нужно знать: от визуализации наборов данных до регистрации прогресса обучения в режиме реального времени, до возобновления аварийных запусков на любом устройстве:.
Курс от Hugging Face о том, как пользоваться их либой и экосистемой в целом
https://huggingface.co/course/chapter1
https://huggingface.co/course/chapter1
huggingface.co
Introduction - Hugging Face LLM Course
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
8 июля пройдет пятый ежегодный международный саммит Machines Can See, который организует компания VisionLabs. Он объединит ведущих мировых специалистов в сфере компьютерного зрения и машинного обучения для обсуждения технологических трендов и обмена опытом.
В этом году главной темой мероприятия стали human-centric технологии, спикерами научного трека саммита выступят:
- Дима Дамен, Бристольский университет
- Доктор Эфстратиос Гаввес, Амстердамский университет
- Бернард Ганем, научно-технологический университет имени короля Абдаллы
- Ира Кемельмахер-Шлизерман, Вашингтонский университет; UW Reality Lab; Google
- Крис Китани, университет Карнеги-Меллона
Также все желающие смогут принять участие в международном онлайн-соревновании и идеатоне.
Саммит впервые пройдет в гибридном формате: офлайн и онлайн. В Москве участники встретятся на площадке Omega Rooftop. Для онлайн-зрителей будет доступна прямая трансляция и возможность задать спикерам вопросы в чате.
Участие бесплатное, зарегистрироваться и выбрать удобный формат участия можно на сайте machinescansee.com
В этом году главной темой мероприятия стали human-centric технологии, спикерами научного трека саммита выступят:
- Дима Дамен, Бристольский университет
- Доктор Эфстратиос Гаввес, Амстердамский университет
- Бернард Ганем, научно-технологический университет имени короля Абдаллы
- Ира Кемельмахер-Шлизерман, Вашингтонский университет; UW Reality Lab; Google
- Крис Китани, университет Карнеги-Меллона
Также все желающие смогут принять участие в международном онлайн-соревновании и идеатоне.
Саммит впервые пройдет в гибридном формате: офлайн и онлайн. В Москве участники встретятся на площадке Omega Rooftop. Для онлайн-зрителей будет доступна прямая трансляция и возможность задать спикерам вопросы в чате.
Участие бесплатное, зарегистрироваться и выбрать удобный формат участия можно на сайте machinescansee.com
🤗Transformers v4.7.0 was just released with 🖼️DETR by @facebookai!
DETR is an Object Detection model that can take models from timm by @wightmanr as a backbone.
Contributed by @NielsRogge, try it out: https://t.co/0AOf3P7QaC
v4.7.0 launches with support for PyTorch v1.9.0! https://t.co/1LAYy4cN2W
DETR is an Object Detection model that can take models from timm by @wightmanr as a backbone.
Contributed by @NielsRogge, try it out: https://t.co/0AOf3P7QaC
v4.7.0 launches with support for PyTorch v1.9.0! https://t.co/1LAYy4cN2W
Google
DETR minimal example (with DetrFeatureExtractor).ipynb
Run, share, and edit Python notebooks
AugLy is a data augmentations library that currently supports four modalities (audio, image, text & video) and over 100 augmentations
https://github.com/facebookresearch/AugLy
https://github.com/facebookresearch/AugLy
GitHub
GitHub - facebookresearch/AugLy: A data augmentations library for audio, image, text, and video.
A data augmentations library for audio, image, text, and video. - facebookresearch/AugLy
Forwarded from Small Data Science for Russian Adventurers
#полезно
Куча ютуб-каналов по программированию и DS:
https://github.com/benthecoder/yt-channels-DS-AI-ML-CS
Куча ютуб-каналов по программированию и DS:
https://github.com/benthecoder/yt-channels-DS-AI-ML-CS
GitHub
GitHub - benthecoder/yt-channels-DS-AI-ML-CS: A comprehensive list of 180+ YouTube Channels for Data Science, Data Engineering…
A comprehensive list of 180+ YouTube Channels for Data Science, Data Engineering, Machine Learning, Deep learning, Computer Science, programming, software engineering, etc. - benthecoder/yt-channe...
Forwarded from DL in NLP (nlpcontroller_bot)
OpenAI Triton — новый язык программирования (ну почти), заточенный под нейросетки.
Основная мотивация: если ваш кастомный слой в нейросетке очень кастомный, вам сейчас приходится либо страдать от его низкой скорости, либо писать на CUDA (и страдать от CUDA). Причём вариант с кудой не очень классный, потому что если потом захотите портировать на iphone/android/edge/... , то будете страдать снова.
Triton это такой "Си с тайлами". Сверху языка С добавлена абстракция Tile, которая по факту — тензор. Под капотом много оптимизаций для того, чтобы всё это эффективно считалось на GPU.
Из документации видно, что сейчас язык больше продвигают как альтернативу TorchScript. То есть, вы пишете на питоне, добавляете несколько декораторов к вашим функциям и 🧙 делает ваш говнокод не лучше, но быстрее.
Проект ещё в очень ранней фазе и исходники выглядят не шибко приятно, но если он уменьшит число CUDA kernels в этом мире, я буду рад.
Основная мотивация: если ваш кастомный слой в нейросетке очень кастомный, вам сейчас приходится либо страдать от его низкой скорости, либо писать на CUDA (и страдать от CUDA). Причём вариант с кудой не очень классный, потому что если потом захотите портировать на iphone/android/edge/... , то будете страдать снова.
Triton это такой "Си с тайлами". Сверху языка С добавлена абстракция Tile, которая по факту — тензор. Под капотом много оптимизаций для того, чтобы всё это эффективно считалось на GPU.
Из документации видно, что сейчас язык больше продвигают как альтернативу TorchScript. То есть, вы пишете на питоне, добавляете несколько декораторов к вашим функциям и 🧙 делает ваш говнокод не лучше, но быстрее.
Проект ещё в очень ранней фазе и исходники выглядят не шибко приятно, но если он уменьшит число CUDA kernels в этом мире, я буду рад.
GitHub
GitHub - triton-lang/triton: Development repository for the Triton language and compiler
Development repository for the Triton language and compiler - triton-lang/triton