Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Топ 5 ресурсов для изучения математики для DataScience

1. KhanAcademy
[https://ru.khanacademy.org/]

2. Coursera
[https://www.coursera.org/]

3. StatQuest (Youtube)
[https://www.youtube.com/user/joshstarmer]

4. Introduction to Algebra
[https://www.khanacademy.org/math/algebra-home/alg-intro-to-algebra]
Обучаете нейронки и работаете с Big Data?
Тогда у Яндекса для вас есть DataSphere — новая облачная среда для ML-разработки и анализа данных

🔥Почему ее стоит попробовать:

Не нужно торопиться из-за временных ограничений, ноутбуки там никуда не пропадают.
💸 Стартовый грант на 3 000 ₽ каждому новому пользователю. Его хватит, например, на 50+ часов вычислений с GPU.
🧾 Когда грант закончится — Pay as you Go — платите только за вычисления.
🖥 Отлично знакомый многим из нас интерфейс Jupyter Notebook и документация на русском.
☁️ Бессерверные технологии, благодаря которым ML становится значительно дешевле всего, что было раньше.
Есть NVIDIA V100 в конфигурациях с одной и четырьмя картами, и можно бесшовно переключаться c CPU на GPU без потери прогресса.

В DataSphere можно работать одному и в командах, использовать для работы, учебы и личных проектов!

👉Начните бесплатно по ссылке: https://clck.ru/TiZ6g

Любые вопросы задавайте ребятам в официальном чате DataSphere — продуктовая команда проекта оперативно там отвечает: https://news.1rj.ru/str/yandex_datasphere
5 лучших библиотек машинного обучения

За последние несколько лет рост машинного обучения достиг стремительных темпов. Это связано с выпуском библиотек машинного обучения (МО)/глубокого обучения (ГО), которые абстрагируются от сложности скаффолдинга или реализации модели МО/ГО.https://telegra.ph/5-luchshih-bibliotek-mashinnogo-obucheniya-03-15
​​Диаграммы рассеяния

Диаграмма рассеяния лучше всего подходит для визуализации связи между двумя
спаренными множествами данных. Например, показана связь между
числом друзей пользователя и числом минут, которые они проводят на веб-сайте
каждый день:
friends = [ 70, 65, 72, 63, 71, 64, 60, 64, 67)
minutes = [175, 170, 205, 120, 220, 130, 105, 145, 190)
labels = ['а', ·ь·, 'с', 'd', 'е', 'f'' 'g'' 'h', 'i']
# Друзья
# Минуты
# Метки
plt.scatter(friends, minutes)
# Назначить метку для каждой точки
for label, friend_count, minute_count in zip(labels, friends, minutes):
plt.annotate(label,
xy=(friend_count, minute_count), # Задать метку
xytext=(5, -5), # и немного сместить ее
textcoords='offset points')
plt.noscript("Чиcлo минут против числа друзей")
pl t. xlabel ( "Число друзей")
plt.ylabel("Чиcлo минут, проводимых на сайте ежедневно")
plt.show ()
Интенсивный курс Deep Learning от Newprolab для обучения работе с глубокими нейронными сетями на реальных датасетах в контексте боевых бизнес-задач.

🔥Старт 29 марта, задать вопросы и зарегистрироваться на программу можно тут: https://clck.ru/ThHAR

Что в программе?
Два блока: компьютерное зрение и Natural Language Processing. Научитесь предобрабатывать и классифицировать изображения, а также генерировать и классифицировать тексты с применением самых современных архитектур.

8 практических занятий, 2 проекта и туториал по разметке данных. Курс предназначен строго для дата сайентистов, ML-инженеров и менеджеров продукта, уже имеющих опыт машинного обучения. Обратная связь, живое общение, обмен опытом и рост в кругу коллег прилагается!

💡Специальная скидка 7% от цены на сайте по промокоду Devsp. Присоединяйтесь!
Как устроены камеры с искусственным интеллектом

В каждой умной камере есть встроенная видеоаналитика, сегодня чаще всего здесь используются нейросети глубокого обучения или искусственный интеллект. Это стало возможным благодаря увеличению мощности процессоров видеокамер, раньше видеоаналитика могла существовать только на серверах.
https://telegra.ph/Kak-ustroeny-kamery-s-iskusstvennym-intellektom-03-18
Разбираем, чем отличается версионирование в ML-разработке по коду от версионирования по коду и состоянию.

Ситуация:
вы работаете над проектом, например занимаетесь ML-прототипированием или анализом данных. По ходу работы в системе сохраняется код, и вы спокойно продолжаете, не боясь что-то упустить из виду. Но в конце недели понимаете, что где-то свернули не туда. Вы откатываетесь на несколько шагов назад по коду, и все бы ничего, но вычисления ведь придется делать заново. Это главный недостаток версионирования по коду.

Версионирование по коду и состоянию отличается тем, что во время работы сохраняется не только сам код, но и состояние вычислений. То есть состояние = код + вывод + переменные. Это значит, что если вы откатитесь назад, то получите не только прежний код, но и значения переменных. Вам не придется заново запускать вычисления, терять время и ресурсы.

Попробуйте версионирование по коду и состоянию в Yandex DataSphere, где каждому новому пользователю доступны бесплатные ресурсы на ML-разработку:

👉 https://clck.ru/ToJNp
Участие искусственного интеллекта в современном трейдинге

Профессиональные трейдеры периодически вынуждены модернизировать свои наработки, так как прогресс делает трейдинг сложнее. В 2000–2015 гг. им пришлось конкурировать с торговыми ботами, а потом научиться настраивать их, чтобы силы уравнялись. Примерно с 2015 года трейдерам и их ботам приходится конкурировать уже с искусственным интеллектом.
https://telegra.ph/Uchastie-iskusstvennogo-intellekta-v-sovremennom-trejdinge-03-19
​​Описание одиночного набора данных
Факты - упрямая вещь, а статистика гораздо сговорчивее.
-Марк Твен

Благодаря полезному сочетанию живого слова и удачи социальная сеть DataSciencester
выросла до нескольких десятков пользователей, и директор по привлечению фи­
нансовых ресурсов просит вас проанализировать, сколько друзей есть у пользова­
телей сети, чтобы он мог включить эти данные в свои "презентации для лифта" 2•
Используя простые методы из главы 1, вы легко можете предъявить запрашивае­
мые данные. Однако сейчас вы столкнулись с задачей выполнения их описательно­
го аншlИза.
Любой набор данных очевидным образом характеризует сам себя:
# Число друзей
nurn friends
[100, 49, 41, 40, 25,
# ... и еще много других
]
Для достаточно малого набора данных такое описание может даже оказаться наи­
лучшим. Но для более крупного набора данных это будет выглядеть очень громоздко и, скорее всего, непрозрачно.
https://telegra.ph/Opisanie-odinochnogo-nabora-dannyh-03-23
Что читать специалисту по Data Science в 2021 году

В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.
​​Мы много говорим о понятии data science , даже канал называется так, но многие всё еще путают данную науку с узкими отраслями IT сферы. Чтобы наши подписчики больше не путали данное понятие мы дадим понятное объяснени где и как используют data science.

- Об­на­ру­же­ние ано­ма­лий, на­при­мер, ненор­маль­ное поведение кли­ен­та, мошенни­че­ства;
пер­со­на­ли­зи­ро­ван­ный мар­ке­тинг — элек­трон­ные рассылки, ре­тар­ге­тинг, системы ре­ко­мен­да­ций;

- Ко­ли­че­ствен­ные про­гно­зы — по­ка­за­те­ли эф­фек­тив­но­сти, ка­че­ство ре­клам­ных кам­па­ний и дру­гих ме­ро­при­я­тий;

- Cко­рин­го­вые си­сте­мы — об­ра­бот­ка боль­ших объ­ё­мов данных, по­мощь в принятии ре­ше­ний, на­при­мер, о предостав­ле­нии кре­ди­та;

- Ба­зо­вое вза­и­мо­дей­ствие с кли­ен­том — стан­дарт­ные ответы в ча­тах, го­ло­со­вые по­мощ­ни­ки, сор­ти­ров­ка пи­сем по пап­кам.


Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и выбор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние предположений.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­
грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.
​​Тонкая настройка предварительно обученных трансформаторов в RNN
Microsoft + Deepmind + ...

Трансформеры - это текущая СОТА в языковом моделировании. Но они сопряжены со значительными вычислительными затратами, поскольку механизм внимания квадратично масштабируется по длине последовательности. Потребление памяти также линейно растет с увеличением длины последовательности. Это узкое место ограничивает использование крупномасштабных предварительно обученных моделей генерации, таких как GPT-3 или преобразователи изображений.

Недавно было предложено несколько эффективных вариантов трансформатора. Например, рекуррентный вариант линейной сложности (https://arxiv.org/abs/2006.16236) оказался хорошо подходящим для генерации авторегрессии. Он аппроксимирует внимание softmax с помощью рандомизированных или эвристических карт характеристик, но может быть трудно обучить или получить неоптимальную точность.

Эта работа преобразует предварительно обученный преобразователь в его эффективный рекуррентный аналог линейной сложности с изученной картой функций для повышения эффективности при сохранении точности. Для этого они заменяют softmax Внимание в готовом предварительно обученном трансформаторе на его рекуррентную альтернативу линейной сложности, а затем тонкую настройку.

Плюсы:
+ Процесс точной настройки требует гораздо меньше времени графического процессора, чем обучение повторяющихся вариантов с нуля
+ Преобразование большого стандартного трансформатора в облегченную модель вывода без повторения всей процедуры обучения очень удобно во многих последующих приложениях.
​​Интервью с Data Scientist: «Я вижу, как моя работа влияет на жизнь людей»

https://iot.ru/gadzhety/intervyu-s-data-scientist-ya-vizhu-kak-moya-rabota-vliyaet-na-zhizn-lyudey