Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Что читать специалисту по Data Science в 2021 году

В этом посте делимся с вами подборкой источников полезной информации о Data Science от сооснователя и CTO DAGsHub — сообщества и веб-платформы для контроля версий данных и совместной работы дата-сайентистов и инженеров по машинному обучению. В подборку попали самые разные источники, от аккаунтов в твиттере, до полноценных инженерных блогов, которые ориентированы для тех, кто точно знает, что ищет. Подробности под катом.
​​Мы много говорим о понятии data science , даже канал называется так, но многие всё еще путают данную науку с узкими отраслями IT сферы. Чтобы наши подписчики больше не путали данное понятие мы дадим понятное объяснени где и как используют data science.

- Об­на­ру­же­ние ано­ма­лий, на­при­мер, ненор­маль­ное поведение кли­ен­та, мошенни­че­ства;
пер­со­на­ли­зи­ро­ван­ный мар­ке­тинг — элек­трон­ные рассылки, ре­тар­ге­тинг, системы ре­ко­мен­да­ций;

- Ко­ли­че­ствен­ные про­гно­зы — по­ка­за­те­ли эф­фек­тив­но­сти, ка­че­ство ре­клам­ных кам­па­ний и дру­гих ме­ро­при­я­тий;

- Cко­рин­го­вые си­сте­мы — об­ра­бот­ка боль­ших объ­ё­мов данных, по­мощь в принятии ре­ше­ний, на­при­мер, о предостав­ле­нии кре­ди­та;

- Ба­зо­вое вза­и­мо­дей­ствие с кли­ен­том — стан­дарт­ные ответы в ча­тах, го­ло­со­вые по­мощ­ни­ки, сор­ти­ров­ка пи­сем по пап­кам.


Пять ос­нов­ных эта­пов в ра­бо­те с дан­ны­ми

Сбор. По­иск ка­на­лов, где мож­но со­би­рать дан­ные, и выбор ме­то­дов их по­лу­че­ния.

Про­вер­ка. Ва­ли­да­ция, ни­ве­ли­ро­ва­ние ано­ма­лий, ко­то­рые не вли­я­ют на ре­зуль­тат и ме­ша­ют даль­ней­ше­му ана­ли­зу.

Ана­лиз. Изу­че­ние дан­ных, под­твер­жде­ние предположений.

Ви­зу­а­ли­за­ция. Пред­став­ле­ние ин­фор­ма­ции в по­нят­ном для вос­при­я­тия виде: гра­фи­ки, диа­
грам­мы.

Ре­ак­ция. При­ня­тие ре­ше­ний на ос­но­ве дан­ных. На­при­мер, из­ме­не­ние мар­ке­тин­го­вой стра­те­гии, уве­ли­че­ние бюд­же­та ком­па­нии.
​​Тонкая настройка предварительно обученных трансформаторов в RNN
Microsoft + Deepmind + ...

Трансформеры - это текущая СОТА в языковом моделировании. Но они сопряжены со значительными вычислительными затратами, поскольку механизм внимания квадратично масштабируется по длине последовательности. Потребление памяти также линейно растет с увеличением длины последовательности. Это узкое место ограничивает использование крупномасштабных предварительно обученных моделей генерации, таких как GPT-3 или преобразователи изображений.

Недавно было предложено несколько эффективных вариантов трансформатора. Например, рекуррентный вариант линейной сложности (https://arxiv.org/abs/2006.16236) оказался хорошо подходящим для генерации авторегрессии. Он аппроксимирует внимание softmax с помощью рандомизированных или эвристических карт характеристик, но может быть трудно обучить или получить неоптимальную точность.

Эта работа преобразует предварительно обученный преобразователь в его эффективный рекуррентный аналог линейной сложности с изученной картой функций для повышения эффективности при сохранении точности. Для этого они заменяют softmax Внимание в готовом предварительно обученном трансформаторе на его рекуррентную альтернативу линейной сложности, а затем тонкую настройку.

Плюсы:
+ Процесс точной настройки требует гораздо меньше времени графического процессора, чем обучение повторяющихся вариантов с нуля
+ Преобразование большого стандартного трансформатора в облегченную модель вывода без повторения всей процедуры обучения очень удобно во многих последующих приложениях.
​​Интервью с Data Scientist: «Я вижу, как моя работа влияет на жизнь людей»

https://iot.ru/gadzhety/intervyu-s-data-scientist-ya-vizhu-kak-moya-rabota-vliyaet-na-zhizn-lyudey
Kак появилась Data Science и при чем тут большие данные?
От Википедии : " Data Science – это наука о данных, объединяющая разные области знаний: информатику, математику и системный анализ. Сюда входят методы обработки больших данных (Big Data), интеллектуального анализа данных (Data Mining), статистические методы, методы искусственного интеллекта, в т.ч машинное обучение (Machine Learning). DS включает методы проектирования и разработки баз данных и прикладного программного обеспечения "
А подробнее про тему читайте по этой ссылке.
na centre - чатбот, который поможет найти работу и оставаться в курсе карьерных возможностей.

Чатбот позволяет получать интересные вакансии в одном месте, а не просматривать много телеграм-каналов, сайтов)

@na_centre_bot поможет оставаться в курсе интересных вам вакансий с помощью настроек подписки по:
- сфере деятельности
- уровню зарплаты
- локации (и по другим в будущем).
Собирает вакансии из 100+ источников, постепенно список источников пополняется, добавляют персонализацию.

Попробовать - @na_centre_bot 🚀
10 трюков библиотеки Python Pandas, которые вам нужны
Любите панд? Мы тоже. А еще мы любим эффективный код, поэтому собрали классные трюки, которые облегчат работу с библиотекой Python Pandas.
https://proglib.io/p/pandas-tricks
Когда data science была представлена , как отдельная дисциплина в науке?
Anonymous Quiz
25%
1967
55%
1988
14%
1966
5%
1904
Аналитика данных используется во многих областях и требует людей с самым разным бэкграундом, поэтому в Data Science каждый может найти себя.

7 апреля в Нетологии пройдет «Онлайн-день открытых дверей и презентация новых программ по Аналитике и Data Science», на котором подробно расскажут о профессиях в этой сфере — data scientist, продуктовый аналитик, игровой аналитик, дата-журналист, маркетолог-аналитик, инженер данных, аналитик bi, — и где они нужны.

Вы найдете подходящее именно вам направление, выберете для себя трек развития карьеры и узнаете, какие шаги нужно сделать для входа в новую профессию.

Регистрируйтесь и постройте свой план карьерного роста ↓
https://netolo.gy/gnG
Алгоритм обучения многослойной нейронной сети методом обратного распространения ошибки (Backpropagation).
Тема нейронных сетей была уже ни раз освещена на хабре, однако сегодня я бы хотел познакомить читателей с алгоритмом обучения многослойной нейронной сети методом обратного распространения ошибки и привести реализацию данного метода.

Сразу хочу оговориться, что не являюсь экспертом в области нейронных сетей, поэтому жду от читателей конструктивной критики, замечаний и дополнений.
Читать статью.
​​Основы ИНС - Очень полезная статья для тех , кто ещё не знаком или мало знаком со сферой ИНС (искусственых нейронных сетей).
Почему Python используется для машинного обучения?
Скорее всего, вы знаете, что Python — это самый популярный высокоуровневый язык программирования с динамической семантикой. Он довольно прост для работы и чтения: его использование снижает стоимость разработки и обслуживания программ.
Подробнее...
Станьте топовым менеджером big data всего за 4 месяца! На онлайн-курсе вы научитесь:

- Разбираться в технологиях big data. Познакомитесь с подходом lean, методологией data mining и облачными решениями для работы с большими данными.
- Управлять проектом и командой. Сможете подбирать инструменты и команду для конкретного проекта big data, ставить задачи разработчикам и управлять сроками.
- Внедрять подход data driven. Узнаете, как принимать стратегические решения на основе данных с интеграцией аналитических отчётов в ключевые бизнес-процессы компании.
- Оценивать результаты. Получите список метрик, которые помогут оценить качество готовой модели и эффективность работы команды.
- Предлагать решения, основанные на больших данных, и презентовать их руководству. Будете составлять эффектные бизнес-кейсы и графики. Узнаете, как убедить руководство внедрить новую технологию.

Переходите на сайт: https://clc.am/no-txQ, заполняйте заявку и регистрируйся на курс!
Оптимизация производительности MySQL сервера
От скорости работы баз данных (БД) зависит быстрота отклика сайта. Ведь замедленная обработка запросов влияет на PHP, следовательно — накапливается огромное количество операций, с которыми сервер может не справиться.
Управлять данным процессом позволяет использование систем управления базами данных или СУБД. Одной из самых широко применяемых СУБД является MySQL — ПО с открытым исходным кодом, созданное компанией MySQL AB (Oracle) ещё в 1995 году. Оптимизация MySQL позволяет избежать проблем с производительностью сервера и значительно ускорить интернет-ресурс.
В статье представлены варианты повышения производительности баз данных MySQL с помощью специального скрипта, а также указаны параметры настройки, на которые необходимо обратить внимание.
Статья.
Сочные скидки до 40% от онлайн-университета SF Education.

Выбирай программу на свой вкус https://bit.ly/3moWT4F и получай аппетитную скидку с 8 по 12 апреля!

На все курсы по финансам, бизнесу и аналитике есть возможность получить дополнительную выгоду до 80%:

⁃ скидка до 40%
⁃ сashback 30% при оплате картой Тинькофф
⁃ вычет 13% НДФЛ на обучение
⁃ беспроцентная рассрочка от банков-партнеров

Программы подойдут:
— тем, кто хочет освоить новую профессию с нуля;
— специалистам, которые хотят восполнить теоретическую базу и получить больше практических навыков;
— руководителям, которые хотят повысить продуктивность и подняться по карьерной лестнице.

А для подписчиков канала мы собрали специальную подборку:

⁃ программа «Бизнес-аналитик (Data Analyst)»
⁃ курс «Data Science academy»
⁃ курс «Excel Academy»

Все, что вам нужно сделать — оставить заявку на сайте https://bit.ly/3moWT4F
Обучение нейросети с учителем, без учителя, с подкреплением — в чем отличие? Какой алгоритм лучше?
Статья.
Изучение data science c нуля: этапы и вехи
В соответствии с концепцией спирального подхода к обучению, привожу поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы ни уделили обучению и в какой бы момент ни остановились, у вас будет наиболее востребованный набор знаний из возможных к освоению за такое время.
Полная статья
​​Потоки и многопоточность / для начинающих
Многопоточность очень ценится в кругу дата сайентистов, т.к. позволяет анализировать и обрабатывать огромные объёмы данных используя все возможные ресурсы вычислительной машины , тем самым сокарщая время обработки данных.
Про многопототчность есть прекрасная статья, где разъясняется эта тема на примере ЯП Python.
https://pythonru.com/uroki/potoki-i-mnogopotochnost-dlja-nachinajushhih