Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Станьте топовым менеджером big data всего за 4 месяца! На онлайн-курсе вы научитесь:

- Разбираться в технологиях big data. Познакомитесь с подходом lean, методологией data mining и облачными решениями для работы с большими данными.
- Управлять проектом и командой. Сможете подбирать инструменты и команду для конкретного проекта big data, ставить задачи разработчикам и управлять сроками.
- Внедрять подход data driven. Узнаете, как принимать стратегические решения на основе данных с интеграцией аналитических отчётов в ключевые бизнес-процессы компании.
- Оценивать результаты. Получите список метрик, которые помогут оценить качество готовой модели и эффективность работы команды.
- Предлагать решения, основанные на больших данных, и презентовать их руководству. Будете составлять эффектные бизнес-кейсы и графики. Узнаете, как убедить руководство внедрить новую технологию.

Переходите на сайт: https://clc.am/no-txQ, заполняйте заявку и регистрируйся на курс!
Оптимизация производительности MySQL сервера
От скорости работы баз данных (БД) зависит быстрота отклика сайта. Ведь замедленная обработка запросов влияет на PHP, следовательно — накапливается огромное количество операций, с которыми сервер может не справиться.
Управлять данным процессом позволяет использование систем управления базами данных или СУБД. Одной из самых широко применяемых СУБД является MySQL — ПО с открытым исходным кодом, созданное компанией MySQL AB (Oracle) ещё в 1995 году. Оптимизация MySQL позволяет избежать проблем с производительностью сервера и значительно ускорить интернет-ресурс.
В статье представлены варианты повышения производительности баз данных MySQL с помощью специального скрипта, а также указаны параметры настройки, на которые необходимо обратить внимание.
Статья.
Сочные скидки до 40% от онлайн-университета SF Education.

Выбирай программу на свой вкус https://bit.ly/3moWT4F и получай аппетитную скидку с 8 по 12 апреля!

На все курсы по финансам, бизнесу и аналитике есть возможность получить дополнительную выгоду до 80%:

⁃ скидка до 40%
⁃ сashback 30% при оплате картой Тинькофф
⁃ вычет 13% НДФЛ на обучение
⁃ беспроцентная рассрочка от банков-партнеров

Программы подойдут:
— тем, кто хочет освоить новую профессию с нуля;
— специалистам, которые хотят восполнить теоретическую базу и получить больше практических навыков;
— руководителям, которые хотят повысить продуктивность и подняться по карьерной лестнице.

А для подписчиков канала мы собрали специальную подборку:

⁃ программа «Бизнес-аналитик (Data Analyst)»
⁃ курс «Data Science academy»
⁃ курс «Excel Academy»

Все, что вам нужно сделать — оставить заявку на сайте https://bit.ly/3moWT4F
Обучение нейросети с учителем, без учителя, с подкреплением — в чем отличие? Какой алгоритм лучше?
Статья.
Изучение data science c нуля: этапы и вехи
В соответствии с концепцией спирального подхода к обучению, привожу поэтапный план освоения data science. План составлен так, чтобы каждый этап делал учащегося в той или иной степени лучше подготовленным к выполнению реальных задач. Такой подход вдохновлен идеологией Agile в том смысле, что сколько бы времени вы ни уделили обучению и в какой бы момент ни остановились, у вас будет наиболее востребованный набор знаний из возможных к освоению за такое время.
Полная статья
​​Потоки и многопоточность / для начинающих
Многопоточность очень ценится в кругу дата сайентистов, т.к. позволяет анализировать и обрабатывать огромные объёмы данных используя все возможные ресурсы вычислительной машины , тем самым сокарщая время обработки данных.
Про многопототчность есть прекрасная статья, где разъясняется эта тема на примере ЯП Python.
https://pythonru.com/uroki/potoki-i-mnogopotochnost-dlja-nachinajushhih
Топ-9 диаграмм для визуализации данных

Зачем нужна визуализация данных?
Люди лучше воспринимают и запоминают данные в визуальном формате. Информация становится привычнее и понятнее, если подать ее в виде красивых схем, графиков и диаграмм.
Данные визуализируются, чтобы в моменте получить представление о явлении или состоянии процесса, который мы анализируем. Визуализация данных позволяет нам сделать фотографию ситуации «здесь и сейчас», не погружаясь в цифры и таблицы.
Преобразование необработанной информации в графический формат помогает доступно объяснять сложные вещи для решения таких бизнес-задач, как анализ эффективности направлений деятельности, анализ динамики выполнения задач, анализ достижения целей, анализ ценообразования в разных сферах деятельности: маркетинг, продажи, производство. Успех визуализации напрямую зависит от правильности ее применения, а именно от выбора и грамотного использования типов графиков и диаграмм.

1. Круговая Диаграмма
Круговая диаграмма – это один из наиболее распространенных и простых способов графического представления количественных данных. Такие диаграммы легко считывать и воспринимать, потому что отношения частей от целого показаны на ней простым и наглядным образом. Круговые диаграммы идеально подходят для того, чтобы быстро сформировать представление о пропорциональном распределении данных. На нашем примере – распределение объемов выбросов CO2 в разрезе секторов экономики.
2. Столбиковая Диаграмма
Столбиковая диаграмма или гистограмма – еще один популярный способ визуализации данных для быстрого восприятия информации. Гистограммы преобразовывают набор данных в прямоугольные столбцы, высоты или длины которых пропорциональны величинам, которые они отображают. Такие диаграммы значительно упрощают сравнение сопоставимых данных одной категории в рамках ограниченного периода времени. Пример — изменение численности населения страны за конкретный период или на нашем скриншоте – динамика 3. 3. Линейный график
Как и столбиковые диаграммы, линейные графики помогают визуализировать данные в компактном и точном формате, что позволяет легко воспринимать информацию, отмечать тренды или соотношения показателей (при использовании нескольких линий). Линейные графики используются для отображения результирующих данных относительно непрерывной переменной – чаще всего времени. В этом типе визуализации необходимо правильное использование разных цветов, чтобы сделать анализ информации еще проще для пользователей. На нашем примере – линейный график, показывающий число прибывших и покинувших Арабские страны пассажиров с 2005 по 2018 гг.
Остальные 6 по ссылке...
​​🚀 Если очень захотеть, можно и полететь в космос, и выучить английский. И если первое требует много времени и сил, то со вторым всё гораздо проще!

В честь Дня космонавтики с 16 по 19 апреля Премиум-доступ к Puzzle English (@puzzleng) дешевле на 66%🔥

Вы получите неограниченный доступ к тысячам упражнений по грамматике и аудированию, видеоурокам, играм, песням и книгам значительно дешевле обычной цены. Подойдёт и новичкам, и продвинутым.

Узнать больше о сервисе и получить доступ:
https://u.to/Z08-Gw
​​Методы сортировки данных. Алгоритмы поиска и сортировки
Алгоритмы сортировки данных широко используются в программировании для решения различных задач. В этой статье мы рассмотрим несколько основных алгоритмов сортировки данных в массиве.
/ Статья /
​​Гистограммы. Что это? Как построить? Как представить данные? Как провести анализ?
/ Статья /
Научитесь с помощью компьютерного зрения решать реальные задачи бизнеса! Если вы Data Scientist с опытом и хотите освоить новые технологии, ждем вас на онлайн-курсе «Computer Vision».

📍Справитесь ли вы с уровнем курса? Покажет вступительный тест.
Пройдите тестирование, чтобы:
● оценить свои навыки
● занять место на курсе по специальной цене
● получить доступ к демо-урокам курса

👉🏻Пройти тестирование: https://otus.pw/Ii51/
​​Чем искусственный интеллект отличается от машинного обучения?

*AI* Искусственный интеллект нацелен на создание художественной компьютерной системы, подобной людям, для решения сложных проблем.

*ML* позволяет машинам учиться на данных, чтобы они могли выдавать точный результат

*AI* В зависимости от возможностей ИИ можно разделить на 3 типа. Слабый ИИ, Общий ИИ и сильный ИИ.

*ML* ML делится на 3 типа: обучение с учителем, обучение без учителя и обучение с подкреплением.

*AI* Системы искусственного интеллекта заинтересованы в максимальном увеличении шкалы успеха.

*ML* Машинное обучение в основном связано с точностью и закономерностями.

*AI* ИИ позволяет машине имитировать поведение человека.

*ML* Машинное обучение - это разновидность искусственного интеллекта

*AI* В основном имеет дело со структурированными полуструктурированными и неструктурированными данными.

*ML* ML работает со структурированными и полуструктурированными данными.

*AI* Применение ИИ - это Siri, поддержка клиентов с помощью кэтботов, интеллектуальных гуманоидных роботов и т. Д.

*ML* Применением машинного обучения являются системы рекомендаций, алгоритмы поиска, предложения автоматической пометки друзей в Facebook и т. Д.
На Открытом Уроке мы подробно разберем, что же такое платформы Оркестрации, какие решения есть сегодня на рынке и даже углубимся в практический пример использования одной из самых распространенных платформ на сегодня: Apache Airflow.

Демо-занятие является частью онлайн-курса «Экосистема Hadoop, Spark, Hive». Для вас это возможность попробовать курс, познакомиться с преподавателем и получить ценные навыки. Для регистрации пройдите вступительный тест https://otus.pw/eEGc/
​​Тонкая настройка предварительно обученных трансформаторов в RNN
Microsoft + Deepmind + ...

Трансформеры - это текущая СОТА в языковом моделировании. Но они сопряжены со значительными вычислительными затратами, поскольку механизм внимания квадратично масштабируется по длине последовательности. Потребление памяти также линейно растет с увеличением длины последовательности. Это узкое место ограничивает использование крупномасштабных предварительно обученных моделей генерации, таких как GPT-3 или преобразователи изображений.

Недавно было предложено несколько эффективных вариантов трансформатора. Например, рекуррентный вариант линейной сложности (https://arxiv.org/abs/2006.16236) оказался хорошо подходящим для генерации авторегрессии. Он аппроксимирует внимание softmax с помощью рандомизированных или эвристических карт характеристик, но может быть трудно обучить или получить неоптимальную точность.

Эта работа преобразует предварительно обученный преобразователь в его эффективный рекуррентный аналог линейной сложности с изученной картой функций для повышения эффективности при сохранении точности. Для этого они заменяют softmax Внимание в готовом предварительно обученном трансформаторе на его рекуррентную альтернативу линейной сложности, а затем тонкую настройку.

Плюсы:
+ Процесс точной настройки требует гораздо меньше времени графического процессора, чем обучение повторяющихся вариантов с нуля
+ Преобразование большого стандартного трансформатора в облегченную модель вывода без повторения всей процедуры обучения очень удобно во многих последующих приложениях.