Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Какой алгоритм сортировки (до 10 элементов) на практике является самым быстрым (при этом используется генератор случайных чисел и производится не менее 100 тестов для более объективной оценки)?
#Алгоритмы

Шейкерная сортировка - 4
👍👍 5%
Сортировка вставками - 37
👍👍👍👍👍👍👍 43%
Гномья сортировка - 3
👍 3%
Сортировка Шелла - 43
👍👍👍👍👍👍👍👍 49%
👥 87 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
Сортировка вставками
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
В чем разница между ошибками типа I и типа II?

Материалы для ответа:
Ошибки первого и второго рода
greelane.com
statistica.ru
ru.gadget-info.com
ru.qaz.wiki
Для отслеживания самых заметных мероприятий посвященных Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям, связанным с обработкой данных, рекомендую подписаться на канал "Data online events & Moscow meetups"

Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol

👉🏻 Подписаться на t.me/data_events
Гиперграф это?
#Алгоритмы

Такого понятия не существует - 5
👍👍 10%
Обобщенный вид графа, в котором вершины могут быть инцидентными, не соединяясь при этом ребром - 3
👍👍 6%
Обобщенный вид графа, который содержит одновременно ориентированные и неориентированные ребра - 6
👍👍 12%
Обобщенный вид графа, в котором каждым ребром могут соединяться не только две вершины, но и любые подмножества вершин - 35
👍👍👍👍👍👍👍👍 71%
👥 49 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
Обобщенный вид графа, в котором каждым ребром могут соединяться не только две вершины, но и любые подмножества вершин
Новый алгоритм DeepMind самостоятельно освоил игры Atari
Разработчики DeepMind представили MuZero — алгоритм, который может справиться с любой игрой, не зная правил на начальном этапе. Вместо построения модели игровой среды MuZero использует информацию о текущем и предыдущем шаге, а также о возможном исходе одного из следующих шагов, в результате чего обучается играть самостоятельно. Алгоритм научили играть не только в классические для алгоритмов DeepMind го, сёги и шахматы, на также 57 игр для приставки Atari, включая Ms. Pac-Man. Статья опубликована в журнале Nature.
Алгоритмы для начинающих. Теория и практика для разработчика
Алгоритмы правят миром! Эта книга в простой и наглядной форме дает ответы на целый ряд важнейших для начинающего программиста вопросов, начиная с «Что лежит в основе всех современных языков программирования и по каким принципам они строятся и работают?» и заканчивая «Есть ли способ овладеть всеми языками программирования сразу?».
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое линейная регрессия? Что означают P-значение, коэффициент, R-квадрат? Каково значение каждого из этих компонентов?

Материалы для ответа:
Линейная регрессия
P-значение
Коэффициент детерминации
Assumptions of Linear Regression
How to Interpret Regression Analysis Results: P-values and Coefficients
Данные, инструменты для них и немного математики в канале Data_Science_News от кандидата физико-математических наук и выпускника программы MIT MicroMasters Андрея Степнова.

В одном месте собраны крутые материалы по статистике, актуальные научные работы из мира машинного обучения, инструменты Data Science.
Polars: быстрая альтернатива Pandas для обработки датасетов
Polars — это открытая библиотека для обработки массивов данных на Python. По скорости работы библиотека обходит самый популярный инструмент для работы с данными, — Pandas. Кроме того, библиотека более эффективно работает с памятью при обработке массивов. Polars написана на Rust.
Python и анализ данных
Книгу можно рассматривать как современное практическое введение в разработку научных приложений на Python, ориентированных на обработку данных. Описаны те части языка Python и библиотеки для него, которые необходимы для эффективного решения широкого круга аналитических задач: интерактивная оболочка IPython, библиотеки NumPy и pandas, библиотека для визуализации данных matplotlib и др.
Издание идеально подойдет как аналитикам, только начинающим осваивать обработку данных, так и опытным программистам на Python, еще не знакомым с научными приложениями.
This media is not supported in your browser
VIEW IN TELEGRAM
С наступающим Новым Годом!

Ни дня без строчки кода – к творенью будь готов,
Программер от природы, ты спишь среди компов.
Пускай глаза краснеют – но настает момент,
Когда свое творенье ты презентуешь всем.

Пусть строчки льются ладно из клавиш под рукой,
И пусть твои программы забудут слово «сбой»,
Достойная оплата пусть ждет тебя всегда,
Печали пусть разгонит любимая твоя.
​​MakeltTalk
Один из самых забавных алгоритмов 2020 года, который умеет создавать анимацию под любую звуковую дорожку — в общем, метод похож на популярную технологию DeepFake, только «на вход» для анимации берётся не видео, а аудио.

У «MakeltTalk», над разработкой которого трудились в Азии, большой спектр использования — например, можно «оживить» розетку или рисунок, а также сделать анимацию лиц Мона Лизы и Эд Ширана.

https://youtu.be/rHnOr3oZ5VI
Google Colab
GitHub 
Страница проекта
​​GPT-3
Эта нейросеть от OpenAI летом впечатлила многих — она умеет очень реалистично, будто реальный человек, писать или дописывать тексты. Более подробно в этой статье, на самом деле полностью написанную нейросетью GPT-3 — тогда даже никто не заметил подвоха, что спровоцировало бурный «всплеск» новостей на тему.

Новое «детище» от OpenAI за полгода успели протестировать по достоинству — разработчики уже использовали её в генерации кода, новостей и статей, и многим понравились результаты. Можете заглянуть на этот сайт, если интересно больше примеров — там подобраны лучшие из лучших. GPT-3 стала одной из самых популярных нейросетей в 2020 году, и думаю, что заслуженно, качество генерации текста определённо завораживает!
https://youtu.be/OU6Ctzhpc6s
GitHub
Страница проекта
Python для сложных задач. Наука о данных и машинное обучение
Подробное руководство по самым разным вычислительным и статистическим методам, без которых немыслима любая интенсивная обработка данных, научные исследования и передовые разработки. Читатели, уже имеющие опыт программирования и желающие эффективно использовать Python в сфере Data Science, найдут в этой книге ответы на всевозможные вопросы, например:
1) как мне считать этот формат данных в мой скрипт? 2) Как преобразовать, очистить эти данные и манипулировать ими?
3) Как визуализировать данные такого типа? Как при помощи этих данных разобраться в ситуации, получить ответы на вопросы, построить статистические модели или реализовать машинное обучение?
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Какие допущения применяются к линейной регрессии?

Ответ:
Существует четыре основных допущения:

1. Есть линейная зависимость между зависимой переменной и регрессорами, то есть модель, которую вы создаете, соответствует имеющимся данным.
2. Ошибки или остатки данных обычно распределяются и независимы друг от друга. 
3. Существует минимальная мультиколлинеарность между объясняющими переменными.
4. Гомоскедастичность. (Означает, что дисперсия вокруг линии регрессии одинакова для всех значений предикторной переменной).

Дополнительные материалы:
medium.com
Основы линейной регрессии
Каким запросом можно добавить запись в таблицу "Users"?

#SQL

ADD Users(“name”,”reg_date”) RECORD('user3000',now()) - 3
👍 3%
INSERT INTO Users(“name”,”reg_date”) VALUES('user3000',now()) - 103
👍👍👍👍👍👍👍👍 92%
INSERT Users FROM VALUES('user3000',now()) - 3
👍 3%
INSERT VALUES('user3000',now()) INTO Users - 3
👍 3%
👥 112 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
INSERT INTO Users(“name”,”reg_date”) VALUES('user3000',now())
​​Self-Supervised Scene De-occlusion
#нейронные_сети

Эта программа вышла ещё в апреле, с помощью неё можно «разбить» изображение на объекты и «передвигать» их. По-моему наглядно показывает хороший кейс использования нейросетей, способных удалять фон с изображений — только здесь всё немного под другим «углом», ведь фон удаляется частично и только создаётся новый слой. Ну а те, кто тестировали разработку сообщают, что поражены её качеством.

GitHub
Страница проекта
В будущем главным инструментом бизнеса будут Python и Data Science, а не Excel. С их помощью можно строить модели прогнозирования, выявлять скрытые зависимости в данных и анализировать большие объемы информации. Подробнее о функционале Python и Data Science расскажем на вебинаре.

За час вы:
⚡️Узнаете, какие бизнес-задачи решаются с помощью Python.
⚡️Разберетесь, чем Python лучше Excel.
⚡️Поймете, зачем бизнесу анализировать данные.
⚡️Познакомитесь с интересными кейсами применения Python.
❗️Поучаствуете в игре, чтобы закрепить знания.
❗️Получите призы.

Записывайтесь!
https://geekbrains.ru/link/ZCi7Qh