Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
38 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
⬆️ Правильный ответ ⬆️
COUNT, SUM, AVG, MAX, MIN
Утечка данных в Machine learning: как обнаружить и избежать ее

Утечка данных происходит, когда данные, используемые в процессе обучения, содержат информацию о том, что модель пытается предсказать. Это похоже скорее на «обман», но мы не знаем, так ли это, поэтому лучше назвать это «утечка». Утечка данных является серьезной и широко распространенной проблемой в области data mining и machine learning, которую необходимо решать для получения надежной и обобщенной прогностической модели. 
Существуют разные причины утечки данных. Некоторые из них очень очевидны, но некоторые сложно заметить с первого взгляда. В этой статье я объясню причины утечки данных, как она вводит в заблуждение, а также способы обнаружения и ее предотвращения.
​​Облачные технологии развиваются очень быстро и умеющих с ними работать айтишников компании отрывают вместе с руками. 

Если вы junior- или middle-специалист, хотите карьерного роста и думаете о повышении квалификации — приходите в GeekBrains учиться на инженера облачных сервисов.

Будете работать с микросервисными архитектурами, управлять каталогами медиаданных, использовать ML-модели. Преподаватели курса — опытные эксперты из платформы Mail.ru Cloud Solutions. Научитесь настраивать облачное окружение для любой бизнес-задачи, а практика на курсе зачтется в портфолио готовым кейсом. Получите диплом о профессиональной переподготовке, а эйчары из GeekBrains помогут вам найти работу!

Записывайтесь прямо сейчас и получите востребованную специальность со скидкой 50%https://geekbrains.ru/link/eZJn0e
Авторы системы на ИИ заявили, что она смогла решить уравнение Шредингера

Группа ученых из Freie Universit?t в Берлине разработала метод на основе искусственного интеллекта для вычисления основного состояния уравнения Шредингера в квантовой химии. Данное научное направление занимается предсказанием химических и физических свойств молекул, основываясь исключительно на расположении их атомов в пространстве, без ресурсоемких и трудоемких лабораторных экспериментов. Решение уравнения Шредингера может значительно упростить задачу предсказания.
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое сэмплирование? Сколько методов выборки вы знаете?

Материалы для ответа:
habr.com
Семплирование (математическая статистика) Вики
ebooks.grsu.by
Алгоритмы сэмплирования
Методы сэмплирования
На VC.ru вышла интересная колонка руководителя Яндекс.Толоки Ольги Мегорской. В ней Ольга рассказала про самые распространенные гипотезы о разметке для машинного обучения и опровергла их на наглядных примерах из опыта команды Толоки.

Ключевые поинты:
качество модели зависит от количества и качества данных, на которых она тренируется. Разметка данных заслуживает и внимания, и ресурсов.
разметку данных можно и нужно делегировать. Это освободит время и ресурсы на разработку
в зависимости от задач и объёмов данных, заказчик может выбрать аутсорсинговое или краудсорсинговое решение. Разметку с помощью краудсорсинга можно организовать самостоятельно, а можно использовать автоматизированные процессы или обратиться к опытным специалистам.

Основной вывод: Не пренебрегайте разметкой данных. Не бойтесь делегировать. Пробуйте, ищите подходы, которые устроят именно вас.
Что такое первичный ключ (primary key)? Укажите наиболее точное определение.

#SQL_задачи

Это синоним внешнего ключа (foreign key) - 2
👍 2%
Одна колонка, которая однозначно идентифицирует запись в таблице и может быть описана как автоинкремент - 26
👍👍👍👍 26%
Колонка, в которую можно писать только уникальные значения - 3
👍 3%
Одна или несколько колонок, которые однозначно идентифицируют запись в таблице - 63
👍👍👍👍👍👍👍👍 64%
Первая колонка в таблице - 5
👍👍 5%
👥 99 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
 Одна или несколько колонок, котрые однозначно идентифицируют запись в таблице
Чего ждать в сфере ИИ и машинного обучения в 2021 году?

Нейросети в этом году продолжали развиваться: они научились определять COVID-19 по кашлю, нашли применение в рекламе, спели голосом Эминема. Рассказываем о том, чего ждать в сфере ИИ и машинного обучения в 2021 году.
Какой алгоритм сортировки (до 10 элементов) на практике является самым быстрым (при этом используется генератор случайных чисел и производится не менее 100 тестов для более объективной оценки)?
#Алгоритмы

Шейкерная сортировка - 4
👍👍 5%
Сортировка вставками - 37
👍👍👍👍👍👍👍 43%
Гномья сортировка - 3
👍 3%
Сортировка Шелла - 43
👍👍👍👍👍👍👍👍 49%
👥 87 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
Сортировка вставками
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
В чем разница между ошибками типа I и типа II?

Материалы для ответа:
Ошибки первого и второго рода
greelane.com
statistica.ru
ru.gadget-info.com
ru.qaz.wiki
Для отслеживания самых заметных мероприятий посвященных Big Data, Machine Learning, Data Science, Data Engineering, BI/DWH и другим направлениям, связанным с обработкой данных, рекомендую подписаться на канал "Data online events & Moscow meetups"

Предложить свой ивент можно, написав @NikolayKrupiy, @Ajvol

👉🏻 Подписаться на t.me/data_events
Гиперграф это?
#Алгоритмы

Такого понятия не существует - 5
👍👍 10%
Обобщенный вид графа, в котором вершины могут быть инцидентными, не соединяясь при этом ребром - 3
👍👍 6%
Обобщенный вид графа, который содержит одновременно ориентированные и неориентированные ребра - 6
👍👍 12%
Обобщенный вид графа, в котором каждым ребром могут соединяться не только две вершины, но и любые подмножества вершин - 35
👍👍👍👍👍👍👍👍 71%
👥 49 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
Обобщенный вид графа, в котором каждым ребром могут соединяться не только две вершины, но и любые подмножества вершин
Новый алгоритм DeepMind самостоятельно освоил игры Atari
Разработчики DeepMind представили MuZero — алгоритм, который может справиться с любой игрой, не зная правил на начальном этапе. Вместо построения модели игровой среды MuZero использует информацию о текущем и предыдущем шаге, а также о возможном исходе одного из следующих шагов, в результате чего обучается играть самостоятельно. Алгоритм научили играть не только в классические для алгоритмов DeepMind го, сёги и шахматы, на также 57 игр для приставки Atari, включая Ms. Pac-Man. Статья опубликована в журнале Nature.
Алгоритмы для начинающих. Теория и практика для разработчика
Алгоритмы правят миром! Эта книга в простой и наглядной форме дает ответы на целый ряд важнейших для начинающего программиста вопросов, начиная с «Что лежит в основе всех современных языков программирования и по каким принципам они строятся и работают?» и заканчивая «Есть ли способ овладеть всеми языками программирования сразу?».
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое линейная регрессия? Что означают P-значение, коэффициент, R-квадрат? Каково значение каждого из этих компонентов?

Материалы для ответа:
Линейная регрессия
P-значение
Коэффициент детерминации
Assumptions of Linear Regression
How to Interpret Regression Analysis Results: P-values and Coefficients
Данные, инструменты для них и немного математики в канале Data_Science_News от кандидата физико-математических наук и выпускника программы MIT MicroMasters Андрея Степнова.

В одном месте собраны крутые материалы по статистике, актуальные научные работы из мира машинного обучения, инструменты Data Science.
Polars: быстрая альтернатива Pandas для обработки датасетов
Polars — это открытая библиотека для обработки массивов данных на Python. По скорости работы библиотека обходит самый популярный инструмент для работы с данными, — Pandas. Кроме того, библиотека более эффективно работает с памятью при обработке массивов. Polars написана на Rust.
Python и анализ данных
Книгу можно рассматривать как современное практическое введение в разработку научных приложений на Python, ориентированных на обработку данных. Описаны те части языка Python и библиотеки для него, которые необходимы для эффективного решения широкого круга аналитических задач: интерактивная оболочка IPython, библиотеки NumPy и pandas, библиотека для визуализации данных matplotlib и др.
Издание идеально подойдет как аналитикам, только начинающим осваивать обработку данных, так и опытным программистам на Python, еще не знакомым с научными приложениями.