Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Какие допущения применяются к линейной регрессии?

Ответ:
Существует четыре основных допущения:

1. Есть линейная зависимость между зависимой переменной и регрессорами, то есть модель, которую вы создаете, соответствует имеющимся данным.
2. Ошибки или остатки данных обычно распределяются и независимы друг от друга. 
3. Существует минимальная мультиколлинеарность между объясняющими переменными.
4. Гомоскедастичность. (Означает, что дисперсия вокруг линии регрессии одинакова для всех значений предикторной переменной).

Дополнительные материалы:
medium.com
Основы линейной регрессии
Каким запросом можно добавить запись в таблицу "Users"?

#SQL

ADD Users(“name”,”reg_date”) RECORD('user3000',now()) - 3
👍 3%
INSERT INTO Users(“name”,”reg_date”) VALUES('user3000',now()) - 103
👍👍👍👍👍👍👍👍 92%
INSERT Users FROM VALUES('user3000',now()) - 3
👍 3%
INSERT VALUES('user3000',now()) INTO Users - 3
👍 3%
👥 112 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
INSERT INTO Users(“name”,”reg_date”) VALUES('user3000',now())
​​Self-Supervised Scene De-occlusion
#нейронные_сети

Эта программа вышла ещё в апреле, с помощью неё можно «разбить» изображение на объекты и «передвигать» их. По-моему наглядно показывает хороший кейс использования нейросетей, способных удалять фон с изображений — только здесь всё немного под другим «углом», ведь фон удаляется частично и только создаётся новый слой. Ну а те, кто тестировали разработку сообщают, что поражены её качеством.

GitHub
Страница проекта
В будущем главным инструментом бизнеса будут Python и Data Science, а не Excel. С их помощью можно строить модели прогнозирования, выявлять скрытые зависимости в данных и анализировать большие объемы информации. Подробнее о функционале Python и Data Science расскажем на вебинаре.

За час вы:
⚡️Узнаете, какие бизнес-задачи решаются с помощью Python.
⚡️Разберетесь, чем Python лучше Excel.
⚡️Поймете, зачем бизнесу анализировать данные.
⚡️Познакомитесь с интересными кейсами применения Python.
❗️Поучаствуете в игре, чтобы закрепить знания.
❗️Получите призы.

Записывайтесь!
https://geekbrains.ru/link/ZCi7Qh
​​Hypersim: датасет с разметкой изображений интерьеров от Apple
Hypersim — это датасет с фотореалистичными синтетическими изображениями интерьеров. Для каждого изображения доступны попиксельная разметка объектов и геометрия сцены. Датасет состоит из 77.4 тысяч изображений 461 сцены. 
Проблема
Для многих задач понимания сцены сбор попиксельной разметки объектов на изображениях является сложным или невозможным. Исследователи из Apple опубликовали синтетический датасет, который решает проблему недостатка данных для обучения моделей в задачах, где требуются изображения интерьеров с геометрией сцены.
Подробнее про датасет
Hypersim отличается следующими характеристиками:
Опирается исключительно на публично доступные 3D модели;
Включает в себя полную геометрию сцены, информацию о материалах и освещении;
Включает в себя попиксельную семантическую сегментацию для каждого изображения;
Учитывает точку обзора на сцену при смене эффектов освещения

github
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Объясните наиболее простым способом принцип работы MapReduce

Материалы для ответа:
stackoverflow.com
blogerator.org
bigdataschool.ru
​​«Алису» научили говорить оригинальные тосты и создавать открытки
Разработчики из «Яндекса» научили голосового помощника «Алису» говорить уникальные тосты на любую тему, а также создавать открытки и мини поздравления. Технология основана на нейронной сети-трансформере. Об этом «Яндекс» сообщает в своем блоге.
Ранее «Алиса» тоже могла сказать тост, но использовала для этого заранее написанные варианты. Сейчас голосовой помощник создает тосты самостоятельно.
Для этого нужно сказать: «Алиса, скажи тост» и указать тему — «Алиса» предложит ответ.
«Темой может быть что угодно: любовь, технический прогресс, роботы-гитаристы. "Алиса" в любом случае не полезет за словом в карман и что-нибудь придумает», — отмечают разработчики.
Отмечается, что для создания тостов используются нейросети, применяемые в поиске «Яндекса». Они оценивают релевантность веб-страниц поисковому запросу.
Чтобы нейросеть смогла писать тосты, ее сначала обучили на большом массиве текстов из интернета: книг, статей и других документов. Так она усвоила общие правила, по которым составляются тексты на русском языке, и расширила свой словарный запас. Затем нейросеть дообучили на готовых тостах. Это позволило ей познакомиться с особенностями составления тостов, говорится в сообщении.
Для создания тостов компания предусмотрела два режима: умеренный и «без ограничений» — они отвечают за цензуру. Режимы доступны в настройках приложения.
Помимо тостов, «Алиса» научилась создавать новогодние открытки. Они, как правило, включают картинку и поздравительный текст-стишок. Картинка для открыток рисует нейронная сеть. За тексты отвечает «Автопоэт» — робот, который слагает стихи из поисковых запросов к «Яндексу».
Чтобы получить поздравление, нужно сказать: «Алиса, покажи открытку». Картинку можно сохранить в памяти устройства или переслать другому человеку. Если открытка не нравится, нужно повторить просьбу, и «Алиса» покажет другую.
Тосты можно слушать на любом устройстве с «Алисой»: умной колонке, компьютере, смартфоне. Открытки голосовой помощник показывает в приложении «Яндекса» и «Яндекс.Браузере» для мобильных устройств.
​​Horizon 8: современная платформа для гибридных и мультиоблачных развертываний

 VMware Horizon представляет собой современную платформу для безопасной доставки виртуальных рабочих столов и приложений. Уникальные возможности продукта позволяют упрощать управление приложениями, профилями, а также политиками. Благодаря современным подходам решение ускоряет работу и снижает затраты компании. Vmware Horizon предоставляет необходимые приложения и службы по требованию одним нажатием кнопки, что обеспечивает высокую производительность труда и помогает повысить мобильность и конкурентоспособность бизнеса.
Отличаются ли в SQL операторы AND и &
#SQL

AND имеет более низкий приоритет по сравнению с & - 10
👍👍 12%
Оператор & не поддерживается стандартом SQL - 63
👍👍👍👍👍👍👍👍 74%
Приоритет AND выше, чем приоритет & - 3
👍 4%
Между ними нет отличий - 9
👍👍 11%
👥 85 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
AND имеет более низкий приоритет по сравнению с &
Секреты Python. 59 рекомендаций по написанию эффективного кода
Язык Python завоевал популярность благодаря тому, что позволяет новичкам почти сразу же браться за написание кода. Однако достигнуть цельного понимания уникальных возможностей Python чрезвычайно трудно, особенно если учесть, что на этом пути вас подстерегает множество скрытых ловушек.
Книга приобщит вас к стилю программирования, выдержанному в истинном "духе Python", и поможет научиться писать исключительно надежный и высокопроизводительный код
​​Благодаря нейросети удалось создать новую методику вычисления волновых функций
Благодаря нейросети удалось создать новую методику вычисления волновых функций. Этот алгоритм, без привлечения суперкомпьютера, способен решать уравнения Шредингера для любых молекул и с большей вероятностью определять основные свойства веществ.
Нейросеть, получившую название PauliNet, разработали ученые из университета Берлина. В её основе заложен принцип Паули, согласно которому, два и более электрона в атомах не могут находиться в одинаковых квантовых состояниях. То есть при обмене электронами их волновая функция меняет знак.
Сначала нейросеть научилась исследовать произвольные молекулы квантовыми методами Монте-Карло. Они подразумевают решение уравнений Шредингера для большого количества частиц. Основная сложность при выполнении таких задач — необходимость больших вычислительных мощностей для определения многочастичной волновой функции. Обычно используют более простые методы, например Теорию функционала плотности (DFT) или связанные кластеры (CC).
Однако такие упрощения создают ряд ограничений и для многих соединений все равно оказываются практически бесполезными.
Данным способом авторам удалось cправится с задачей в считанные часы без использования суперкомпьютера
Простое введение в пересекающиеся числа графов
Число пересечений графов - интересная тема в дискретной геометрии, теории графов, рисовании графов и информатике. Несмотря на простоту по своей сути, он поддается гораздо более сложным идеям.
VS Code — мой любимый редактор кода. Это — самый популярный из существующих редакторов, возможности которого можно расширять практически до бесконечности. И, что удивительно, разработала его компания Microsoft. Я полагаю, что ни один из других редакторов и ни одна из других IDE не может дать разработчику хотя бы половину того, что способен дать ему VS Code. Одна из сильных сторон VS Code — это система расширений. Она позволяет создавать расширения буквально на все случаи жизни. Хочу рассказать вам о моём топ-10 расширений для VS Code.
Вопросы с собеседований по Data Science.
#data_science_questions
#data_science_career
#career_guide
Data Science – это область, требующая постоянного улучшения вашего набора skills.
Нет необходимости утверждать что свои скилы надо прорабатывать постоянно, ну или хотя бы как можно чаще.
Карьера в сфере науке о данных, требует серьезных знаний в математике, алгоритмах, программирование и т. д.
Собрали для вас guide вопросов с ответами в интервью, которые задают кандидатам во время трудоустройства в Amazon, Netflix и Google. 
Не исключено что и в российских компаниях могут задать такие же questions.

Вопрос:
Что такое статистическое взаимодействие?

Материалы для ответа:
wikipedia
icbseverywhere.com
The Wisdom of Crowds

Алгоритм The Wisdom of Crowds (Мудрость Толпы) является одной из реализаций коллаборативной фильтрации. Его работа основывается на том, что группа людей обладает большими знаниями, чем индивид, в то время как каждый отдельно взятый человек может улучшить производительность группы за счет своего конкретного ввода информации.

Возьмем пример из истории. В 1906 году, во время выставки жирного скота и птицы в Западной Англии, Фрэнсис Гальтон открыл математические и статистические закономерности групповых средних оценок и их преимущества перед индивидуальными. На этом мероприятии группа оценщиков успешно обеспечила среднее значение веса быка, удивительно близкое к реальному значению.

В качестве необходимых условий работы данного алгоритма присутствуют сведения о «толпе».
Толпа должна:
быть децентрализованной, чтобы никто «сверху» не диктовал ответ толпы;
быть в состоянии составить свое собственное мнение, основанное на индивидуальных знаниях участников;
предлагать коллективный вердикт, который суммирует мнения людей;
быть независимой — когда каждый ее участник фокусируется на имеющейся информации, а не на чужих мнениях.
Одним из возможных минусов вышеописанного подхода может быть потенциальное возникновение феномена группового мышления. Участники, не обладающие достаточными знаниями, могут следовать за более осведомленными в вопросе людьми и давать похожие ответы. Также социальное влияние может привести к тому, что среднее значение ответов толпы будет неточным, в то время как среднее геометрическое и медианное — пребывать в норме. Качество предсказаний может зависеть и от формулирования вопросов — толпа в целом работает лучше, когда есть правильный ответ на поставленный вопрос, например, вопрос о географии или математике. Когда нет точного ответа, толпа может прийти к произвольным выводам.
Самые упоротые и забавные расширения для браузера: подборка
Иногда разработчики “Желают странного” (С) А. Б. Стругацкие, из-за этого появляются необычные проекты, вроде запуска Doom на терминалах для считывания банковских карт и других, еще менее приспособленных для этого, девайсах. Чаще всего такое получается в результате тренировок, когда программист осваивает новую тему и реализует тестовый проект не в виде традиционного “Hello, Word!”, а чего-то более изощренного. Но ведь не все занимаются портированием древних шутеров на смарт-часы, есть и другие области разработки, более прикладные, но не менее интересные. Предположим, что человеку наскучило смотреть на длинные логи в консоли и grep’ать из них данные для отладки, хочется добавить интерактива и наглядности в свое обучение. Инструменты для этого выбираются самые разные, кто-то пользуется обычным графическим выводом, кто-то выводит данные через простенький сайт, а кто-то… пишет расширения для браузера!
Технологии анализа текстовой информации стремительно меняются под влиянием машинного обучения. Нейронные сети из теоретических научных исследований перешли в реальную жизнь, и анализ текста активно интегрируется в программные решения. Нейронные сети способны решать самые сложные задачи обработки естественного языка, никого не удивляет машинный перевод, «беседа» с роботом в интернет-магазине, перефразирование, ответы на вопросы и поддержание диалога. Почему же Сири, Алекса и Алиса не хотят нас понимать, Google находит не то, что мы ищем, а машинные переводчики веселят нас примерами «трудностей перевода» с китайского на албанский? Ответ кроется в мелочах — в алгоритмах, которые правильно работают в теории, но сложно реализуются на практике. Научитесь применять методы машинного обучения для анализа текста в реальных задачах, используя возможности и библиотеки Python.
Итоги 2020 года: самые интересные AI-решения и проекты

В последние годы на рынке IT наблюдается настоящий бум в области решений на базе искусственного интеллекта. И в этом нет ничего удивительного: современные вычислительные и нейросетевые технологии достигли уровня, позволяющего AI-системам решать весьма сложные для человека практические задачи, а разработчикам — создавать инновационные приложения и сервисы, демонстрирующие безграничный потенциал электронного разума.