Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
628 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Kaggle опубликовал отчет о состоянии сфер Machine Learning и Data Science за 2020 год

Международная система организации конкурсов по исследованию данных Kaggle опубликовала отчет о развитии сфер машинного обучения и науке о данных за 2020 год. В исследовании приняло участие более двух тысяч респондентов, работающих в сфере обработки данных. 
Как проходило исследование
Kaggle запустил опрос, состоящий из 35 вопросов. В течение 3,5 недель, начиная с октября 2020, исследователи получили более 20 тысяч ответов. Немалая часть опроса была отведена под изучение демографических особенностей распространения профессии и повышения количества кадров на рынке труда, а также изучению самых актуальных методов, способов и технологий работы с данными.
Отчет содержит графики и анализ некоторых характеристик респондентов опроса, включая:
Профиль специализации
Образование и опыт
Занятость и рабочая среда
Технологии и платформы, используемые в работе
В лучших традициях Kaggle, был объявлен призовой фонд в 30 000 долларов за самые информативные и подробные доклады по теме. При этом осветить свой опыт и знания можно было в разных формах. Это позволило организаторам составить более комплексный отчет о состоянии Data Science . Оценивались работы по трем критериями:
Структура — последовательность повествования, точность формулировок, использование подтвержденных данных, наличие визуализации и пруфов.
Оригинальность — новизна темы для научного и IT-сообщества, никакого плагиата, высокий процент уникальности.
Доказательная база — уместное использование цитат и источников, наглядные примеры кода, глубокий анализ данных, логичное обоснование гипотез с опорой на факты.
Всего Kaggle предусмотрел пять призовых мест с разным размером наград, от 10 до 1 тысячи долларов.
​​Онлайн-бакалавриат — современный формат высшего образования. Наша программа — это уникальная возможность получить современное образование из любой точки нашей страны и мира!

РАНХиГС и Skillbox приглашают абитуриентов поступить на востребованную специальность веб-разработчика.
Всё как в классических вузах: семинары, сессия, студенческие льготы и отсрочка от армии, только все занятия и экзамены — онлайн.

Формат и учебную программу разработали специально под запросы рынка. Освой программирование и вёрстку, изучи веб- и UX-дизайн, разрабатывай сайты и приложения. 

С 3-го курса можешь получить второй диплом Университета Гренобль Альпы (Франция). После подачи документов поступишь сразу на 2-й курс факультета экономики французского вуза. Программа бакалавриата в Европе длится 3 года, а значит, к концу 4-го курса ты получишь сразу два диплома — российский и европейский.

Поступление:

→ ЕГЭ — для всех абитуриентов. Проходной балл суммируется по всем предметам: математика, русский язык и на выбор — английский язык, физика или информатика и ИКТ.
→ Тестирование — для абитуриентов с высшим и среднеспециальным образованием. Тест проходит дистанционно, расписание можно посмотреть на сайте РАНХиГС или узнать у менеджера на консультации.

Хочешь получить больше информации? Переходи по ссылке: https://clc.am/jkaMjA
С помощью какого запроса можно удалить все записи из таблицы A?
#SQL

delete table A - 7
👍👍 9%
delete A - 1
👍 1%
delete from A - 42
👍👍👍👍👍👍👍👍 53%
Не один из перечисленных - 30
👍👍👍👍👍👍 38%
👥 80 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
delete from A
Искусственные нейросети и их возможности
Несмотря на то, что искусственные нейросети только относительно недавно стали набирать свою популярность, сама идея их создания появилось ещё в прошлом веке, то есть задолго до её реализации. Когда-то нейропсихологи Уоррен Мак-Коллок и Уолтер Питтс начали заниматься идеей о компьютеризации нейрона. Уже в 1943 году они сформировали понятие нейронной сети и этим заложили базу для создания искусственного интеллекта в будущем. Однако сразу заняться созданием подобного рода программы не было возможностей, технический прогресс на тот момент не был готов к такому рывку. Но напомним, что сейчас уже 2021, а это значит, что человечество доросло до перехода от теории к практике.
​​FaceX-Zoo: библиотека на PyTorch для распознавания лица на изображении
FaceX-Zoo — это открытая библиотека на PyTorch для распознавания лица на изображениях. Библиотека предоставляет модуль для обучения моделей с разными конфигурациями функционала ошибки и базовой архитектуры. Кроме того, в FaceX-Zoo есть стандартизированный модуль для оценки обученных моделей на популярных датасетах для задачи распознавания лица. Разработчики также опубликовали SDK для прямого применения обученных нейросетей.

Доступные конфигурации моделей
Базовая архитектура сети
Базовая сеть (backbone network) извлекает признаки из изображений лиц. FaceX-Zoo позволяет выбрать базовую сеть из набора архитектур:
MobileFaceNet: нейросеть, адаптированная под внедрение на мобильные устройства;
ResNet: набор стандартных архитектур для общих задач компьютерного зрения;
SE-ResNet: ResNet, дополненная SE блоками, которая рекалибрует признаки поканально;
HRNet: сеть для обучения представлений в высоком разрешении
Функционал ошибки
FaceX-Zoo содержит набор функционалов ошибки, которые можно использовать для обучения моделей:
AM-Softmax;
ArcFace;
AdaCos;
AdaM-Softmax;
CircleLoss;
CurricularFace;
MV-Softmax;
NPCFace
Тестирование моделей
Библиотека также дает возможность тестировать модели на наиболее популярных датасетах для распознавания лиц: LFW, CPLFW, CPLFW, AgeDB30, RFW, MegaFace и MegaFace-Mask.

Источник: https://arxiv.org/pdf/2101.04407v2.pdf
Github: https://github.com/JDAI-CV/faceX-Zoo
Epic Games продемонстрировала сервис MetaHuman Creator для создания моделей людей с фотореалистичными лицами

Epic Games продемонстрировала сервис MetaHuman Creator для создания моделей людей с фотореалистичными лицами, который работает прямо в браузере и позволяет сократить длительность работы с нескольких месяцев до пары часов.
MetaHuman Creator совместим с современными методами захвата движения для реалистичной анимации персонажей, которых затем можно с легкостью перенести в игры или фильмы. Разработчики могут изменять черты лица, цвет кожи, выбирать разные типы телосложения, причесок, одежды и даже модельку зубов.
Для работы не нужны специфичные знания в области моделирования, а на выходе получаются персонажи с детализацией на уровне самых продвинутых игр по типу The Last of Us Part II.
Вице-президент Epic Games по технологиям цифровых персонажей рассказал, что на создание сервиса ушли десятилетия исследований и разработок с привлечением нескольких сторонних компаний, но результат того стоил. Теперь создание убедительных моделей людей под силу практически каждому.

Смотреть
Какие ключевые слова обязательны при выборке данных с соединением таблиц (не учитывая cartesian product)?
#SQL
Ответ предусматривает несколько вариантов

ON - 4
👍 5%
SELECT - 7
👍👍 9%
USING - 1
👍 1%
JOIN - 57
👍👍👍👍👍👍👍👍 70%
FROM - 12
👍👍 15%
WHERE - 1
👍 1%
👥 82 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
SELECT
JOIN
FROM
TracIn: способ оценить влияние отдельных объектов в данных на предсказания
TracIn — это масштабируемый метод оценки влияния отдельных объектов в данных на предсказания. Идея TracIn заключается в том, что бы отслеживать процесс обучения модели, чтобы засекать изменения в предсказаниях при переходе от одного объекта данных к другому. С помощью TracIn можно находить ошибки в разметке данных и выбросы. Кроме того, метод позволяет объяснять предсказания на примере объектов из обучающей выборки. Подход предложили исследователи из Google AI.
Выберите алгоритмы сортировки для которых асимптотическая оценка в наихудшем случае O(n<sup>2</sup>)
#Алгоритмы

Ответ предусматривает несколько вариантов

Шелла - 4
👍👍 9%
Быстрая - 8
👍👍👍 18%
Пузырьковая - 24
👍👍👍👍👍👍👍👍 55%
Слиянием - 4
👍👍 9%
Выбором - 4
👍👍 9%
👥 44 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
Быстрая
Пузырьковая
Выбором
JigsawGAN: генеративная нейросетевая модель собирает пазлы
JigsawGAN — это генеративная self-supervised нейросетевая модель, которую обучили на задаче сбора пазлов. Модель принимает на вход хаотично расположенные части изображения. На основе этого модель восстанавливает оригинальное изображение. Нейросеть не требует дополнительной информации по изображению для поиска решения. Нейросеть обходит альтернативные подходы по количественным и качественным метрикам.
Какой алгоритм сортировки признается лучшим и наиболее эффективным?
#Алгоритмы

Сортировка Шелла - 8
👍👍👍 12%
Сортировка вставками - 1
👍 2%
Сортировка слиянием - 3
👍👍 5%
Сортировка Чарльза Хоара (быстрая) - 35
👍👍👍👍👍👍👍👍 53%
Шейкерная сортировка - 1
👍 2%
Сортировка бинарным деревом - 18
👍👍👍👍👍 27%
👥 66 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
Сортировка Чарльза Хоара (быстрая)
Перед вами один из самых интересных учебников по машинному обучению – разделу искусственного интеллекта, изучающего методы построения моделей, способных обучаться, и алгоритмов для их построения и обучения. Автор воздал должное невероятному богатству предмета и не упустил из виду объединяющих принципов. Читатель с первых страниц видит машинное обучение в действии, но без не нужных на первых порах технических деталей. По мере изучения предмета тщательно подобранные примеры, сопровождаемые иллюстрациями, постепенно усложняются.
В чём разница между расширенным алгоритмом Евклида и обычным?
#Алгоритмы

Расширенный алгоритм Евклида позволяет извлечь дополнительную информацию - 26
👍👍👍👍👍👍👍👍 81%
Расширенный алгоритм Евклида работает быстрее, но более сложный в реализации - 5
👍👍 16%
Между ними нет существенной разницы - 1
👍 3%
👥 32 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
Расширенный алгоритм Евклида позволяет извлечь дополнительную информацию
​​Математика для Data Science: 3 полезных закона

Закон Бенфорда
Закон Бенфорда — это математический закон в котором говорится о первой цифре числа из набора реальных данных.
Если мы представим случайное число, то было бы логично предположить, что его первая цифра также будет случайной. То есть вероятность того, что это будет число от 1 до 9, одинакова для каждого из этих чисел, и составляет около 11,1%. Однако это не так.
Закон Бенфорда утверждает, что первая цифра числа чаще будет меньшей, в большинстве реально встречающихся коллекций чисел.
Давайте попробуем применить этот закон к реальному датасету. Для этой статьи использовались данные из Kaggle о длительности песен в Spotify с 1921 по 2020 год. Вот график того, как часто та или иная цифра является первой:
Вам надо отсортировать массив из 6 элементов. Быстрей всего это выполнит?
#Алгоритмы

heap sort (пирамидальная сортировка) - 5
👍👍 9%
bubble sort (пузырьковая сортировка) - 29
👍👍👍👍👍👍👍👍 50%
quick sort (быстрая сортировка Хоара) - 24
👍👍👍👍👍👍👍 41%
👥 58 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
bubble sort (пузырьковая сортировка)

Подробно можно почитать здесь