Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
628 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Нейронный сети. Эволюция 

Эта книга предназначена для всех, кто хочет разобраться в том, как устроены нейронные сети. Для тех читателей, кто хочет сам научиться программировать нейронные сети, без использования специализированных библиотек машинного обучения. Книга предоставляет возможность с нуля разобраться в сути работы искусственных нейронов и нейронных сетей, математических идей, лежащих в их основе, где от вас не требуется никаких специальных знаний, не выходящих за пределы школьного курса в области математики.
ColTran: нейросеть раскрашивает черно-белые изображения
Colorization Transformer — это нейросетевая модель, которая окрашивает черно-белые изображения и основывается на механизме внимания. Модель принимает на вход черно-белое изображение. Процесс окрашивания проходит в три этапа. Сначала авторегрессионная Transformer-модель производить окраску в низком разрешении. Архитектура модели использует условные Transformer слои для эффективной обработки изображений. Затем две параллельные нейросети улучшают разрешение и окраску изображения. По результатам экспериментов, модель обходит state-of-the-art архитектуры для раскраски изображений. В качестве метрики использовали FID и результаты опроса на платформе Mechanical Turk. В более чем 60% участники опроса предпочитали результат модели реальному изображению.
Предположим, что создана таблица persons с колонками id, name, age. Какой запрос найдет средний возраст всех людей с возрастом не менее 18-ти лет
#SQL

select avg(age) from persons where age >= 18 - 48
👍👍👍👍👍👍👍👍 79%
Это может быть сделано только с использованием подзапросов - 2
👍 3%
select avg(age) from persons having avg(age) >= 18 - 5
👍👍 8%
select avg(age) from persons where age >= 18 group by name - 2
👍 3%
select avg(age) from persons having age >= 18 group by name - 2
👍 3%
select avg(age) from persons having avg >=18 - 2
👍 3%
👥 61 человек уже проголосовал.
⬆️ Правильный ответ ⬆️
select avg(age) from persons where age >= 18
Логические нейронные сети
Исследуется возможность построения логических нейронных сетей, выполняющих операции вывода в составе систем искусственного интеллекта. Предлагаются методы построения обученных нейронных сетей, простые методы обучения-трассировки, методы преобразования описаний систем принятия решений для повышения достоверности выводов. Рассматривается возможность применения логических нейронных сетей в самообучающихся системах управления, системах экономики, транспорта, безопасности, защиты информации, при решении задач интеллектуального отображения, в бизнесе туризма и развлечений, при политическом и социальном прогнозировании и в других задачах.
Какой оператор SQL используется для возврата только разных значений?
#SQL

SELECT UNIQUE - 11
👍👍 11%
SELECT DIFFERENT - 1
👍 1%
SELECT DISTINCT - 87
👍👍👍👍👍👍👍👍 87%
Не один из перечисленных - 1
👍 1%
👥 100 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
SELECT DISTINCT
​​Ученые начинают внедрять живые нейроны в компьютерные микрочипы
Новость из Астонского университета (Великобритания) звучит как начало сюжета голливудского блокбастера, но ее авторы не сомневаются в успехе начинания. Ученые из Астона намереваются интегрировать живые стволовые клетки человеческого мозга в электронные чипы. Они полагают, что это позволит выстроить нейронную сеть нового типа, которая не будет ограничена параметрами существующей техники.

Цель озвучена амбициозная, исследователи хотят «использовать непревзойденную вычислительную мощность мозга разумного существа», чтобы научить компьютер решать задачи, неподвластные типовым алгоритмам. Речь идет не столько о творчестве или сложных материях, сколько о попытках наделить ИИ такими способностями, как интуиция, озарение, нестандартный подход к решению задач. Чтобы вычислительная мощность тратилась не на переборы миллионов вариантов, а на быстрый, но рациональный выбор на основе смекалки и опыта.
Проект носит название Neu-ChiP и формально посвящен разработке новой нейронной сети. Однако ее основу составят настоящие нейроны – живые нервные клетки, которые по мере роста будут адаптироваться и выстраиваться в заданную структуру, чтобы работать в связке с цифровым интерфейсом. Такой подход еще не породит полноценный ИИ, но позволит ставить перед нейросетью задачи, которые требуют нетривиального решения. Как именно это будет реализовано на практике, авторы проекта пока не уточняют.
Источник — Aston University
На фото нейроны, выращенные на CMOS-чипе. Снято сканирующим электронным микроскопом
1
Как профессиональные Data Engineer работают с моделями ML?

Приглашаем вас перенять экспертный опыт 11 февраля на демо-занятии «ML в Spark».
Вместе с Вадимом Заигриным, Software Engineering Team Lead в Teradata, вы за 2 часа разберете особенности ML в Spark, рассмотрите процесс разработки моделей, научитесь переводить обученные модели в production.

Демо-урок входит в программу онлайн-курса «Data Engineer». Для регистрации и участия в вебинаре, пройдите вступительный тест https://otus.pw/l2W3/
Для чего используется ключевое слово DISTINCT?
#SQL

Для ускорения выборки по конкретному полю - 1
👍 1%
Для снижения нагрузки на сервер с потерей производительности выполнения запроса
▫️ 0%
Для выборки количества уникальных записей в таблице - 9
👍👍 12%
Для выборки только уникальных записей по каждому полю - 63
👍👍👍👍👍👍👍👍 85%
Такого ключевого слова в стандарте SQL не существует - 1
👍 1%
👥 74 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
Для выборки только уникальных записей по каждому полю
Kaggle опубликовал отчет о состоянии сфер Machine Learning и Data Science за 2020 год

Международная система организации конкурсов по исследованию данных Kaggle опубликовала отчет о развитии сфер машинного обучения и науке о данных за 2020 год. В исследовании приняло участие более двух тысяч респондентов, работающих в сфере обработки данных. 
Как проходило исследование
Kaggle запустил опрос, состоящий из 35 вопросов. В течение 3,5 недель, начиная с октября 2020, исследователи получили более 20 тысяч ответов. Немалая часть опроса была отведена под изучение демографических особенностей распространения профессии и повышения количества кадров на рынке труда, а также изучению самых актуальных методов, способов и технологий работы с данными.
Отчет содержит графики и анализ некоторых характеристик респондентов опроса, включая:
Профиль специализации
Образование и опыт
Занятость и рабочая среда
Технологии и платформы, используемые в работе
В лучших традициях Kaggle, был объявлен призовой фонд в 30 000 долларов за самые информативные и подробные доклады по теме. При этом осветить свой опыт и знания можно было в разных формах. Это позволило организаторам составить более комплексный отчет о состоянии Data Science . Оценивались работы по трем критериями:
Структура — последовательность повествования, точность формулировок, использование подтвержденных данных, наличие визуализации и пруфов.
Оригинальность — новизна темы для научного и IT-сообщества, никакого плагиата, высокий процент уникальности.
Доказательная база — уместное использование цитат и источников, наглядные примеры кода, глубокий анализ данных, логичное обоснование гипотез с опорой на факты.
Всего Kaggle предусмотрел пять призовых мест с разным размером наград, от 10 до 1 тысячи долларов.
​​Онлайн-бакалавриат — современный формат высшего образования. Наша программа — это уникальная возможность получить современное образование из любой точки нашей страны и мира!

РАНХиГС и Skillbox приглашают абитуриентов поступить на востребованную специальность веб-разработчика.
Всё как в классических вузах: семинары, сессия, студенческие льготы и отсрочка от армии, только все занятия и экзамены — онлайн.

Формат и учебную программу разработали специально под запросы рынка. Освой программирование и вёрстку, изучи веб- и UX-дизайн, разрабатывай сайты и приложения. 

С 3-го курса можешь получить второй диплом Университета Гренобль Альпы (Франция). После подачи документов поступишь сразу на 2-й курс факультета экономики французского вуза. Программа бакалавриата в Европе длится 3 года, а значит, к концу 4-го курса ты получишь сразу два диплома — российский и европейский.

Поступление:

→ ЕГЭ — для всех абитуриентов. Проходной балл суммируется по всем предметам: математика, русский язык и на выбор — английский язык, физика или информатика и ИКТ.
→ Тестирование — для абитуриентов с высшим и среднеспециальным образованием. Тест проходит дистанционно, расписание можно посмотреть на сайте РАНХиГС или узнать у менеджера на консультации.

Хочешь получить больше информации? Переходи по ссылке: https://clc.am/jkaMjA
С помощью какого запроса можно удалить все записи из таблицы A?
#SQL

delete table A - 7
👍👍 9%
delete A - 1
👍 1%
delete from A - 42
👍👍👍👍👍👍👍👍 53%
Не один из перечисленных - 30
👍👍👍👍👍👍 38%
👥 80 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
delete from A
Искусственные нейросети и их возможности
Несмотря на то, что искусственные нейросети только относительно недавно стали набирать свою популярность, сама идея их создания появилось ещё в прошлом веке, то есть задолго до её реализации. Когда-то нейропсихологи Уоррен Мак-Коллок и Уолтер Питтс начали заниматься идеей о компьютеризации нейрона. Уже в 1943 году они сформировали понятие нейронной сети и этим заложили базу для создания искусственного интеллекта в будущем. Однако сразу заняться созданием подобного рода программы не было возможностей, технический прогресс на тот момент не был готов к такому рывку. Но напомним, что сейчас уже 2021, а это значит, что человечество доросло до перехода от теории к практике.
​​FaceX-Zoo: библиотека на PyTorch для распознавания лица на изображении
FaceX-Zoo — это открытая библиотека на PyTorch для распознавания лица на изображениях. Библиотека предоставляет модуль для обучения моделей с разными конфигурациями функционала ошибки и базовой архитектуры. Кроме того, в FaceX-Zoo есть стандартизированный модуль для оценки обученных моделей на популярных датасетах для задачи распознавания лица. Разработчики также опубликовали SDK для прямого применения обученных нейросетей.

Доступные конфигурации моделей
Базовая архитектура сети
Базовая сеть (backbone network) извлекает признаки из изображений лиц. FaceX-Zoo позволяет выбрать базовую сеть из набора архитектур:
MobileFaceNet: нейросеть, адаптированная под внедрение на мобильные устройства;
ResNet: набор стандартных архитектур для общих задач компьютерного зрения;
SE-ResNet: ResNet, дополненная SE блоками, которая рекалибрует признаки поканально;
HRNet: сеть для обучения представлений в высоком разрешении
Функционал ошибки
FaceX-Zoo содержит набор функционалов ошибки, которые можно использовать для обучения моделей:
AM-Softmax;
ArcFace;
AdaCos;
AdaM-Softmax;
CircleLoss;
CurricularFace;
MV-Softmax;
NPCFace
Тестирование моделей
Библиотека также дает возможность тестировать модели на наиболее популярных датасетах для распознавания лиц: LFW, CPLFW, CPLFW, AgeDB30, RFW, MegaFace и MegaFace-Mask.

Источник: https://arxiv.org/pdf/2101.04407v2.pdf
Github: https://github.com/JDAI-CV/faceX-Zoo
Epic Games продемонстрировала сервис MetaHuman Creator для создания моделей людей с фотореалистичными лицами

Epic Games продемонстрировала сервис MetaHuman Creator для создания моделей людей с фотореалистичными лицами, который работает прямо в браузере и позволяет сократить длительность работы с нескольких месяцев до пары часов.
MetaHuman Creator совместим с современными методами захвата движения для реалистичной анимации персонажей, которых затем можно с легкостью перенести в игры или фильмы. Разработчики могут изменять черты лица, цвет кожи, выбирать разные типы телосложения, причесок, одежды и даже модельку зубов.
Для работы не нужны специфичные знания в области моделирования, а на выходе получаются персонажи с детализацией на уровне самых продвинутых игр по типу The Last of Us Part II.
Вице-президент Epic Games по технологиям цифровых персонажей рассказал, что на создание сервиса ушли десятилетия исследований и разработок с привлечением нескольких сторонних компаний, но результат того стоил. Теперь создание убедительных моделей людей под силу практически каждому.

Смотреть
Какие ключевые слова обязательны при выборке данных с соединением таблиц (не учитывая cartesian product)?
#SQL
Ответ предусматривает несколько вариантов

ON - 4
👍 5%
SELECT - 7
👍👍 9%
USING - 1
👍 1%
JOIN - 57
👍👍👍👍👍👍👍👍 70%
FROM - 12
👍👍 15%
WHERE - 1
👍 1%
👥 82 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
SELECT
JOIN
FROM
TracIn: способ оценить влияние отдельных объектов в данных на предсказания
TracIn — это масштабируемый метод оценки влияния отдельных объектов в данных на предсказания. Идея TracIn заключается в том, что бы отслеживать процесс обучения модели, чтобы засекать изменения в предсказаниях при переходе от одного объекта данных к другому. С помощью TracIn можно находить ошибки в разметке данных и выбросы. Кроме того, метод позволяет объяснять предсказания на примере объектов из обучающей выборки. Подход предложили исследователи из Google AI.