Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
630 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​MoGaze: датасет с передвижениями тела и движениями взгляда

MoGaze — это датасет с передвижениями тела и движениями взгляда. Датасет собирали для обучения моделей предсказания действия людей. Такие модели можно использовать в роботизированных системах, тесно взаимодействующих с людьми.
Ограничения прошлых датасетов
С увеличением присутствия роботов в человеческой среде становится ключевым для робота уметь понимать и предсказывать движение человека. Такие способности сильно зависят от качества и доступности данных с движением. Однако существующие датасеты с движениями всего тела редко включают в себя:
Длинные последовательности задач манипуляции объектами;
3D модель с геометрией среды;
Данные о направлении взгляда
Все эти данные являются важными, когда роботу необходимо предсказать движения людей вблизи. MoGaze включает в себя эти данные.
Подробнее про датасет
Данные движений были собраны с помощью традиционной системы захвата движений, основанной на отражающих маркерах. Эксперименты показывают, что данные взгляда являются хорошим предиктором намерения человека. Датасет включает в себя 180 минут данных движение с 1627 действиями поднять-поставить.

Github: https://github.com/PeizeSun/SparseR-CNN
Модели ИИ от Microsoft и Google обошли человека в понимании логики текста
Авторы бенчмарка SuperGLUE опубликовали результаты последнего тестирования моделей обработки естественного языка. Модели Microsoft DeBERTa и Google T5 + Meena доказали понимание причинно-следственных связей в тексте и впервые обошли в этом человека. ИИ от Microsoft набрал 90,3 балла, ИИ от Google — 90,1 балла, в то время как усредненный результат человека в этом тесте составляет 89,8 баллов. Тестирование моделей DeBERTa и T5 + Meena проводились только на английском языке.
Тестирование SuperGLUE включало восемь сложных задач, связанных с пониманием контекста, структуры текста, причинно-следственных связей и альтернативных вариантов. В ходе последней серии испытаний ИИ анализировал короткие отрывки статей из Википедии, отвечал на вопросы со «спрятанными» в тексте ответами и подбирал аналогии. У обеих моделей — Microsoft и Google — это получилось лучше, чем у людей.
Важно отметить, что тест измеряет не интеллект как таковой, а логику, которая раньше давалась ИИ с большим трудом. А представители Microsoft добавили, что рекордный результат DeBERTa не делает модель хорошим собеседником для бытового диалога, но определяет важный момент на пути к созданию общего ИИ.
«DeBERTa, превосходящая человеческие характеристики на SuperGLUE, знаменует собой важную веху на пути к общему ИИ. В отличие от DeBERTa, люди чрезвычайно хорошо используют свои знания, полученные при выполнении различных задач, для решения новой задачи без демонстрации пути достижения результата или с минимальной демонстрацией», — объяснили авторы из Microsoft Research.
В качестве примера Microsoft привела сложный тест для понимания естественного языка, с точки зрения ИИ: «Ребенок стал невосприимчив к болезни. В чем причина? 1) Он избежал контакта с болезнью. 2) Он получил вакцину от болезни». Если раньше этот простой для человека вопрос, поставил бы ИИ в тупик, то теперь все изменилось. Большая часть теста SuperGLUE включала аналогичные задачи и DeBERTa успешно с ними справилась.
Как отмечает VentureBeat, представители Google пока не готовы раскрывать подробности своей языковой модели, но Microsoft расписала характеристики DeBERTa в официальном блоге. Последняя версия DeBERTa поставляется с 1,5 млрд. параметров и построена на базе существующих моделей компании. Microsoft пообещала опубликовать исходный код DeBERTa и интегрировать систему в свои продукты: Bing, Office, Dynamics и Azure Cognitive Services.
Прогресс в искусственном интеллекте заставляет некоторых ученых и философов предупреждать об опасности неожиданного появления неподконтрольного человеку сверхразумного ИИ. Проделав теоретические вычисления, международная группа ученых под руководством команды исследователей из Института Макса Планка (Германия) показала, что появись такой ИИ, управлять им мы точно не сможем.
Кибернетическое бессмертие. Успехи науки позволяют нам поднять знамя кибернетического бессмертия.
Успехи науки позволяют нам поднять знамя кибернетического бессмертия . Идея состоит в том, что человек - это, в конечном счете, определенная форма организации материи. Это очень сложная организация, которая включает в себя высокую многоуровневую иерархию управления . То, что мы называем нашей душой или нашим сознанием, связано с высшим уровнем этой иерархии управления. Эта организация может пережить частичное - возможно, даже полное - изменение материала, из которого она построена.
Большая часть знаний, полученных человеком, все еще исчезает при биологической смерти. Лишь малая часть этих знаний хранится вне мозга или передается другим людям. Жалко умереть, не осознав сотую долю задуманного и не сумев передать свой опыт и интуицию. Обидно забывать вещи, хотя мы знаем, как хранить огромное количество информации в компьютерах и получать к ним доступ за доли секунды. Дальнейшая эволюция была бы намного более эффективной, если бы все знания, полученные в результате опыта, можно было бы сохранить, чтобы освободить место только для более адекватных знаний. Это требует эффективного бессмертия когнитивных систем, определяющих индивидуальный и коллективный разум: выживет не материальный субстрат (тело или мозг), а его кибернетическая организация.
Один из способов достижения этого идеала был назван « выгрузкой »: перенос нашей ментальной организации в очень сложную компьютерную систему. Исследования в области искусственного интеллекта...
Какая разница между decimal и numeric?
#SQL

decimal-тип числовых данных с фиксированными точностью и масштабом, numeric-тип числовых данных без фиксированной точностью и масштабом - 2
👍👍 6%
numeric-тип числовых данных с фиксированной точностью и масштабом, decimal-тип числовых данных без фиксированной точностью и масштабом - 5
👍👍👍 14%
decimal-тип числовых данных с фиксированными точностью и масштабом, numeric-тип точных числовых данных, использующие целые значения - 19
👍👍👍👍👍👍👍👍 54%
numeric-тип числовых данных с фиксированной точностью и масштабом, decimal-тип точных числовых данных, использующие целые значения - 2
👍👍 6%
decimal и numeric-между этими типами числовых данных нет никакой разницы - 7
👍👍👍👍 20%
👥 35 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
decimal и numeric-между этими типами числовых данных нет никакой разницы.
Типы decimal и numeric являются взаимозаменяемыми синонимами.
NBDT: интерпретируемые нейронные деревья решений
NBDT — это нейросетевая архитектура деревьев решений для задач классификации. Модель объединяет в себе интерпретируемость классического алгоритма дерева решений с качеством предсказаний современных нейросетей. Разработчики тестировали модель на задаче классификации изображений.
Вы Data Engineer и хотите оптимизировать работу с большими данными? Начните осваивать инструменты уже 4 февраля на демо-занятии «Spark Streaming». Вадим Заигрин познакомит вас со Spark Streaming и Structured Streaming, вместе вы изучите их особенности и напишете простое приложение обработки потоков.

Что такое демо-занятие? Это возможность попробовать онлайн-курс «Экосистема Hadoop, Spark, Hive» и познакомиться с преподавателем. Для регистрации пройдите вступительный тест https://otus.pw/ZrwG/
Big Data реанимируют плановую экономику?
Многие из нас когда-то думали, что идея плановой экономики в теории и на практике канула в Лету.

Большинство экономистов сегодня утверждают, что плановая экономика не работает, а последние 20 лет XX века на смену почти всем плановым экономикам пришли рыночные экономики.

Тем не менее с развитием новых технологий (облачные вычисления, большие объемы данных и искусственный интеллект) некоторые начинают верить, что мы можем снова вернуться к плановой экономике.

Джек Ма, один из самых известных предпринимателей Китая, основатель и председатель Alibaba Group, выразил оптимизм по поводу будущего восстановления плановой экономики.

"Последние 100 лет нам всем казалось, что рыночная экономика – отличное решение всех проблем. Однако последние 30 лет все больше людей отдают предпочтение плановой экономике", — заявил миллиардер.

Это такая великая романтическая мечта человечества – хотя она не раз проваливалась в реальности, – так что неудивительно, что она все еще привлекательна для представителей социальных элит, таких как Джек Ма.

С развитием технологий, все, кто занимаются централизованным планированием, могут получить больше данных и информации и проанализировать эти данные. Более того, в обозримом будущем эти навыки будут дополнительно усовершенствованы.

Ма считает, что плановая экономика – мечта, которая может стать реальностью. И все благодаря его компаниям Taobao и Alipay, работающим в сфере электронной коммерции и электронных платежей в Китае, а, значит дающим возможность собирать огромное количество данных о потребительском спросе. Для Джека Ма и других "технических социалистов" подобные данные могут стать краеугольным камнем плановой экономики.

Тем не менее, если мы более внимательно посмотрим на это, то поймем, что эти данные просто:

1. Данные, основанные на опыте прошлых сделок, которые нельзя использовать для прогнозирования потребительских предпочтений в будущем.

2. Данные, полученные с помощью опросов, которые не могут отражать реальные предпочтения клиентов.

В любом случае с ослепительными новыми технологиями все данные о реальном мире, которые можно якобы получить, не более чем красивый мираж.

Те, кто считают проблему социализма просто информационной проблемой, просто не в состоянии понять, что основная проблема социализма заключается в отсутствии роли цен в центрально-плановой экономике.

Роль цен в рыночной экономике основополагающая, так как цены являются незаменимым инструментом в экономических расчетах. Предприниматели могут рассчитать прибыль, изучив разнообразие рыночных цен в отношении производственных факторов и ожидаемых цен на конечные продукты. И исходя из этого организовать производство.

Поэтому, даже если у вас есть отличные данные, без этого механизма рыночных цен ни экономический расчет, ни эффективное распределение ресурсов невозможны. Поскольку рациональное планирование или распределение ресурсов требуют экономических расчетов, сами расчеты нуждаются в ценах, которые можно определить только на рынке в реальном мире обмена владельцами частной собственностью.

Плановая экономика требует государственного и коллективного контроля над ресурсами, поэтому при ней сложно рационально планировать работу современной экономической системы.

В результате теоретически плановая экономика неспособна определять цены, необходимые для экономического расчета.

Передовые технологии способны помочь Джеку Ма оптимизировать его стратегии на частных предприятиях в капиталистическом обществе.

Тем не менее в современной экономике пока нет доступных цен, на основе которых возможен экономический расчет, так что провал плановой экономики неизбежен.

Как пишет Джозеф Салерно в своем послесловии к "Экономическому расчету в социалистическом обществе": "В отсутствии возможности определения реальных цен на конкурсной основе все знания мира не дадут человеку возможности распределять производственные ресурсы экономически правильно в рамках общественного разделения труда".
Объектно-ориентированное программирование — это фундамент современных языков программирования, включая C++, Java, C#, Visual Basic, .NET, Ruby и Objective-C. Кроме того, объекты лежат в основе многих веб-технологий, например JavaScript, Python и PHP. Объектно-ориентированное программирование обеспечивает правильные методики проектирования, переносимость кода и его повторное использование, однако для того, чтобы все это полностью понять, необходимо изменить свое мышление.
Перед вами — первая книга о глубоком обучении, написанная на русском языке. Глубокие модели оказались ключом, который подходит ко всем замкам сразу: новые архитектуры и алгоритмы обучения, а также увеличившиеся вычислительные мощности и появившиеся огромные наборы данных привели к революционным прорывам в компьютерном зрении, распознавании речи, обработке естественного языка и многих других типично «человеческих» задачах машинного обучения. Эти захватывающие идеи, вся история и основные компоненты революции глубокого обучения, а также самые современные достижения этой области доступно и интересно изложены в книге. Максимум объяснений, минимум кода, серьезный материал о машинном обучении и увлекательное изложение — в этой уникальной работе замечательных российских ученых и интеллектуалов.
В России планируют создать интеллектуального помощника учителя
Интеллектуального помощника учителя, который будет проверять задачи учащихся, планируется создать в России. Об этом сообщили в понедельник ТАСС в пресс-службе "Платформы Национальной технологической инициативы" (НТИ).
"В части искусственного интеллекта развивается конкурс решений по распознаванию текстов, именно их семантической логики, который мы реализуем в рамках проекта "Про чтение". В 2021 году реализуется уже несколько "пилотов" в этом направлении с российскими школами и университетами, в первую очередь с российскими школами, по созданию именно интеллектуального помощника учителя, который будет проверять задачи учеников, как бы сокращая время автоматизированной проверки, давая возможность больше раскрыться творческому потенциалу учителя", - рассказали в пресс-службе.
Технологический конкурс "Про чтение" призван стимулировать развитие новых подходов в области машинного обучения, которые позволят создать искусственный интеллект, способный к глубокому пониманию смысла текста и анализу причинно-следственных связей по широкому набору тематик.
Национальная технологическая инициатива - долгосрочная программа по созданию новых рынков и обеспечению условий для технологического лидерства России к 2035 году. В рамках НТИ одобрены дорожные карты развития технологий по направлениям (рынкам) "Аэронет", "Автонет", "Маринет", "Нейронет". В числе сквозных технологий НТИ - искусственный интеллект, интернет вещей, большие данные, квантовые технологии, новые и портативные источники энергии, нейротехнологии. Задачи НТИ интегрированы в нацпроект "Наука".
Источник: tass.ru
Имеется таблица Women:
+-----+-----------+-------+
| Id | FirstName | Score |
+-----+-----------+-------+
| 1 | Gwyneth | 1000 |
| 3 | Jennifer | 800 |
| 4 | Paris | NULL |
| 5 | Misha | 3000 |
+-----+-----------+-------+
Сколько строк вернет запрос:
SELECT FirstName, Score FROM Women
WHERE Score >= ANY (SELECT Score FROM Women
WHERE FirstName='Megan');

0 - 51
👍👍👍👍👍👍👍👍 41%
1 - 5
👍👍 4%
2 - 2
👍 2%
3 - 8
👍👍 7%
4 - 8
👍👍 7%
5 - 8
👍👍 7%
Запрос содержит ошибку и не будет выполнен - 41
👍👍👍👍👍👍👍 33%
👥 123 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
0
Справочник подготовлен профессиональными администраторами и опытными разработчиками, использующими различные диалекты SQL для поддержки сложных корпоративных приложений. Основная задача издания – служить кроссплатформенным руководством для тех, кто, не будучи экспертами, зани мается переносом кода (включая пользовательские приложения) между раз личными СУБД. Независимо от того, является ли читатель новичком в SQL или имеет значительный опыт его использования, он найдет много полезных сове тов и приемов в этой лаконичной и удобной для работы книге.
​​Бесплатный вебинар ««Разворачиваем приложение на Apache Spark в Kubernetes. Пошаговый рецепт»» от Mail.ru Cloud Solutions

Cовременный DevOps-подход к работе со Spark, связанный с использованием Kubernetes, позволяет решать задачи изоляции рабочих сред, гибкого управления ресурсами и масштабирования. Популярные материалы останавливаются на запуске тестового приложения в K8s. В своем вебинаре команда MCS идет дальше: даже начинающие научатся обрабатывать данные с помощью Spark в облаке. 

На вебинаре вы вместе со специалистами Mail.ru:
— Установите Kubernetes Operator for Apache Spark (Spark Operator);
— Запустите тестовый пример Spark-задачи/приложения;
— Соберете свой Docker-образ со Spark и кастомным приложением;
— Добавите необходимые библиотеки, креды для доступа к S3-хранилищу;
— Научитесь читать из S3 и записывать в него.

По итогам вебинара вы получите готовый репозиторий с инструкцией и сможете самостоятельно повторить все действия, которые будут продемонстрированы в рамках вебинара.

Мероприятие пройдет в четверг, 4 февраля, онлайн. 
Начало в 17:00 по Москве. 

👉 Регистрируйтесь: https://vk.cc/bXIm7V
#SQL
Дана таблица cars:
color
-----
blue
red
null
blue
Каким будет результат следующего запроса:
SELECT COUNT(DISTINCT color) FROM cars

red blue null - 6
👍👍 8%
3 - 20
👍👍👍👍 25%
2 - 47
👍👍👍👍👍👍👍👍 59%
211 - 6
👍👍 8%
👥 79 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
2
DISTINCT учитывает колонки со значением null, но COUNT не учитывает
Чего ожидать от технологий в 2021 году?
Благодаря развитию облачных сервисов работа из дома (и вообще откуда угодно) станет обычным делом, а за нашим поведением будут следить умные устройства.
1. Рост популярности облаков
За последние годы с облачными сервисами научились работать даже те, кто изначально относился к ним скептически. Это закономерное последствие массового перехода на дистанционную работу и учёбу: всеобщая самоизоляция вызвала взрывной рост спроса на фоне коронавируса всплеск интереса к системам удалённого взаимодействия. В 2020 году спрос на российском облачном рынке на 70% превышал плановые показатели. При этом пользователи часто интересовались не отдельными услугами, а комплексными решениями.
Эксперты исследовательской компании IDC предрекают, что в 2021 году интерес к облачным сервисам продолжит расти. Кроме того, большинство компаний создадут механизмы, которые вдвое ускорят их переход на облачную инфраструктуру и приложения.
​​Будущее рядом — освой профессию Data Scientist

В настоящее время искусственный интеллект — это не фантазии американских сценаристов-выдумщиков. Это реальность, которая стремительно врывается в нашу жизнь. Но с одной поправкой. Незаменимый помощник Data Scientist — специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными.
 
И у тебя как раз есть шанс стать тем самым незаменимым специалистом благодаря курсу от Skillbox «Профессия Data Scientist». 

Тебе предстоит научиться очень многим интересным вещам: от программирования на Python и визуализации данных до программирования на R и применения нейронных сетей для решения реальных задач.

Начать обучение на курсе — ответственное решение, и лучше познакомиться с курсом еще до покупки. Поэтому Skillbox дарит доступ к первым двум модулям курса.

Вы познакомитесь с основами языка Python и его применением в анализе данных, научитесь пользоваться Jupyter Notebook — рабочим инструментом в области Data Scienсe. Регистрируйтесь по ссылке со скидкой: https://clc.am/68IT4A
#программирование
#алгоритмы
Выберите алгоритмы построения выпуклой оболочки.

Ответ предполагает несколько вариантов

Метод меток Форда-Фалкерсона - 5
👍👍👍 22%
Грэхема - 3
👍👍 13%
Штрасена
▫️ 0%
Обход по Джарвису - 15
👍👍👍👍👍👍👍👍 65%
👥 23 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
Грэхема
Обход по Джарвису