Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Pile: открытый датасет для обучения языковых моделей на 825 гигабайт
Pile — это датасет с разнообразными текстами на 825 гигабайт для обучения языковых моделей. Датасет состоит из 22 датасетов меньшего размера, которые объединили в один. Кроме датасета, создатели опубликовали бенчмарк для тестирования языковых моделей на качество моделирования.
Для какого из ключевых слов можно добавить строку "TABLE employees", чтобы запрос выполнился для таблицы employees?
SQL

SELECT - 5
👍👍 8%
ALTER - 6
👍👍 10%
INSERT INTO - 10
👍👍👍 16%
UPDATE - 4
👍👍 7%
DROP - 36
👍👍👍👍👍👍👍👍 59%
👥 61 человек уже проголосовал.
⬆️ Правильный ответ ⬆️
DROP
Думаете попробовать себя в Data Science или повысить свой профессиональный уровень?

На бесплатном занятии Нетологии «Как начать в Data Science» расскажут о трендах и специфике области, карьерных траекториях в профессии и обучении на курсах Data Scientist и Аналитик данных.

В результате вы:
— Познакомитесь с рабочими кейсами и возможностями инструментов Data Science;
— Узнаете, какие ключевые навыки требуются на старте и как развиваться потом;
— Сможете задать вопросы о программе и преподавателях, обучении и практике, дипломе и портфолио.

Спикеры:
— Константин Башевой, аналитик-разработчик в Яндекс и эксперт Нетологии.

Регистрация по ссылке ↓
https://netolo.gy/gci
Искусственный интеллект в вашем смартфоне поможет определить депрессию
Смартфоны, которые способны идентифицировать наше лицо и голос, также помогут убрать помехи для диагностики и лечения психических расстройств.
Депрессивное состояние – это существенная проблема для миллионов людей, которая часто осложняется плохим медицинским обслуживанием и застенчивостью самого пациента, из-за чего он боится идти к врачу. Ранняя диагностика способна помочь, но сложность в том, что много психических расстройств трудно определить. Алгоритмы машинного обучения, которые позволяют смартфонам идентифицировать лицо или реагировать на наши голоса, также могут обеспечить универсальный и недорогой способ выявления ранних признаков депрессии и лечение для тех, кому это необходимо.
В ходе исследования, проведенного командой Стэнфордского университета, ученые установили, что программное обеспечение для лица и языка может достаточно точно выявлять признаки депрессии.
Исследователи загружали видео поведения депрессивных и недепресивних людей в модель машинного обучения, которую затем тренировали на базе комбинации таких признаков: мимика, тембр голоса и слова разговора. Данные были собраны с интервью, где пациент говорил с аватаром, которым руководил врач.
Тестирование позволило определить, был ли человек подавлен более 80% времени, которое приходилось на период наблюдения.
Несмотря на то, что новая технология находится пока на ранней стадии развития, исследователи считают, что когда-нибудь она сможет обеспечить простой способ диагностики и помощи людям.
«В сравнении с физическими болезнями психические расстройства выявлять труднее, – отмечают исследователи в документе, который был представлен на конференции NeurIPS AI в Монреале на этой неделе. – Проблемы с психическим здоровьем усложняются другими препятствиями, такими как скрытность перед обществом, финансовые затраты и нехватку доступных вариантов лечения. Эта технология может быть распространена на мобильные телефоны по всему миру и обеспечить недорогой универсальный доступ к охране психического здоровья».
Исследователи предостерегают, что эта технология не заменит клиническое лечение. Они добавляют, что данные, которые используются, не содержат никакой конфиденциальной информации о здоровье, как, например, имя, дата или место пребывания. Они также отмечают, что немало еще нужно сделать для того, чтобы технология в конце концов не была предвзятой к определенной расе или полу.
Джастин Бейкер (Justin Baker), клинический психиатр больницы McLean в Кембридже, штат Массачусетс, который изучает использование технологии для лечения психических заболеваний, поражен тем способом, как система анализирует лица, голос и речь пациента. «Это действительно очень круто», – говорит он. Более того, Бейкер считает, что искусственный интеллект и смартфоны могут существенно повлиять на развитие здравоохранения, если эти технологии использовать правильно.
Но Сонтаг Дэвид (David Sontag), доцент МИТ (Массачусетского технологического института), специализирующийся на машинном обучении и здравоохранении, более сдержан в оценке значения данной работы. Одна из проблем, по его словам, заключается в том, что первые данные для тренировки искусственного интеллекта были собраны во время интервью с реальным врачом, хотя он и прятался за аватаром. Поэтому непонятно, может ли диагностика быть полностью автоматизированной в будущем. "Направление работы интересно, но мне пока неясно, как результаты будут использоваться клинически", - говорит он. Тем не менее, новые подходы к выявлению и лечению психических расстройств обещают сделать лечение более доступным, и возможно даже более эффективным.
Еще одна исследовательская группа в Стэнфорде разработала чатбот, который обеспечивает простую познавательную поведенческую терапию. Исследователи утверждают, что такой подход оказался эффективным и что много пациентов ответили, что они на самом деле предпочитают говорить с машиной.
Как называется набор требований к транзакциям?
#SQL

GUID - 1
👍 1%
DCIM - 1
👍 1%
INT - 2
👍 3%
ACID - 63
👍👍👍👍👍👍👍👍 86%
ICANN - 1
👍 1%
T-SQL - 5
👍👍 7%
GRID
▫️ 0%
👥 73 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
ACID

Транзакции характеризуются следующими четырьмя свойствами (также известными как ACID):
Атомарность
Консистентность
Изоляция
Долговечность
​​Advbox: библиотека для генерации состязательных примеров
Advbox — это открытая библиотека инструментов для проверки обученных нейросетей на уязвимости. Разработкой библиотеки занимались исследователи из Baidu. В библиотеке есть функционал для генерации, распознавания и защиты от состязательных примеров. Состязательными примерами называются примеры входных данных, для которых модель стабильно выдает неверные предсказания.
В последние годы нейросети широко применялись для задач компьютерного зрения. В частности — для задачи классификации. Несмотря на то, что часть моделей по метрикам обходит человека на этой задачи, модели все еще остаются уязвимыми к состязательным примерам. Незначительные и незаметные изменения входных изображений достаточны, для того чтобы обмануть большинство нейросетевых подходов.
Чтобы повысить устойчивость предсказаний модели, необходимо проводить мониторинг того, к каким состязательным примерам модель уязвима. Для этого разработчики из Baidu опубликовали библиотеку Advbox. Функционал Advbox позволяет генерировать состязательные примеры. В сравнении с схожими инструментами Advbox предоставляет возможность проводить более разнообразные атаки на модели.
Что внутри библиотеки
В классе Attack в Advbox реализованы популярные состязательные атаки, которые ищут состязательные примеры в выборке. Каждый метод атаки использует меру расстояния, чтобы оценить степень искажения изображения.
В классе Model реализованы интерфейсы для взаимодействия с разными нейросетевыми фреймворками: Tensorflow, PyTorch, MxNet и PaddlePaddle. Модуль используется библиотекой для подсчета градиентов и выдачи предсказаний.
Класс Adversary содержит оригинальные входные данные, разметку и состязательные примеры. Состязательный пример добавляется в список, если модель выдала для него неверное предсказание.
Advbox поддерживает 6 алгоритмов атаки: 
FGSM;
BIM;
DeepFool;
JSMA; 
CW;
PGD
Помимо этого, в библиотеке доступны 6 алгоритмов для защиты от атак:
Feature Squeezing;
Spatial Smoothing;
Label Smoothing;
Gaussian Augmentation;
Adversarial Training;
Thermometer Encoding
Чтобы оценить устойчивость модели к атакам Advbox использует библиотеку Perceptron.
Какой оператор используется для поиска заданного шаблона в столбце?
#SQL

PATTERN - 4
👍 5%
LIKE - 68
👍👍👍👍👍👍👍👍 93%
FROM
▫️ 0%
GET - 1
👍 1%
👥 73 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
LIKE
Австралийские ученые создали самый быстрый в мире оптический нейроморфный процессор
Международная группа, возглавляемая учеными из Технологического университета Свинбурна (Swinburne University of Technology) недавно провела демонстрацию, ключевым компонентом которой стал новый, самый быстрый и самый мощный в мире оптический нейроморфный процессор. Этот процессор, предназначенный для систем искусственного интеллекта, может обеспечивать производительность на уровне более 10 триллионов тензорных операций в секунду, чего достаточно для обработки в режиме реального времени очень и очень широких потоков данных. Данное достижение является "длинным прыжком вперед" в области нейронных сетей и нейроморфной обработки данных в целом.
Искусственные нейронные сети, на базе которых строятся практически все современные системы искусственного интеллекта, способны обучиться и эффективно выполнять тяжелые вычислительные задачи, связанные с машинным зрением, обработкой естественного языка, переводом речи с одного языка на другой, медицинской диагностикой и т.п. Структура искусственных нейронных практически скопирована со структуры зрительного участка коры головного мозга и, естественно, такие сети будут лучше и эффективней работать на аппаратных средствах, работающих на таких же принципах, как и головной мозг, т.е. на специализированных нейроморфных процессорах.
Созданный учеными оптический нейроморфный процессор демонстрирует в 1000 раз большую производительность, чем любой другой подобный процессор, созданный ранее. За счет этого он способен в режиме реального времени обрабатывать изображения с разрешающей способностью в 250 тысяч пикселей и выполнять задачу распознавания лиц, что было далеко за пределами возможностей других оптических процессоров.
Ключевыми компонентами, которые позволили получить потрясающую производительность нового процессора, являются так называемые оптические микрогребенки. Одна такая микрогребенка способна создать и манипулировать со светом, ширина полосы которого соответствует ширине полосы света, излученного сотнями инфроакрасных лазеров. Это, в свою очередь, позволяет при помощи одной микрогребенки передавать и кодировать данные, используя одновременно временное, частотное, амплитудное и пространственное модулирование и мультиплексирование.
На свете существуют электронные нейроморфные процессоры, такие, как Google TPU, обеспечивающие производительность в 100 TeraOPs/s. Однако, такая производительность достигается за счет параллельной работы тысяч специализированных микропроцессоров. В новом же оптическом нейроморфном процессоре его производительность в 11 TeraOPs/s была достигнута при использовании одного единственного процессора.
"Наш процессор способен стать своего рода "универсальным фронтэндом" с высокой пропускной способностью для любой нейроморфной вычислительной системы - электронной или оптической" - пишут исследователи, - "Он может обеспечить очень быстрое обучение системы на огромных наборах данных, а затем и работу системы в режиме реального времени, выполняя самые тяжелые из задач, для которых сейчас используется искусственный интеллект".
Исследование: https://www.nature.com/articles/s41586-020-03063-0
Нейронный сети. Эволюция 

Эта книга предназначена для всех, кто хочет разобраться в том, как устроены нейронные сети. Для тех читателей, кто хочет сам научиться программировать нейронные сети, без использования специализированных библиотек машинного обучения. Книга предоставляет возможность с нуля разобраться в сути работы искусственных нейронов и нейронных сетей, математических идей, лежащих в их основе, где от вас не требуется никаких специальных знаний, не выходящих за пределы школьного курса в области математики.
ColTran: нейросеть раскрашивает черно-белые изображения
Colorization Transformer — это нейросетевая модель, которая окрашивает черно-белые изображения и основывается на механизме внимания. Модель принимает на вход черно-белое изображение. Процесс окрашивания проходит в три этапа. Сначала авторегрессионная Transformer-модель производить окраску в низком разрешении. Архитектура модели использует условные Transformer слои для эффективной обработки изображений. Затем две параллельные нейросети улучшают разрешение и окраску изображения. По результатам экспериментов, модель обходит state-of-the-art архитектуры для раскраски изображений. В качестве метрики использовали FID и результаты опроса на платформе Mechanical Turk. В более чем 60% участники опроса предпочитали результат модели реальному изображению.
Предположим, что создана таблица persons с колонками id, name, age. Какой запрос найдет средний возраст всех людей с возрастом не менее 18-ти лет
#SQL

select avg(age) from persons where age >= 18 - 48
👍👍👍👍👍👍👍👍 79%
Это может быть сделано только с использованием подзапросов - 2
👍 3%
select avg(age) from persons having avg(age) >= 18 - 5
👍👍 8%
select avg(age) from persons where age >= 18 group by name - 2
👍 3%
select avg(age) from persons having age >= 18 group by name - 2
👍 3%
select avg(age) from persons having avg >=18 - 2
👍 3%
👥 61 человек уже проголосовал.
⬆️ Правильный ответ ⬆️
select avg(age) from persons where age >= 18
Логические нейронные сети
Исследуется возможность построения логических нейронных сетей, выполняющих операции вывода в составе систем искусственного интеллекта. Предлагаются методы построения обученных нейронных сетей, простые методы обучения-трассировки, методы преобразования описаний систем принятия решений для повышения достоверности выводов. Рассматривается возможность применения логических нейронных сетей в самообучающихся системах управления, системах экономики, транспорта, безопасности, защиты информации, при решении задач интеллектуального отображения, в бизнесе туризма и развлечений, при политическом и социальном прогнозировании и в других задачах.
Какой оператор SQL используется для возврата только разных значений?
#SQL

SELECT UNIQUE - 11
👍👍 11%
SELECT DIFFERENT - 1
👍 1%
SELECT DISTINCT - 87
👍👍👍👍👍👍👍👍 87%
Не один из перечисленных - 1
👍 1%
👥 100 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
SELECT DISTINCT
​​Ученые начинают внедрять живые нейроны в компьютерные микрочипы
Новость из Астонского университета (Великобритания) звучит как начало сюжета голливудского блокбастера, но ее авторы не сомневаются в успехе начинания. Ученые из Астона намереваются интегрировать живые стволовые клетки человеческого мозга в электронные чипы. Они полагают, что это позволит выстроить нейронную сеть нового типа, которая не будет ограничена параметрами существующей техники.

Цель озвучена амбициозная, исследователи хотят «использовать непревзойденную вычислительную мощность мозга разумного существа», чтобы научить компьютер решать задачи, неподвластные типовым алгоритмам. Речь идет не столько о творчестве или сложных материях, сколько о попытках наделить ИИ такими способностями, как интуиция, озарение, нестандартный подход к решению задач. Чтобы вычислительная мощность тратилась не на переборы миллионов вариантов, а на быстрый, но рациональный выбор на основе смекалки и опыта.
Проект носит название Neu-ChiP и формально посвящен разработке новой нейронной сети. Однако ее основу составят настоящие нейроны – живые нервные клетки, которые по мере роста будут адаптироваться и выстраиваться в заданную структуру, чтобы работать в связке с цифровым интерфейсом. Такой подход еще не породит полноценный ИИ, но позволит ставить перед нейросетью задачи, которые требуют нетривиального решения. Как именно это будет реализовано на практике, авторы проекта пока не уточняют.
Источник — Aston University
На фото нейроны, выращенные на CMOS-чипе. Снято сканирующим электронным микроскопом
1
Как профессиональные Data Engineer работают с моделями ML?

Приглашаем вас перенять экспертный опыт 11 февраля на демо-занятии «ML в Spark».
Вместе с Вадимом Заигриным, Software Engineering Team Lead в Teradata, вы за 2 часа разберете особенности ML в Spark, рассмотрите процесс разработки моделей, научитесь переводить обученные модели в production.

Демо-урок входит в программу онлайн-курса «Data Engineer». Для регистрации и участия в вебинаре, пройдите вступительный тест https://otus.pw/l2W3/
Для чего используется ключевое слово DISTINCT?
#SQL

Для ускорения выборки по конкретному полю - 1
👍 1%
Для снижения нагрузки на сервер с потерей производительности выполнения запроса
▫️ 0%
Для выборки количества уникальных записей в таблице - 9
👍👍 12%
Для выборки только уникальных записей по каждому полю - 63
👍👍👍👍👍👍👍👍 85%
Такого ключевого слова в стандарте SQL не существует - 1
👍 1%
👥 74 человека уже проголосовало.