Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20.1K subscribers
629 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
Какой оператор SQL используется для вставки новых данных в базу данных?
#SQL

ADD - 2
👍 2%
STORE
▫️ 0%
ADD NEW - 1
👍 1%
INSERT INTO - 111
👍👍👍👍👍👍👍👍 94%
INSERT NEW - 3
👍 3%
ADD RECORD - 1
👍 1%
👥 118 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
INSERT INTO
«Жидкая» нейросеть изменяет алгоритмы прямо в процессе работы и становится умнее
Ученые разработали так называемую «жидкую» нейронную сеть, которая может учиться во время работы. Она способна постоянно адаптироваться к текущим задачам в режиме реального времени, а ее алгоритмы принимают решения на основе постоянно меняющихся потоков данных.
Нейронные сети — это алгоритмы машинного обучения, которые используют набор обучающих примеров для распознавания закономерностей. Поведение большинства нейронных сетей фиксируется после фазы обучения, то есть они плохо приспосабливаются к изменениям во входящем потоке данных. «Жидкие» сети — это тип нейронных сетей, которые могут изменять свои параметры в режиме реального времени, существенно улучшая свою способность анализировать меняющиеся данные.
Свое вдохновение авторы разработки — исследователи из MIT — черпали в биологии, в частности, у небольшого круглого червя Caenorhabditis elegans, который генерирует неожиданно сложные комбинации поведения, несмотря на ограниченное количество нейронов. «Жидкая» сеть была разработана путем тщательного анализа того, как нейроны червя активируются и взаимодействуют друг с другом с помощью электрических импульсов. 
У Liquid Neural Network есть ряд преимуществ, а именно:
«Жидкие» сети делают модель более стабильной, повышая ее устойчивость к неожиданным и зашумленным данным. Например, они могут заставить алгоритмы адаптироваться к сильным дождям, которые мешают обзору беспилотного автомобиля.

«Жидкая» сеть делает алгоритм более интерпретируемым. Ученые считают, что она поможет решить проблему «черного ящика» алгоритмов машинного обучения из-за другой природы нейронов.

«Жидкая» сеть показала лучшие результаты по сравнению с другими временными рядами в прогнозировании будущих значений в наборах данных, используемых в атмосферной химии и схемах движения. 
Помимо высокой надежности, новая модель также помогает снизить вычислительные затраты. Ученые стремились к меньшему количеству узлов сети, но при этом чтобы они были больше. Другими словами, исследование было сосредоточено на уменьшении масштаба сети, а не на его увеличении.
Исследователи видят будущее «жидких» сетей в управлении роботами, обработке естественного языка и видео — в общем, в любой форме обработки данных временных рядов (собранных в разные моменты времени статистических материалов о значении каких-либо параметров исследуемого процесса). 
Например, огромный прогресс был достигнут в разработке умных роботов, которые работают с людьми, но тут оставалась серьезная проблема с точки зрения безопасности и этики. «Жидкие» сети помогут преодолеть эти проблемы. Возможность принятия решений в режиме реального времени также повысит безопасность роботов и людей, работающих в тандеме (например, на складах или на дороге). Или, к примеру, социальные боты или чат-боты в прошлом часто ошибались при формировании ответов. А благодаря улучшенной интерпретации «жидкие» сети помогут избежать подобных ошибок за счет улучшения алгоритмов обработки естественного языка. 
Кроме того, данные временных рядов широко используются в медицинской диагностике и разработке лекарств. «Жидкие» сети также могут ускорить эти процессы.
В дальнейшем планируется, что Liquid Neural Network станет важным элементом будущих интеллектуальных систем. По словам исследователей MIT, следующим шагом будет улучшение существующей системы и ее подготовка к промышленному применению.
Дана таблица people:
+-----+--------------+-------+
|Num | Name | Amount|
+-----+--------------+-------+
| 1 | Kate | 15 |
| 2 | Misha | NULL |
| 3 | Nick | 0 |
| 4 | Larisa | 20 |
+-----+--------------+-------+
Какой будет результат выполнения запроса SELECT COUNT(Amount) FROM people;?

4 - 44
👍👍👍👍👍👍👍👍 42%
Запрос завершится ошибкой поскольку присутствует NULL - 14
👍👍👍 13%
UNKNOWN, поскольку присутситвует NULL - 9
👍👍 9%
3 - 38
👍👍👍👍👍👍👍 36%
👥 105 человек уже проголосовало.
⬆️ Правильный ответ ⬆️
3

Объяснение:
В процессе агрегирования (в данном случае при вычислении количества) значения NULL игнорируются (то есть считается количество строк со значением не NULL).
​​Разработан датчик зрения для следующего поколения ИИ
Чтобы до конца раскрыть свой потенциал, компьютеру, который имитирует работу человеческого мозга, нужен оптический датчик, повторяющий функции нашего зрения. Уже были попытки создать такой датчик, но его производство оказывалось слишком сложным. Новое устройство — это простой светочувствительный конденсатор, который точно имитирует определенные особенности сетчатки человеческого глаза. Разработка обещает настоящий прорыв в развитии искусственного интеллекта и в робототехнике.
Предыдущие попытки создать ретиноморфный датчик — устройство, имитирующее человеческое зрение, — базировались на программном обеспечении либо очень сложном оборудовании. Но новый датчик, разработанный в Университете штата Орегон, имеет относительно простую конструкцию на базе перовскитных полупроводников.
Фактически это простой светочувствительный конденсатор на основе металлогалогенных перовскитов, который выдает кратковременный всплеск напряжения в ответ на изменение интенсивности падающего света, но при постоянном освещении показывает нулевое напряжение. А перовскиты в последнее время активно изучают в качестве перспективного материала для солнечных батарей — при воздействии света он меняет свои изолирующие свойства на проводящие.
Человеческое зрение лучше реагирует на движущиеся объекты и чуть хуже — на неподвижные. То есть в оптической схеме нашего зрения в приоритете — сигналы от фоторецепторов, которые фиксируют изменение интенсивности света. Самый простой пример — феномен Трокслера: когда вы долго вглядываетесь в фиксированную точку, статические объекты в вашем периферийном зрении начинают исчезать.
Традиционные микросхемы цифровых камер и смартфонов лучше подходят для последовательной обработки. Изображения сканируются датчиками пиксель за пикселем с определенной частотой. Амплитуда сигнала, который генерирует каждый датчик, напрямую зависит от интенсивности света, который он получает. Следовательно, статическое изображение приведет к более или менее постоянному выходному напряжению от датчика.
А ретиноморфный датчик, наоборот, «спокоен» при статическом окружении. Когда освещенность меняется, он показывает короткий всплеск напряжения, а затем быстро возвращается к своему базовому состоянию. Это связано с фотоэлектрическими свойствами перовскита, который в датчике нанесен ультратонкими слоями толщиной всего несколько сотен нанометров. По сути, он выступает как конденсатор, который изменяет свою емкость при освещении.
Разработчики проверяли работу датчика: движущиеся объекты были яркими и четкими, статичные — сливались с темнотой. Это отражает особенности зрительного восприятия у млекопитающих.
Также они протестировали датчик на разных ситуациях. Ему «показали» видеозапись тренировки по бейсболу — в результате игроки на поле выглядели как четкие и яркие движущиеся объекты, а относительно статичные объекты наподобие трибун сливались с темным фоном. И датчик «увидел» летящую птицу, которая исчезла, потому что перестала двигаться возле кормушки, и снова появилась, когда взлетела.
Новый датчик по всем параметрам подходит для нейроморфных компьютеров, которые станут основой для следующего поколения искусственного интеллекта.
К примеру, если такими датчиками оснастить робота, отслеживающего движение каких-то объектов, то все неподвижные объекты в его поле зрения не вызовут реакции, однако на движение он сразу отзовется высоким напряжением. Это немедленно сообщит роботу, где находится объект, и все это без сложной обработки изображения.
Сами авторы разработки описывают масштаб своего изобретения, сравнивая его с пикселем, который теперь может самостоятельно выполнять некие действия, для которых раньше был нужен микропроцессор.


Реакция ретиноморфного датчика на разные объекты. Изображение: Университет штата Орегон ⬇️
Какое ключевое слово запрещено использовать совместно с оператором ROLLUP?
#SQL

GROUP BY - 4
👍👍 9%
HAVING - 2
👍👍 5%
ORDER BY - 18
👍👍👍👍👍👍👍 41%
LIMIT - 20
👍👍👍👍👍👍👍👍 45%
👥 44 человека уже проголосовало.
⬆️ Правильный ответ ⬆️
ORDER BY

Объяснение
Операторы ROLLUP и ORDER BY являются взаимоисключающими.
Выходные (кластерные) элементы сети Кохонена обычно представляют расположенными тем или иным образом в двумерном пространстве.
Выходные (кластерные) элементы сети Кохонена обычно представляют расположенными тем или иным образом в двумерном пространстве. Разместим, к примеру, выходные элементы в виде квадратной сетки и зададим начальный радиус обучения равным 2. Подаем на вход сети вектор и элементом-победителем оказывается нейрон, обозначенный на схеме красным цветом. По алгоритму обучения мы должны обновить значения весов для этого нейрона, а также для тех, которые попадают в круг заданного радиуса (в данном случае 2) – эти элементы выделены зеленым: (1)
Ближе к концу процесса обучения радиус уменьшается. Пусть он стал равным единице, тогда обновляться будут веса следующих элементов: (2)
Итак, разобрав все составляющие процесса обучение давайте напишем конкретный алгоритм для этого процесса:
берем учебный вектор и вычисляем квадрат евклидова расстояния от него до каждого из кластерных элементов сети
находим минимальное из полученных значений и определяем элемент-победитель
для нейрона-победителя, а также для тех нейронов, которые попали в заданный радиус, выполняем корректировку весов связей
обновляем значения нормы обучения и радиуса
продолжаем обучение, если не выполнено условие остановки обучения
Остановка обучения происходит в том случае, если величины изменения весов становятся очень маленькими. И на этом моменте предлагаю сегодня остановиться, поскольку статья получилась довольно большой.
Какова функция команды GRANT в SQL?
#SQL

Оставить все изменения в БД, до тех пор пока не закончится старая транзакция и не начнется новая
▫️ 0%
Передача прав для выполнения определенных действий над таблицей - 58
👍👍👍👍👍👍👍👍 95%
Отмечает начало блока в котором описаны команды другого языка - 2
👍 3%
Для смены логина и пароля пользователей - 1
👍 2%
👥 61 человек уже проголосовал.
⬆️ Правильный ответ ⬆️
Передача прав для выполнения определенных действий над таблицей
Искусственный интеллект научился предсказывать новые химические реакции

Достижения наших учёных продолжают радовать общественность. Химики разработали нейросеть, которая может обучаться химическим законам и использовать их для предсказания новых реакций между сложными органическими соединениями. Ее создание ускорит и упростит поиски новых лекарств.
За последние годы ученые значительно продвинулись в разработке систем искусственного интеллекта. Созданные за это время нейросети могут выполнять нетривиальные задачи и даже «мыслить» творчески, создавая новые образцы искусства и технологий. Это стало возможным благодаря развитию вычислительных систем и появлению новых математических принципов, которые описывают устройство и работу систем машинного обучения.
Учёные приспособили нейросети для поиска новых химических реакций между уже известными веществами. При этом искусственный интеллект опирается на знания, которые получает, изучая законы химии и уже известные взаимодействия между изучаемыми молекулами.
Как правило, новые вещества и реакции между ними ученые открывают практически в «ручном» режиме, путем проб и ошибок, и мысленных экспериментов. Численные методы и химические алгоритмы в подобной работе используют очень редко. Однако при оптимизации уже открытых молекул и процессов, в которых они участвуют, их применяют достаточно широко. Это во многом связано с тем, что для работы с такими инструментами нужно не только знать законы химии и известные реакции, но и уметь открывать новые закономерности и применять их. Это недоступно всем существующим классическим и большинству нейросетевых алгоритмов.
В ходе новой работы химики из России, предположили, что эту проблему можно решить, если использовать нейросеть со своей собственной памятью, которая может запоминать цепочки реакций. Благодаря этому искусственный интеллект может научиться химическим законам, которые управляют реакциями между разными классами веществ, и использовать их для предсказания новых.
​​Спутниковые ЦОД LyteLoop будут хранить данные на орбите в световых лучах.
Американский стартап LyteLoop приближается к запуску своих первых спутников, которые будут хранить информацию не на твердых носителях, а в движущихся фотонах. Стартап потратил пять лет на проработку концепции и регистрацию патентов, а на днях привлек $40 млн. финансирования от ряда неназванных инвесторов на испытания трех аппаратов. Цель LyteLoop – разместить защищенные и энергоэффективные центры обработки данных на околоземной орбите. Первая партия будет отправлена в космос до конца 2023 года.
Компания планирует хранить в космосе сотни петабайт или даже экзабайты данных, что эквивалентно объему наземного ЦОД, построенного на базе тысячи серверов. Технология стартапа предполагает запуск кластера, который выйдет на орбитe целиком, а затем разделится на несколько установок. Эти установки разойдутся в разные стороны и образуют восьмиугольное созвездие, внутри которого данные будут передаваться перманентно посредством световых лучей.
Данные на спутниках будут храниться в фотонах, а не на физических носителях. Такой подход даст нескольких принципиальных преимуществ. Спутники будут легче и в несколько раз меньше обычных серверов, так как для увеличения емкости им нужно будет увеличить не число дисков хранения данных, а число фотонов, то есть света, которым манипулирует система. А сами фотонные лучи позволят зашифровать информацию лучше, чем это делают распространенные системы безопасности, повысив уровень защиты до квантового.
«Все современные ЦОД ограничены одним максимальным уровнем безопасности для данных. Все, что можно применить на Земле, можем применить и мы в нашем ЦОД, но за счет того, что мы храним данных в фотонах, мы также можем использовать квантовое шифрование. Кроме того, наши данные всегда находятся в движении и передаются со скоростью света, поэтому их сложнее отследить и перехватить», — сообщил гендиректор.
Трансляция информации будет происходить за счет лазеров с высокой пропускной способностью. Точные показатели спутников стартапа пока неизвестны, но глава компании Охад Харлев утверждает, что ЦОД LyteLoop будет примерно в 500 раз эффективнее и быстрее традиционных решений.
Что касается затрат на спутниковые ЦОД, то вывести спутник на орбиту будет дороже, чем построить аналогичное хранилище на Земле. Однако эта разница полностью нивелируется стоимостью обслуживания и энергозатратами. Спутники будут питаться от солнечных панелей, независимо от циклов дня и ночи, им не нужны будут огромные запасы воды для систем охлаждения, как и системы пожаротушения и резервного энергоснабжения, а также им не требуется регулярное техобслуживание, так как в них не будет постоянного механического износа дисков. При этом она обеспечить быстрый доступ к информации из любой точки планеты.
​​⚠️Переобучение нейросетей: в чем проблема и как ее решить

'''С момента описания первого искусственного нейрона Уорреном Мак-Каллоком и Уолтером Питтсом прошло более пятидесяти лет. С тех пор многое изменилось, и сегодня нейросетевые алгоритмы применяются повсеместно. И хотя нейронные сети способны на многое, исследователи при работе с ними сталкиваются с рядом трудностей: от переобучения до проблемы «черного ящика»'''.


Главная проблема нейросетей — переобучение. Оно заключается в том, что сеть «запоминает» ответы вместо того, чтобы улавливать закономерности в данных. Наука поспособствовала появлению на свет нескольких методов борьбы с переобучением: сюда относятся, например, регуляризация, нормализация батчей, наращивание данных и другие. Иногда переобученная модель характеризуется большими абсолютными значениями весов.

Механизм этого явления примерно такой: исходные данные нередко сильно многомерны (одна точка из обучающей выборки изображается большим набором чисел), и вероятность того, что наугад взятая точка окажется неотличимой от выброса, будет тем больше, чем больше размерность. Вместо того, чтобы «вписывать» новую точку в имеющуюся модель, корректируя веса, нейросеть как будто придумывает сама себе исключение: эту точку мы классифицируем по одним правилам, а другие — по другим. И таких точек обычно много.

📌Очевидный способ борьбы с такого рода переобучением – регуляризация весов. Она состоит либо в искусственном ограничении на значения весов, либо в добавлении штрафа в меру ошибки на этапе обучения. Такой подход не решает проблему полностью, но чаще всего улучшает результат.

📌Второй способ основан на ограничении выходного сигнала, а не значений весов, — речь о нормализации батчей. На этапе обучения данные подаются нейросети пачками — батчами. Выходные значения для них могут быть какими угодно, и тем их абсолютные значения больше, чем выше значения весов. Если из каждого из них мы вычтем какое-то одно значение и поделим результат на другое, одинаково для всего батча, то мы сохраним качественные соотношения (максимальное, например, все равно останется максимальным), но выход будет более удобным для обработки его следующим слоем.

📌Третий подход работает не всегда. Как уже говорилось, переобученная нейросеть воспринимает многие точки как аномальные, которые хочется обрабатывать отдельно. Идея состоит в наращивании обучающей выборки, чтобы точки были как будто той же природы, что и исходная выборка, но сгенерированы искусственно. Однако тут сразу рождается большое число сопутствующих проблем: подбор параметров для наращивания выборки, критическое увеличение времени обучения и прочие.
​​Отличаем DataScience от MachineLearning
Многие новички начитавшись статей про DataScience и Машинное обучение , относят эти два совершрнно разные ветки ComputerScience к одной иерархии.

Так в чём же их отличия?!

📊DataScience:

Наука о данных это глубокие познания о выводимых данных. Чтобы заниматься наукой о данных необходимо знать математику на высоком уровне, алгоритмические техники, бизнес-аналитику и даже психологию. Все это нужно чтобы перелопатить огромную кучу инфы и обнаружить полезный инсайт или интересные закономерности.

Наука о данных базируется вокруг строгих аналитических доказательств и работает со структурированными и не структурированными данными. В принципе все, что связано с отбором, подготовкой и анализом, лежит в пределах науки о данных.

- Выводы из данных
- Python и sql
- Используется большой объем оперативной памяти и SSD
- Сложная обработка ввода данных
- данные о человеческих потребителях

Примеры применения науки о данных:
- Тактическая оптимизация — улучшение маркетинговых кампаний, бизнес-процессов.
- Прогнозируемая аналитика — прогноз спросов и событий.- Рекомендательные системы — Amazon, Netflix.
- Системы автоматического принятия решений — например распознавание лиц или даже беспилотники.
- Социальные исследования — обработка анкет или данных, полученных любым другим способом.

Если говорить простым языком, то наука о данных вмещает в себя все перечисленные в заголовке понятия.

🤖Машинное обучение

Машинное обучение тесно связано с наукой о данных. Это техника искусственного обучения, которую применяют для сбора больших данных. По-простому это возможность обучить систему или алгоритм получать различные представления из массива.

При машинном обучении для построения модели прогнозирования целевых переменных используется некий первичный набор знаний. Машинное обучение применимо к различным типам сложных систем: от регрессионных моделей и метода опорных векторов до нейронных сетей. Здесь центром является компьютер, который обучается распознавать и прогнозировать.

Примеры алгоритмов:
- Модели, которые могут прогнозировать поведение пользователя.
- Классификационные модели, которые могут узнать и отфильтровать спам.
- Рекомендательные системы — изучают предпочтения пользователя и пытаются угадать, что ему может понадобиться.
- Нейронные сети — не только распознают образы, но и сами могут их создавать.
​​📊SQL или NoSQL — вот в чём вопрос🤔

Что такое реляционные и нереляционные базы данных

👉🏻Реляционная база данных (SQL) — база, где данные хранятся в формате таблиц, они строго структурированы и связаны друг с другом. В таблице есть строки и столбцы, каждая строка представляет отдельную запись, а столбец — поле с назначенным ей типом данных. В каждой ячейке информация записана по шаблону.

👉🏻Нереляционная база данных (NoSQL) — хранит данные без четких связей друг с другом и четкой структуры. Вместо структурированных таблиц внутри базы находится множество разнородных документов, в том числе изображения, видео и даже публикации в социальных сетях. В отличие от реляционных БД, NoSQL базы данных не поддерживают запросы SQL.


Реляционные базы данных, или базы данных SQL

Особенности. Основная особенность — надежность и неизменяемость данных, низкий риск потери информации. При обновлении данных их целостность гарантирована, они заменяются в одной таблице.
Реляционные базы данных, в отличие от нереляционных, соответствуют ACID — это требования к транзакционным системам. Соответствие им гарантирует сохранность данных и предсказуемость работы базы данных:

Atomicity, или атомарность — ни одна транзакция не будет зафиксирована в системе частично.

Consistency, или непротиворечивость — фиксируются только допустимые результаты транзакций.

Isolation, или изолированность — на результат транзакции не влияют транзакции, проходящие параллельно ей.

Durability, или долговечность — изменения в базе данных сохраняются несмотря на сбои или действия пользователей.

При работе с такими СУБД надо учитывать, что любые изменения в объектах нужно отражать в структуре таблиц, физическая структура данных не соответствует объектной модели приложения.
Реляционные БД идеальны для работы со структурированными данными, структура которых не подвержена частым изменениям.

Нереляционные базы данных, или базы данных NoSQL

Особенности. В отличие от реляционных, в нереляционных базах данных схема данных является динамической и может меняться в любой момент времени. К данным сложнее получить доступ, то есть найти внутри базы что-то нужное — с таблицей это просто, достаточно знать координаты ячейки. Зато такие СУБД отличаются производительностью и скоростью. Физические объекты в NoSQL обычно можно хранить прямо в том виде, в котором с ними потом работает приложение.
Базы данных NoSQL подходят для хранения больших объемов неструктурированной информации, а также хороши для быстрой разработки и тестирования гипотез.
В них можно хранить данные любого типа и добавлять новые в процессе работы.

Масштабируемость. NoSQL базы имеют распределенную архитектуру, поэтому хорошо масштабируются горизонтально и отличаются высокой производительностью. Технологии NoSQL могут автоматически распределять данные по разным серверам. Это повышает скорость чтения данных в распределенной среде.
Язык R, не смотря на своё узкое назначение, входит в топ 10 наиболее популярных языков программирования согласно различным рейтингам, включая TIOBE. А для анализа данных R является чуть ли не стандартом отрасли и является достойным соперником Python.

Хочу порекомендовать канал @R4marketing. Автором которого является Алексей Селезнёв, руководитель отдела аналитики в Netpeak.

Канал посвящён языку R. На данный момент там собрано огромное количество русскоязычных материалов по изучения R:

- Статьи
- Видео уроки
- Вебинары и доклады с конференций
- Заметки по R
- Книги
- Бесплатные онлайн курсы
- Новости и релизы из мира R

В канале опубликовано более 500 ссылок на русскоязычные материалы по R.

Кому интересно - подписывайтесь!

https://news.1rj.ru/str/R4marketing
🧠Виды нейронных сетей.👾

Новые виды архитектуры нейронных сетей появляются постоянно, и в них можно запутаться. Мы собрали для вас своеобразную шпаргалку, содержащую большую часть существующих видов ИНС. Хотя все они представлены как уникальные, картинки свидетельствуют о том, что многие из них очень похожи.

https://telegra.ph/Tipy-nejronnyh-setej-03-03
​​Чем искусственный интеллект отличается от машинного обучения?

*AI* Искусственный интеллект нацелен на создание художественной компьютерной системы, подобной людям, для решения сложных проблем.

*ML* позволяет машинам учиться на данных, чтобы они могли выдавать точный результат

*AI* В зависимости от возможностей ИИ можно разделить на 3 типа. Слабый ИИ, Общий ИИ и сильный ИИ.

*ML* ML делится на 3 типа: обучение с учителем, обучение без учителя и обучение с подкреплением.

*AI* Системы искусственного интеллекта заинтересованы в максимальном увеличении шкалы успеха.

*ML* Машинное обучение в основном связано с точностью и закономерностями.

*AI* ИИ позволяет машине имитировать поведение человека.

*ML* Машинное обучение - это разновидность искусственного интеллекта

*AI* В основном имеет дело со структурированными полуструктурированными и неструктурированными данными.

*ML* ML работает со структурированными и полуструктурированными данными.

*AI* Применение ИИ - это Siri, поддержка клиентов с помощью кэтботов, интеллектуальных гуманоидных роботов и т. Д.

*ML* Применением машинного обучения являются системы рекомендаций, алгоритмы поиска, предложения автоматической пометки друзей в Facebook и т. Д.