Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
631 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
KOTLIN -типы данных.
#kotlin
Наиболее фундаментальным типом данных в Kotlin является тип данных Primitive, а все остальные являются ссылочными типами, такими как массив и строка. Java должна использовать оболочки (java.lang.Integer), чтобы примитивные типы данных вели себя как объекты, но Kotlin уже имеет все типы данных в качестве объектов.

В Котлине есть разные типы данных —
Целочисленный тип данных
Тип данных с плавающей точкой
Логический тип данных
Тип данных персонажа
Целочисленный тип данных :
Эти типы данных содержат целочисленные значения.
​​Алгоритмы проверили на распознавание лиц в масках
Результат оказался в целом ожидаемым, хотя показатели ошибочности вполне можно назвать впечатляющими.
Национальный институт стандартов и технологий США начал серию исследований, цель которых — выяснить, насколько хорошо алгоритмы распознавания лиц работают в условиях масочного режима. Вопрос на сегодняшний день крайне актуальный, и некоторые производители заявляют, что уже разработали системы, способные распознавать лица в масках. Но в НИСТ начали по порядку и в первом исследовании протестировали 89 алгоритмов, созданных еще до начала пандемии.
В тесте было использовано более шести миллионов фотографий и алгоритмы должны были определить, насколько одно изображение человека соответствует другому — самая обычная в подобных случаях задача, используемая, в частности, для разблокирования смартфонов. От более сложного задания — найти соответствие одному во всей базе — исследователи решили отказаться. На изображения цифровым способом накладывались девять вариантов масок, отличающихся по форме и цвету.
В результате даже лучшие из 89 алгоритмов, которые в обычных условиях распознавали лица с точность в 99,7%, при использовании масок ошибались как минимум в 5% случаев. У большинства же уровень ошибочности составлял от 20% до 50%.
Основная причина заключалась в недостаточности информации об отличительных особенностях лиц, которые, собственно, и необходимы алгоритмам для распознавания. При этом специалисты НИСТ заметили, что на уровень ошибочности влияет форма и цвет маски — чем маска больше и чем выше она закрывает нос, тем сложнее алгоритму распознать изображение. Число ошибок было также выше при использовании черных масок, но, как признают сами авторы исследования, у них не хватило времени на то, чтобы тщательнее изучить «цветовой» вопрос.
В следующем исследовании специалисты НИСТ намерены проверить новые алгоритмы, в которые уже заложена функция распознавания лиц в масках.
ФУНКЦИИ В GO LANGUAGE
#GO
Функции, как правило, представляют собой блок кодов или операторов в программе, который дает пользователю возможность повторно использовать один и тот же код, что в конечном итоге экономит чрезмерное использование памяти, экономит время и, что более важно, обеспечивает лучшую читаемость кода. Таким образом, в основном, функция представляет собой набор операторов, которые выполняют определенную задачу и возвращают результат вызывающей стороне. Функция также может выполнять какую-то конкретную задачу, ничего не возвращая.
​​Новый ИИ замечает невидимые сходства между произведениями искусства
Появился новый алгоритм, который может изучать произведения искусства и находить сходства между ними. Модель обучает сама себя и становится лучше с каждой итерацией.
Новая система, разработанная исследователями из MIT, находит неочевидные сходства между произведениями искусства. Модель MosAIc сканирует изображения, а затем использует глубокие сети, чтобы найти сходства в них — это могут быть культурологические сходства, похожие методы работы или детали, которые не могут заметить даже искусствоведы.
Чтобы использовать MosAIc, пользователь загружает туда изображения, а алгоритм находит похожие произведения искусства. В одном из примеров MosAIc связал работы Франсиско де Сурбарана «Мученичество Святого Серапиона» и Яна Асселина «Испуганный лебедь». Исследователи пояснили, что эти два художника никогда не встречались друг с другом, не переписывались, однако модель смогла найти несколько сюжетов, которые лежали в основе двух работ.
Особенно сложным аспектом разработки MosAIc было создание алгоритма, который может найти не только сходство в цвете или стиле, но и сюжеты в произведениях искусства. Исследователи изучили глубокую сеть связей, которые уже замечали искусствоведы, а алгоритм изучал логику того, как одни произведения искусства связаны с другими.
Исследователи также использовали новую структуру данных для поиска изображений — KNN Tree, она объединяет картинки в древовидную структуру. Чтобы найти ближайшее совпадение одного изображения с другим, алгоритм начинает со «ствола» связей, а потом следует за ближайшим перспективным «ответвлением». Таким образом, структура данных улучшается самостоятельно.
Ученые надеются, что их разработка может быть полезна и в других областях — гуманитарных, общественных науках и медицине. «Эти области богаты информацией, которая никогда не обрабатывалась с помощью наших методов. Они могут стать источником вдохновения как для ученых, так и просто интересующихся людей».
КОТЛИН | ПОЛУЧИТЬ ЧАСТИ КОЛЛЕКЦИИ
#kotlin
Kotlin предоставляет функции расширения для извлечения частей коллекции. Функция-член, определенная вне класса, называется функцией расширения . Эти функции расширения могут предоставлять различные способы выбора различных элементов из списка.
Четыре функции расширения:

Кусочек
Возьми и брось
Блочная
Оконный
​​На музыкальном фестивале в США выступил ИИ. Он представил десятиминутный клип, который сняли специально для этого концерта.

На музыкальном фестиваля Lollapalooza, который в этом году проходит онлайн, выступил искусственный интеллект (ИИ). Аватар Miquela представил песню «Hard Feelings» и 10-минутный клип на композицию.
Miquela — это цифровой аватар, который изначально был инфлюенсером в социальных сетях. Однако в 2019 году робот выпустил несколько синглов и музыкальных клипов. Выступление на Lollapalooza стало для нее первым в истории.
Создатели Miquela — стартап Brud из Калифорнии. Это один из самых популярных аватаров в социальной сети Instagram. Согласно отчету маркетинговой платформы CreatorIQ, у Miquela более 1,8 млн активных подписчиков. Аналитика аккаунта показала, что коэффициент влияния Miquela на аудиторию составляет 2,54%, что соответствует среднему показателю человека-блогера.
По словам Николь де Айора, главного исполнительного директора компании Brud, им предложили выступление аватара сразу после новостей о переносе фестиваля Lollapalooza в онлайн. Компания сняла клип на «Hard Feelings» специально для этого концерта. Это видео сделали дистанционно: режиссер работал из Торонто, хореограф — из Нью-Йорка, а программисты и специалисты по ИИ — из Лос-Анджелеса.
В Brud объяснили, что в этом клипе они не хотели встраивать Miquela в окружающий мир, а сделали ее собственную вселенную. Видео сделали с помощью инструмента Unreal Engine, а для создания кадров использовали виртуальные камеры.
Функция расширения kotlin
#kotlin
Kotlin дает программисту возможность добавлять больше функциональности к существующим классам, не наследуя их . Это достигается с помощью функции, известной как расширения . Когда функция добавляется в существующий класс, она называется расширением функции .

Чтобы добавить функцию расширения к классу, определите новую функцию, добавленную к имени класса, как показано в следующем примере:
Основные недостатки языка Python
Язык программирования Python славится своей простотой и лаконичностью. Немногословный и понятный синтаксис, похожий на псевдокод, а также сильная динамическая типизация способствуют быстрому и безболезненному обучению новичков.

Интерпретатор языка берёт на себя всю низкоуровневую работу, освобождая программиста от необходимости ручного управления памятью. Практическая невозможность получить segmentation fault, а также удобная система исключений, снабжённая понятными сообщениями, позволяют оперативно отлаживать программы. Ситуации, когда их падения из-за возникшей ошибки требуют глубокого дебаггинга, достаточно редки.

Непереполняемые целые числа и безопасность при работе с контейнерами стандартной библиотеки делают из Python хорошее средство предварительного прототипирования идей, а большое число высококачественных математических библиотек обуславливают лидерство этого языка в области машинного обучения, анализа данных и научных вычислений.
ОПЕРАТОРЫ УПРАВЛЕНИЯ ЦИКЛАМИ НА ЯЗЫКЕ GO
#GO
Операторы управления циклами на языке Go используются для изменения выполнения программы. Когда выполнение данного цикла вышло из области видимости, объекты, созданные в области действия, также сносятся. Язык Go поддерживает 3 типа операторов управления циклами:

Перемена
Перейти к
Продолжить
Перерыв Заявление
Оператор break используется для завершения цикла или оператора, в котором он представлен. После этого элемент управления перейдет к операторам, представленным после оператора break, если они доступны. Если оператор break присутствует во вложенном цикле, то он завершает только те циклы, которые содержат оператор break.
Блок-схема:
Гениально или глупо? Самая неоднозначная нейросеть
Некоторые считают нейронную сеть экстремального обучения (ELM) одной из самых удачных нейросетей — изучению её архитектуры даже посвящена отдельная конференция. Сторонники ELM утверждают, что для выполнения стандартных задач ей нужно в разы меньше времени и примеров. С другой стороны, хоть такие нейросети пока мало представлены в сфере машинного обучения, они уже подвергаются жёсткой критике со стороны экспертов, в том числе и Яна Лекуна: по их мнению, ELM явно не заслуживает того внимания и доверия, которое ей оказывают.
Чаще всего концепцию нейросети экстремального обучения считают интересной.
__slots__

Python обладает широкими динамическими возможностями. Строгая динамическая неявная типизация позволяет не указывать типы, но при этом не бояться что в коде просуммируем строку и число. Однако за динамичность приходиться платить - памятью и скоростью.
Но что если хочется максимально уменьшить размер объектов (а в python все объекты) и при этом не потерять в функциональности? Для примера возьмем плоскость. На плоскости, пускай, надо разместить миллион точек (что не так много). При этом надо иметь возможность красить точку в разные цвета, расстояния подсчитывать и прочие действия.
Иными словами:
Алгоритмы в программировании: основные понятия

Алгоритмы описывают точную и понятную последовательность вычислительных действий на языке программирования.
Каждый алгоритм обладает следующими свойствами:
Пошаговость (Дискретность)
Алгоритм состоит из последовательности пошаговых команд. В самом начале вводится набор исходных данные (входные данные), на основе которых выполняется следующий шаг. Каждая последовательность команд выполняется лишь после того, как закончится выполнение предыдущего шага.
Определенность (Однозначность)
На каждом шаге алгоритма команда производит выполнение строго определенного действия. Однозначность полностью определяет перечень действий, которые необходимо выполнить.
Go в LiteIDE
#GO
Использование интегрированных сред разработки (IDE) в ряде случаев упрощает упроавление проектом и создание приложения. Для языка Go одной из популярных сред разработки является LiteIDE. Это бесплатная кроссплатформенная среда, которую можно свободно загрузить себе на рабочий компьютер. Официальный сайт IDE - http://liteide.org/en/.
Непосредственно загрузить все файлы данной IDE можно по
Пакетная обработка данных: как ускорить работу с big data в десятки раз
Data science [ru]
Разбираем одну мощнейшую методику обработки данных, позволяющую быстрее работать с большими данными. Это в несколько раз ускоряет бизнес-аналитику, получение отчетности и другие задачи, связанные с обработкой множества файлов.
Что читать про IT и Digital, чтобы не отстать от трендов.

Например, образовательный канал от GeekBrains. У ребят много полезных статей и кейсов, которые сделают вас лучше.

Маркетологам и эсэмэмщикам будет интересно почитать, как строить сторителлинг в SMM, настраивать рекламу в Тик Токе, увеличить онлайн-продажи (несколько неочевидных техник!).

Для тех, кто давно хотел научиться программировать - пошаговые гайды, с чего начать учить Python или Java. 

Дизайнеры, копирайтеры, верстальщики - для вас тоже есть годный контент. 

Держите: @geekbrains_ru
Когда данные слишком большие: Data Platform aaS как тренд

Большие данные (big data) возникают тогда, когда хранить информацию дешевле, чем ее выбросить. Так что люди склонны к накоплению данных. Аналитики Gartner прогнозируют, что в 2020 году мы будем хранить 40 зеттабайт неструктурированной информации. 90% этого объема образовалось за последние 2 года, и объем данных продолжает расти по экспоненте. В 2020 году каждый человек будет генерировать 1,7 МБ данных ежесекундно.
pathlib: удобное формирование путей в файловой системе

В python 3 есть полезный модуль pathlib для формирование путей в файловой системе.
Сравните пример
​​Обмануть систему распознавания лиц — легко

Новый инструмент конфиденциальности Fawkes сделает ваши фотографии менее узнаваемыми системами искусственного интеллекта, но вы даже не заметите разницы.
Повсеместное внедрение систем распознавания лиц начало приводить к появлению программ, обманывающих искусственные интеллекты. Это закон равенства действия и противодействия — третий закон Ньютона, который вполне применим и к социальной сфере.
Мысль о том, что фотографии, которыми мы делимся, собираются компаниями для обучения алгоритмов ИИ — не самая приятная. Но все мы так или иначе попадаем в базы. Сегодня можно купить доступ к одной из них, сфотографировать незнакомого человека и узнать все о нем за считанные секунды.
Например, фирма Clearview AI, занимающаяся распознаванием лиц, заверяет, что собрала около трех миллиардов снимков лиц с таких сайтов, как Facebook, YouTube и Venmo, которые используются для идентификации незнакомцев. Как не бороться с таким безобразием?
Поэтому был разработан специальный инструмент под названием Fawkes, созданный учеными из лаборатории SAND Sands университета Чикаго. В ней тоже используется искусственный интеллект, но он на нашей стороне. Тонко и почти неуловимо ИИ вносит коррективы в снимки, обманывая тем самым системы распознавания лиц.
Метод работы программного обеспечения нельзя назвать простым. Использование инструмента не сделает вас невидимым для систем распознавания лиц. Но программное обеспечение внесет незначительные изменения в ваши снимки, благодаря чему алгоритм сканирования изображений будет определять вас как совершенно другого человека. Это словно добавление невидимой маски.
По словам разработчиков Fawkes, эффективность программы составляет 100% и она легко обманывает современные сервисы распознавания лиц от Microsoft (Azure Face), Amazon (Rekognition) и Face ++ от китайской Megvii.
Попробуйте рассмотреть изменения сами. Слева представлены фото до обработки, а справа — после:
Машинное обучение в промышленности: управление производством, минимизация простоев и аварий

Минимизация простоев на производстве. Простои из-за поломок, сбоев или нехватки сырья могут стоить заводу миллионы долларов. Машинное обучение помогает их предотвратить. Для этого с датчиков на оборудовании собирают данные, а потом смотрят, при каких показателях возникают сбои. В будущем с помощью этой информации можно предсказать, когда и почему случится простой, как его избежать.
Что программисты ценят больше денег. 9 пунктов

Есть факторы, которые важнее денег. И они сильно влияют на мотивацию. Если работодатель их не обеспечивает, может возникнут ложное ощущение об ошибочно-выбранной профессии. А на самом деле надо просто поменять условия труда. Расскажем о них подробнее.