Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
631 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
lambda-функции
Python поддерживает интересный синтаксис, позволяющий определять небольшие однострочные функции на лету. Позаимствованные из Lisp, так называемые lambda-функции могут быть использованы везде, где требуется функция.
Небольшой пример...
This media is not supported in your browser
VIEW IN TELEGRAM
Google представил пользователям YouTube функцию с искусcтвенным интеллектом

Google SmartReply — это технология на основе искусственного интеллекта, которая помогает предлагать ответы на сообщения в Gmail, Android-сообщениях, Play Developer Console и других местах. В Google объявили о выпуске обновленной версии SmartReply, созданной для YouTube. Она позволит авторам легче и быстрее взаимодействовать со своими подписчиками в комментариях, сообщает Tech Crunch.
This media is not supported in your browser
VIEW IN TELEGRAM
langid.py
Представим ситуацию: есть блог, в котором публикуются посты на двух языках (а может и на 10). Необходимо рассортировать посты по языкам в разные RSS. (постов очень много, пускай 1000)
Вопрос - как вы решили бы такую задачу?
Чтобы решить подобную задачу можно воспользоваться библиотекой langid.py. Это небольшой инструмент, который без доступа в Интернет(!!!) может определить язык текста (и слова).
Инструмент работает и из консоли, и как web сервис, а также как обычный Python-модуль:
>>> import langid
>>> langid.classify("This is a test")
('en', 0.99999999099035441)
Ссылка на инструмент:
https://github.com/saffsd/langid.py
Для всех, кто интересуется Data Science и ищет работу в этом направлении — рекомендуем вам канал с предложениями по работе в этой области.
@datasciencejobs специализируется только на узкоспециализированных релевантных вакансиях: ничего лишнего, только лучшие вакансии по теме с обязательным указанием предлагаемой зарплаты.

Сбор, обработка и анализ данных; искуственный интеллект; нейросети; машинное и глубокое обучение; обработка натурального языка; рекомендательные системы; системы компьютерного зрения; распознавание образов и текстов; свёрточные сети и многое многое другое.

Приходите в мир науки и искусственного интеллекта
👉 https://news.1rj.ru/str/datasciencejobs
This media is not supported in your browser
VIEW IN TELEGRAM
*args, **kwargs
При написании кода не всегда хочется явно прописывать все аргументы. Например - на вход программы подается набор аргументов:
This media is not supported in your browser
VIEW IN TELEGRAM
Искусственный интеллект в международных отношениях: эпоха «цифровой дипломатии»

Международные отношения на современном этапе находятся в плачевном состоянии, в связи с чем слышатся призывы усовершенствовать функционирование международной дипломатии. Один из способов сделать это мог бы заключаться в использовании некоторых достижений научно-технического прогресса для налаживания межгосударственного взаимодействия. В число областей, где такой подход уже применяется, вошла международная дипломатия, для развития которой применяется искусственный интеллект (ИИ). В частности, решения в области ИИ уже активно используются в Китае для проработки дипломатами сценариев развития событий на международной арене. ИИ также всё больше используется в рамках экономической дипломатии применительно к торговым переговорам. В будущем важно сделать так, чтобы развивающиеся страны имели возможность пользоваться ИИ при заключении международных договоров и развитии международного сотрудничества.
​​Будущее рядом — освой профессию Data Scientist

Раньше мы с огромным интересом смотрели фильмы про искусственный интеллект и гадали, как же это пришло в голову сценаристам и режиссёрам, ведь так не бывает. 
Но в реалиях настоящей жизни искусственный интеллект — это не фантазии американских сценаристов-выдумщиков. Это реальность, которая стремительно врывается в нашу жизнь. Но с одной поправкой. Незаменимый помощник Data Scientist — специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными.
 
И у тебя как раз есть шанс стать тем самым незаменимым специалистом благодаря курсу от Skillbox «Профессия Data Scientist». 

На курсе тебе предстоит научиться очень многим интересным вещам: от программирования на Python и визуализации данных до программирования на R и применения нейронных сетей для решения реальных задач.
Skillbox даёт возможность сначала уделить время обучению, а заботы с оплатой можно отложить на полгода.

После прохождения курса не стоит переживать о том, где найти работу. Эти заботы берут на себя опытные HR-специалисты.

Открой мир будущего — переходи по ссылке https://clc.to/yMN_xg и бронируй место на курсе со скидкой 40%.
This media is not supported in your browser
VIEW IN TELEGRAM
Генераторы списков

Если вы использовали Python достаточно долго, вы должны были хотя бы слышать о понятии «list comprehensions». Это способ уместить цикл for, блок if и присваивание в одну строку.
Генератор списков - яркий пример «синтаксического сахара». То есть конструкции, без которой легко можно обойтись, но с ней намного лучше :) Генераторы списков, как это не странно, предназначены для удобной обработки списков, к которой можно отнести и создание новых списков, и модификацию существующих. Допустим, нам необходимо получить список нечетных чисел, не превышающих 25. В принципе, только познакомившись с работой команды xrange решить эту проблему несложно.
This media is not supported in your browser
VIEW IN TELEGRAM
Sequencer: алгоритм ищет зависимости в данных
Sequencer — это алгоритм, который автоматически извлекает основные закономерности в данных. Для этого Sequencer переупорядочивает набор объектов, чтобы получить наиболее длинное многообразие, описывающее сходства объектов. Алгоритм использует четыре разные метрики. Метрики включают в себя евклидово расстояние, KL-дивергенцию, метрику Васерштейна и энергетическое расстояние. Sequencer масштабируется на любой датасет.
Алгоритм принимает во внимание разные уровни в данных. Каждый объект во входном датасете делится на отдельные части (чанки). Между чанки измеряется схожесть. Затем информация о каждом чанке агрегируется отдельно для каждой метрики и уровня.
This media is not supported in your browser
VIEW IN TELEGRAM
Синтаксис Python: переменная __all__
Вы наверное слышали фразу "wild import - зло". В коде это выглядит так
В основе современных цифровых продуктов лежат технологии искусственного интеллекта, глубокого и машинного обучения. Индустрия востребована, но квалифицированных специалистов мало — самое время прокачаться в Data Science.

На бесплатном занятии в Нетологии узнаете о возможностях обучения нейросетей, машинного и глубокого обучения, необходимом скилсете и путях входа в профессиональную область.

Регистрируйтесь, это бесплатно → http://netolo.gy/fFb
This media is not supported in your browser
VIEW IN TELEGRAM
В Тюменском университете ученые показали всему миру свое изобретение – биоморфный нейропроцессор. Чем же он отличается от уже существующих? А тем, что существующие нейропроцессоры ускоряют расчеты в искусственных нейросетях на простейших нейронах, обеспечивают работу компьютерного зрения, машинного обучения и других систем со слабым искусственным интеллектом (ИИ).

Новый нейропроцессор способен генерировать новые ассоциации (новое знание), не заложенное в нем ранее. То есть искусственный интеллект получил возможность осмысливать новое знание. А это означает, что мы находимся на грани перехода от слабого ИИ к сильному ИИ.

Ученые уже показали самообучение по ассоциациям и генерацию новых ассоциаций. Сейчас аппаратное тестирование новой системы продолжается.
This media is not supported in your browser
VIEW IN TELEGRAM
Интересные концепции: REPL (Read-eval-print loop)

REPL (Read-eval-print loop) — среда для интерактивного программирования.
В такой среде пользователь может вводить выражения, которые среда тут же будет вычислять, а результат вычисления отображать пользователю.
IT-журнал «Завтра облачно» → @zavtra_oblachno

Доступно рассказываем о технологиях и разработке, делимся свежими IT-новостями и тонкостями работы с облаками и не только.

А ещё вас ждут ответы на любые вопросы об IT, анонсы интересных мероприятий и многое другое.

Подписаться → https://news.1rj.ru/str/zavtra_oblachno
This media is not supported in your browser
VIEW IN TELEGRAM
Синтаксис Python: трехместное выражение if/else

Сегодня хочется упомянуть о непонятной на первый взгляд конструкции - тернарная условная операция, или по-русски - трехместное выражение if/else.
Представим, есть такой код:
This media is not supported in your browser
VIEW IN TELEGRAM
Искусственный интеллект, как оказалось, весьма неплохо справляется с задачей обработки зеркально отраженных изображений.
Компьютерная обработка изображений — нетривиальная задача для искусственного интеллекта. Поэтому на этапе машинного обучения, когда электронный «разум» ищет общие черты у объектов на снимках и заполняет свою базу данных, требуется огромное количество изображений. Чтобы сократить время поиска «тренировочных» картинок, исследователи часто хитрят: зеркально отражают часть изображений, увеличивая их число вдвое.
Думаешь, Data Science — только для продвинутых? Убедись, что для разработки искусственного интеллекта достаточно базовой арифметики! Попробуй свои силы на бесплатном интенсиве от Skillbox.

Регистрация по ссылке: 🔜 https://clc.to/Mw-qww.
Опыт в программировании для участия не нужен!


Что тебя ждёт?
⚙️ Экспресс-введение в Python.
⚙️ Работа с библиотеками Matplotlib и Scikit-Learn.
⚙️ Загрузка и визуализация данных.
⚙️ Построение модели от начала до конца.
⚙️ Оценка качества полученной модели.

🎁 А если твой проект будет одним из лучших, получишь сертификат на 30 000 рублей для поступления на любой курс онлайн-университета Skillbox!
This media is not supported in your browser
VIEW IN TELEGRAM
Синтаксис Python: yield from
Рассмотрим еще одну страшную конструкцию в Python 3.3+ - yield from
Напомню, генератор это объект который можно про итерировать только однажды. Записывается как:
This media is not supported in your browser
VIEW IN TELEGRAM
Ошибки при внедрении ML

Прежде чем машинное обучение начнет улучшать результаты, компаниям нужно научиться его использовать. Любое обучение (особенно самостоятельное) невозможно без ошибок. 

Компании ставят неправильные цели
 
Большинство попыток внедрения машинного обучения заканчиваются неудачами. Одна из причин — непонимание возможностей технологии и ее специфики. Нужно определить бизнес-цель, установить показатели, по которым будет определяться успешность ее достижения. На основе этого сформировать требования для машинного обучения. 
Глобальные бизнес-метрики компаний обычно связаны с прибыльностью. Их редко получается использовать при постановке задач машинного обучения. Для ML используют промежуточные бизнес-метрики. Например, маркетинговые: охват уникальных пользователей, CTR, конверсия из перехода на сайт в регистрацию, конверсия в продажу из регистрации, повторные продажи.
Один из самых важных факторов успеха — определение технических метрик, которые учитывают все аспекты бизнес-задач.
video_1740286_2939154.gif
10 MB
Разработан новый алгоритм для Большого адронного коллайдера на основе ИИ

Большой адронный коллайдер (БАК) вблизи Женевы, Швейцария, стал известен всему миру в 2012 году благодаря обнаружению бозона Хиггса. Это открытие стало решающим подтверждением Стандартной модели физики элементарных частиц. На сегодняшний день на LHC проводится проект ATLAS — на одноимённом детекторе, предназначенном для исследования протон-протонных столкновений. Сейчас детектор ждет обновление с высокой светимостью для операций, которое планируется начать в 2027 году. С этой целью команда физиков и ученых разработала алгоритм на основе машинного обучения, который приближает нынешний детектор к реагированию на значительно большее количество данных, ожидаемых при обновлении. Исследование публикует Journal of Instrumentation.