Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
631 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Будущее рядом — освой профессию Data Scientist

Раньше мы с огромным интересом смотрели фильмы про искусственный интеллект и гадали, как же это пришло в голову сценаристам и режиссёрам, ведь так не бывает. 
Но в реалиях настоящей жизни искусственный интеллект — это не фантазии американских сценаристов-выдумщиков. Это реальность, которая стремительно врывается в нашу жизнь. Но с одной поправкой. Незаменимый помощник Data Scientist — специалист по машинному обучению, который выбирает архитектуру и обучающие алгоритмы, для работы с этими данными.
 
И у тебя как раз есть шанс стать тем самым незаменимым специалистом благодаря курсу от Skillbox «Профессия Data Scientist». 

На курсе тебе предстоит научиться очень многим интересным вещам: от программирования на Python и визуализации данных до программирования на R и применения нейронных сетей для решения реальных задач.
Skillbox даёт возможность сначала уделить время обучению, а заботы с оплатой можно отложить на полгода.

После прохождения курса не стоит переживать о том, где найти работу. Эти заботы берут на себя опытные HR-специалисты.

Открой мир будущего — переходи по ссылке https://clc.to/yMN_xg и бронируй место на курсе со скидкой 40%.
This media is not supported in your browser
VIEW IN TELEGRAM
Генераторы списков

Если вы использовали Python достаточно долго, вы должны были хотя бы слышать о понятии «list comprehensions». Это способ уместить цикл for, блок if и присваивание в одну строку.
Генератор списков - яркий пример «синтаксического сахара». То есть конструкции, без которой легко можно обойтись, но с ней намного лучше :) Генераторы списков, как это не странно, предназначены для удобной обработки списков, к которой можно отнести и создание новых списков, и модификацию существующих. Допустим, нам необходимо получить список нечетных чисел, не превышающих 25. В принципе, только познакомившись с работой команды xrange решить эту проблему несложно.
This media is not supported in your browser
VIEW IN TELEGRAM
Sequencer: алгоритм ищет зависимости в данных
Sequencer — это алгоритм, который автоматически извлекает основные закономерности в данных. Для этого Sequencer переупорядочивает набор объектов, чтобы получить наиболее длинное многообразие, описывающее сходства объектов. Алгоритм использует четыре разные метрики. Метрики включают в себя евклидово расстояние, KL-дивергенцию, метрику Васерштейна и энергетическое расстояние. Sequencer масштабируется на любой датасет.
Алгоритм принимает во внимание разные уровни в данных. Каждый объект во входном датасете делится на отдельные части (чанки). Между чанки измеряется схожесть. Затем информация о каждом чанке агрегируется отдельно для каждой метрики и уровня.
This media is not supported in your browser
VIEW IN TELEGRAM
Синтаксис Python: переменная __all__
Вы наверное слышали фразу "wild import - зло". В коде это выглядит так
В основе современных цифровых продуктов лежат технологии искусственного интеллекта, глубокого и машинного обучения. Индустрия востребована, но квалифицированных специалистов мало — самое время прокачаться в Data Science.

На бесплатном занятии в Нетологии узнаете о возможностях обучения нейросетей, машинного и глубокого обучения, необходимом скилсете и путях входа в профессиональную область.

Регистрируйтесь, это бесплатно → http://netolo.gy/fFb
This media is not supported in your browser
VIEW IN TELEGRAM
В Тюменском университете ученые показали всему миру свое изобретение – биоморфный нейропроцессор. Чем же он отличается от уже существующих? А тем, что существующие нейропроцессоры ускоряют расчеты в искусственных нейросетях на простейших нейронах, обеспечивают работу компьютерного зрения, машинного обучения и других систем со слабым искусственным интеллектом (ИИ).

Новый нейропроцессор способен генерировать новые ассоциации (новое знание), не заложенное в нем ранее. То есть искусственный интеллект получил возможность осмысливать новое знание. А это означает, что мы находимся на грани перехода от слабого ИИ к сильному ИИ.

Ученые уже показали самообучение по ассоциациям и генерацию новых ассоциаций. Сейчас аппаратное тестирование новой системы продолжается.
This media is not supported in your browser
VIEW IN TELEGRAM
Интересные концепции: REPL (Read-eval-print loop)

REPL (Read-eval-print loop) — среда для интерактивного программирования.
В такой среде пользователь может вводить выражения, которые среда тут же будет вычислять, а результат вычисления отображать пользователю.
IT-журнал «Завтра облачно» → @zavtra_oblachno

Доступно рассказываем о технологиях и разработке, делимся свежими IT-новостями и тонкостями работы с облаками и не только.

А ещё вас ждут ответы на любые вопросы об IT, анонсы интересных мероприятий и многое другое.

Подписаться → https://news.1rj.ru/str/zavtra_oblachno
This media is not supported in your browser
VIEW IN TELEGRAM
Синтаксис Python: трехместное выражение if/else

Сегодня хочется упомянуть о непонятной на первый взгляд конструкции - тернарная условная операция, или по-русски - трехместное выражение if/else.
Представим, есть такой код:
This media is not supported in your browser
VIEW IN TELEGRAM
Искусственный интеллект, как оказалось, весьма неплохо справляется с задачей обработки зеркально отраженных изображений.
Компьютерная обработка изображений — нетривиальная задача для искусственного интеллекта. Поэтому на этапе машинного обучения, когда электронный «разум» ищет общие черты у объектов на снимках и заполняет свою базу данных, требуется огромное количество изображений. Чтобы сократить время поиска «тренировочных» картинок, исследователи часто хитрят: зеркально отражают часть изображений, увеличивая их число вдвое.
Думаешь, Data Science — только для продвинутых? Убедись, что для разработки искусственного интеллекта достаточно базовой арифметики! Попробуй свои силы на бесплатном интенсиве от Skillbox.

Регистрация по ссылке: 🔜 https://clc.to/Mw-qww.
Опыт в программировании для участия не нужен!


Что тебя ждёт?
⚙️ Экспресс-введение в Python.
⚙️ Работа с библиотеками Matplotlib и Scikit-Learn.
⚙️ Загрузка и визуализация данных.
⚙️ Построение модели от начала до конца.
⚙️ Оценка качества полученной модели.

🎁 А если твой проект будет одним из лучших, получишь сертификат на 30 000 рублей для поступления на любой курс онлайн-университета Skillbox!
This media is not supported in your browser
VIEW IN TELEGRAM
Синтаксис Python: yield from
Рассмотрим еще одну страшную конструкцию в Python 3.3+ - yield from
Напомню, генератор это объект который можно про итерировать только однажды. Записывается как:
This media is not supported in your browser
VIEW IN TELEGRAM
Ошибки при внедрении ML

Прежде чем машинное обучение начнет улучшать результаты, компаниям нужно научиться его использовать. Любое обучение (особенно самостоятельное) невозможно без ошибок. 

Компании ставят неправильные цели
 
Большинство попыток внедрения машинного обучения заканчиваются неудачами. Одна из причин — непонимание возможностей технологии и ее специфики. Нужно определить бизнес-цель, установить показатели, по которым будет определяться успешность ее достижения. На основе этого сформировать требования для машинного обучения. 
Глобальные бизнес-метрики компаний обычно связаны с прибыльностью. Их редко получается использовать при постановке задач машинного обучения. Для ML используют промежуточные бизнес-метрики. Например, маркетинговые: охват уникальных пользователей, CTR, конверсия из перехода на сайт в регистрацию, конверсия в продажу из регистрации, повторные продажи.
Один из самых важных факторов успеха — определение технических метрик, которые учитывают все аспекты бизнес-задач.
video_1740286_2939154.gif
10 MB
Разработан новый алгоритм для Большого адронного коллайдера на основе ИИ

Большой адронный коллайдер (БАК) вблизи Женевы, Швейцария, стал известен всему миру в 2012 году благодаря обнаружению бозона Хиггса. Это открытие стало решающим подтверждением Стандартной модели физики элементарных частиц. На сегодняшний день на LHC проводится проект ATLAS — на одноимённом детекторе, предназначенном для исследования протон-протонных столкновений. Сейчас детектор ждет обновление с высокой светимостью для операций, которое планируется начать в 2027 году. С этой целью команда физиков и ученых разработала алгоритм на основе машинного обучения, который приближает нынешний детектор к реагированию на значительно большее количество данных, ожидаемых при обновлении. Исследование публикует Journal of Instrumentation.
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть научилась вычислять операторов беспилотников
Когда несанкционированный беспилотник пролетает в запретной зоне, власти по понятным причинам хотят найти его оператора. Новая система на основе искусственного интеллекта может позволить им сделать это, преуспевая там, где другие технологии терпят неудачу.
🔎 Авито в поиске аналитиков

Зарплата: От 100К рублей и выше
Уровень: От уверенного junior и выше
Город: Москва

#Авито — самый популярный сервис объявлений в Европе. Наша месячная аудитория 34,7 миллиона человек. В реальном времени на Авито «живут» более 47 миллионов объявлений.

Мы ищем аналитиков на несколько направлений:

Product Analyst (Verticals) — https://clc.to/Product_Analyst
Data Analyst (Tech Platform) — https://clc.to/Data_Analyst_TechPlatform
Data Analyst (Market Intelligence) — https://clc.to/Data_Analyst_MI

А также Team Lead (Marketing Analytics) — https://clc.to/Team_Lead

➡️ Несколько фактов об аналитике в Авито:

• Аналитики в Авито — это полноценные партнеры в развитии бизнеса и продукта
• Мы не берёмся за задачи, не имея чёткого ответа на вопрос «зачем?» и «что мы будем делать по-другому, когда узнаем Х?»
• Мы очень любим Tableau и у нас каждый сотрудник имеет доступ в общий аналитической портал и к ключевым отчетам
• У нас очень много данных, которые мы все собираем в Vertica (и чуть-чуть в ClickHouse) — в день это 5+ млрд событий
• Кроме очень крутой команды аналитиков у нас есть крутейшая команда DWH & Analytical Infrastructure, которые очень помогают в решении насущных инфрастуктурных проблем и автоматизации типовых аналитических задач

Подробную информацию по каждой вакансии и условиях работы в Авито можно узнать при переходе по ссылкам ⬆️

🙋🏻‍♂️Откликнуться на вакансию: @dozmorovadv и @tanastasiav
This media is not supported in your browser
VIEW IN TELEGRAM
Полезные инструменты: virtualenv + pip
Опыт показывает, что каждый проект обладает своими зависимостями (библиотеками), а если и одинаковыми, то версии не совпадают. Чтобы упростить запуск и настройку проекта разработчики пишут INSTALL.mdREADME.mdmake-файлы и что более важно - requirements.txt.
Файл requirements.txt - это правило хорошего тона для Python проектов. Файл содержит список необходимых библиотек для запуска с указанием версий:
This media is not supported in your browser
VIEW IN TELEGRAM
Nokia разработала новую операционную систему
Известная компания Nokia разработала новую операционную систему. Сообщается, что сетевая операционная система нового поколения для центров обработки данных получившая название Nokia Service Router Linux (SR Linux) NOS, была разработана совместно с представителями крупнейших компаний, в числе которых Apple.

Более того, уже сейчас в Apple развертывают решение Nokia в своем фирменном облачном центре обработки данных. Представители Nokia, в свою очередь, заявляют, что новинка является первой сетевой операционной системой, которая построена на новейших микросервисах.

Помимо операционной системы Nokia разработала инструментарий для автоматизации и эксплуатации сетей. Nokia FSP является решением, которое в первую очередь предназначено для развертывания и контроля всей сети центра обработки данных. В основу нового продукта финской компании легла мощная архитектура сетевого уровня.
This media is not supported in your browser
VIEW IN TELEGRAM
В России создали новую систему цифрового мониторинга
С помощью новой системы цифрового мониторинга безопасности можно будет оперативно обнаружить аномалии на производстве.
Когда подавляющее большинство традиционных производственных процессов уже основано на искусственном интеллекте, машинном обучении, анализе больших данных и системных командах на основе этого анализа, вопросы цифровой безопасности становятся определяющими. Важно не просто определить аномалию, которая может повлиять как на конкретный производственный цикл, так и на систему в целом, но и сделать это максимально оперативно: с помощью цифровых настроек или ручного вмешательства исправить «помарку» или устранить угрозу в системе.
This media is not supported in your browser
VIEW IN TELEGRAM
Новая модель искусственного интеллекта (ИИ) определяет жесты с точностью до 85%. Для ее создания ученые изучили то, как работает мозг человека.
Исследователи из Наньянгского и Сиднейского технологических университетов разработали систему машинного обучения, которая может распознавать жесты рук. Для этого она анализирует изображения с помощью растягивающихся тензометрических датчиков. Архитектура искусственного интеллекта (ИИ) описана в журнале Nature Electronics, ученые вдохновились устройством мозга человека.