Data Science | Machinelearning [ru] – Telegram
Data Science | Machinelearning [ru]
20K subscribers
621 photos
39 videos
29 files
3.52K links
Все о Data Science, машинном обучении и искусственном интеллекте: от базовой теории до cutting-edge исследований и LLM.

По вопросам рекламы или разработки - @g_abashkin

РКН: https://vk.cc/cJPGXD
Download Telegram
​​Руководство по Docker для аналитика даннных.

Представьте, как вы устанавливаете программное обеспечение, требующее установку всех его зависимостей. Придется столкнуться со множеством ошибок, вручную выяснить и устранить все их причины. Каждый раз — попытки запустить всю систему заново, чтобы наконец-то правильно завершить установку… Именно в этот момент на помощь приходит Docker, пытаясь серьезно облегчить жизнь. 

Читать...
​​Клуб использованных техлидов

Меня зовут Сергей. Я – использованный техлид. Долго думал, что я такой один – невезучий, потерявший всякий интерес к любимому делу, работающий от звонка до звонка. Оказалось, нет.

Читать далее...
​​Теория сильного ИИ

В данной статье рассматриваются алгоритмы абстрактного мышления и механизм побуждения разума к действию. Это мышление - главная загадка современности и есть мнение, что компьютер не в силах ее решить, что только душа человека на это способна. Что сначала будет создана урезанная версия ИИ, а только потом будет создан сильный ИИ похожий на человеческий.

Читать...
​​Привлекаем внимание технологов (и не только «Норникеля»)! Визуализация ML-модели на «архивных» данных

Идет очередной этап работы датасаентиста… обучена ML-модель, которая снизит издержки, повысит эффективность, сделает жизнь лучше, ничего не изменит, зато звучит модно. И вот настало время презентовать результаты ее работы. Если вы, как и я, работаете в промышленности, то на запланированную встречу наряду с менеджерами наверняка пригласят технологов с производства - именно они будут пользователями вашей системы, и успешность проекта может во многом зависеть от их заинтересованности и вовлеченности в совместную работу. Раз надо их заинтересовать, сделаем!

Читать...
​​Архитектура приложений Web 3.0

Архитектура приложений Web 3.0 (или «DApps») полностью отличается от приложений Web 2.0. 

Читать...
​​Как мы строим свою платформу для аналитиков

Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы.

Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше сил у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных.

Читать...
​​Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Читать...
​​Google представил нейросеть для детекции туберкулеза на радиограммах

Каждый год туберкулез убивает 1,4 миллиона человек по всему миру. Google присоединился к борьбе с болезнью, разработав нейронную сеть для автоматизации обнаружения и ускорения лечения туберкулеза. Применять ее планируется в местах, где не хватает квалифицированных врачей.

Читать...
​​Как за месяц создать систему учета посещаемости на базе распознавания лиц

В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как нелегко начиналась работа над этим проектом.
Наша команда, состоящая всего из двух инженеров, смогла создать рабочий прототип системы управления посещаемостью менее чем за месяц и масштабировать ее до более чем 1 000 сотрудников менее чем за 3 месяца.
Эта статья — история о подготовке к запуску программного продукта и технических проблемах, с которыми пришлось столкнуться при его создании.

Читать...
​​Исследуем микроорганизмы Байкала. Открытый проект MaritimeAI и Yandex Cloud

Ещё недавно подсчёт и определение разнообразных видов планктона сотрудники выполняли вручную: с помощью микроскопа, глаз и бланка, в котором отмечали наличие того или иного организма. Мы решили это автоматизировать — а заодно поделиться датасетом с сообществом на Гитхабе. В конце поста поясню, кому может быть полезен датасет, как он будет обновляться и что ещё появится в репозитории. Но давайте обо всём по порядку.

Читать...
​​Сравнение FineBI и Power BI

За последнее время, на рынке BI-услуг все чаще можно услышать упоминание нового игрока в лице китайской компании FanRuan.

Основанная в 2006 году, она является китайским лидером в продвижении систем бизнес-анализа в массы, с 15% долей локального рынка и более чем 15 тысяч клиентами.
Производитель китайского BI-решения, представляет продукт Fine BI как удобный инструмент для Self Service BI-анализа, способный стать заменой такому мировому гиганту как PowerBI, в сравнении с которым он будет сегодня рассмотрен более подробно.
Мы только начали делать это сравнение, поэтому будем рады, если вы в комментариях подскажите, какие блоки и функционал продуктов нужно сравнить.

Читать...
​​ClearML | Туториал

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

Читать...
​​Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Предлагаем рассмотреть несколько алгоритмов поиска выбросов, проведём первичное сравнение на различных датасетах и определим несколько наиболее оптимальных из них.

Читать...
​​Ищем выбросы. Критерий Шовене

Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект. Кроме того, статистические характеристики чувствительны к наличию выбросов.

Перед поиском выбросов следует помнить, что не существует формального определения выброса, и тот или иной алгоритм в силу своей жесткости или мягкости может удалять вместе с выбросами и часть нормальных данных или, наоборот, оставлять часть выбросов в данных.

Существуют различные подходы к решению этой проблемы. Разберем один из них — критерий Шовене.

Читать далее...
Как нейросеть видит Вселенную?

https://m.youtube.com/watch?v=KtKIr1bCt3g&feature=youtu.be
​​Как мы доработали чат-бота «Дану» и сделали её проницательнее и сообразительнее

На конференции BeeTech Conf 2022 мы рассказывали про первую версию «ванильного» чат-бота, а в статье представляем описание его новой версии 2.0 с дополненными инсайтами и лайфхаками.

Читать...
​​SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет

Специалисты обработки данных часто бывают удивлены, когда попадают в рабочую среду Data Science: существует большой разрыв между ожиданиями и реальностью. В этой статье мы поделимся 10 фактами о науке о данных, которые не подвергаются широкой огласке.

Читать...
​​Big Data + Machine Learning = Love

Ожидается, что в 2025 году ежегодный объем генерируемых данных превысит 160 зеттабайт. Однако почти все генерируемые сегодня данные (98%) затем удаляются или перезаписываются. Подобное отношение к генерируемым данным объясняется просто: у компаний пока еще не хватает инструментов для работы с такими колоссальными объемами. Но ведь эти данные — буквально золотая жила для бизнеса, поскольку оттуда можно выуживать ценнейшую информацию. И терять их для крупных компаний, значит, недополучать значительную долю прибыли. 

Читать...
​​Как я пошла на хакатон Data Science с нулевым опытом в Data Science

Всем, кто боится ходить на хакатоны, посвящается. Мой первый хакатон: опыт, впечатления и выводы, к которым я пришла.

Читать...
​​Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi.

Читать...