NEW BOT Телеграм, страница

Data Science | Machinelearning [ru]

Привлекаем внимание технологов (и не только «Норникеля»)! Визуализация ML-модели на «архивных» данных

Идет очередной этап работы датасаентиста… обучена ML-модель, которая снизит издержки, повысит эффективность, сделает жизнь лучше, ~~ничего не изменит, зато звучит модно~~. И вот настало время презентовать результаты ее работы. Если вы, как и я, работаете в промышленности, то на запланированную встречу наряду с менеджерами наверняка пригласят технологов с производства - именно они будут пользователями вашей системы, и успешность проекта может во многом зависеть от их заинтересованности и вовлеченности в совместную работу. Раз надо их заинтересовать, сделаем!

Читать...

3.73K views16:37

Data Science | Machinelearning [ru]

Архитектура приложений Web 3.0

Архитектура приложений Web 3.0 (или «DApps») полностью отличается от приложений Web 2.0.

Читать...

3.45K views11:07

Data Science | Machinelearning [ru]

Как мы строим свою платформу для аналитиков

Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы.

Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше сил у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных.

Читать...

3.7K views15:37

Data Science | Machinelearning [ru]

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Читать...

4.44K views07:37

Data Science | Machinelearning [ru]

Google представил нейросеть для детекции туберкулеза на радиограммах

Каждый год туберкулез убивает 1,4 миллиона человек по всему миру. Google присоединился к борьбе с болезнью, разработав нейронную сеть для автоматизации обнаружения и ускорения лечения туберкулеза. Применять ее планируется в местах, где не хватает квалифицированных врачей.

Читать...

3.45K views18:07

Data Science | Machinelearning [ru]

Что означает идиома на английском " It's not rocket science"?

3.23K views10:38

неверное предположение

простое для понимания

ошибка в научных исследованиях

посмотреть ответы

Data Science | Machinelearning [ru]

Как за месяц создать систему учета посещаемости на базе распознавания лиц

В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как нелегко начиналась работа над этим проектом.
Наша команда, состоящая всего из двух инженеров, смогла создать рабочий прототип системы управления посещаемостью менее чем за месяц и масштабировать ее до более чем 1 000 сотрудников менее чем за 3 месяца.
Эта статья — история о подготовке к запуску программного продукта и технических проблемах, с которыми пришлось столкнуться при его создании.

Читать...

3.36K views16:37

Data Science | Machinelearning [ru]

Исследуем микроорганизмы Байкала. Открытый проект MaritimeAI и Yandex Cloud

Ещё недавно подсчёт и определение разнообразных видов планктона сотрудники выполняли вручную: с помощью микроскопа, глаз и бланка, в котором отмечали наличие того или иного организма. Мы решили это автоматизировать — а заодно поделиться датасетом с сообществом на Гитхабе. В конце поста поясню, кому может быть полезен датасет, как он будет обновляться и что ещё появится в репозитории. Но давайте обо всём по порядку.

Читать...

3.08K views13:37

Data Science | Machinelearning [ru]

Сравнение FineBI и Power BI

За последнее время, на рынке BI-услуг все чаще можно услышать упоминание нового игрока в лице китайской компании FanRuan.

Основанная в 2006 году, она является китайским лидером в продвижении систем бизнес-анализа в массы, с 15% долей локального рынка и более чем 15 тысяч клиентами.
Производитель китайского BI-решения, представляет продукт Fine BI как удобный инструмент для Self Service BI-анализа, способный стать заменой такому мировому гиганту как PowerBI, в сравнении с которым он будет сегодня рассмотрен более подробно.
Мы только начали делать это сравнение, поэтому будем рады, если вы в комментариях подскажите, какие блоки и функционал продуктов нужно сравнить.

Читать...

3.4K views15:37

Data Science | Machinelearning [ru]

ClearML | Туториал

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

Читать...

3.37K views15:37

Data Science | Machinelearning [ru]

Библиотека PyOD: сравниваем алгоритмы поиска выбросов

Предлагаем рассмотреть несколько алгоритмов поиска выбросов, проведём первичное сравнение на различных датасетах и определим несколько наиболее оптимальных из них.

Читать...

3.83K views15:37

Data Science | Machinelearning [ru]

Ищем выбросы. Критерий Шовене

Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект. Кроме того, статистические характеристики чувствительны к наличию выбросов.

Перед поиском выбросов следует помнить, что не существует формального определения выброса, и тот или иной алгоритм в силу своей жесткости или мягкости может удалять вместе с выбросами и часть нормальных данных или, наоборот, оставлять часть выбросов в данных.

Существуют различные подходы к решению этой проблемы. Разберем один из них — критерий Шовене.

Читать далее...

4.7K views10:38

Data Science | Machinelearning [ru]

Как нейросеть видит Вселенную?

https://m.youtube.com/watch?v=KtKIr1bCt3g&feature=youtu.be

3.88K views18:07

Data Science | Machinelearning [ru]

Как мы доработали чат-бота «Дану» и сделали её проницательнее и сообразительнее

На конференции BeeTech Conf 2022 мы рассказывали про первую версию «ванильного» чат-бота, а в статье представляем описание его новой версии 2.0 с дополненными инсайтами и лайфхаками.

Читать...

3.76K views15:37

Data Science | Machinelearning [ru]

SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет

Специалисты обработки данных часто бывают удивлены, когда попадают в рабочую среду Data Science: существует большой разрыв между ожиданиями и реальностью. В этой статье мы поделимся 10 фактами о науке о данных, которые не подвергаются широкой огласке.

Читать...

3.77K views16:07

Data Science | Machinelearning [ru]

Big Data + Machine Learning = Love

Ожидается, что в 2025 году ежегодный объем генерируемых данных превысит 160 зеттабайт. Однако почти все генерируемые сегодня данные (98%) затем удаляются или перезаписываются. Подобное отношение к генерируемым данным объясняется просто: у компаний пока еще не хватает инструментов для работы с такими колоссальными объемами. Но ведь эти данные — буквально золотая жила для бизнеса, поскольку оттуда можно выуживать ценнейшую информацию. И терять их для крупных компаний, значит, недополучать значительную долю прибыли.

Читать...

3.74K views11:07

Data Science | Machinelearning [ru]

Как я пошла на хакатон Data Science с нулевым опытом в Data Science

Всем, кто боится ходить на хакатоны, посвящается. Мой первый хакатон: опыт, впечатления и выводы, к которым я пришла.

Читать...

3.57K views15:37

Data Science | Machinelearning [ru]

Распознавание речи, генерация субтитров и изучение языков при помощи Whisper

Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi.

Читать...

3.61K views15:37

Data Science | Machinelearning [ru]

Первый нейросетевой переводчик для эрзянского языка

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.
Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

Читать...

3.54K views15:37

Data Science | Machinelearning [ru]

Непрерывное обучение для продакшен-систем

Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.

Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.

Но что произойдёт, когда мы осуществим переход к Software 2.0?

Читать...

3.38K views15:37

Data Science | Machinelearning [ru]

Эволюция архитектуры данных: как потребности бизнеса изменили инструменты для хранения данных

Команда VK Cloud перевела статью о том, как с течением времени менялась и развивалась архитектура данных и какие инструменты появлялись в ответ на потребности бизнеса.

Читать...

3.26K views15:37

About

Blog

Apps

Platform