Привлекаем внимание технологов (и не только «Норникеля»)! Визуализация ML-модели на «архивных» данных
Идет очередной этап работы датасаентиста… обучена ML-модель, которая снизит издержки, повысит эффективность, сделает жизнь лучше,ничего не изменит, зато звучит модно. И вот настало время презентовать результаты ее работы. Если вы, как и я, работаете в промышленности, то на запланированную встречу наряду с менеджерами наверняка пригласят технологов с производства - именно они будут пользователями вашей системы, и успешность проекта может во многом зависеть от их заинтересованности и вовлеченности в совместную работу. Раз надо их заинтересовать, сделаем!
Читать...
Идет очередной этап работы датасаентиста… обучена ML-модель, которая снизит издержки, повысит эффективность, сделает жизнь лучше,
Читать...
Как мы строим свою платформу для аналитиков
Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы.
Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше сил у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных.
Читать...
Привет, с вами снова Галина Вакулина, и в этой статье я расскажу, как мы строим платформу для аналитиков и избавляем их от ненужной работы.
Цель нашей команды — сделать так, чтобы в Точке работать с данными было удобно и быстро. Чем меньше времени аналитик тратит на рутину, тем больше сил у него остаётся на исследования, придумывание новых метрик, построение дашбордов, проверку гипотез и просто захватывающее копание в данных.
Читать...
Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных
У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.
Читать...
У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.
Читать...
Google представил нейросеть для детекции туберкулеза на радиограммах
Каждый год туберкулез убивает 1,4 миллиона человек по всему миру. Google присоединился к борьбе с болезнью, разработав нейронную сеть для автоматизации обнаружения и ускорения лечения туберкулеза. Применять ее планируется в местах, где не хватает квалифицированных врачей.
Читать...
Каждый год туберкулез убивает 1,4 миллиона человек по всему миру. Google присоединился к борьбе с болезнью, разработав нейронную сеть для автоматизации обнаружения и ускорения лечения туберкулеза. Применять ее планируется в местах, где не хватает квалифицированных врачей.
Читать...
Что означает идиома на английском " It's not rocket science"?
Как за месяц создать систему учета посещаемости на базе распознавания лиц
В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как нелегко начиналась работа над этим проектом.
Наша команда, состоящая всего из двух инженеров, смогла создать рабочий прототип системы управления посещаемостью менее чем за месяц и масштабировать ее до более чем 1 000 сотрудников менее чем за 3 месяца.
Эта статья — история о подготовке к запуску программного продукта и технических проблемах, с которыми пришлось столкнуться при его создании.
Читать...
В этом месяце наша система управления посещаемостью достигла отметки в 900 000 событий всего через год после запуска. Однако радость от сегодняшних достижений не может стереть из памяти то, как нелегко начиналась работа над этим проектом.
Наша команда, состоящая всего из двух инженеров, смогла создать рабочий прототип системы управления посещаемостью менее чем за месяц и масштабировать ее до более чем 1 000 сотрудников менее чем за 3 месяца.
Эта статья — история о подготовке к запуску программного продукта и технических проблемах, с которыми пришлось столкнуться при его создании.
Читать...
Исследуем микроорганизмы Байкала. Открытый проект MaritimeAI и Yandex Cloud
Ещё недавно подсчёт и определение разнообразных видов планктона сотрудники выполняли вручную: с помощью микроскопа, глаз и бланка, в котором отмечали наличие того или иного организма. Мы решили это автоматизировать — а заодно поделиться датасетом с сообществом на Гитхабе. В конце поста поясню, кому может быть полезен датасет, как он будет обновляться и что ещё появится в репозитории. Но давайте обо всём по порядку.
Читать...
Ещё недавно подсчёт и определение разнообразных видов планктона сотрудники выполняли вручную: с помощью микроскопа, глаз и бланка, в котором отмечали наличие того или иного организма. Мы решили это автоматизировать — а заодно поделиться датасетом с сообществом на Гитхабе. В конце поста поясню, кому может быть полезен датасет, как он будет обновляться и что ещё появится в репозитории. Но давайте обо всём по порядку.
Читать...
Сравнение FineBI и Power BI
За последнее время, на рынке BI-услуг все чаще можно услышать упоминание нового игрока в лице китайской компании FanRuan.
Основанная в 2006 году, она является китайским лидером в продвижении систем бизнес-анализа в массы, с 15% долей локального рынка и более чем 15 тысяч клиентами.
Производитель китайского BI-решения, представляет продукт Fine BI как удобный инструмент для Self Service BI-анализа, способный стать заменой такому мировому гиганту как PowerBI, в сравнении с которым он будет сегодня рассмотрен более подробно.
Мы только начали делать это сравнение, поэтому будем рады, если вы в комментариях подскажите, какие блоки и функционал продуктов нужно сравнить.
Читать...
За последнее время, на рынке BI-услуг все чаще можно услышать упоминание нового игрока в лице китайской компании FanRuan.
Основанная в 2006 году, она является китайским лидером в продвижении систем бизнес-анализа в массы, с 15% долей локального рынка и более чем 15 тысяч клиентами.
Производитель китайского BI-решения, представляет продукт Fine BI как удобный инструмент для Self Service BI-анализа, способный стать заменой такому мировому гиганту как PowerBI, в сравнении с которым он будет сегодня рассмотрен более подробно.
Мы только начали делать это сравнение, поэтому будем рады, если вы в комментариях подскажите, какие блоки и функционал продуктов нужно сравнить.
Читать...
Ищем выбросы. Критерий Шовене
Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект. Кроме того, статистические характеристики чувствительны к наличию выбросов.
Перед поиском выбросов следует помнить, что не существует формального определения выброса, и тот или иной алгоритм в силу своей жесткости или мягкости может удалять вместе с выбросами и часть нормальных данных или, наоборот, оставлять часть выбросов в данных.
Существуют различные подходы к решению этой проблемы. Разберем один из них — критерий Шовене.
Читать далее...
Обнаружение выбросов и аномалий всегда актуально для исследователя. Если решаются задачи прогнозирования, то удаление нетипичных значений, как правило, повышает точность предсказаний, поскольку данные без аномалий представляют собой нормальный (типичный) объект. Кроме того, статистические характеристики чувствительны к наличию выбросов.
Перед поиском выбросов следует помнить, что не существует формального определения выброса, и тот или иной алгоритм в силу своей жесткости или мягкости может удалять вместе с выбросами и часть нормальных данных или, наоборот, оставлять часть выбросов в данных.
Существуют различные подходы к решению этой проблемы. Разберем один из них — критерий Шовене.
Читать далее...
Как мы доработали чат-бота «Дану» и сделали её проницательнее и сообразительнее
На конференции BeeTech Conf 2022 мы рассказывали про первую версию «ванильного» чат-бота, а в статье представляем описание его новой версии 2.0 с дополненными инсайтами и лайфхаками.
Читать...
На конференции BeeTech Conf 2022 мы рассказывали про первую версию «ванильного» чат-бота, а в статье представляем описание его новой версии 2.0 с дополненными инсайтами и лайфхаками.
Читать...
SkyNet придет не скоро: 10 вещей в Data Science, о которых вам никто не расскажет
Специалисты обработки данных часто бывают удивлены, когда попадают в рабочую среду Data Science: существует большой разрыв между ожиданиями и реальностью. В этой статье мы поделимся 10 фактами о науке о данных, которые не подвергаются широкой огласке.
Читать...
Специалисты обработки данных часто бывают удивлены, когда попадают в рабочую среду Data Science: существует большой разрыв между ожиданиями и реальностью. В этой статье мы поделимся 10 фактами о науке о данных, которые не подвергаются широкой огласке.
Читать...
Big Data + Machine Learning = Love
Ожидается, что в 2025 году ежегодный объем генерируемых данных превысит 160 зеттабайт. Однако почти все генерируемые сегодня данные (98%) затем удаляются или перезаписываются. Подобное отношение к генерируемым данным объясняется просто: у компаний пока еще не хватает инструментов для работы с такими колоссальными объемами. Но ведь эти данные — буквально золотая жила для бизнеса, поскольку оттуда можно выуживать ценнейшую информацию. И терять их для крупных компаний, значит, недополучать значительную долю прибыли.
Читать...
Ожидается, что в 2025 году ежегодный объем генерируемых данных превысит 160 зеттабайт. Однако почти все генерируемые сегодня данные (98%) затем удаляются или перезаписываются. Подобное отношение к генерируемым данным объясняется просто: у компаний пока еще не хватает инструментов для работы с такими колоссальными объемами. Но ведь эти данные — буквально золотая жила для бизнеса, поскольку оттуда можно выуживать ценнейшую информацию. И терять их для крупных компаний, значит, недополучать значительную долю прибыли.
Читать...
Распознавание речи, генерация субтитров и изучение языков при помощи Whisper
Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi.
Читать...
Есть ряд платных решений по переводу речи в текст (Automatic Speech Recognition). Сравнительно малыми усилиями можно сделать бесплатное решение, — дообучить на своих данных end2end модель (например, взять фреймворк NeMo от NVIDIA) или гибридную модель типа kaldi.
Читать...
Первый нейросетевой переводчик для эрзянского языка
Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.
Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.
Читать...
Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.
Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.
Читать...
Непрерывное обучение для продакшен-систем
Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.
Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.
Но что произойдёт, когда мы осуществим переход к Software 2.0?
Читать...
Методология agile-разработки ПО, популяризированная примерно в 2010 году манифестом Agile Software Development, продвигает идею адаптивного планирования, эволюционного развития, быстрой доставки и непрерывного совершенствования как ключевых свойств, обеспечивающих быстрый и гибкий отклик на постоянно ускоряющиеся изменения рынка и его требований.
Поскольку линейные каскадные модели, позаимствованные из отраслей производства и строительства, оказались неспособны обеспечить конкурентное преимущество в постоянно усложняющемся и быстро меняющемся мире ПО, модели Agile и Scrum стали де-факто стандартом для современной разработки ПО.
Но что произойдёт, когда мы осуществим переход к Software 2.0?
Читать...