Мы запускаем несколько авторских рубрик, в которых посмотрим на data science с разных сторон. Первую рубрику мы назвали «Data Science в реальном мире». В ней наш ведущий разработчик машинного обучения Иван Меньших объяснит, почему наука о данных — не панацея от всех проблем и почему завышенные ожидания от data science иногда опасны для бизнеса.
🗒Что скрыто за AI стартапами?
Искусственный интеллект и машинное обучение — доткомы нашего времени. Многие компании хотят внедрить себе абстрактный искусственный интеллект (AI), который решит все их проблемы. К сожалению, технологии пока не могут показать таких результатов. Но знают ли те, кто вкладывается в AI/ML/DL/whatever стартапы и создаваемые ими продукты, за что они платят?
Реальность такова: часто за красивыми терминами Deep learning (DL), Machine learning (ML), Natural Language Processing (NLP) стоят сравнительно простые программы: логистические регрессии и регулярные выражения, а AI называют все, что угодно.
Некоторые предприниматели идут дальше и под видом AI продают ручной труд, — за ним стоит реальный штат сотрудников, которых выдают за искусственный интеллект. Так, согласно расследованию Forbes, многие годы поступала компания ScaleFactor. Этот пример — реализация принципа «Fake it till you make it» во всей красе.
Почему так происходит? Основатели стартапов хорошо понимают, что сейчас тема ИИ крайне популярна, а инвесторы гораздо охотней дают деньги на «самые современные разработки в области AI», чем на сравнительно простые решения. Это двигает отрасль вперед, но в то же время увеличивает количество недобросовестных компаний, которые мимикрируют под AI-стартапы и получают деньги за счет большого спроса.
Нужен ли AI каждой компании? Конечно, нет. Искусственный интеллект — только один из инструментов решения проблем, а не средство от всех болезней. В сравнительно простых решениях без участия нейросетей нет ничего криминального — иногда это даже более эффективный инструмент. Если более простая система решает проблему бизнеса (и делает это хорошо), то не обязательно гнаться именно за AI. #datascienceвреальноммире
🗒Что скрыто за AI стартапами?
Искусственный интеллект и машинное обучение — доткомы нашего времени. Многие компании хотят внедрить себе абстрактный искусственный интеллект (AI), который решит все их проблемы. К сожалению, технологии пока не могут показать таких результатов. Но знают ли те, кто вкладывается в AI/ML/DL/whatever стартапы и создаваемые ими продукты, за что они платят?
Реальность такова: часто за красивыми терминами Deep learning (DL), Machine learning (ML), Natural Language Processing (NLP) стоят сравнительно простые программы: логистические регрессии и регулярные выражения, а AI называют все, что угодно.
Некоторые предприниматели идут дальше и под видом AI продают ручной труд, — за ним стоит реальный штат сотрудников, которых выдают за искусственный интеллект. Так, согласно расследованию Forbes, многие годы поступала компания ScaleFactor. Этот пример — реализация принципа «Fake it till you make it» во всей красе.
Почему так происходит? Основатели стартапов хорошо понимают, что сейчас тема ИИ крайне популярна, а инвесторы гораздо охотней дают деньги на «самые современные разработки в области AI», чем на сравнительно простые решения. Это двигает отрасль вперед, но в то же время увеличивает количество недобросовестных компаний, которые мимикрируют под AI-стартапы и получают деньги за счет большого спроса.
Нужен ли AI каждой компании? Конечно, нет. Искусственный интеллект — только один из инструментов решения проблем, а не средство от всех болезней. В сравнительно простых решениях без участия нейросетей нет ничего криминального — иногда это даже более эффективный инструмент. Если более простая система решает проблему бизнеса (и делает это хорошо), то не обязательно гнаться именно за AI. #datascienceвреальноммире
Встречайте вторую авторскую рубрику — мы назвали ее «Просто о Data Science». В ней наш NLP-инженер Антон Балтачев на примере обработки естественного языка объясняет, как устроена наука о данных.
🗒Что такое обработка естественного языка?
Каждый день в мире генерируются огромные объемы информации, большая часть которой — в виде текстов. Правительства принимают поправки к законам, миллиардеры управляют фондовыми рынками через твиты, а компании создают миллионы новых документов. Для того, чтобы вычленить из этого массива полезную информацию, у людей уходит очень много времени. В этом помогает обработка естественного языка (Natural Language Processing, NLP).
NLP — это область анализа данных, которая позволяет алгоритму с помощью статистики, лингвистики и машинного обучения понимать человеческие языки.
Например, NLP помогает пользователям найти нужный или похожий документ среди миллионов других, понять, к каким темам он относится, получить краткое содержание и набор ключевых слов. Такая автоматизация освобождает рядовых сотрудников от рутинной работы и позволяет заказчику решения сократить издержки.
#простооdatascience
🗒Что такое обработка естественного языка?
Каждый день в мире генерируются огромные объемы информации, большая часть которой — в виде текстов. Правительства принимают поправки к законам, миллиардеры управляют фондовыми рынками через твиты, а компании создают миллионы новых документов. Для того, чтобы вычленить из этого массива полезную информацию, у людей уходит очень много времени. В этом помогает обработка естественного языка (Natural Language Processing, NLP).
NLP — это область анализа данных, которая позволяет алгоритму с помощью статистики, лингвистики и машинного обучения понимать человеческие языки.
Например, NLP помогает пользователям найти нужный или похожий документ среди миллионов других, понять, к каким темам он относится, получить краткое содержание и набор ключевых слов. Такая автоматизация освобождает рядовых сотрудников от рутинной работы и позволяет заказчику решения сократить издержки.
#простооdatascience
Во втором посте рубрики «Data Science в реальном мире» Иван расскажет, с какими ошибками часто сталкиваются разработчики с точки зрения организации бизнеса и постановки стратегических целей.
🗒Ошибки разработчиков DS-решений
Ежедневно в мире появляются новые проекты, которые пытаются упростить жизнь и работу других компаний с помощью технологических решений на основе ML/DL/CV/NLP. К сожалению, разработчики решений продолжают допускать одни и те же ошибки. Вот самые распространенные из них.
# Едим слона целиком
Цель бывает очень амбициозна — настолько, что она фактически недостижима. Вместо того, чтобы декомпозировать ее на отдельные и реализуемые задачи, стартапы часто пытаются решить всю проблему сразу.
На выходе они получают тысячи потраченных человеко-часов и неудовлетворительный результат. Казалось бы, минимально жизнеспособный продукт (MVP), который обладает достаточными для удовлетворения первых потребителей функциями, — это очевидная вещь. Но в состоянии драйва люди об этом совершенно забывают.
# Отсутствие фидбека от пользователей
Никто не любит демонстрировать «сырой» продукт, но это ошибка. MVP — лучшее, что можно сделать, еще и потому, что это единственная возможность собрать обратную связь о своем продукте с пользователей на раннем этапе.
Так стартап может получить информацию, важную для создания действительно хорошего решения, в самом начале, когда в проект еще не вложено большое количество ресурсов. Бонусом компания сможет изучить спрос на подобного рода решения и скорректирует свое видение проблемы. #datascienceвреальноммире
🗒Ошибки разработчиков DS-решений
Ежедневно в мире появляются новые проекты, которые пытаются упростить жизнь и работу других компаний с помощью технологических решений на основе ML/DL/CV/NLP. К сожалению, разработчики решений продолжают допускать одни и те же ошибки. Вот самые распространенные из них.
# Едим слона целиком
Цель бывает очень амбициозна — настолько, что она фактически недостижима. Вместо того, чтобы декомпозировать ее на отдельные и реализуемые задачи, стартапы часто пытаются решить всю проблему сразу.
На выходе они получают тысячи потраченных человеко-часов и неудовлетворительный результат. Казалось бы, минимально жизнеспособный продукт (MVP), который обладает достаточными для удовлетворения первых потребителей функциями, — это очевидная вещь. Но в состоянии драйва люди об этом совершенно забывают.
# Отсутствие фидбека от пользователей
Никто не любит демонстрировать «сырой» продукт, но это ошибка. MVP — лучшее, что можно сделать, еще и потому, что это единственная возможность собрать обратную связь о своем продукте с пользователей на раннем этапе.
Так стартап может получить информацию, важную для создания действительно хорошего решения, в самом начале, когда в проект еще не вложено большое количество ресурсов. Бонусом компания сможет изучить спрос на подобного рода решения и скорректирует свое видение проблемы. #datascienceвреальноммире
Второй пост рубрики NLP-инженера Антона Балтачева «Просто о Data Science» — о том, как происходит обучение нейросети.
🗒Модели в NLP обучаются сами?
До расцвета машинного обучения программисты и лингвисты тратили уйму времени на то, чтобы вручную прописать правила для каждого аспекта работы с языком: например, для перевода с одного языка на другой. Однажды кто-то предложил отказаться от этой практики: собрать тексты на оригинальном языке и их переводы, а затем отдать нейросети — пусть она сама пропишет правила. Нейросеть хоть и работала с ошибками, но значительно сокращала время на разработку правил работы с текстом — даже с учетом исправления погрешностей.
Значит ли это, что сейчас NLP-инженеры могут загрузить все данные в систему, а затем пару недель пить кофе и ждать, пока нейросеть обучится понимать естественный язык? К сожалению, нет.
Данные, с которыми работает алгоритм, нужно сначала привести к формальному виду: очистить и систематизировать. Нейросети обучаются и работают медленно — иногда время ответа на запрос составляет около минуты, в этом случае от такого решения лучше отказаться. Кроме того, далеко не все компании могут позволить себе нейросети — для их поддержания и разработки требуются огромные мощности. Поэтому до сих пор активно используются системы, правила в которых написаны вручную.
В следующих постах подробнее разберем задачи, с которыми приходится сталкиваться NLP-инженерам и проблемы, возникающие на пути к их решению. #простооdatascience
🗒Модели в NLP обучаются сами?
До расцвета машинного обучения программисты и лингвисты тратили уйму времени на то, чтобы вручную прописать правила для каждого аспекта работы с языком: например, для перевода с одного языка на другой. Однажды кто-то предложил отказаться от этой практики: собрать тексты на оригинальном языке и их переводы, а затем отдать нейросети — пусть она сама пропишет правила. Нейросеть хоть и работала с ошибками, но значительно сокращала время на разработку правил работы с текстом — даже с учетом исправления погрешностей.
Значит ли это, что сейчас NLP-инженеры могут загрузить все данные в систему, а затем пару недель пить кофе и ждать, пока нейросеть обучится понимать естественный язык? К сожалению, нет.
Данные, с которыми работает алгоритм, нужно сначала привести к формальному виду: очистить и систематизировать. Нейросети обучаются и работают медленно — иногда время ответа на запрос составляет около минуты, в этом случае от такого решения лучше отказаться. Кроме того, далеко не все компании могут позволить себе нейросети — для их поддержания и разработки требуются огромные мощности. Поэтому до сих пор активно используются системы, правила в которых написаны вручную.
В следующих постах подробнее разберем задачи, с которыми приходится сталкиваться NLP-инженерам и проблемы, возникающие на пути к их решению. #простооdatascience
В новом выпуске рубрики «Data Science в реальном мире» продолжим тему предыдущего поста о проблемах AI-стартапов. Но поговорим о технической стороне вопроса, которая существенно влияет на качество продукта.
# Проблемы с тестированием
Тестирование моделей, на основе которых работает интеллектуальная система — одна из самых важных стадий процесса разработки. К сожалению, многие инженеры ей пренебрегают. Часто причиной становится сложность процесса или отсутствие данных.
Тестирование — базовая часть разработки решения, и если ее игнорировать, результаты становятся непредсказуемыми. При таком подходе разработчик теряет возможность оценивать модель автоматически с помощью метрик. Просматривать результат вручную можно, но со временем этому вопросу уделяется все меньше внимания. Причиной проблемы часто становится отсутствие разметки данных — это именно то, на что стоит тратить время, силы и средства.
# Отсутствие контроля версий для пайплайнов
Как правило, разработчики машинного обучения не сохраняют достаточно информации о модели. Это приводит к тому, что со временем они забывают, какие именно файлы с кодом использовались на том или ином этапе построения модели. Инженерам, которые не участвовали в разработке модели, разобраться в этих файлах почти невозможно.
Избавиться от проблемы можно с помощью системы контроля версий https://dvc.org — аналога https://git-lfs.github.com, который способен хранить сотни гигабайт данных, сохранять пайплайны обучения и воспроизводить их.
# SOTA с ходу
Некоторые инженеры при появлении нового проекта пытаются использовать непроверенные SOTA-пайплайны. Итог у этого обычно плачевный — разработчики тратят месяцы на воспроизведение результатов из статей-гайдов и подбор параметров, а получившаяся модель не демонстрирует ожидаемого качества.
Это не значит, что экспериментировать не надо, но начинать с SOTA-моделей точно не стоит. Сначала лучше попробовать простые модели, которые можно импортировать из привычного фреймворка машинного обучения, обучить и за несколько дней получить результат. При таком подходе заказчик быстро получает демо новой функции, а инженер может заняться обучением более продвинутых моделей, которые можно сравнивать с базовым решением. #datascienceвреальноммире
# Проблемы с тестированием
Тестирование моделей, на основе которых работает интеллектуальная система — одна из самых важных стадий процесса разработки. К сожалению, многие инженеры ей пренебрегают. Часто причиной становится сложность процесса или отсутствие данных.
Тестирование — базовая часть разработки решения, и если ее игнорировать, результаты становятся непредсказуемыми. При таком подходе разработчик теряет возможность оценивать модель автоматически с помощью метрик. Просматривать результат вручную можно, но со временем этому вопросу уделяется все меньше внимания. Причиной проблемы часто становится отсутствие разметки данных — это именно то, на что стоит тратить время, силы и средства.
# Отсутствие контроля версий для пайплайнов
Как правило, разработчики машинного обучения не сохраняют достаточно информации о модели. Это приводит к тому, что со временем они забывают, какие именно файлы с кодом использовались на том или ином этапе построения модели. Инженерам, которые не участвовали в разработке модели, разобраться в этих файлах почти невозможно.
Избавиться от проблемы можно с помощью системы контроля версий https://dvc.org — аналога https://git-lfs.github.com, который способен хранить сотни гигабайт данных, сохранять пайплайны обучения и воспроизводить их.
# SOTA с ходу
Некоторые инженеры при появлении нового проекта пытаются использовать непроверенные SOTA-пайплайны. Итог у этого обычно плачевный — разработчики тратят месяцы на воспроизведение результатов из статей-гайдов и подбор параметров, а получившаяся модель не демонстрирует ожидаемого качества.
Это не значит, что экспериментировать не надо, но начинать с SOTA-моделей точно не стоит. Сначала лучше попробовать простые модели, которые можно импортировать из привычного фреймворка машинного обучения, обучить и за несколько дней получить результат. При таком подходе заказчик быстро получает демо новой функции, а инженер может заняться обучением более продвинутых моделей, которые можно сравнивать с базовым решением. #datascienceвреальноммире
Новые вакансии в Embedika🎉
Наша команда растёт, и сейчас мы ищем разработчиков сразу в два офиса — в Москве и Екатеринбурге. Успешным кандидатам предстоит работать над корпоративными системами для крупного бизнеса, погружаться в сферу data science, machine learning и других перспективных технологий.
Вас ждёт работа в сильной команде разработки под руководством опытного наставника, офис в центре города, ДМС после испытательного срока, возможность участвовать в конференциях и вести авторские колонки в СМИ.
Переходите по ссылкам, знакомьтесь с вакансиями, откликайтесь:
- Scala разработчик, г. Москва
- Scala Junior+ разработчик, г. Москва
- Scala разработчик, г. Екатеринбург
- Scala Junior+ разработчик, г. Екатеринбург
- Angular Junior разработчик, г. Екатеринбург
Наша команда растёт, и сейчас мы ищем разработчиков сразу в два офиса — в Москве и Екатеринбурге. Успешным кандидатам предстоит работать над корпоративными системами для крупного бизнеса, погружаться в сферу data science, machine learning и других перспективных технологий.
Вас ждёт работа в сильной команде разработки под руководством опытного наставника, офис в центре города, ДМС после испытательного срока, возможность участвовать в конференциях и вести авторские колонки в СМИ.
Переходите по ссылкам, знакомьтесь с вакансиями, откликайтесь:
- Scala разработчик, г. Москва
- Scala Junior+ разработчик, г. Москва
- Scala разработчик, г. Екатеринбург
- Scala Junior+ разработчик, г. Екатеринбург
- Angular Junior разработчик, г. Екатеринбург
Наш юрист-аналитик Диана Хакимова написала колонку для vc.ru об образовании в LegalTech.
В ней Диана объясняет, зачем профессиональному юристу получать знания в этой сфере, делится личным опытом и рассказывает, куда пойти учиться.
В ней Диана объясняет, зачем профессиональному юристу получать знания в этой сфере, делится личным опытом и рассказывает, куда пойти учиться.
Быстрый и точный поиск корпоративных знаний, автоматическая проверка договоров, совместное создание и согласование документов — лишь часть наших решений, в основе которых — технологии data science.
Мы — команда инженеров, аналитиков и юристов, изучаем данные и способы работы с ними. Объединяем опыт разработки и научные исследования, чтобы создавать эффективные системы для бизнеса. Посмотрите наши решения, мы всегда на связи :)
Мы — команда инженеров, аналитиков и юристов, изучаем данные и способы работы с ними. Объединяем опыт разработки и научные исследования, чтобы создавать эффективные системы для бизнеса. Посмотрите наши решения, мы всегда на связи :)
В новом выпуске рубрики «Просто о Data Science» Антона Балтачева разберем задачи, которые стоят перед NLP-инженерами.
🗒 Какие задачи стоят перед NLP-инженерами
Нейросети глубоко проникли в нашу жизнь — сегодня сложно найти человека, который не слышал бы о их возможностях. Алгоритмы уже умеют генерировать стихотворения, музыкальные треки, управлять автомобилями и выигрывать профессиональных игроков в Dota 2.
Часть этого успеха — результат работы инженеров по обработке естественного языка (NLP). Разберем несколько NLP-задач, которые я считаю довольно интересным и важными.
➝ Чат-боты стали обычным явлением: они помогают решать самые частые проблемы клиентов компаний без участия человека.
Сейчас такие инструменты создаются для решения конкретных проблем пользователя. Например, понять, почему при переводе на карту другого банка появилась комиссия, поможет «Олег» из банка «Тинькофф», а оказать эмоциональную поддержку от небезразличного собеседника в любую минуту может Replica AI.
Пока сложно сделать универсального бота, который в зависимости от ситуации может и оказать психологическую поддержку, и подсказать, какие купить облигации. Но в будущем это станет возможным — каждый день генерируются сотни гигабайт информации и обучаются все более сложные модели нейронных сетей: такие, как нашумевшая GPT-3.
Эта нейросеть способна автоматически создавать крайне правдоподобные тексты. Это и возможность, и угроза — разработчики GPT-3 не опубликовали исходный код нейросети, опасаясь, что ей могут воспользоваться злоумышленники для создания правдоподобных фейковых новостей, сненерированных отзывов на маркетплейсах или агрессивных и оскорбительных комментариев в социальных сетях.
➝ Идентифицировать подобные аномалии — еще одна задача NLP-инженеров. Тексты, которые создает алгоритм, настолько правдоподобны, что их можно принять за проверенную информацию. Их публикация может сильно повлиять, например, на фондовый рынок.
Зачастую проверенную информацию от ложной трудно отличить даже тогда, когда ее создал человек: так, журналисты некоторых СМИ копировали новости с сатирического издания «Панорама», пока не поняли, что это фейк ньюс. У алгоритмов фальшивые новости скоро будут получаться лучше, чем у человека. Посмотреть на генерацию и детектор фальшивых статей на английском языке можно здесь.
➝ Еще одна NLP-задача — выделение ключевых фраз из текста. Речь идет об автоматическом создании кратчайшей выжимки из большого объема информации.
Возможно, в будущем нейросети смогут сжать семь томов «Гарри Поттера» в одну страницу, на которой будет содержаться главная информация из всех книг. Пока столь масштабную задачу никому решить не удалось, но исследователи делают шаги в этом направлении и уже добились определенных успехов. Например, оценить перспективность статьи или патента по краткому содержанию и ключевым фразам можно уже сейчас.
В следующих постах рассмотрим, как инженеры решают описанные выше задачи — какие инструменты используют и с какими проблемами сталкиваются.
#простооdatascience
🗒 Какие задачи стоят перед NLP-инженерами
Нейросети глубоко проникли в нашу жизнь — сегодня сложно найти человека, который не слышал бы о их возможностях. Алгоритмы уже умеют генерировать стихотворения, музыкальные треки, управлять автомобилями и выигрывать профессиональных игроков в Dota 2.
Часть этого успеха — результат работы инженеров по обработке естественного языка (NLP). Разберем несколько NLP-задач, которые я считаю довольно интересным и важными.
➝ Чат-боты стали обычным явлением: они помогают решать самые частые проблемы клиентов компаний без участия человека.
Сейчас такие инструменты создаются для решения конкретных проблем пользователя. Например, понять, почему при переводе на карту другого банка появилась комиссия, поможет «Олег» из банка «Тинькофф», а оказать эмоциональную поддержку от небезразличного собеседника в любую минуту может Replica AI.
Пока сложно сделать универсального бота, который в зависимости от ситуации может и оказать психологическую поддержку, и подсказать, какие купить облигации. Но в будущем это станет возможным — каждый день генерируются сотни гигабайт информации и обучаются все более сложные модели нейронных сетей: такие, как нашумевшая GPT-3.
Эта нейросеть способна автоматически создавать крайне правдоподобные тексты. Это и возможность, и угроза — разработчики GPT-3 не опубликовали исходный код нейросети, опасаясь, что ей могут воспользоваться злоумышленники для создания правдоподобных фейковых новостей, сненерированных отзывов на маркетплейсах или агрессивных и оскорбительных комментариев в социальных сетях.
➝ Идентифицировать подобные аномалии — еще одна задача NLP-инженеров. Тексты, которые создает алгоритм, настолько правдоподобны, что их можно принять за проверенную информацию. Их публикация может сильно повлиять, например, на фондовый рынок.
Зачастую проверенную информацию от ложной трудно отличить даже тогда, когда ее создал человек: так, журналисты некоторых СМИ копировали новости с сатирического издания «Панорама», пока не поняли, что это фейк ньюс. У алгоритмов фальшивые новости скоро будут получаться лучше, чем у человека. Посмотреть на генерацию и детектор фальшивых статей на английском языке можно здесь.
➝ Еще одна NLP-задача — выделение ключевых фраз из текста. Речь идет об автоматическом создании кратчайшей выжимки из большого объема информации.
Возможно, в будущем нейросети смогут сжать семь томов «Гарри Поттера» в одну страницу, на которой будет содержаться главная информация из всех книг. Пока столь масштабную задачу никому решить не удалось, но исследователи делают шаги в этом направлении и уже добились определенных успехов. Например, оценить перспективность статьи или патента по краткому содержанию и ключевым фразам можно уже сейчас.
В следующих постах рассмотрим, как инженеры решают описанные выше задачи — какие инструменты используют и с какими проблемами сталкиваются.
#простооdatascience
В очередном выпуске рубрики Ивана Меньших «Data Science в реальном мире» рассказываем о данных и о том, насколько важно подготовить их до начала работы над data science-решением.
🗒 Данные — это все, что у нас есть
Данные — это новая нефть. Сейчас мы можем хранить и агрегировать разнородную информацию, — это открывает бизнесу доступ ко всему спектру решений на основе машинного обучения (ML). Еще 20 лет назад компании, которые занимались исключительно разработкой ML-решений, можно было пересчитать по пальцам. Сейчас их тысячи, — а тех, у кого есть компетенции для создания решений на основе машинного обучения, еще больше.
Если вы задумываетесь о технологизации своего бизнеса с помощью ML, но у вас по какой-то причине нет возможности или желания организовать собственный отдел разработки, вам не составит труда найти подрядчика, который внедрит свой готовый продукт. Типичная проблема при таком подходе заключается в том, что подрядчик никогда не видел ваши данные и ничего не знает об их качестве. За счет этого решение может работать существенно хуже, чем казалось на этапе его презентации.
Чтобы избежать такой ситуации, перед внедрением стоит предпринять ряд шагов:
➝ Заранее проконсультироваться со специалистами по машинному обучению на предмет того, какие данные можно собирать прямо сейчас.
➝ Собирать данные в автоматическом режиме. Потенциальная польза, как правило, существенно выше, чем затраты на их хранение.
➝ Собирать данные в наиболее «сыром» виде. Преобразовать их можно в любой момент, а обратить изменения не всегда возможно.
➝ Делиться данными с исполнителем как можно раньше, давая ему возможность лучше подготовиться к конкретному кейсу.
➝ Самое главное — проводить пилотный запуск перед интеграцией для реальной оценки пользы, рисков и возможной адаптации моделей исполнителя к вашим данным (если он предоставляет такую опцию).
Если вы последуете этим рекомендациям, то сможете протестировать часть функционала будущего решения еще на этапе переговоров — в виде пилота. Со своей стороны, подрядчик сможет адаптировать решение под специфику вашего бизнеса — сделать это можно только при наличии качественных данных.
#datascienceвреальноммире
🗒 Данные — это все, что у нас есть
Данные — это новая нефть. Сейчас мы можем хранить и агрегировать разнородную информацию, — это открывает бизнесу доступ ко всему спектру решений на основе машинного обучения (ML). Еще 20 лет назад компании, которые занимались исключительно разработкой ML-решений, можно было пересчитать по пальцам. Сейчас их тысячи, — а тех, у кого есть компетенции для создания решений на основе машинного обучения, еще больше.
Если вы задумываетесь о технологизации своего бизнеса с помощью ML, но у вас по какой-то причине нет возможности или желания организовать собственный отдел разработки, вам не составит труда найти подрядчика, который внедрит свой готовый продукт. Типичная проблема при таком подходе заключается в том, что подрядчик никогда не видел ваши данные и ничего не знает об их качестве. За счет этого решение может работать существенно хуже, чем казалось на этапе его презентации.
Чтобы избежать такой ситуации, перед внедрением стоит предпринять ряд шагов:
➝ Заранее проконсультироваться со специалистами по машинному обучению на предмет того, какие данные можно собирать прямо сейчас.
➝ Собирать данные в автоматическом режиме. Потенциальная польза, как правило, существенно выше, чем затраты на их хранение.
➝ Собирать данные в наиболее «сыром» виде. Преобразовать их можно в любой момент, а обратить изменения не всегда возможно.
➝ Делиться данными с исполнителем как можно раньше, давая ему возможность лучше подготовиться к конкретному кейсу.
➝ Самое главное — проводить пилотный запуск перед интеграцией для реальной оценки пользы, рисков и возможной адаптации моделей исполнителя к вашим данным (если он предоставляет такую опцию).
Если вы последуете этим рекомендациям, то сможете протестировать часть функционала будущего решения еще на этапе переговоров — в виде пилота. Со своей стороны, подрядчик сможет адаптировать решение под специфику вашего бизнеса — сделать это можно только при наличии качественных данных.
#datascienceвреальноммире
Embedika | ИТ-решения для бизнеса pinned «Быстрый и точный поиск корпоративных знаний, автоматическая проверка договоров, совместное создание и согласование документов — лишь часть наших решений, в основе которых — технологии data science. Мы — команда инженеров, аналитиков и юристов, изучаем данные…»
Руководитель продуктового направления в нашей компании Артем Низамов написал колонку для «Хайтека» о внедрении data science-решений в России.
В ней Артем рассказал об отраслях, в которых такие решения уже широко применяются, а также обозначил направления, где data science не используется вовсе, — хотя потенциал для внедрения огромен.
В ней Артем рассказал об отраслях, в которых такие решения уже широко применяются, а также обозначил направления, где data science не используется вовсе, — хотя потенциал для внедрения огромен.
Юрист-аналитик Диана Хакимова и руководитель R&D Геннадий Штех обсуждают новую разработку Сбербанка в издании Rusbase — поможет ли запатентованная система проверки юрлиц на базе искусственного интеллекта специалистам и есть ли в решении ноу-хау с точки зрения технологий.
Кстати, мы уже писали о трендах и барьерах в сфере LegalTech в нашем блоге — почитать можно здесь.
Кстати, мы уже писали о трендах и барьерах в сфере LegalTech в нашем блоге — почитать можно здесь.
20 октября DataStart проведет онлайн-конференцию, посвященную большим данным, машинному обучению и внедрению технологий в бизнес. В мероприятии примет участие руководитель R&D в нашей компании Геннадий Штех — он представит гайдлайн о том, как проще и быстрее всего получить работающий алгоритм, классифицирующий тексты.
Вот что Геннадий говорит об этом: «На данный момент есть много модных алгоритмов, много разных подходов для работы с текстами. Я выбрал наиболее применимые в широком кругу задач и подготовил примеры. Такого материала лично мне не хватало еще 5-7 лет назад. Будет весьма полезно тем, кому нужно быстро получить приемлемый результат».
Участие бесплатное, регистрация — по ссылке.
Вот что Геннадий говорит об этом: «На данный момент есть много модных алгоритмов, много разных подходов для работы с текстами. Я выбрал наиболее применимые в широком кругу задач и подготовил примеры. Такого материала лично мне не хватало еще 5-7 лет назад. Будет весьма полезно тем, кому нужно быстро получить приемлемый результат».
Участие бесплатное, регистрация — по ссылке.
В новом выпуске рубрики «Просто о Data Science» Антон Балтачев рассказывает, как происходит процесс создания продукта в R&D-отделе на примере его недавней задачи — извлечения ключевых фраз из документов на русском и английском языках. В первом посте трилогии объясним, почему важна правильная постановка задачи.
🗒 Как создаются сервисы в R&D-отделе?
Часть 1. Правильная постановка задачи — залог успеха
Решение задачи начинается с ее постановки, — обычно за это отвечают продакт-менеджеры: они занимаются анализом требований будущих пользователей и понимают, какого результата необходимо достичь.
Очень важно “на берегу” договориться, какое качество работы системы будет считаться приемлемым. Допустим, сервис извлечения ключевых фраз должен выдавать в топ-5 фразы, которые непосредственно относятся к теме документа и дают понять, о чем он, даже не читая его. Хотя это довольно расплывчатая формулировка, она задает некоторый стандарт качества.
С другой стороны, определение критериев качества помогает отсекать завышенные ожидания заказчиков: иногда те не до конца осведомлены о возможностях существующих технологий или трудоемкости создания новых. Невозможно научить модель за месяц отвечать на вопрос «Кто убил Лору Палмер?» или качественно извлекать ключевые фразы из всех статей «Википедии».
Итак, прежде чем приступать к решению задачи, сосредоточьтесь на правильной её постановке. В следующем посте поговорим о подготовке данных и выборе метрик.
#простооdatascience
🗒 Как создаются сервисы в R&D-отделе?
Часть 1. Правильная постановка задачи — залог успеха
Решение задачи начинается с ее постановки, — обычно за это отвечают продакт-менеджеры: они занимаются анализом требований будущих пользователей и понимают, какого результата необходимо достичь.
Очень важно “на берегу” договориться, какое качество работы системы будет считаться приемлемым. Допустим, сервис извлечения ключевых фраз должен выдавать в топ-5 фразы, которые непосредственно относятся к теме документа и дают понять, о чем он, даже не читая его. Хотя это довольно расплывчатая формулировка, она задает некоторый стандарт качества.
С другой стороны, определение критериев качества помогает отсекать завышенные ожидания заказчиков: иногда те не до конца осведомлены о возможностях существующих технологий или трудоемкости создания новых. Невозможно научить модель за месяц отвечать на вопрос «Кто убил Лору Палмер?» или качественно извлекать ключевые фразы из всех статей «Википедии».
Итак, прежде чем приступать к решению задачи, сосредоточьтесь на правильной её постановке. В следующем посте поговорим о подготовке данных и выборе метрик.
#простооdatascience
В сегодняшнем выпуске рубрики «Просто о Data Science» Антона Балтачева продолжим рассказывать о процессе создания продукта в R&D-отделе. Теперь подробнее остановимся на подготовке и качестве данных.
🗒 Как создаются сервисы в R&D-отделе?
Часть 2. Разметка данных и выбор метрик
Зачастую решение задачи требует размеченных данных — определенным образом обработанных документов, звукозаписей или видео, язык которых понимает алгоритм. В нашем примере (сервисе извлечения ключевых фраз) — это выделение в документах конкретных словосочетаний и слов.
Если заказчик предоставил достаточно данных или готов их размечать — это отлично, но, к сожалению, пока с такими ситуациями мы сталкиваемся редко. Чаще данных недостаточно, чтобы модель выучила что-то полезное, и размечать приходится разработчикам.
Для этого в некоторых data science-компаниях существуют целые команды собственных асессоров — специалистов, ответственных за этот процесс. Другие пользуются услугами аутсорс-компаний, которые предоставляют уже обученных асессоров для разметки данных.
Но как передать свое представление о правильной разметке сторонним людям? Тут необходимо писать методологию, и чем больше примеров в ней содержится, тем лучше (прямо как при обучении нейросетей).
Также важно сразу выбрать формальные метрики, которые максимально коррелируют с задачей бизнеса. Иначе можно попасть в когнитивную ловушку и радоваться высоким результатам по нерелевантной метрике. Например, в одном исследовании психологи нашли высокую корреляцию между размером стопы подростка и его знаниями математики. На деле всё оказалось просто: средний одиннадцатиклассник имеет больший размер стопы и больше знаний по математике, чем средний пятиклассник.
В следующем посте, завершающем эту тему, расскажу про поиск и проверку гипотез, а также внедрение готового решения. #простооdatascience
🗒 Как создаются сервисы в R&D-отделе?
Часть 2. Разметка данных и выбор метрик
Зачастую решение задачи требует размеченных данных — определенным образом обработанных документов, звукозаписей или видео, язык которых понимает алгоритм. В нашем примере (сервисе извлечения ключевых фраз) — это выделение в документах конкретных словосочетаний и слов.
Если заказчик предоставил достаточно данных или готов их размечать — это отлично, но, к сожалению, пока с такими ситуациями мы сталкиваемся редко. Чаще данных недостаточно, чтобы модель выучила что-то полезное, и размечать приходится разработчикам.
Для этого в некоторых data science-компаниях существуют целые команды собственных асессоров — специалистов, ответственных за этот процесс. Другие пользуются услугами аутсорс-компаний, которые предоставляют уже обученных асессоров для разметки данных.
Но как передать свое представление о правильной разметке сторонним людям? Тут необходимо писать методологию, и чем больше примеров в ней содержится, тем лучше (прямо как при обучении нейросетей).
Также важно сразу выбрать формальные метрики, которые максимально коррелируют с задачей бизнеса. Иначе можно попасть в когнитивную ловушку и радоваться высоким результатам по нерелевантной метрике. Например, в одном исследовании психологи нашли высокую корреляцию между размером стопы подростка и его знаниями математики. На деле всё оказалось просто: средний одиннадцатиклассник имеет больший размер стопы и больше знаний по математике, чем средний пятиклассник.
В следующем посте, завершающем эту тему, расскажу про поиск и проверку гипотез, а также внедрение готового решения. #простооdatascience
В новом выпуске рубрики «Просто о Data Science» NLP-инженер Антон Балтачев продолжает рассказывать о процессе разработки продукта в R&D-отделе. Завершающий пост по этой теме — о процессе формирования гипотез и внедрении решения.
🗒 Как создаются сервисы в R&D-отделе?
Часть 3. Поиск, проверка и реализация гипотез
После определения задачи, желаемого результата и метрик начинается процесс исследования научного прогресса по теме. В моем случае это было чтение научных статей и общение с людьми, которые уже решали задачу извлечения ключевых фраз из документов. Обычно даже простой разговор с правильным человеком может сэкономить огромное количество времени и позволит не изобретать велосипед.
На основе полученных знаний разрабатывается метод решения задачи. Например, я использовал подход, в основе которого лежит построение фраз на базе лингвистических признаков слов и их сравнение с эталонными ключевыми фразами.
После этапа исследования начинается стадия реализации различных идей. В среднем на проверку гипотезы уходит несколько недель, поэтому важно изначально придумать такой способ, который покажет неплохое качество, но не будет слишком трудоемким.
Если качество решения не устроило заказчика, то цикл начинается снова: идет доработка решений и новая итерация обучения моделей, либо отказ от старых идей и долгие часы придумывания новых.
Если заказчику нравится качество, то начинается стадия внедрения сервиса. Здесь возникают новые челленджи: алгоритм должен работать быстро, почти в реальном времени, ведь пользователи не привыкли долго ждать ответ. Поэтому часто приходится оптимизировать алгоритмы и придумывать хаки, которые позволят им не проседать по качеству и быстро отвечать на запрос.
Подводя итог, можно сказать, что разработка data science-продукта сопряжена с высокой неопределенностью: большое количество гипотез оказываются нежизнеспособными. Однако успешный сервис поможет сэкономить много времени. Для примера вернемся к сервису извлечения ключевых фраз: чтение даже небольшой статьи занимает около 10 минут, а сервис сокращает это время до 10-15 секунд, позволяя понять о чём документ, даже не читая его. #простооdatascience
🗒 Как создаются сервисы в R&D-отделе?
Часть 3. Поиск, проверка и реализация гипотез
После определения задачи, желаемого результата и метрик начинается процесс исследования научного прогресса по теме. В моем случае это было чтение научных статей и общение с людьми, которые уже решали задачу извлечения ключевых фраз из документов. Обычно даже простой разговор с правильным человеком может сэкономить огромное количество времени и позволит не изобретать велосипед.
На основе полученных знаний разрабатывается метод решения задачи. Например, я использовал подход, в основе которого лежит построение фраз на базе лингвистических признаков слов и их сравнение с эталонными ключевыми фразами.
После этапа исследования начинается стадия реализации различных идей. В среднем на проверку гипотезы уходит несколько недель, поэтому важно изначально придумать такой способ, который покажет неплохое качество, но не будет слишком трудоемким.
Если качество решения не устроило заказчика, то цикл начинается снова: идет доработка решений и новая итерация обучения моделей, либо отказ от старых идей и долгие часы придумывания новых.
Если заказчику нравится качество, то начинается стадия внедрения сервиса. Здесь возникают новые челленджи: алгоритм должен работать быстро, почти в реальном времени, ведь пользователи не привыкли долго ждать ответ. Поэтому часто приходится оптимизировать алгоритмы и придумывать хаки, которые позволят им не проседать по качеству и быстро отвечать на запрос.
Подводя итог, можно сказать, что разработка data science-продукта сопряжена с высокой неопределенностью: большое количество гипотез оказываются нежизнеспособными. Однако успешный сервис поможет сэкономить много времени. Для примера вернемся к сервису извлечения ключевых фраз: чтение даже небольшой статьи занимает около 10 минут, а сервис сокращает это время до 10-15 секунд, позволяя понять о чём документ, даже не читая его. #простооdatascience
Через полчаса встречаемся на онлайн-конференции DataStart. 17 докладов, разделенных на 2 потока – технический и бизнес.
Ведущий технического потока – руководитель R&D в нашей компании Геннадий Штех, ведущий бизнес-потока – юрист-аналитик Диана Хакимова. Задавайте вопросы спикерам в чат, мы их обязательно озвучим.
А в 17:00 в техническом треке Геннадий расскажет про нейросети на текстах.
Ведущий технического потока – руководитель R&D в нашей компании Геннадий Штех, ведущий бизнес-потока – юрист-аналитик Диана Хакимова. Задавайте вопросы спикерам в чат, мы их обязательно озвучим.
А в 17:00 в техническом треке Геннадий расскажет про нейросети на текстах.
datastart.ru
Бесплатная осенняя онлайн-конференция Data Science 2020
Обучающие конференции по Data Science в
Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,
Machine Learning, AI. Практические занятия позволят лучше усвоить полученные
на мероприятии знания.
Москве и Санкт-Петербурге. Программа мероприятий содержит актуальные темы по Big Data,
Machine Learning, AI. Практические занятия позволят лучше усвоить полученные
на мероприятии знания.
В своих решениях мы уделяем большое внимание дизайну интерфейсов — важно, чтобы работать в системе было просто и удобно. Поэтому, когда пришла пора разрабатывать корпоративный сайт, нам хотелось, чтобы он отражал наш подход.
С командой из Flat12 мы сразу нашли общий язык: разработали несколько концепций, выбрали лучшую, проработали каждый блок.
Недавно наш сайт занял 2ое место в Рейтинге Рунета — всероссийской премии, проводимой среди разработчиков и владельцев сайтов. И если вы не заходили к нам, то эта награда — ещё один повод это сделать:) embedika.ru
С командой из Flat12 мы сразу нашли общий язык: разработали несколько концепций, выбрали лучшую, проработали каждый блок.
Недавно наш сайт занял 2ое место в Рейтинге Рунета — всероссийской премии, проводимой среди разработчиков и владельцев сайтов. И если вы не заходили к нам, то эта награда — ещё один повод это сделать:) embedika.ru
Собрали несколько постов из авторских рубрик в статьи, чтобы вам было удобнее читать:
▶️Иван Меньших о самых распространенных ошибках разработчиков data science-решений
▶️Антон Балтачев о том, как создаются сервисы в R&D-отделе.
Полностью колонки авторов можно почитать, перейдя по тегам #простооdatascience и #datascienceвреальноммире.
▶️Иван Меньших о самых распространенных ошибках разработчиков data science-решений
▶️Антон Балтачев о том, как создаются сервисы в R&D-отделе.
Полностью колонки авторов можно почитать, перейдя по тегам #простооdatascience и #datascienceвреальноммире.
Недавно завершился хакатон «Лидеры цифровой трансформации» от Агентства инноваций Москвы. Для команд-победителей хакатона организован Mosbootcamp —
онлайн-интенсив по доработке решений, где участники общаются с экспертами и работают с менторами.
В рамках кэмпа мы прочитаем две лекции:
- Пошаговый гайд по работе с крупным бизнесом.
Спикер: Артём Низамов, руководитель продуктового направления в Embedika.
25 ноября в 19:00. Ссылка.
- Типичные ошибки разработчиков DS-решений.
Спикер: Антон Балтачев, NLP-инженер в Embedika.
26 ноября в 19:00. Ссылка.
Лекции открыты для всех желающих. Если хотите обсудить тему, задать вопрос спикеру или просто послушать, то переходите по ссылкам выше в указанное время. До встречи!
онлайн-интенсив по доработке решений, где участники общаются с экспертами и работают с менторами.
В рамках кэмпа мы прочитаем две лекции:
- Пошаговый гайд по работе с крупным бизнесом.
Спикер: Артём Низамов, руководитель продуктового направления в Embedika.
25 ноября в 19:00. Ссылка.
- Типичные ошибки разработчиков DS-решений.
Спикер: Антон Балтачев, NLP-инженер в Embedika.
26 ноября в 19:00. Ссылка.
Лекции открыты для всех желающих. Если хотите обсудить тему, задать вопрос спикеру или просто послушать, то переходите по ссылкам выше в указанное время. До встречи!