Ура, мы рады представить наш онлайн-сервис для сравнения документов — Embedika Compare! Сервис бесплатный, работает прямо в браузере и без регистрации. В нём удобно сравнивать две версии договора и любых других документов для отслеживания изменений.
Compare поддерживает форматы PDF, doc и docx, анализирует тексты, программный код и таблицы. Сохраняет исходное форматирование и заполнение документов, не разбивая строки и абзацы. Сервис полностью конфиденциальный — мы не храним загружаемые документы.
Сохраните себе, чтобы не потерять, и поделитесь с коллегами:)
Compare поддерживает форматы PDF, doc и docx, анализирует тексты, программный код и таблицы. Сохраняет исходное форматирование и заполнение документов, не разбивая строки и абзацы. Сервис полностью конфиденциальный — мы не храним загружаемые документы.
Сохраните себе, чтобы не потерять, и поделитесь с коллегами:)
В четверг мы представили бесплатный сервис сравнения документов Compare. За четыре дня им воспользовались более 300 человек – спасибо! Нам пришло несколько вопросов о работе сервиса, здесь мы на них ответим.
Чем сервис отличается от сравнения в Word? В Word функция сравнения подчеркивает все правки красным цветом и показывает результаты сравнения только в одном документе. В нашем сервисе изменения видны в обоих документах, а цвета соответствуют их типам: зеленый — добавлено, красный — удалено, оранжевый — изменено. Другими словами, с сервисом удобнее работать, когда нужно видеть сразу два документа во время сравнения.
Что происходит с данными пользователей? Документы удаляются сразу, как только пользователь закрывает вкладку в браузере. Мы не храним загружаемые документы и не собираем датасеты без разрешения пользователей. Подробнее об этом можно прочитать в Пользовательском соглашении.
Больше вопросов и ответов — здесь.
Чем сервис отличается от сравнения в Word? В Word функция сравнения подчеркивает все правки красным цветом и показывает результаты сравнения только в одном документе. В нашем сервисе изменения видны в обоих документах, а цвета соответствуют их типам: зеленый — добавлено, красный — удалено, оранжевый — изменено. Другими словами, с сервисом удобнее работать, когда нужно видеть сразу два документа во время сравнения.
Что происходит с данными пользователей? Документы удаляются сразу, как только пользователь закрывает вкладку в браузере. Мы не храним загружаемые документы и не собираем датасеты без разрешения пользователей. Подробнее об этом можно прочитать в Пользовательском соглашении.
Больше вопросов и ответов — здесь.
👍1
Отличная новость — научную статью наших специалистов по data science процитировали исследователи из Google Research.
Речь идёт о задаче поиска документов, близких по смыслу. Обычно в больших документах содержится сразу несколько тем, что затрудняет поиск. Наша R&D-команда предложила такое решение этой проблемы: разбивать каждый документ на сегменты, относящиеся к конкретным тематикам, и только после производить поиск.
Похожую проблему решали и инженеры из Google Research — и в своей работе сослались на наше исследование.
Речь идёт о задаче поиска документов, близких по смыслу. Обычно в больших документах содержится сразу несколько тем, что затрудняет поиск. Наша R&D-команда предложила такое решение этой проблемы: разбивать каждый документ на сегменты, относящиеся к конкретным тематикам, и только после производить поиск.
Похожую проблему решали и инженеры из Google Research — и в своей работе сослались на наше исследование.
Привет! В нашем екатеринбургском офисе открыты три вакансии для начинающих специалистов. Успешным кандидатам предстоит работать над корпоративными системами для крупного бизнеса в сильной команде разработки.
Мы готовы научить всему, что знаем и любим сами. Во время работы вы погрузитесь в сферу data science, machine learning и других перспективных технологий. Среди приятных бонусов — работа с опытным наставником, ДМС после испытательного срока, возможность участвовать в конференциях и отличный офис в центре города.
Переходите по ссылкам, знакомьтесь с вакансиями, откликайтесь:
- Scala разработчик
- Scala Junior+ разработчик
- QA-специалист
Мы готовы научить всему, что знаем и любим сами. Во время работы вы погрузитесь в сферу data science, machine learning и других перспективных технологий. Среди приятных бонусов — работа с опытным наставником, ДМС после испытательного срока, возможность участвовать в конференциях и отличный офис в центре города.
Переходите по ссылкам, знакомьтесь с вакансиями, откликайтесь:
- Scala разработчик
- Scala Junior+ разработчик
- QA-специалист
На Rusbase вышла подборка сервисов для работы с документами, составленная нашим юристом-аналитиком Дианой Хакимовой.
В статье собраны семь сервисов стоимостью от 0 до 500 рублей для малого бизнеса и самозанятых, которые позволяют конвертировать, сравнивать и распознавать документы. Эти решения могут стать хорошей альтернативой дорогому софту и консультациям на аутсорсе.
Статью можно прочитать здесь.
В статье собраны семь сервисов стоимостью от 0 до 500 рублей для малого бизнеса и самозанятых, которые позволяют конвертировать, сравнивать и распознавать документы. Эти решения могут стать хорошей альтернативой дорогому софту и консультациям на аутсорсе.
Статью можно прочитать здесь.
Смотрите новый выпуск на youtube-канале Анны Костыра — управляющего партнёра Deloitte Legal. В нём приняла участие Айканыш Орозбаева — она возглавляет направление по работе с клиентами и партнёрами в нашей компании.
Участники выпуска обсудили специфику Legal Tech-рынка в России, ключевые технологии и барьеры развития и поделились своими прогнозами о перспективах цифровизации юридической функции.
Участники выпуска обсудили специфику Legal Tech-рынка в России, ключевые технологии и барьеры развития и поделились своими прогнозами о перспективах цифровизации юридической функции.
Недавно на youtube-канале Анны Костыра, управляющего партнёра Deloitte Legal, вышел подкаст с нашим участием. Темой выпуска стал LegalTech-рынок в России, его специфика и барьеры развития.
По следам подкаста запускаем рубрику #legaltech_corporate и всю неделю будем рассказывать об особенностях LegalTech-решений для крупного бизнеса. Начнём с определения и попробуем по-новому взглянуть на аудиторию этого рынка.
🗒LegalTech не только для юристов
В общепринятом понимании LegalTech — автоматизация и цифровизация юридической функции. Самые известные примеры — сервисы проверки контрагентов, составления проектов договоров, подбор судебной практики по конкретному делу.
Мы создаем решения для крупного бизнеса и видим LegalTech шире — не только как цифровизацию юридической функции, но и как решение для всех, кто работает с документами. В этот список входят, например, методологи, стандартизаторы, процессники и нормотворцы.
Дело в том, что в России нет сформированных отраслевых ИТ-рынков для этих специалистов. Поскольку большая часть их деятельности построена на работе с документами, они смотрят в сторону LegalTech-решений и ищут возможность применить их под свои задачи.
Всем этим специалистам нужна одна интеллектуальная основа, способная понимать смысл документов, извлекать из большого массива данных знания, сущности и компетенции. Для юриста и методолога системы будут выглядеть по-разному, но интеллектуальная основа, самая дорогая и сложная часть разработки, остается одинаковой.
По следам подкаста запускаем рубрику #legaltech_corporate и всю неделю будем рассказывать об особенностях LegalTech-решений для крупного бизнеса. Начнём с определения и попробуем по-новому взглянуть на аудиторию этого рынка.
🗒LegalTech не только для юристов
В общепринятом понимании LegalTech — автоматизация и цифровизация юридической функции. Самые известные примеры — сервисы проверки контрагентов, составления проектов договоров, подбор судебной практики по конкретному делу.
Мы создаем решения для крупного бизнеса и видим LegalTech шире — не только как цифровизацию юридической функции, но и как решение для всех, кто работает с документами. В этот список входят, например, методологи, стандартизаторы, процессники и нормотворцы.
Дело в том, что в России нет сформированных отраслевых ИТ-рынков для этих специалистов. Поскольку большая часть их деятельности построена на работе с документами, они смотрят в сторону LegalTech-решений и ищут возможность применить их под свои задачи.
Всем этим специалистам нужна одна интеллектуальная основа, способная понимать смысл документов, извлекать из большого массива данных знания, сущности и компетенции. Для юриста и методолога системы будут выглядеть по-разному, но интеллектуальная основа, самая дорогая и сложная часть разработки, остается одинаковой.
Следующий выпуск рубрики #legaltech_corporate — об объеме российского рынка LegalTech. Расскажем, чем наше видение игроков отличается от того, как их определяют аналитики.
🗒Рынок LegalTech в России
Согласно исследованию PwC, двигателем цифровизации юридических отделов российских компаний стала борьба за эффективность. К 2019 году компании стали чаще обращать внимание на разработки в области LegalTech, а некоторые создают собственные решения и выводят их на рынок.
Среди опрошенных, 88% компаний предпочитают пользоваться услугами внешнего провайдера для внедрения LegalTech-решений, оставшиеся 12% полагаются на собственную разработку. Аналитики подсчитали, что на российском рынке более 100 компаний, которые занимаются разработкой LegalTech-решений.
С нашей точки зрения, игроками на рынке являются не только компании, которые занимаются непосредственно разработкой LegalTech-решений, но и команды, которые обладают необходимыми компетенциями, чтобы создать индивидуальное решение под нужды клиента. Такие компании выходят на рынок, например, в результате выигранного тендера на автоматизацию юридической функции в госструктурах или в компаниях с государственным участием.
🗒Рынок LegalTech в России
Согласно исследованию PwC, двигателем цифровизации юридических отделов российских компаний стала борьба за эффективность. К 2019 году компании стали чаще обращать внимание на разработки в области LegalTech, а некоторые создают собственные решения и выводят их на рынок.
Среди опрошенных, 88% компаний предпочитают пользоваться услугами внешнего провайдера для внедрения LegalTech-решений, оставшиеся 12% полагаются на собственную разработку. Аналитики подсчитали, что на российском рынке более 100 компаний, которые занимаются разработкой LegalTech-решений.
С нашей точки зрения, игроками на рынке являются не только компании, которые занимаются непосредственно разработкой LegalTech-решений, но и команды, которые обладают необходимыми компетенциями, чтобы создать индивидуальное решение под нужды клиента. Такие компании выходят на рынок, например, в результате выигранного тендера на автоматизацию юридической функции в госструктурах или в компаниях с государственным участием.
В новом, третьем по счету, выпуске рубрики #legaltech_corporate объясняем, почему LegalTech — это возможность повысить эффективность работы, а не инструмент сокращения издержек.
🗒LegalTech — инвестиция в будущее, а не быстрый результат
Технологии в любой сфере создаются с целью оптимизации бизнес-процессов и получения прибыли. Поэтому для бизнеса важно видеть эффекты от внедрения. Желательно, в виде сокращения издержек.
Юристам сложнее объяснить эффекты от внедрения цифровых решений, чем, например, финансистам и кадровикам. FinTech — развитая отрасль, а эффект от ее технологизации выражается сравнительно быстро и напрямую, — в деньгах. То же можно сказать об HrTech, где автоматизация оценки резюме для считывания нужных компетенций наглядно демонстрирует сокращение объема работы рекрутеров.
Сегодня эффекты от внедрения LegalTech-решений — оптимизация работы, сокращение ручного труда юристов, нормотворцев и других специалистов. Цифровизация этих функций — работа на перспективу: в будущем это позволит минимизировать регуляторные риски, создавать более качественные документы и поможет юристам сконцентрировать внимание на решении сложных кейсов, с которыми алгоритмам не справиться.
🗒LegalTech — инвестиция в будущее, а не быстрый результат
Технологии в любой сфере создаются с целью оптимизации бизнес-процессов и получения прибыли. Поэтому для бизнеса важно видеть эффекты от внедрения. Желательно, в виде сокращения издержек.
Юристам сложнее объяснить эффекты от внедрения цифровых решений, чем, например, финансистам и кадровикам. FinTech — развитая отрасль, а эффект от ее технологизации выражается сравнительно быстро и напрямую, — в деньгах. То же можно сказать об HrTech, где автоматизация оценки резюме для считывания нужных компетенций наглядно демонстрирует сокращение объема работы рекрутеров.
Сегодня эффекты от внедрения LegalTech-решений — оптимизация работы, сокращение ручного труда юристов, нормотворцев и других специалистов. Цифровизация этих функций — работа на перспективу: в будущем это позволит минимизировать регуляторные риски, создавать более качественные документы и поможет юристам сконцентрировать внимание на решении сложных кейсов, с которыми алгоритмам не справиться.
Продолжаем рубрику #legaltech_corporate рассказом об особенностях российского рынка LegalTech.
🗒Специфика рынка LegalTech в России
Многие особенности российского рынка LegalTech характерны для всего российского IT. Вот некоторые из них:
— Безопасность. Сюда входят и особенные требования к безопасности со стороны крупных корпоративных заказчиков, и требование к локализации персональных данных.
— Программа импортозамещения, согласно которой госсектор должен на 80% перейти на отечественное программное обеспечение. Поскольку в крупных компаниях зачастую есть госучастие, это требование затрагивает и их.
— Санкции. Российским компаниям, даже без госучастия, выгоднее устанавливать отечественные разработки. Если компания попадет в санкционный список, она может лишиться доступа к иностранному ПО.
— Стоимость. Российские решения дешевле зарубежных.
Поскольку рынок LegalTech в России только начинает развиваться, большинство потенциальных покупателей ведут себя осторожно, и предпочитают недорогие коробочные решения. Такой выбор можно объяснить небольшими финансовыми потерями в случае, если инструмент не докажет свою эффективность.
В кастомизированные решения, направленные на развитие юридического департамента, вкладываются единицы. Например, их приобретает крупный бизнес, — коробочные решения таким компаниям не подходят. Это связано с тем, что у каждой из них свои процессы и внутренние требования, и им нужна индивидуальная разработка с глубоким изучением их бизнеса.
🗒Специфика рынка LegalTech в России
Многие особенности российского рынка LegalTech характерны для всего российского IT. Вот некоторые из них:
— Безопасность. Сюда входят и особенные требования к безопасности со стороны крупных корпоративных заказчиков, и требование к локализации персональных данных.
— Программа импортозамещения, согласно которой госсектор должен на 80% перейти на отечественное программное обеспечение. Поскольку в крупных компаниях зачастую есть госучастие, это требование затрагивает и их.
— Санкции. Российским компаниям, даже без госучастия, выгоднее устанавливать отечественные разработки. Если компания попадет в санкционный список, она может лишиться доступа к иностранному ПО.
— Стоимость. Российские решения дешевле зарубежных.
Поскольку рынок LegalTech в России только начинает развиваться, большинство потенциальных покупателей ведут себя осторожно, и предпочитают недорогие коробочные решения. Такой выбор можно объяснить небольшими финансовыми потерями в случае, если инструмент не докажет свою эффективность.
В кастомизированные решения, направленные на развитие юридического департамента, вкладываются единицы. Например, их приобретает крупный бизнес, — коробочные решения таким компаниям не подходят. Это связано с тем, что у каждой из них свои процессы и внутренние требования, и им нужна индивидуальная разработка с глубоким изучением их бизнеса.
Предпоследний выпуск рубрики #legaltech_corporate — о шести барьерах, которые, на наш взгляд, не позволяют российскому рынку LegalTech активно развиваться.
🗒Барьеры развития LegalTech в России
Сейчас развитию рынка мешают несколько особенностей:
— Высокая стоимость решений, в том числе из-за необходимости выделить бюджет на их обслуживание
— Неразвитый рынок венчурного капитала. На западе инвесторы готовы дать деньги на проект, который не обязательно окажется успешным. При этом, согласно исследованию НАФИ, в России отрасль постепенно становится одной их самых выгодных и привлекательных для венчурного инвестирования.
— Риски data science-решений. Технические и бизнес-метрики сильно различаются. Заказчик хочет 100% точность работы инструмента, а обеспечить ее практически невозможно в силу качества исходных данных.
— Цена ошибки. Сложно доверять алгоритму, точность работы которого составляет 99%. Ошибка в оставшемся 1% случаев может привести к принятию неправильного юридического решения. Если для оптимизации рутинных процессов такой точности достаточно, то при наделении машины правом принятия решений риск остается высоким.
— Проблема исходных данных. Документы могут храниться в разном виде: в текстовых файлах, сканах или других форматах. Обычно объем данных большой, и чтобы сделать их пригодными для использования, данные необходимо сначала собрать в одном месте и привести к единому виду.
— Односторонний пиар индустрии. В качестве LegalTech-решений гораздо чаще рассматриваются приложения и сервисы с заявкой на инновационность, но с недостаточным функционалом. Рассматривать этот рынок следует гораздо шире.
🗒Барьеры развития LegalTech в России
Сейчас развитию рынка мешают несколько особенностей:
— Высокая стоимость решений, в том числе из-за необходимости выделить бюджет на их обслуживание
— Неразвитый рынок венчурного капитала. На западе инвесторы готовы дать деньги на проект, который не обязательно окажется успешным. При этом, согласно исследованию НАФИ, в России отрасль постепенно становится одной их самых выгодных и привлекательных для венчурного инвестирования.
— Риски data science-решений. Технические и бизнес-метрики сильно различаются. Заказчик хочет 100% точность работы инструмента, а обеспечить ее практически невозможно в силу качества исходных данных.
— Цена ошибки. Сложно доверять алгоритму, точность работы которого составляет 99%. Ошибка в оставшемся 1% случаев может привести к принятию неправильного юридического решения. Если для оптимизации рутинных процессов такой точности достаточно, то при наделении машины правом принятия решений риск остается высоким.
— Проблема исходных данных. Документы могут храниться в разном виде: в текстовых файлах, сканах или других форматах. Обычно объем данных большой, и чтобы сделать их пригодными для использования, данные необходимо сначала собрать в одном месте и привести к единому виду.
— Односторонний пиар индустрии. В качестве LegalTech-решений гораздо чаще рассматриваются приложения и сервисы с заявкой на инновационность, но с недостаточным функционалом. Рассматривать этот рынок следует гораздо шире.
Завершаем рубрику #legaltech_corporate нашим видением будущего LegalTech. Объясняем, на какие технологии стоит обратить внимание и в каком направлении будет развиваться рынок.
🗒Что ждет LegalTech в будущем
Юристам стоит следить не только за развитием LegalTech, а в целом за тем, что происходит в области обработки естественного языка и текстов. Например, недавно Open AI выпустил нейросеть GPT-3, которая позволяет генерировать тексты высокого качества. Возможно, в течение следующих пяти лет она сможет генерировать юридические документы.
Развитие искусственного интеллекта позволит создать эффективные системы вопросов-ответов для стандартных юридических консультаций, а также рекомендательные системы для оформления документов и подбора правильных формулировок. Кроме того, увеличится объем данных, которые подходят для обучения моделей — это упростит цифровизацию юридической функции.
На российском рынке LegalTech главным вектором развития станет автоматизация оценки регуляторных рисков — если этот процесс пройдет успешно, юристы смогут сконцентрировать внимание на более интересной и сложной деятельности — оценке бизнес-рисков. На западе это уже реальность, а в России — вопрос будущего.
Сейчас многие аналитики в сфере IT заявляют, что сначала необходимо формализовать юридический язык, а после этого можно автоматизировать юридическую функцию. Однако действительно успешной будет компания, решение которой позволит проводить автоматизацию в условиях текущего хаоса данных.
🗒Что ждет LegalTech в будущем
Юристам стоит следить не только за развитием LegalTech, а в целом за тем, что происходит в области обработки естественного языка и текстов. Например, недавно Open AI выпустил нейросеть GPT-3, которая позволяет генерировать тексты высокого качества. Возможно, в течение следующих пяти лет она сможет генерировать юридические документы.
Развитие искусственного интеллекта позволит создать эффективные системы вопросов-ответов для стандартных юридических консультаций, а также рекомендательные системы для оформления документов и подбора правильных формулировок. Кроме того, увеличится объем данных, которые подходят для обучения моделей — это упростит цифровизацию юридической функции.
На российском рынке LegalTech главным вектором развития станет автоматизация оценки регуляторных рисков — если этот процесс пройдет успешно, юристы смогут сконцентрировать внимание на более интересной и сложной деятельности — оценке бизнес-рисков. На западе это уже реальность, а в России — вопрос будущего.
Сейчас многие аналитики в сфере IT заявляют, что сначала необходимо формализовать юридический язык, а после этого можно автоматизировать юридическую функцию. Однако действительно успешной будет компания, решение которой позволит проводить автоматизацию в условиях текущего хаоса данных.
В течение недели мы рассказывали об особенностях LegalTech-решений для крупного бизнеса, специфике российского рынка и будущем отрасли. Теперь все эти тезисы можно прочитать у нас в блоге — в виде одной статьи.
В июне аналитики компании Anaconda выпустили исследование о работе специалистов по data science. Согласно отчету, инженеры тратят почти половину рабочего времени на обработку исходных данных. Это влияет на их общую производительность и существенно сокращает время на разработку продуктов.
Это глобальная проблема: 80% всех данных в мире не структурированы. По следам исследования мы написали статью с разбором проблемы качества исходных данных — она вышла в издании Tproger. Прочитать ее можно здесь.
Это глобальная проблема: 80% всех данных в мире не структурированы. По следам исследования мы написали статью с разбором проблемы качества исходных данных — она вышла в издании Tproger. Прочитать ее можно здесь.
Месяц назад мы запустили сервис сравнения документов Embedika Compare. За это время инструментом воспользовались более 2 тысяч пользователей — спасибо за доверие!
Мы собрали отзывы специалистов, которым сервис оказался полезен. Вот некоторые из них:
▶️«Во-первых, Legal Tech проекты – это в принципе всегда круто и интересно (все еще жду, когда ИИ заменит юристов). Во-вторых, слетающее форматирование – это извечная проблема Word’a и моя персональная головная боль. Про поддержку PDF я даже молчу (наконец-то). Короче, всем советую!». Михаил Ратушный, главный юридический консультант МТС.
▶️«Ребята из Embedika сделали классный сервис по сравнению документов, который уже можно потестить. Работает быстрее, чем Word». Екатерина Лобышева, юрист Eversheds Sutherland.
▶️«Когда функция сравнения в ворде не отвечает всем потребностям, на помощь приходят такие прекрасные проекты!». Ульяна Корякина, юрисконсульт в Luxoft Russia.
Попробовать сервис можно здесь.
Мы собрали отзывы специалистов, которым сервис оказался полезен. Вот некоторые из них:
▶️«Во-первых, Legal Tech проекты – это в принципе всегда круто и интересно (все еще жду, когда ИИ заменит юристов). Во-вторых, слетающее форматирование – это извечная проблема Word’a и моя персональная головная боль. Про поддержку PDF я даже молчу (наконец-то). Короче, всем советую!». Михаил Ратушный, главный юридический консультант МТС.
▶️«Ребята из Embedika сделали классный сервис по сравнению документов, который уже можно потестить. Работает быстрее, чем Word». Екатерина Лобышева, юрист Eversheds Sutherland.
▶️«Когда функция сравнения в ворде не отвечает всем потребностям, на помощь приходят такие прекрасные проекты!». Ульяна Корякина, юрисконсульт в Luxoft Russia.
Попробовать сервис можно здесь.
Data science быстро развивается — одновременно растет число ресурсов, которые пишут на эту тему. Для того, чтобы быть в курсе последних трендов и исследований, приходится читать много источников, ориентироваться в которых сложно.
По совету наших R&D-специалистов составили подборку источников с качественной и проверенной информацией: кейсами, проблемами и их решениями. Подборка подойдет как специалистам, так и широкой аудитории — тем, кто хочет разобраться, как устроена наука о данных. Читайте здесь.
По совету наших R&D-специалистов составили подборку источников с качественной и проверенной информацией: кейсами, проблемами и их решениями. Подборка подойдет как специалистам, так и широкой аудитории — тем, кто хочет разобраться, как устроена наука о данных. Читайте здесь.
🎉Наш сервис сравнения документов Embedika Compare вошел в подборку на vc.ru.
Compare работает с документами в формате PDF, DOC и DOCX. В нем можно переключаться между отличиями, синхронизировать документы и смотреть, какой объем текста поменялся.
Попробуйте сервис, если ещё не сделали этого. И не забывайте писать нам на info@embedika.ru, если после работы с инструментом у вас появились идеи, как его улучшить.
Compare работает с документами в формате PDF, DOC и DOCX. В нем можно переключаться между отличиями, синхронизировать документы и смотреть, какой объем текста поменялся.
Попробуйте сервис, если ещё не сделали этого. И не забывайте писать нам на info@embedika.ru, если после работы с инструментом у вас появились идеи, как его улучшить.
vc.ru
Семь полезных сервисов для сравнения документов
Сравнение документов вручную занимает очень много времени и влечет риск ошибок. Найти изменения в разных версиях документа можно в Word или Excel, но удобнее делать это через специальные сервисы сравнения документов. Вот несколько платных и бесплатных инструментов.
Мы запускаем несколько авторских рубрик, в которых посмотрим на data science с разных сторон. Первую рубрику мы назвали «Data Science в реальном мире». В ней наш ведущий разработчик машинного обучения Иван Меньших объяснит, почему наука о данных — не панацея от всех проблем и почему завышенные ожидания от data science иногда опасны для бизнеса.
🗒Что скрыто за AI стартапами?
Искусственный интеллект и машинное обучение — доткомы нашего времени. Многие компании хотят внедрить себе абстрактный искусственный интеллект (AI), который решит все их проблемы. К сожалению, технологии пока не могут показать таких результатов. Но знают ли те, кто вкладывается в AI/ML/DL/whatever стартапы и создаваемые ими продукты, за что они платят?
Реальность такова: часто за красивыми терминами Deep learning (DL), Machine learning (ML), Natural Language Processing (NLP) стоят сравнительно простые программы: логистические регрессии и регулярные выражения, а AI называют все, что угодно.
Некоторые предприниматели идут дальше и под видом AI продают ручной труд, — за ним стоит реальный штат сотрудников, которых выдают за искусственный интеллект. Так, согласно расследованию Forbes, многие годы поступала компания ScaleFactor. Этот пример — реализация принципа «Fake it till you make it» во всей красе.
Почему так происходит? Основатели стартапов хорошо понимают, что сейчас тема ИИ крайне популярна, а инвесторы гораздо охотней дают деньги на «самые современные разработки в области AI», чем на сравнительно простые решения. Это двигает отрасль вперед, но в то же время увеличивает количество недобросовестных компаний, которые мимикрируют под AI-стартапы и получают деньги за счет большого спроса.
Нужен ли AI каждой компании? Конечно, нет. Искусственный интеллект — только один из инструментов решения проблем, а не средство от всех болезней. В сравнительно простых решениях без участия нейросетей нет ничего криминального — иногда это даже более эффективный инструмент. Если более простая система решает проблему бизнеса (и делает это хорошо), то не обязательно гнаться именно за AI. #datascienceвреальноммире
🗒Что скрыто за AI стартапами?
Искусственный интеллект и машинное обучение — доткомы нашего времени. Многие компании хотят внедрить себе абстрактный искусственный интеллект (AI), который решит все их проблемы. К сожалению, технологии пока не могут показать таких результатов. Но знают ли те, кто вкладывается в AI/ML/DL/whatever стартапы и создаваемые ими продукты, за что они платят?
Реальность такова: часто за красивыми терминами Deep learning (DL), Machine learning (ML), Natural Language Processing (NLP) стоят сравнительно простые программы: логистические регрессии и регулярные выражения, а AI называют все, что угодно.
Некоторые предприниматели идут дальше и под видом AI продают ручной труд, — за ним стоит реальный штат сотрудников, которых выдают за искусственный интеллект. Так, согласно расследованию Forbes, многие годы поступала компания ScaleFactor. Этот пример — реализация принципа «Fake it till you make it» во всей красе.
Почему так происходит? Основатели стартапов хорошо понимают, что сейчас тема ИИ крайне популярна, а инвесторы гораздо охотней дают деньги на «самые современные разработки в области AI», чем на сравнительно простые решения. Это двигает отрасль вперед, но в то же время увеличивает количество недобросовестных компаний, которые мимикрируют под AI-стартапы и получают деньги за счет большого спроса.
Нужен ли AI каждой компании? Конечно, нет. Искусственный интеллект — только один из инструментов решения проблем, а не средство от всех болезней. В сравнительно простых решениях без участия нейросетей нет ничего криминального — иногда это даже более эффективный инструмент. Если более простая система решает проблему бизнеса (и делает это хорошо), то не обязательно гнаться именно за AI. #datascienceвреальноммире
Встречайте вторую авторскую рубрику — мы назвали ее «Просто о Data Science». В ней наш NLP-инженер Антон Балтачев на примере обработки естественного языка объясняет, как устроена наука о данных.
🗒Что такое обработка естественного языка?
Каждый день в мире генерируются огромные объемы информации, большая часть которой — в виде текстов. Правительства принимают поправки к законам, миллиардеры управляют фондовыми рынками через твиты, а компании создают миллионы новых документов. Для того, чтобы вычленить из этого массива полезную информацию, у людей уходит очень много времени. В этом помогает обработка естественного языка (Natural Language Processing, NLP).
NLP — это область анализа данных, которая позволяет алгоритму с помощью статистики, лингвистики и машинного обучения понимать человеческие языки.
Например, NLP помогает пользователям найти нужный или похожий документ среди миллионов других, понять, к каким темам он относится, получить краткое содержание и набор ключевых слов. Такая автоматизация освобождает рядовых сотрудников от рутинной работы и позволяет заказчику решения сократить издержки.
#простооdatascience
🗒Что такое обработка естественного языка?
Каждый день в мире генерируются огромные объемы информации, большая часть которой — в виде текстов. Правительства принимают поправки к законам, миллиардеры управляют фондовыми рынками через твиты, а компании создают миллионы новых документов. Для того, чтобы вычленить из этого массива полезную информацию, у людей уходит очень много времени. В этом помогает обработка естественного языка (Natural Language Processing, NLP).
NLP — это область анализа данных, которая позволяет алгоритму с помощью статистики, лингвистики и машинного обучения понимать человеческие языки.
Например, NLP помогает пользователям найти нужный или похожий документ среди миллионов других, понять, к каким темам он относится, получить краткое содержание и набор ключевых слов. Такая автоматизация освобождает рядовых сотрудников от рутинной работы и позволяет заказчику решения сократить издержки.
#простооdatascience
Во втором посте рубрики «Data Science в реальном мире» Иван расскажет, с какими ошибками часто сталкиваются разработчики с точки зрения организации бизнеса и постановки стратегических целей.
🗒Ошибки разработчиков DS-решений
Ежедневно в мире появляются новые проекты, которые пытаются упростить жизнь и работу других компаний с помощью технологических решений на основе ML/DL/CV/NLP. К сожалению, разработчики решений продолжают допускать одни и те же ошибки. Вот самые распространенные из них.
# Едим слона целиком
Цель бывает очень амбициозна — настолько, что она фактически недостижима. Вместо того, чтобы декомпозировать ее на отдельные и реализуемые задачи, стартапы часто пытаются решить всю проблему сразу.
На выходе они получают тысячи потраченных человеко-часов и неудовлетворительный результат. Казалось бы, минимально жизнеспособный продукт (MVP), который обладает достаточными для удовлетворения первых потребителей функциями, — это очевидная вещь. Но в состоянии драйва люди об этом совершенно забывают.
# Отсутствие фидбека от пользователей
Никто не любит демонстрировать «сырой» продукт, но это ошибка. MVP — лучшее, что можно сделать, еще и потому, что это единственная возможность собрать обратную связь о своем продукте с пользователей на раннем этапе.
Так стартап может получить информацию, важную для создания действительно хорошего решения, в самом начале, когда в проект еще не вложено большое количество ресурсов. Бонусом компания сможет изучить спрос на подобного рода решения и скорректирует свое видение проблемы. #datascienceвреальноммире
🗒Ошибки разработчиков DS-решений
Ежедневно в мире появляются новые проекты, которые пытаются упростить жизнь и работу других компаний с помощью технологических решений на основе ML/DL/CV/NLP. К сожалению, разработчики решений продолжают допускать одни и те же ошибки. Вот самые распространенные из них.
# Едим слона целиком
Цель бывает очень амбициозна — настолько, что она фактически недостижима. Вместо того, чтобы декомпозировать ее на отдельные и реализуемые задачи, стартапы часто пытаются решить всю проблему сразу.
На выходе они получают тысячи потраченных человеко-часов и неудовлетворительный результат. Казалось бы, минимально жизнеспособный продукт (MVP), который обладает достаточными для удовлетворения первых потребителей функциями, — это очевидная вещь. Но в состоянии драйва люди об этом совершенно забывают.
# Отсутствие фидбека от пользователей
Никто не любит демонстрировать «сырой» продукт, но это ошибка. MVP — лучшее, что можно сделать, еще и потому, что это единственная возможность собрать обратную связь о своем продукте с пользователей на раннем этапе.
Так стартап может получить информацию, важную для создания действительно хорошего решения, в самом начале, когда в проект еще не вложено большое количество ресурсов. Бонусом компания сможет изучить спрос на подобного рода решения и скорректирует свое видение проблемы. #datascienceвреальноммире
Второй пост рубрики NLP-инженера Антона Балтачева «Просто о Data Science» — о том, как происходит обучение нейросети.
🗒Модели в NLP обучаются сами?
До расцвета машинного обучения программисты и лингвисты тратили уйму времени на то, чтобы вручную прописать правила для каждого аспекта работы с языком: например, для перевода с одного языка на другой. Однажды кто-то предложил отказаться от этой практики: собрать тексты на оригинальном языке и их переводы, а затем отдать нейросети — пусть она сама пропишет правила. Нейросеть хоть и работала с ошибками, но значительно сокращала время на разработку правил работы с текстом — даже с учетом исправления погрешностей.
Значит ли это, что сейчас NLP-инженеры могут загрузить все данные в систему, а затем пару недель пить кофе и ждать, пока нейросеть обучится понимать естественный язык? К сожалению, нет.
Данные, с которыми работает алгоритм, нужно сначала привести к формальному виду: очистить и систематизировать. Нейросети обучаются и работают медленно — иногда время ответа на запрос составляет около минуты, в этом случае от такого решения лучше отказаться. Кроме того, далеко не все компании могут позволить себе нейросети — для их поддержания и разработки требуются огромные мощности. Поэтому до сих пор активно используются системы, правила в которых написаны вручную.
В следующих постах подробнее разберем задачи, с которыми приходится сталкиваться NLP-инженерам и проблемы, возникающие на пути к их решению. #простооdatascience
🗒Модели в NLP обучаются сами?
До расцвета машинного обучения программисты и лингвисты тратили уйму времени на то, чтобы вручную прописать правила для каждого аспекта работы с языком: например, для перевода с одного языка на другой. Однажды кто-то предложил отказаться от этой практики: собрать тексты на оригинальном языке и их переводы, а затем отдать нейросети — пусть она сама пропишет правила. Нейросеть хоть и работала с ошибками, но значительно сокращала время на разработку правил работы с текстом — даже с учетом исправления погрешностей.
Значит ли это, что сейчас NLP-инженеры могут загрузить все данные в систему, а затем пару недель пить кофе и ждать, пока нейросеть обучится понимать естественный язык? К сожалению, нет.
Данные, с которыми работает алгоритм, нужно сначала привести к формальному виду: очистить и систематизировать. Нейросети обучаются и работают медленно — иногда время ответа на запрос составляет около минуты, в этом случае от такого решения лучше отказаться. Кроме того, далеко не все компании могут позволить себе нейросети — для их поддержания и разработки требуются огромные мощности. Поэтому до сих пор активно используются системы, правила в которых написаны вручную.
В следующих постах подробнее разберем задачи, с которыми приходится сталкиваться NLP-инженерам и проблемы, возникающие на пути к их решению. #простооdatascience