Наша команда Layer CV была создана в 2020 году в рамках продукта Layer, входящего в состав SberDevices. Layer, по своей сути, является стартапом внутри устройств, поскольку его разработка и развитие были осуществлены в нестандартном формате. Продукт быстро расширился и продолжает развиваться, поэтому мы решили делиться новостями и интересной информацией о темах, связанных с компьютерным зрением и машинным обучением 👀
Давайте немного расскажем о продукте.
📺 Layer - это платформа для монетизации фото и видео контента.
Мы начинали свой продукт с фильмов. Это выглядит так:
❔- Вы смотрите фильм, например, на платформе Okko. Во время просмотра, мы ищем за вас интересные элементы одежды, аксессуары, мебель и другие товары внутри видеокадров. В любой момент вы можете вызвать паузу и посмотреть, что мы распознали, а если что-то понравилось, то тут же купить. В общем, это некий "слой" поверх видео, который обладает уникальными функциональными возможностями на основе компьютерного зрения.
Вот в этом ролике наглядно показано то, о чём идёт речь.
⚡️Теперь же, мы вышли далеко за рамки фильмов.
У нас огромное количество задач и продуктов. Вот лишь некоторые из них:
- Мы ищем похожие предметы одежды, обуви, аксессуаров, похожую мебель и т.д. на абсолютно любых изображениях и в любых видео и предоставляем этот сервис как виджет на изображение. Его можно подключить к любому сайту и мы сотрудничаем со множеством площадок.
- Мы рекомендуем похожие товары внутри маркетплейсов. Например, в СберМегаМаркете блок "похожие товары" использует нашу технологию, и, в отличие от более классических решениях, основан именно на визуальной схожести вещей.
- У нас есть особый сервис Layer API, который может в стиле zero-shot learning работать с любыми категориями, может модерировать контент или тегировать объекты на фотографии.
- У нас есть поисковые боты, куда можно просто кинуть фотку с искомым товаром (coming soon).
- Масштабные мультимодальные проекты на подходе. Они ещё под NDA, но разработка близится к завершению. Будет и текст, и видео во всех проявлениях, и трансформеры.
🧐Звучит заманчиво, но на самом деле каждый этап создания такого масштабного продукта скрывает в себе множество сложностей. Некоторые из наиболее очевидных проблем:
- Задача очень сложная, визуальные домены могут быть любые: от профессиональных фильмов до селфи с телефона.
- У нас ограниченное количество площадок. Если у партнёра нет похожего товара, мы ничего не сможем сделать. При этом пользователю покажется, что алгоритм не отработал.
- Часто в нашей задаче нет верных и неверных ответов, а есть мнения и вкусы.
- Огромные нагрузки. Это тонны часов различного видеоконтента, которые постоянно пополняются, это фиды в десятки миллионов изображений от каждого из партнёров, которые надо обновлять. Просто забросать железом эту проблему невозможно.
Конечно, это лишь некоторые из ключевых трудностей, с которыми мы сталкиваемся на пути создания идеального видео-маркета всего, что вы видите. Все они превращаются в сложный, но интересный рабочий процесс, результаты которого вы можете опробовать и оценить на различных площадках, а также поделиться обратной связью и общением с нашей командой ✌️.
Команда! За всем этим стоит трудолюбивая, энергичная и дружная команда, которую мы немного представим. Начнем с нашего тимлида, который основал и собрал нашу команду крупинками. Помимо того, что Максим Купрашевич является крутым руководителем, он также сильный технический специалист и глубоко погружается во все процессы и задачи. Недавно Максим написал интересную статью, которая более подробно рассказывает о задачах, сложностях и решениях в области распознавания видео.
Давайте немного расскажем о продукте.
📺 Layer - это платформа для монетизации фото и видео контента.
Мы начинали свой продукт с фильмов. Это выглядит так:
❔- Вы смотрите фильм, например, на платформе Okko. Во время просмотра, мы ищем за вас интересные элементы одежды, аксессуары, мебель и другие товары внутри видеокадров. В любой момент вы можете вызвать паузу и посмотреть, что мы распознали, а если что-то понравилось, то тут же купить. В общем, это некий "слой" поверх видео, который обладает уникальными функциональными возможностями на основе компьютерного зрения.
Вот в этом ролике наглядно показано то, о чём идёт речь.
⚡️Теперь же, мы вышли далеко за рамки фильмов.
У нас огромное количество задач и продуктов. Вот лишь некоторые из них:
- Мы ищем похожие предметы одежды, обуви, аксессуаров, похожую мебель и т.д. на абсолютно любых изображениях и в любых видео и предоставляем этот сервис как виджет на изображение. Его можно подключить к любому сайту и мы сотрудничаем со множеством площадок.
- Мы рекомендуем похожие товары внутри маркетплейсов. Например, в СберМегаМаркете блок "похожие товары" использует нашу технологию, и, в отличие от более классических решениях, основан именно на визуальной схожести вещей.
- У нас есть особый сервис Layer API, который может в стиле zero-shot learning работать с любыми категориями, может модерировать контент или тегировать объекты на фотографии.
- У нас есть поисковые боты, куда можно просто кинуть фотку с искомым товаром (coming soon).
- Масштабные мультимодальные проекты на подходе. Они ещё под NDA, но разработка близится к завершению. Будет и текст, и видео во всех проявлениях, и трансформеры.
🧐Звучит заманчиво, но на самом деле каждый этап создания такого масштабного продукта скрывает в себе множество сложностей. Некоторые из наиболее очевидных проблем:
- Задача очень сложная, визуальные домены могут быть любые: от профессиональных фильмов до селфи с телефона.
- У нас ограниченное количество площадок. Если у партнёра нет похожего товара, мы ничего не сможем сделать. При этом пользователю покажется, что алгоритм не отработал.
- Часто в нашей задаче нет верных и неверных ответов, а есть мнения и вкусы.
- Огромные нагрузки. Это тонны часов различного видеоконтента, которые постоянно пополняются, это фиды в десятки миллионов изображений от каждого из партнёров, которые надо обновлять. Просто забросать железом эту проблему невозможно.
Конечно, это лишь некоторые из ключевых трудностей, с которыми мы сталкиваемся на пути создания идеального видео-маркета всего, что вы видите. Все они превращаются в сложный, но интересный рабочий процесс, результаты которого вы можете опробовать и оценить на различных площадках, а также поделиться обратной связью и общением с нашей командой ✌️.
Команда! За всем этим стоит трудолюбивая, энергичная и дружная команда, которую мы немного представим. Начнем с нашего тимлида, который основал и собрал нашу команду крупинками. Помимо того, что Максим Купрашевич является крутым руководителем, он также сильный технический специалист и глубоко погружается во все процессы и задачи. Недавно Максим написал интересную статью, которая более подробно рассказывает о задачах, сложностях и решениях в области распознавания видео.
🥰4🔥3
Сегодня на HighLoad++ выступает Григорий Алексеенко (@Grigoriy_Alekseenko) - наш незаменимый член команды, DS и CV-инженер в Layer CV 🏞
В своём докладе Григорий поделился основной концепцией монетизации image- и video-контента, которую развивает команда. В течение роста проекта появляется все больше категорий, каких как одежда🥻, мебель 🛋, аксессуары 💍 , еда 🍔 и другие категории, и Один-бог знает, что ещё предстоит распознать сеточкам 👀 Какие подходы мы используем и с какими сложностями столкнулись?
Получить больше информации и освежить знания после рассказа Григория можно в следующих слайдах
В своём докладе Григорий поделился основной концепцией монетизации image- и video-контента, которую развивает команда. В течение роста проекта появляется все больше категорий, каких как одежда🥻, мебель 🛋, аксессуары 💍 , еда 🍔 и другие категории, и Один-бог знает, что ещё предстоит распознать сеточкам 👀 Какие подходы мы используем и с какими сложностями столкнулись?
Получить больше информации и освежить знания после рассказа Григория можно в следующих слайдах
highload.ru
Григорий Алексеенко на HighLoad++ 2022
Хорошо известны проблемы применения Python в промышленных сервисах, особенно, если подразумевается высокая нагрузка и определены высокие требования к задержке. Ещё сложнее всё обстоит в задачах компьютерного зрения, где добавляется специфическая работа с…
🔥5
Forwarded from Сбер
This media is not supported in your browser
VIEW IN TELEGRAM
Салют, GigaСhat!🚀
Мы первыми из российских техногигантов вступаем в гонку мировых лидеров в области AI и запускаем собственную версию мультимодальной нейросети, которая на первом этапе будет доступна в режиме тестирования по приглашениям.
В отличие от ChatGPT, она изначально уже поддерживает мультимодальное взаимодействие и более грамотно общается на русском языке.
Ну и множество уже привычных задач умеет решать: поддерживать беседу, писать тексты, выполнять инструкции, отвечать на фактологические вопросы.
Сейчас GigaСhat работает в режиме бета-версии. Чтобы оказаться в числе первых, кто протестирует новую нейросеть, подписывайтесь на наш закрытый телеграм-канал. Подписчики канала первые получат доступ к нейросети.
@sberbank
Мы первыми из российских техногигантов вступаем в гонку мировых лидеров в области AI и запускаем собственную версию мультимодальной нейросети, которая на первом этапе будет доступна в режиме тестирования по приглашениям.
В отличие от ChatGPT, она изначально уже поддерживает мультимодальное взаимодействие и более грамотно общается на русском языке.
Ну и множество уже привычных задач умеет решать: поддерживать беседу, писать тексты, выполнять инструкции, отвечать на фактологические вопросы.
Сейчас GigaСhat работает в режиме бета-версии. Чтобы оказаться в числе первых, кто протестирует новую нейросеть, подписывайтесь на наш закрытый телеграм-канал. Подписчики канала первые получат доступ к нейросети.
@sberbank
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Вышла очередная интересная штука от Facebook, свежак, всего 7 дней назад (надеюсь, вы успеваете читать):
ImageBind: One Embedding Space To Bind Them All
А мы уже успели обкатать модельку для изображений на наших задачах, в стиле zero-shot metric learning.
Вышло сильно хуже, чем специализированные энкодеры и чуть-чуть хуже, чем blip2. Но заметно лучше, чем blip1 или clip (на ViT).
Тем не менее, применений у подхода огромное количество и это лишь одно из них. Так что не сомневаюсь - он займёт в нашем ящике для инструментов достойное место.
ImageBind: One Embedding Space To Bind Them All
А мы уже успели обкатать модельку для изображений на наших задачах, в стиле zero-shot metric learning.
Вышло сильно хуже, чем специализированные энкодеры и чуть-чуть хуже, чем blip2. Но заметно лучше, чем blip1 или clip (на ViT).
Тем не менее, применений у подхода огромное количество и это лишь одно из них. Так что не сомневаюсь - он займёт в нашем ящике для инструментов достойное место.
😎5🔥2
Уже используете Copilot \ CodeWhisperer \ StarCoder \ whatever ?
Anonymous Poll
40%
Да, производительность невозможно сравнивать
7%
Да, но пока так себе результаты
40%
Нет, но планирую, поезд прогресса несётся слишком быстро
7%
Нет и не планирую
7%
Это что?
Сидячий образ жизни - известная профессиональная проблема в IT.
Особенно, когда ты DS и отвлечься просто невозможно!👨🔬👩🔬
Почему это плохо - кажется, знают все и тут всё очевидно.
Всё да не всё.
Оказывается, что помимо очевидных минусов, сидя весь день на одном месте, мы круто теряем в производительности нашего мозга.
Некоторые исследования утверждают, что разница перформанса прямо разительная. После недолгой ходьбы улучшается всё: от креативности до математических способностей.
И у науки на то есть пруфы: [1] [2]
Не получается найти баг - просто пройдись.
Особенно, когда ты DS и отвлечься просто невозможно!👨🔬👩🔬
Почему это плохо - кажется, знают все и тут всё очевидно.
Всё да не всё.
Оказывается, что помимо очевидных минусов, сидя весь день на одном месте, мы круто теряем в производительности нашего мозга.
Некоторые исследования утверждают, что разница перформанса прямо разительная. После недолгой ходьбы улучшается всё: от креативности до математических способностей.
И у науки на то есть пруфы: [1] [2]
Не получается найти баг - просто пройдись.
🔥3⚡2👍1
У владельцев iPhone сегодня явно хороший день.
Прежде, чем вы перейдёте по ссылке, попробуйте угадать о чём речь по изображению, которое сгенерировала модель Kandinsky 2.1 для этой новости 😁
Прежде, чем вы перейдёте по ссылке, попробуйте угадать о чём речь по изображению, которое сгенерировала модель Kandinsky 2.1 для этой новости 😁
🔥2
drag.gif
20.6 MB
Смотрите, какое необычное применение для генеративных сетей.
Статья вышла буквально вчера, а код обещают выложить в июне.
Не диффузионками едиными.
Статья вышла буквально вчера, а код обещают выложить в июне.
Не диффузионками едиными.
🔥3
Начинаю серию постов по следам давнего тизера из LinkedIn.
Поговорим об инженерной части нашей работы, о производительности.
В оригинальном посте я я сравнивал нас с библиотекой для процессинга данных Nvidia DALI (используется в Triton Server), но на самом деле функционал пересекается лишь частично. Однако, как я писал, где он всё-таки пересекается, там производительность у нас намного выше.
В этой серии хочу раскрыть те детали, которые можно брать и применять в работе хоть завтра. В общем, упор на практичность.
Начнём мы с PNG и GIF.
Секундный ликбез (почему-то для многих это проблема на собеседовании О_о): это второй по популярности в известной нам части Вселенной формат хранения изображений и хранит он их сжимая без потерь. В большинстве случаев, для сжатия под капотом будет использоваться zlib, т.е. алгоритм общего назначения DEFLATE, точно такой же, который, зачастую, применяется и когда вы используете ZIP утилиту.
Гонять PNG на карту для декомпрессии там, как в случае с JPG, совершенно бессмысленно: вес большой, а сам алгоритм прекрасно оптимизирован для CPU. Кроме того, в нашей области крайне велика вероятность, что CPU у вас намного свободнее карты :)
Но, общем и целом, производительность PNG всё равно намного хуже, чем у JPEG. Поэтому, кажется, что разработчики Nvidia DALI должны были уделить вопросу особое внимание. Однако на деле библиотека, не мудрствуя лукаво, просто вызывает OpenCV. Который, в свою очередь, дёргает libpng, который дёргает zlibв доме, который построил Джек. Вообще говоря, можно подоткнуть в OpenCV и другие реализации: libspng, lodepng, и т.д., а так же использовать другие вариации zlib. Но по итогу, можно закончить результатами ещё хуже, чем было до.
Из-за чего может показаться, что лучше ничего не трогать и оставить всё, как в DALI. Но нет.
Серебряная пуля существует и имя ей Wuffs от Google. Эта библиотека не только в 1.5 - 2.75 раза быстрее libpng, но ещё и безопаснее с точки зрения эксплойтов! Вместо zlib там своя реализация. По ссылке есть все необходимые числа, эксперименты и обоснования.
И, совершенно потрясающим образом, насколько эта библиотека невероятно крута, настолько же мало используема!
Google и PR... you know.
К сожалению, просто взять и воткнуть Wuffs в Python не получится, по крайней мере я не нашёл готовых модулей. Но вот написать такой совсем не сложно.
Лично я реализовал его так, что на выходе Wuffs сразу пишет в буфер OpenCV изображения: его затем легко и прокинуть назад в Python и провести с ним любые манипуляции. Разница в скорости - колоссальная, и это если сравнивать с OpenCV \ libpng, не говоря о других библиотеках, как PIL.
Ну, а GIF тут идёт бонусом :) В его случае разница может быть даже больше.
Тут дубликат поста в LinkedIn, если вы там есть и пост вам понравился, пожалуйста, клацните лайк. Это поможет мне понять, какие темы стоит развивать дальше.
Поговорим об инженерной части нашей работы, о производительности.
В оригинальном посте я я сравнивал нас с библиотекой для процессинга данных Nvidia DALI (используется в Triton Server), но на самом деле функционал пересекается лишь частично. Однако, как я писал, где он всё-таки пересекается, там производительность у нас намного выше.
В этой серии хочу раскрыть те детали, которые можно брать и применять в работе хоть завтра. В общем, упор на практичность.
Начнём мы с PNG и GIF.
Секундный ликбез (почему-то для многих это проблема на собеседовании О_о): это второй по популярности в известной нам части Вселенной формат хранения изображений и хранит он их сжимая без потерь. В большинстве случаев, для сжатия под капотом будет использоваться zlib, т.е. алгоритм общего назначения DEFLATE, точно такой же, который, зачастую, применяется и когда вы используете ZIP утилиту.
Гонять PNG на карту для декомпрессии там, как в случае с JPG, совершенно бессмысленно: вес большой, а сам алгоритм прекрасно оптимизирован для CPU. Кроме того, в нашей области крайне велика вероятность, что CPU у вас намного свободнее карты :)
Но, общем и целом, производительность PNG всё равно намного хуже, чем у JPEG. Поэтому, кажется, что разработчики Nvidia DALI должны были уделить вопросу особое внимание. Однако на деле библиотека, не мудрствуя лукаво, просто вызывает OpenCV. Который, в свою очередь, дёргает libpng, который дёргает zlib
Из-за чего может показаться, что лучше ничего не трогать и оставить всё, как в DALI. Но нет.
Серебряная пуля существует и имя ей Wuffs от Google. Эта библиотека не только в 1.5 - 2.75 раза быстрее libpng, но ещё и безопаснее с точки зрения эксплойтов! Вместо zlib там своя реализация. По ссылке есть все необходимые числа, эксперименты и обоснования.
И, совершенно потрясающим образом, насколько эта библиотека невероятно крута, настолько же мало используема!
Google и PR... you know.
К сожалению, просто взять и воткнуть Wuffs в Python не получится, по крайней мере я не нашёл готовых модулей. Но вот написать такой совсем не сложно.
Лично я реализовал его так, что на выходе Wuffs сразу пишет в буфер OpenCV изображения: его затем легко и прокинуть назад в Python и провести с ним любые манипуляции. Разница в скорости - колоссальная, и это если сравнивать с OpenCV \ libpng, не говоря о других библиотеках, как PIL.
Ну, а GIF тут идёт бонусом :) В его случае разница может быть даже больше.
Тут дубликат поста в LinkedIn, если вы там есть и пост вам понравился, пожалуйста, клацните лайк. Это поможет мне понять, какие темы стоит развивать дальше.
🔥8
https://developers.sber.ru/portal/products/layer
У нашей команды обновился лендинг! Это результат долгого труда ребят, посмотрите обязательно, он красивый.
Особенного внимания заслуживает продукт для смартфонов, о котором я вам ещё не рассказывал - Camera. Приложение позволяет в реальном времени использовать платформу Layer через камеру устройства, а значит находить и распознавать одежду, обувь, аксессуары и мебель.
Мы очень любим это приложение, но ранее на широкую публику не показывали. Думаю, что расскажу о нём подробнее, когда придёт время :)
У нашей команды обновился лендинг! Это результат долгого труда ребят, посмотрите обязательно, он красивый.
Особенного внимания заслуживает продукт для смартфонов, о котором я вам ещё не рассказывал - Camera. Приложение позволяет в реальном времени использовать платформу Layer через камеру устройства, а значит находить и распознавать одежду, обувь, аксессуары и мебель.
Мы очень любим это приложение, но ранее на широкую публику не показывали. Думаю, что расскажу о нём подробнее, когда придёт время :)
developers.sber.ru
GigaChat API
Интеграция AI-модели GigaChat в бизнес решения компаний. Безопасность данных
🔥5
Начало дня понедельника, а значит самое время поговорить о кофе.
Великий венгерский математик Пол Эрдёш шутил - "Математик – это машина для превращения кофе в теоремы". Программисты переделали это на свой лад, мы превращаем в код :)
Однако, далеко не все люди позитивно относятся к кофе. До сих пор можно встретить его упоминание в негативном контексте и в рядах, в которых ему вовсе не место. Ну, мол, с понедельника начинаю новую жизнь, заниматься спортом, отказываюсь от кофе и алкоголя, бросаю курить.
Более того, до сих пор очень многие врачи безусловно и бездоказательно настроены против этого напитка.
Вероятно, что такую славу кофе заслужил из-за своего заметного и сильного действия, а так же лёгкого привыкания. Не может же что-то с такими свойствами быть полезным!
У науки в этом вопросе накоплено уже много данных и ответ однозначный - может.
Есть огромное количество отдельных исследований по конкретным заболеваниям и состояниям. Чаще всего там находят позитивные эффекты. Например, кофе, вопреки логике, снижает смертность от сердечно-сосудистых заболеваний, защищает от нейродегенеративных заболеваний, способствует ремиссии астмы, уменьшает вероятности заболеваний печени и многих видов рака, защищает от депрессии, уменьшает риски развития инсульта и деменции, и... тут я просто уже устал читать PubMed :)
Помимо этого, не так давно появились достаточно большие мета-анализы. Например, в этом исследовании использовались данные 450 тысяч участников и по итогам пришли к в выводу, что употребление кофе снижает смертность от всех причин. А в этом отслеживали данные более 15 тысяч людей с диабетом 2 типа на протяжении 30 лет и снова обнаружили тоже самое.
Но, конечно, ничто не идеально в нашем мире и все эти позитивные, а так же возможные негативные эффекты строго связаны с личным состоянием здоровья, и, конечно, дозой. Например, во время беременности риски от употребления кофе очень высоки. Есть и множество других состояний, при которых всё-таки не стоит употреблять кофеин.
Но, в общем по популяции, напиток себя явно оправдал ☕️
Великий венгерский математик Пол Эрдёш шутил - "Математик – это машина для превращения кофе в теоремы". Программисты переделали это на свой лад, мы превращаем в код :)
Однако, далеко не все люди позитивно относятся к кофе. До сих пор можно встретить его упоминание в негативном контексте и в рядах, в которых ему вовсе не место. Ну, мол, с понедельника начинаю новую жизнь, заниматься спортом, отказываюсь от кофе и алкоголя, бросаю курить.
Более того, до сих пор очень многие врачи безусловно и бездоказательно настроены против этого напитка.
Вероятно, что такую славу кофе заслужил из-за своего заметного и сильного действия, а так же лёгкого привыкания. Не может же что-то с такими свойствами быть полезным!
У науки в этом вопросе накоплено уже много данных и ответ однозначный - может.
Есть огромное количество отдельных исследований по конкретным заболеваниям и состояниям. Чаще всего там находят позитивные эффекты. Например, кофе, вопреки логике, снижает смертность от сердечно-сосудистых заболеваний, защищает от нейродегенеративных заболеваний, способствует ремиссии астмы, уменьшает вероятности заболеваний печени и многих видов рака, защищает от депрессии, уменьшает риски развития инсульта и деменции, и... тут я просто уже устал читать PubMed :)
Помимо этого, не так давно появились достаточно большие мета-анализы. Например, в этом исследовании использовались данные 450 тысяч участников и по итогам пришли к в выводу, что употребление кофе снижает смертность от всех причин. А в этом отслеживали данные более 15 тысяч людей с диабетом 2 типа на протяжении 30 лет и снова обнаружили тоже самое.
Но, конечно, ничто не идеально в нашем мире и все эти позитивные, а так же возможные негативные эффекты строго связаны с личным состоянием здоровья, и, конечно, дозой. Например, во время беременности риски от употребления кофе очень высоки. Есть и множество других состояний, при которых всё-таки не стоит употреблять кофеин.
Но, в общем по популяции, напиток себя явно оправдал ☕️
💯1🆒1