Сидячий образ жизни - известная профессиональная проблема в IT.
Особенно, когда ты DS и отвлечься просто невозможно!👨🔬👩🔬
Почему это плохо - кажется, знают все и тут всё очевидно.
Всё да не всё.
Оказывается, что помимо очевидных минусов, сидя весь день на одном месте, мы круто теряем в производительности нашего мозга.
Некоторые исследования утверждают, что разница перформанса прямо разительная. После недолгой ходьбы улучшается всё: от креативности до математических способностей.
И у науки на то есть пруфы: [1] [2]
Не получается найти баг - просто пройдись.
Особенно, когда ты DS и отвлечься просто невозможно!👨🔬👩🔬
Почему это плохо - кажется, знают все и тут всё очевидно.
Всё да не всё.
Оказывается, что помимо очевидных минусов, сидя весь день на одном месте, мы круто теряем в производительности нашего мозга.
Некоторые исследования утверждают, что разница перформанса прямо разительная. После недолгой ходьбы улучшается всё: от креативности до математических способностей.
И у науки на то есть пруфы: [1] [2]
Не получается найти баг - просто пройдись.
🔥3⚡2👍1
У владельцев iPhone сегодня явно хороший день.
Прежде, чем вы перейдёте по ссылке, попробуйте угадать о чём речь по изображению, которое сгенерировала модель Kandinsky 2.1 для этой новости 😁
Прежде, чем вы перейдёте по ссылке, попробуйте угадать о чём речь по изображению, которое сгенерировала модель Kandinsky 2.1 для этой новости 😁
🔥2
drag.gif
20.6 MB
Смотрите, какое необычное применение для генеративных сетей.
Статья вышла буквально вчера, а код обещают выложить в июне.
Не диффузионками едиными.
Статья вышла буквально вчера, а код обещают выложить в июне.
Не диффузионками едиными.
🔥3
Начинаю серию постов по следам давнего тизера из LinkedIn.
Поговорим об инженерной части нашей работы, о производительности.
В оригинальном посте я я сравнивал нас с библиотекой для процессинга данных Nvidia DALI (используется в Triton Server), но на самом деле функционал пересекается лишь частично. Однако, как я писал, где он всё-таки пересекается, там производительность у нас намного выше.
В этой серии хочу раскрыть те детали, которые можно брать и применять в работе хоть завтра. В общем, упор на практичность.
Начнём мы с PNG и GIF.
Секундный ликбез (почему-то для многих это проблема на собеседовании О_о): это второй по популярности в известной нам части Вселенной формат хранения изображений и хранит он их сжимая без потерь. В большинстве случаев, для сжатия под капотом будет использоваться zlib, т.е. алгоритм общего назначения DEFLATE, точно такой же, который, зачастую, применяется и когда вы используете ZIP утилиту.
Гонять PNG на карту для декомпрессии там, как в случае с JPG, совершенно бессмысленно: вес большой, а сам алгоритм прекрасно оптимизирован для CPU. Кроме того, в нашей области крайне велика вероятность, что CPU у вас намного свободнее карты :)
Но, общем и целом, производительность PNG всё равно намного хуже, чем у JPEG. Поэтому, кажется, что разработчики Nvidia DALI должны были уделить вопросу особое внимание. Однако на деле библиотека, не мудрствуя лукаво, просто вызывает OpenCV. Который, в свою очередь, дёргает libpng, который дёргает zlibв доме, который построил Джек. Вообще говоря, можно подоткнуть в OpenCV и другие реализации: libspng, lodepng, и т.д., а так же использовать другие вариации zlib. Но по итогу, можно закончить результатами ещё хуже, чем было до.
Из-за чего может показаться, что лучше ничего не трогать и оставить всё, как в DALI. Но нет.
Серебряная пуля существует и имя ей Wuffs от Google. Эта библиотека не только в 1.5 - 2.75 раза быстрее libpng, но ещё и безопаснее с точки зрения эксплойтов! Вместо zlib там своя реализация. По ссылке есть все необходимые числа, эксперименты и обоснования.
И, совершенно потрясающим образом, насколько эта библиотека невероятно крута, настолько же мало используема!
Google и PR... you know.
К сожалению, просто взять и воткнуть Wuffs в Python не получится, по крайней мере я не нашёл готовых модулей. Но вот написать такой совсем не сложно.
Лично я реализовал его так, что на выходе Wuffs сразу пишет в буфер OpenCV изображения: его затем легко и прокинуть назад в Python и провести с ним любые манипуляции. Разница в скорости - колоссальная, и это если сравнивать с OpenCV \ libpng, не говоря о других библиотеках, как PIL.
Ну, а GIF тут идёт бонусом :) В его случае разница может быть даже больше.
Тут дубликат поста в LinkedIn, если вы там есть и пост вам понравился, пожалуйста, клацните лайк. Это поможет мне понять, какие темы стоит развивать дальше.
Поговорим об инженерной части нашей работы, о производительности.
В оригинальном посте я я сравнивал нас с библиотекой для процессинга данных Nvidia DALI (используется в Triton Server), но на самом деле функционал пересекается лишь частично. Однако, как я писал, где он всё-таки пересекается, там производительность у нас намного выше.
В этой серии хочу раскрыть те детали, которые можно брать и применять в работе хоть завтра. В общем, упор на практичность.
Начнём мы с PNG и GIF.
Секундный ликбез (почему-то для многих это проблема на собеседовании О_о): это второй по популярности в известной нам части Вселенной формат хранения изображений и хранит он их сжимая без потерь. В большинстве случаев, для сжатия под капотом будет использоваться zlib, т.е. алгоритм общего назначения DEFLATE, точно такой же, который, зачастую, применяется и когда вы используете ZIP утилиту.
Гонять PNG на карту для декомпрессии там, как в случае с JPG, совершенно бессмысленно: вес большой, а сам алгоритм прекрасно оптимизирован для CPU. Кроме того, в нашей области крайне велика вероятность, что CPU у вас намного свободнее карты :)
Но, общем и целом, производительность PNG всё равно намного хуже, чем у JPEG. Поэтому, кажется, что разработчики Nvidia DALI должны были уделить вопросу особое внимание. Однако на деле библиотека, не мудрствуя лукаво, просто вызывает OpenCV. Который, в свою очередь, дёргает libpng, который дёргает zlib
Из-за чего может показаться, что лучше ничего не трогать и оставить всё, как в DALI. Но нет.
Серебряная пуля существует и имя ей Wuffs от Google. Эта библиотека не только в 1.5 - 2.75 раза быстрее libpng, но ещё и безопаснее с точки зрения эксплойтов! Вместо zlib там своя реализация. По ссылке есть все необходимые числа, эксперименты и обоснования.
И, совершенно потрясающим образом, насколько эта библиотека невероятно крута, настолько же мало используема!
Google и PR... you know.
К сожалению, просто взять и воткнуть Wuffs в Python не получится, по крайней мере я не нашёл готовых модулей. Но вот написать такой совсем не сложно.
Лично я реализовал его так, что на выходе Wuffs сразу пишет в буфер OpenCV изображения: его затем легко и прокинуть назад в Python и провести с ним любые манипуляции. Разница в скорости - колоссальная, и это если сравнивать с OpenCV \ libpng, не говоря о других библиотеках, как PIL.
Ну, а GIF тут идёт бонусом :) В его случае разница может быть даже больше.
Тут дубликат поста в LinkedIn, если вы там есть и пост вам понравился, пожалуйста, клацните лайк. Это поможет мне понять, какие темы стоит развивать дальше.
🔥8
https://developers.sber.ru/portal/products/layer
У нашей команды обновился лендинг! Это результат долгого труда ребят, посмотрите обязательно, он красивый.
Особенного внимания заслуживает продукт для смартфонов, о котором я вам ещё не рассказывал - Camera. Приложение позволяет в реальном времени использовать платформу Layer через камеру устройства, а значит находить и распознавать одежду, обувь, аксессуары и мебель.
Мы очень любим это приложение, но ранее на широкую публику не показывали. Думаю, что расскажу о нём подробнее, когда придёт время :)
У нашей команды обновился лендинг! Это результат долгого труда ребят, посмотрите обязательно, он красивый.
Особенного внимания заслуживает продукт для смартфонов, о котором я вам ещё не рассказывал - Camera. Приложение позволяет в реальном времени использовать платформу Layer через камеру устройства, а значит находить и распознавать одежду, обувь, аксессуары и мебель.
Мы очень любим это приложение, но ранее на широкую публику не показывали. Думаю, что расскажу о нём подробнее, когда придёт время :)
developers.sber.ru
GigaChat API
Интеграция AI-модели GigaChat в бизнес решения компаний. Безопасность данных
🔥5
Начало дня понедельника, а значит самое время поговорить о кофе.
Великий венгерский математик Пол Эрдёш шутил - "Математик – это машина для превращения кофе в теоремы". Программисты переделали это на свой лад, мы превращаем в код :)
Однако, далеко не все люди позитивно относятся к кофе. До сих пор можно встретить его упоминание в негативном контексте и в рядах, в которых ему вовсе не место. Ну, мол, с понедельника начинаю новую жизнь, заниматься спортом, отказываюсь от кофе и алкоголя, бросаю курить.
Более того, до сих пор очень многие врачи безусловно и бездоказательно настроены против этого напитка.
Вероятно, что такую славу кофе заслужил из-за своего заметного и сильного действия, а так же лёгкого привыкания. Не может же что-то с такими свойствами быть полезным!
У науки в этом вопросе накоплено уже много данных и ответ однозначный - может.
Есть огромное количество отдельных исследований по конкретным заболеваниям и состояниям. Чаще всего там находят позитивные эффекты. Например, кофе, вопреки логике, снижает смертность от сердечно-сосудистых заболеваний, защищает от нейродегенеративных заболеваний, способствует ремиссии астмы, уменьшает вероятности заболеваний печени и многих видов рака, защищает от депрессии, уменьшает риски развития инсульта и деменции, и... тут я просто уже устал читать PubMed :)
Помимо этого, не так давно появились достаточно большие мета-анализы. Например, в этом исследовании использовались данные 450 тысяч участников и по итогам пришли к в выводу, что употребление кофе снижает смертность от всех причин. А в этом отслеживали данные более 15 тысяч людей с диабетом 2 типа на протяжении 30 лет и снова обнаружили тоже самое.
Но, конечно, ничто не идеально в нашем мире и все эти позитивные, а так же возможные негативные эффекты строго связаны с личным состоянием здоровья, и, конечно, дозой. Например, во время беременности риски от употребления кофе очень высоки. Есть и множество других состояний, при которых всё-таки не стоит употреблять кофеин.
Но, в общем по популяции, напиток себя явно оправдал ☕️
Великий венгерский математик Пол Эрдёш шутил - "Математик – это машина для превращения кофе в теоремы". Программисты переделали это на свой лад, мы превращаем в код :)
Однако, далеко не все люди позитивно относятся к кофе. До сих пор можно встретить его упоминание в негативном контексте и в рядах, в которых ему вовсе не место. Ну, мол, с понедельника начинаю новую жизнь, заниматься спортом, отказываюсь от кофе и алкоголя, бросаю курить.
Более того, до сих пор очень многие врачи безусловно и бездоказательно настроены против этого напитка.
Вероятно, что такую славу кофе заслужил из-за своего заметного и сильного действия, а так же лёгкого привыкания. Не может же что-то с такими свойствами быть полезным!
У науки в этом вопросе накоплено уже много данных и ответ однозначный - может.
Есть огромное количество отдельных исследований по конкретным заболеваниям и состояниям. Чаще всего там находят позитивные эффекты. Например, кофе, вопреки логике, снижает смертность от сердечно-сосудистых заболеваний, защищает от нейродегенеративных заболеваний, способствует ремиссии астмы, уменьшает вероятности заболеваний печени и многих видов рака, защищает от депрессии, уменьшает риски развития инсульта и деменции, и... тут я просто уже устал читать PubMed :)
Помимо этого, не так давно появились достаточно большие мета-анализы. Например, в этом исследовании использовались данные 450 тысяч участников и по итогам пришли к в выводу, что употребление кофе снижает смертность от всех причин. А в этом отслеживали данные более 15 тысяч людей с диабетом 2 типа на протяжении 30 лет и снова обнаружили тоже самое.
Но, конечно, ничто не идеально в нашем мире и все эти позитивные, а так же возможные негативные эффекты строго связаны с личным состоянием здоровья, и, конечно, дозой. Например, во время беременности риски от употребления кофе очень высоки. Есть и множество других состояний, при которых всё-таки не стоит употреблять кофеин.
Но, в общем по популяции, напиток себя явно оправдал ☕️
💯1🆒1
Мы показываем случайным респондентам фотографии неизвестных им людей в полный рост, с хорошо видимым лицом, и просим оценить возраст в диапазоне от 0 до 100 лет.
Как вы думаете, какая примерно ошибка будет в среднем у респондентов? Мы знаем точный ответ.
Как вы думаете, какая примерно ошибка будет в среднем у респондентов? Мы знаем точный ответ.
Anonymous Poll
8%
~1 год
9%
~3 года
28%
~5 лет
36%
~7 лет
9%
~9 лет
9%
~11 лет
⬆️
Совсем скоро случится очень важное событие для нашей команды ⏳
А пока, давайте разогреемся!
Ответьте, пожалуйста, на простой вопрос выше, это, затем, будет иметь важное значение.
Совсем скоро случится очень важное событие для нашей команды ⏳
А пока, давайте разогреемся!
Ответьте, пожалуйста, на простой вопрос выше, это, затем, будет иметь важное значение.
🥳Мы выпустили самую точную в мире нейросеть для определения пола и возраста человека по фото - MiVOLO🚀
Мало того, что лучшую среди других моделей - она ещё и намного точнее, чем человек (в задаче определения возраста). И не только людей по отдельности: даже если десять человек соберутся в консилиум, MiVOLO всё равно победит.
Так что, можно сказать, что под капотом у нашей модели больше 10 человеческих сил🙃 Это при том, что она может перемалывать ≈1000 изображений в секунду (на V100).
Ещё более удивительно, что она умеет предсказывать пол и возраст даже на тех фотографиях, где лица не видно. Причём, даже с закрытыми лицами, только по изображению с телом, MiVOLO предсказывает всё ещё лучше, чем среднестатический человек, который лицо видит😅
Всё это строго доказано в нашей научной работе👩🔬, где так же описаны все прочие детали и новая архитектура MiVOLO, основанная на трансформерах.
А вот тут ссылка на демо, где можно пощупать сеть самостоятельно.
Для тех, кто хочет пощупать поближе, есть модели и код для инференса (пожалуйста, тыкните звёздочку на репозитории!).
Кроме того, выпустили новый датасет-бенчмарк Lagenda для задачи определения пола и возраста. Главное отличие от других - он хорошо сбалансирован как в целом, так и по возрастным группам, его размечали вручную люди и в нём почти нет звёзд. В общем, полный in the wild.
Детали расскажу в последующей серии публикаций.
Выходить на русском они будут в первую очередь тут, в ТГ.
Пожалуйста, подпишитесь.
Мало того, что лучшую среди других моделей - она ещё и намного точнее, чем человек (в задаче определения возраста). И не только людей по отдельности: даже если десять человек соберутся в консилиум, MiVOLO всё равно победит.
Так что, можно сказать, что под капотом у нашей модели больше 10 человеческих сил🙃 Это при том, что она может перемалывать ≈1000 изображений в секунду (на V100).
Ещё более удивительно, что она умеет предсказывать пол и возраст даже на тех фотографиях, где лица не видно. Причём, даже с закрытыми лицами, только по изображению с телом, MiVOLO предсказывает всё ещё лучше, чем среднестатический человек, который лицо видит😅
Всё это строго доказано в нашей научной работе👩🔬, где так же описаны все прочие детали и новая архитектура MiVOLO, основанная на трансформерах.
А вот тут ссылка на демо, где можно пощупать сеть самостоятельно.
Для тех, кто хочет пощупать поближе, есть модели и код для инференса (пожалуйста, тыкните звёздочку на репозитории!).
Кроме того, выпустили новый датасет-бенчмарк Lagenda для задачи определения пола и возраста. Главное отличие от других - он хорошо сбалансирован как в целом, так и по возрастным группам, его размечали вручную люди и в нём почти нет звёзд. В общем, полный in the wild.
Детали расскажу в последующей серии публикаций.
Выходить на русском они будут в первую очередь тут, в ТГ.
Пожалуйста, подпишитесь.
🔥28👍4❤🔥2❤1
Мой хороший приятель Михаил Крыжановский написал о нас на своём канале "Стать специалистом по машинному обучению", за что огромное ему спасибо.
Если вдруг вы ещё не слушали его Machine Learning Podcast - я сильно рекомендую. В гостях бывал и я, вот ссылочка.
Если вдруг вы ещё не слушали его Machine Learning Podcast - я сильно рекомендую. В гостях бывал и я, вот ссылочка.
👍9🔥2
Начинаю небольшую серию постов по мотивам статьи. Цель - пересказать в более популярной форме материал и добавить ту информацию, которая не влезла в исследование. Чуть позже я опубликую статью на Хабр, основой которой станут эти короткие посты.
Начнём с простого.
Уверен, что у большинства из нас бывала такая картина, что при просмотре какого-то фильма с семьёй \ друзьями возникали обсуждения или даже споры, сколько лет актёру. Часто они заканчиваются гуглом и удивлением😄
Так насколько же хорошо мы умеем предсказывать возраст? Кажется, что мы делаем это весьма часто в поседневной жизни и должны порядком поднатореть.
Вообще говоря, в ML любую задачу обязательно нужно начинать с установки уровня точности человека (в случаях, когда это реально). Если ориентироваться на ощущения, то может получиться плохо - люди очень склонны заблуждаться насчёт статистических вещей.
В процессе написания статьи с MiVOLO, я обсуждал с коллегами и друзьями свои результаты и предположения. И когда речь заходила про человеческую точность, я часто слышал мнение, что, вероятно, человек должен ошибаться в среднем где-то лет на 5. Мне стало интересно копнуть глубже.
Уже после публикации, тут и в LinkedIn я создал опросы. Суммарно проголосовало 105 человек, а сводный результат на изображении в комментариях.
Итак, в статье, по достаточно большой выборке, мы определили, что в среднем человек ошибается на 7.22 года.
Из респондентов, т.е. вас, 43% ответили абсолютно правильно!
Ещё 24% в человечество верят слабо, а 38% точность людей переоценивают 🙂
Но много это или мало - 7.2? На практике, это очень много. Человек показывает хорошие результаты только в вопросах общих категорий или в краевых случаях. Едва ли хоть один человек сможет не распознать младенца, а сеть всё ещё может круто сгаллюцинировать в таких "очевидных" случаях. Но внутри этих категорий, наша точность оставляет желать лучшего. И даже у самых точных предсказателей-людей она ниже, чем у нейросети.
Начнём с простого.
Уверен, что у большинства из нас бывала такая картина, что при просмотре какого-то фильма с семьёй \ друзьями возникали обсуждения или даже споры, сколько лет актёру. Часто они заканчиваются гуглом и удивлением😄
Так насколько же хорошо мы умеем предсказывать возраст? Кажется, что мы делаем это весьма часто в поседневной жизни и должны порядком поднатореть.
Вообще говоря, в ML любую задачу обязательно нужно начинать с установки уровня точности человека (в случаях, когда это реально). Если ориентироваться на ощущения, то может получиться плохо - люди очень склонны заблуждаться насчёт статистических вещей.
В процессе написания статьи с MiVOLO, я обсуждал с коллегами и друзьями свои результаты и предположения. И когда речь заходила про человеческую точность, я часто слышал мнение, что, вероятно, человек должен ошибаться в среднем где-то лет на 5. Мне стало интересно копнуть глубже.
Уже после публикации, тут и в LinkedIn я создал опросы. Суммарно проголосовало 105 человек, а сводный результат на изображении в комментариях.
Итак, в статье, по достаточно большой выборке, мы определили, что в среднем человек ошибается на 7.22 года.
Из респондентов, т.е. вас, 43% ответили абсолютно правильно!
Ещё 24% в человечество верят слабо, а 38% точность людей переоценивают 🙂
Но много это или мало - 7.2? На практике, это очень много. Человек показывает хорошие результаты только в вопросах общих категорий или в краевых случаях. Едва ли хоть один человек сможет не распознать младенца, а сеть всё ещё может круто сгаллюцинировать в таких "очевидных" случаях. Но внутри этих категорий, наша точность оставляет желать лучшего. И даже у самых точных предсказателей-людей она ниже, чем у нейросети.
👍13🔥1
Google тут недавно запустил новый челлендж, который, на самом деле, поднимает очень интересные вопросы.
Называется он, как и новоявленный раздел, Machine Unlearning.
Задача очень понятная и насущная: представим, например, что человек производит отзыв своих персональных данных. Раньше всё было легко - удалил из базы и забыл. Но теперь непонятно, как из модели-то удалить? В целом - никак. Запускать цикл перетренировки по каждому такому запросу означает не только разориться на железе, но ещё и открыть потрясающие ворота для злоумышленников. О таком DDoS никто даже и не мечтал.
По случайному совпадению, соревнование проходит на кейсе определения возраста по лицам 😁 Мы тут не причастны!
Как будут замерять эффективность? Есть методы, позволяющие оценить, находился ли пример в обучающей выборке. Таким образом, Google видит идеальную цель "разобучения" в том, чтобы модель пример забывала, т.е. никоим образом нельзя было бы утверждать, что он был использован в тренировке, но при этом не деградировала в своей точности и способности на эти "удалённые" примеры своё знание генерализировать. Конечно, всё это хочется делать без вычислительных затрат.
Называется он, как и новоявленный раздел, Machine Unlearning.
Задача очень понятная и насущная: представим, например, что человек производит отзыв своих персональных данных. Раньше всё было легко - удалил из базы и забыл. Но теперь непонятно, как из модели-то удалить? В целом - никак. Запускать цикл перетренировки по каждому такому запросу означает не только разориться на железе, но ещё и открыть потрясающие ворота для злоумышленников. О таком DDoS никто даже и не мечтал.
По случайному совпадению, соревнование проходит на кейсе определения возраста по лицам 😁 Мы тут не причастны!
Как будут замерять эффективность? Есть методы, позволяющие оценить, находился ли пример в обучающей выборке. Таким образом, Google видит идеальную цель "разобучения" в том, чтобы модель пример забывала, т.е. никоим образом нельзя было бы утверждать, что он был использован в тренировке, но при этом не деградировала в своей точности и способности на эти "удалённые" примеры своё знание генерализировать. Конечно, всё это хочется делать без вычислительных затрат.
👍9🔥2👏1😁1
Я обещал серию дополнительных постов по MiVOLO, но эту серию пришлось сократить. Дело в том, что меня очень попросили написать статью на Habr и выпустить её под дату пресс релиза.
Что я и сделал 🙂
Делюсь с вами.
Там есть много дополнительной информации. Например, о том, как мы выбирали модель и как пришли к текущему варианту. Кроме того, многие спрашивали, существует ли корреляция между возрастом разметчиков и точностью их разметки. На этот и другие вопросы постарался найти ответы.
https://habr.com/ru/companies/sberdevices/articles/749810/
Что я и сделал 🙂
Делюсь с вами.
Там есть много дополнительной информации. Например, о том, как мы выбирали модель и как пришли к текущему варианту. Кроме того, многие спрашивали, существует ли корреляция между возрастом разметчиков и точностью их разметки. На этот и другие вопросы постарался найти ответы.
https://habr.com/ru/companies/sberdevices/articles/749810/
Хабр
MiVOLO: новая State-of-the-Art нейросеть с открытым исходным кодом для определения пола и возраста по фотографии
Привет, Хабр! Хочу рассказать вам нашу историю о том, как изначально рутинная рабочая задача закончилась созданием открытой state-of-the-art нейросети, научной работой и новым датасетом. С чего всё...
❤8👍3🔥2🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера Meta выпустили новый синтетический датасет PUG, полученный при помощи Unreal Engine.
Там 4, достаточно больших, сабсета: животные, синтетические imagenet-классы и два сета с атрибутами и описаниями сцен для visual-language моделей.
Есть и инструкция, как нарендерить свои данные.
Вообще, в CV идея синтетических данных не отпускает исследователей с самого начала бума области и попытки совершались в разных задачах с регулярной частотой. Где-то в 2017, когда я занимался ADAS (системы помощи водителю), я пробовал работать с CARLA Simulator, который позволяет, например, получить на выходе точную сегментационную разметку сцен. Это очень дорогая и сложная разметка, занимающая у человека по 10-30 минут на кадр, и в таком случае синтетические данные могут сильно помочь. Симулятор, кстати, активно развивается и до сих пор. Были и другие попытки, например, семантическую сегментацию программно выдирали из GTA5.
Но в целом, надо сказать, что из-за расхождения распределений, различности визуальных доменов, отсутствии реальных шумов от окружающей среды, матрицы и прочего, эффективность таких данных чаще всего на практике крайне невысока. Если целевой домен работы модели - реальный мир и данные из него, то синтетическими куда как проще навредить, чем получить выгоду.
Там 4, достаточно больших, сабсета: животные, синтетические imagenet-классы и два сета с атрибутами и описаниями сцен для visual-language моделей.
Есть и инструкция, как нарендерить свои данные.
Вообще, в CV идея синтетических данных не отпускает исследователей с самого начала бума области и попытки совершались в разных задачах с регулярной частотой. Где-то в 2017, когда я занимался ADAS (системы помощи водителю), я пробовал работать с CARLA Simulator, который позволяет, например, получить на выходе точную сегментационную разметку сцен. Это очень дорогая и сложная разметка, занимающая у человека по 10-30 минут на кадр, и в таком случае синтетические данные могут сильно помочь. Симулятор, кстати, активно развивается и до сих пор. Были и другие попытки, например, семантическую сегментацию программно выдирали из GTA5.
Но в целом, надо сказать, что из-за расхождения распределений, различности визуальных доменов, отсутствии реальных шумов от окружающей среды, матрицы и прочего, эффективность таких данных чаще всего на практике крайне невысока. Если целевой домен работы модели - реальный мир и данные из него, то синтетическими куда как проще навредить, чем получить выгоду.
👍4🤔3💯1