Начало дня понедельника, а значит самое время поговорить о кофе.
Великий венгерский математик Пол Эрдёш шутил - "Математик – это машина для превращения кофе в теоремы". Программисты переделали это на свой лад, мы превращаем в код :)
Однако, далеко не все люди позитивно относятся к кофе. До сих пор можно встретить его упоминание в негативном контексте и в рядах, в которых ему вовсе не место. Ну, мол, с понедельника начинаю новую жизнь, заниматься спортом, отказываюсь от кофе и алкоголя, бросаю курить.
Более того, до сих пор очень многие врачи безусловно и бездоказательно настроены против этого напитка.
Вероятно, что такую славу кофе заслужил из-за своего заметного и сильного действия, а так же лёгкого привыкания. Не может же что-то с такими свойствами быть полезным!
У науки в этом вопросе накоплено уже много данных и ответ однозначный - может.
Есть огромное количество отдельных исследований по конкретным заболеваниям и состояниям. Чаще всего там находят позитивные эффекты. Например, кофе, вопреки логике, снижает смертность от сердечно-сосудистых заболеваний, защищает от нейродегенеративных заболеваний, способствует ремиссии астмы, уменьшает вероятности заболеваний печени и многих видов рака, защищает от депрессии, уменьшает риски развития инсульта и деменции, и... тут я просто уже устал читать PubMed :)
Помимо этого, не так давно появились достаточно большие мета-анализы. Например, в этом исследовании использовались данные 450 тысяч участников и по итогам пришли к в выводу, что употребление кофе снижает смертность от всех причин. А в этом отслеживали данные более 15 тысяч людей с диабетом 2 типа на протяжении 30 лет и снова обнаружили тоже самое.
Но, конечно, ничто не идеально в нашем мире и все эти позитивные, а так же возможные негативные эффекты строго связаны с личным состоянием здоровья, и, конечно, дозой. Например, во время беременности риски от употребления кофе очень высоки. Есть и множество других состояний, при которых всё-таки не стоит употреблять кофеин.
Но, в общем по популяции, напиток себя явно оправдал ☕️
Великий венгерский математик Пол Эрдёш шутил - "Математик – это машина для превращения кофе в теоремы". Программисты переделали это на свой лад, мы превращаем в код :)
Однако, далеко не все люди позитивно относятся к кофе. До сих пор можно встретить его упоминание в негативном контексте и в рядах, в которых ему вовсе не место. Ну, мол, с понедельника начинаю новую жизнь, заниматься спортом, отказываюсь от кофе и алкоголя, бросаю курить.
Более того, до сих пор очень многие врачи безусловно и бездоказательно настроены против этого напитка.
Вероятно, что такую славу кофе заслужил из-за своего заметного и сильного действия, а так же лёгкого привыкания. Не может же что-то с такими свойствами быть полезным!
У науки в этом вопросе накоплено уже много данных и ответ однозначный - может.
Есть огромное количество отдельных исследований по конкретным заболеваниям и состояниям. Чаще всего там находят позитивные эффекты. Например, кофе, вопреки логике, снижает смертность от сердечно-сосудистых заболеваний, защищает от нейродегенеративных заболеваний, способствует ремиссии астмы, уменьшает вероятности заболеваний печени и многих видов рака, защищает от депрессии, уменьшает риски развития инсульта и деменции, и... тут я просто уже устал читать PubMed :)
Помимо этого, не так давно появились достаточно большие мета-анализы. Например, в этом исследовании использовались данные 450 тысяч участников и по итогам пришли к в выводу, что употребление кофе снижает смертность от всех причин. А в этом отслеживали данные более 15 тысяч людей с диабетом 2 типа на протяжении 30 лет и снова обнаружили тоже самое.
Но, конечно, ничто не идеально в нашем мире и все эти позитивные, а так же возможные негативные эффекты строго связаны с личным состоянием здоровья, и, конечно, дозой. Например, во время беременности риски от употребления кофе очень высоки. Есть и множество других состояний, при которых всё-таки не стоит употреблять кофеин.
Но, в общем по популяции, напиток себя явно оправдал ☕️
💯1🆒1
Мы показываем случайным респондентам фотографии неизвестных им людей в полный рост, с хорошо видимым лицом, и просим оценить возраст в диапазоне от 0 до 100 лет.
Как вы думаете, какая примерно ошибка будет в среднем у респондентов? Мы знаем точный ответ.
Как вы думаете, какая примерно ошибка будет в среднем у респондентов? Мы знаем точный ответ.
Anonymous Poll
8%
~1 год
9%
~3 года
28%
~5 лет
36%
~7 лет
9%
~9 лет
9%
~11 лет
⬆️
Совсем скоро случится очень важное событие для нашей команды ⏳
А пока, давайте разогреемся!
Ответьте, пожалуйста, на простой вопрос выше, это, затем, будет иметь важное значение.
Совсем скоро случится очень важное событие для нашей команды ⏳
А пока, давайте разогреемся!
Ответьте, пожалуйста, на простой вопрос выше, это, затем, будет иметь важное значение.
🥳Мы выпустили самую точную в мире нейросеть для определения пола и возраста человека по фото - MiVOLO🚀
Мало того, что лучшую среди других моделей - она ещё и намного точнее, чем человек (в задаче определения возраста). И не только людей по отдельности: даже если десять человек соберутся в консилиум, MiVOLO всё равно победит.
Так что, можно сказать, что под капотом у нашей модели больше 10 человеческих сил🙃 Это при том, что она может перемалывать ≈1000 изображений в секунду (на V100).
Ещё более удивительно, что она умеет предсказывать пол и возраст даже на тех фотографиях, где лица не видно. Причём, даже с закрытыми лицами, только по изображению с телом, MiVOLO предсказывает всё ещё лучше, чем среднестатический человек, который лицо видит😅
Всё это строго доказано в нашей научной работе👩🔬, где так же описаны все прочие детали и новая архитектура MiVOLO, основанная на трансформерах.
А вот тут ссылка на демо, где можно пощупать сеть самостоятельно.
Для тех, кто хочет пощупать поближе, есть модели и код для инференса (пожалуйста, тыкните звёздочку на репозитории!).
Кроме того, выпустили новый датасет-бенчмарк Lagenda для задачи определения пола и возраста. Главное отличие от других - он хорошо сбалансирован как в целом, так и по возрастным группам, его размечали вручную люди и в нём почти нет звёзд. В общем, полный in the wild.
Детали расскажу в последующей серии публикаций.
Выходить на русском они будут в первую очередь тут, в ТГ.
Пожалуйста, подпишитесь.
Мало того, что лучшую среди других моделей - она ещё и намного точнее, чем человек (в задаче определения возраста). И не только людей по отдельности: даже если десять человек соберутся в консилиум, MiVOLO всё равно победит.
Так что, можно сказать, что под капотом у нашей модели больше 10 человеческих сил🙃 Это при том, что она может перемалывать ≈1000 изображений в секунду (на V100).
Ещё более удивительно, что она умеет предсказывать пол и возраст даже на тех фотографиях, где лица не видно. Причём, даже с закрытыми лицами, только по изображению с телом, MiVOLO предсказывает всё ещё лучше, чем среднестатический человек, который лицо видит😅
Всё это строго доказано в нашей научной работе👩🔬, где так же описаны все прочие детали и новая архитектура MiVOLO, основанная на трансформерах.
А вот тут ссылка на демо, где можно пощупать сеть самостоятельно.
Для тех, кто хочет пощупать поближе, есть модели и код для инференса (пожалуйста, тыкните звёздочку на репозитории!).
Кроме того, выпустили новый датасет-бенчмарк Lagenda для задачи определения пола и возраста. Главное отличие от других - он хорошо сбалансирован как в целом, так и по возрастным группам, его размечали вручную люди и в нём почти нет звёзд. В общем, полный in the wild.
Детали расскажу в последующей серии публикаций.
Выходить на русском они будут в первую очередь тут, в ТГ.
Пожалуйста, подпишитесь.
🔥28👍4❤🔥2❤1
Мой хороший приятель Михаил Крыжановский написал о нас на своём канале "Стать специалистом по машинному обучению", за что огромное ему спасибо.
Если вдруг вы ещё не слушали его Machine Learning Podcast - я сильно рекомендую. В гостях бывал и я, вот ссылочка.
Если вдруг вы ещё не слушали его Machine Learning Podcast - я сильно рекомендую. В гостях бывал и я, вот ссылочка.
👍9🔥2
Начинаю небольшую серию постов по мотивам статьи. Цель - пересказать в более популярной форме материал и добавить ту информацию, которая не влезла в исследование. Чуть позже я опубликую статью на Хабр, основой которой станут эти короткие посты.
Начнём с простого.
Уверен, что у большинства из нас бывала такая картина, что при просмотре какого-то фильма с семьёй \ друзьями возникали обсуждения или даже споры, сколько лет актёру. Часто они заканчиваются гуглом и удивлением😄
Так насколько же хорошо мы умеем предсказывать возраст? Кажется, что мы делаем это весьма часто в поседневной жизни и должны порядком поднатореть.
Вообще говоря, в ML любую задачу обязательно нужно начинать с установки уровня точности человека (в случаях, когда это реально). Если ориентироваться на ощущения, то может получиться плохо - люди очень склонны заблуждаться насчёт статистических вещей.
В процессе написания статьи с MiVOLO, я обсуждал с коллегами и друзьями свои результаты и предположения. И когда речь заходила про человеческую точность, я часто слышал мнение, что, вероятно, человек должен ошибаться в среднем где-то лет на 5. Мне стало интересно копнуть глубже.
Уже после публикации, тут и в LinkedIn я создал опросы. Суммарно проголосовало 105 человек, а сводный результат на изображении в комментариях.
Итак, в статье, по достаточно большой выборке, мы определили, что в среднем человек ошибается на 7.22 года.
Из респондентов, т.е. вас, 43% ответили абсолютно правильно!
Ещё 24% в человечество верят слабо, а 38% точность людей переоценивают 🙂
Но много это или мало - 7.2? На практике, это очень много. Человек показывает хорошие результаты только в вопросах общих категорий или в краевых случаях. Едва ли хоть один человек сможет не распознать младенца, а сеть всё ещё может круто сгаллюцинировать в таких "очевидных" случаях. Но внутри этих категорий, наша точность оставляет желать лучшего. И даже у самых точных предсказателей-людей она ниже, чем у нейросети.
Начнём с простого.
Уверен, что у большинства из нас бывала такая картина, что при просмотре какого-то фильма с семьёй \ друзьями возникали обсуждения или даже споры, сколько лет актёру. Часто они заканчиваются гуглом и удивлением😄
Так насколько же хорошо мы умеем предсказывать возраст? Кажется, что мы делаем это весьма часто в поседневной жизни и должны порядком поднатореть.
Вообще говоря, в ML любую задачу обязательно нужно начинать с установки уровня точности человека (в случаях, когда это реально). Если ориентироваться на ощущения, то может получиться плохо - люди очень склонны заблуждаться насчёт статистических вещей.
В процессе написания статьи с MiVOLO, я обсуждал с коллегами и друзьями свои результаты и предположения. И когда речь заходила про человеческую точность, я часто слышал мнение, что, вероятно, человек должен ошибаться в среднем где-то лет на 5. Мне стало интересно копнуть глубже.
Уже после публикации, тут и в LinkedIn я создал опросы. Суммарно проголосовало 105 человек, а сводный результат на изображении в комментариях.
Итак, в статье, по достаточно большой выборке, мы определили, что в среднем человек ошибается на 7.22 года.
Из респондентов, т.е. вас, 43% ответили абсолютно правильно!
Ещё 24% в человечество верят слабо, а 38% точность людей переоценивают 🙂
Но много это или мало - 7.2? На практике, это очень много. Человек показывает хорошие результаты только в вопросах общих категорий или в краевых случаях. Едва ли хоть один человек сможет не распознать младенца, а сеть всё ещё может круто сгаллюцинировать в таких "очевидных" случаях. Но внутри этих категорий, наша точность оставляет желать лучшего. И даже у самых точных предсказателей-людей она ниже, чем у нейросети.
👍13🔥1
Google тут недавно запустил новый челлендж, который, на самом деле, поднимает очень интересные вопросы.
Называется он, как и новоявленный раздел, Machine Unlearning.
Задача очень понятная и насущная: представим, например, что человек производит отзыв своих персональных данных. Раньше всё было легко - удалил из базы и забыл. Но теперь непонятно, как из модели-то удалить? В целом - никак. Запускать цикл перетренировки по каждому такому запросу означает не только разориться на железе, но ещё и открыть потрясающие ворота для злоумышленников. О таком DDoS никто даже и не мечтал.
По случайному совпадению, соревнование проходит на кейсе определения возраста по лицам 😁 Мы тут не причастны!
Как будут замерять эффективность? Есть методы, позволяющие оценить, находился ли пример в обучающей выборке. Таким образом, Google видит идеальную цель "разобучения" в том, чтобы модель пример забывала, т.е. никоим образом нельзя было бы утверждать, что он был использован в тренировке, но при этом не деградировала в своей точности и способности на эти "удалённые" примеры своё знание генерализировать. Конечно, всё это хочется делать без вычислительных затрат.
Называется он, как и новоявленный раздел, Machine Unlearning.
Задача очень понятная и насущная: представим, например, что человек производит отзыв своих персональных данных. Раньше всё было легко - удалил из базы и забыл. Но теперь непонятно, как из модели-то удалить? В целом - никак. Запускать цикл перетренировки по каждому такому запросу означает не только разориться на железе, но ещё и открыть потрясающие ворота для злоумышленников. О таком DDoS никто даже и не мечтал.
По случайному совпадению, соревнование проходит на кейсе определения возраста по лицам 😁 Мы тут не причастны!
Как будут замерять эффективность? Есть методы, позволяющие оценить, находился ли пример в обучающей выборке. Таким образом, Google видит идеальную цель "разобучения" в том, чтобы модель пример забывала, т.е. никоим образом нельзя было бы утверждать, что он был использован в тренировке, но при этом не деградировала в своей точности и способности на эти "удалённые" примеры своё знание генерализировать. Конечно, всё это хочется делать без вычислительных затрат.
👍9🔥2👏1😁1
Я обещал серию дополнительных постов по MiVOLO, но эту серию пришлось сократить. Дело в том, что меня очень попросили написать статью на Habr и выпустить её под дату пресс релиза.
Что я и сделал 🙂
Делюсь с вами.
Там есть много дополнительной информации. Например, о том, как мы выбирали модель и как пришли к текущему варианту. Кроме того, многие спрашивали, существует ли корреляция между возрастом разметчиков и точностью их разметки. На этот и другие вопросы постарался найти ответы.
https://habr.com/ru/companies/sberdevices/articles/749810/
Что я и сделал 🙂
Делюсь с вами.
Там есть много дополнительной информации. Например, о том, как мы выбирали модель и как пришли к текущему варианту. Кроме того, многие спрашивали, существует ли корреляция между возрастом разметчиков и точностью их разметки. На этот и другие вопросы постарался найти ответы.
https://habr.com/ru/companies/sberdevices/articles/749810/
Хабр
MiVOLO: новая State-of-the-Art нейросеть с открытым исходным кодом для определения пола и возраста по фотографии
Привет, Хабр! Хочу рассказать вам нашу историю о том, как изначально рутинная рабочая задача закончилась созданием открытой state-of-the-art нейросети, научной работой и новым датасетом. С чего всё...
❤8👍3🔥2🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера Meta выпустили новый синтетический датасет PUG, полученный при помощи Unreal Engine.
Там 4, достаточно больших, сабсета: животные, синтетические imagenet-классы и два сета с атрибутами и описаниями сцен для visual-language моделей.
Есть и инструкция, как нарендерить свои данные.
Вообще, в CV идея синтетических данных не отпускает исследователей с самого начала бума области и попытки совершались в разных задачах с регулярной частотой. Где-то в 2017, когда я занимался ADAS (системы помощи водителю), я пробовал работать с CARLA Simulator, который позволяет, например, получить на выходе точную сегментационную разметку сцен. Это очень дорогая и сложная разметка, занимающая у человека по 10-30 минут на кадр, и в таком случае синтетические данные могут сильно помочь. Симулятор, кстати, активно развивается и до сих пор. Были и другие попытки, например, семантическую сегментацию программно выдирали из GTA5.
Но в целом, надо сказать, что из-за расхождения распределений, различности визуальных доменов, отсутствии реальных шумов от окружающей среды, матрицы и прочего, эффективность таких данных чаще всего на практике крайне невысока. Если целевой домен работы модели - реальный мир и данные из него, то синтетическими куда как проще навредить, чем получить выгоду.
Там 4, достаточно больших, сабсета: животные, синтетические imagenet-классы и два сета с атрибутами и описаниями сцен для visual-language моделей.
Есть и инструкция, как нарендерить свои данные.
Вообще, в CV идея синтетических данных не отпускает исследователей с самого начала бума области и попытки совершались в разных задачах с регулярной частотой. Где-то в 2017, когда я занимался ADAS (системы помощи водителю), я пробовал работать с CARLA Simulator, который позволяет, например, получить на выходе точную сегментационную разметку сцен. Это очень дорогая и сложная разметка, занимающая у человека по 10-30 минут на кадр, и в таком случае синтетические данные могут сильно помочь. Симулятор, кстати, активно развивается и до сих пор. Были и другие попытки, например, семантическую сегментацию программно выдирали из GTA5.
Но в целом, надо сказать, что из-за расхождения распределений, различности визуальных доменов, отсутствии реальных шумов от окружающей среды, матрицы и прочего, эффективность таких данных чаще всего на практике крайне невысока. Если целевой домен работы модели - реальный мир и данные из него, то синтетическими куда как проще навредить, чем получить выгоду.
👍4🤔3💯1
Media is too big
VIEW IN TELEGRAM
Мы тут прикрутили к MiVOLO возможность работать с видео и по этому случаю решили немного поразвлекаться.
Есть такое шоу Cut на Youtube, где, в одном из выпусков, барменам предлагалось угадать, кто из участников младше 21 года, и кому, соответственно, нельзя продавать алкоголь (с 21 это жёстко😅 ).
В общем, сделали из маленькой вырезки видео в стиле Shorts или TikTok, кому что ближе. Сначала предлагаем послушать, что предполагают люди, а в конце спросим MiVOLO, что думает она.
В этом видео предсказания собираются просто через усреднение результатов. Но, если захочется поэкспериментировать, в коде можно легко поиграть с любыми другими стратегиями.
Есть такое шоу Cut на Youtube, где, в одном из выпусков, барменам предлагалось угадать, кто из участников младше 21 года, и кому, соответственно, нельзя продавать алкоголь (с 21 это жёстко
В общем, сделали из маленькой вырезки видео в стиле Shorts или TikTok, кому что ближе. Сначала предлагаем послушать, что предполагают люди, а в конце спросим MiVOLO, что думает она.
В этом видео предсказания собираются просто через усреднение результатов. Но, если захочется поэкспериментировать, в коде можно легко поиграть с любыми другими стратегиями.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤5👍2😁2
У нас есть Телеграм Бот: @Layer_photobot, в который можно закинуть фотку и поискать похожие предметы одежды или аксессуары.
Недавно мы дотянули туда MiVOLO. На фото можно наглядно увидеть, зачем всё это было и как выглядит после и до (фотки перепутались).
P.S. Мы постоянно там экспериментируем, подключаем разных ритейлеров и т.д., поэтому что-то может изредка отваливаться.
Недавно мы дотянули туда MiVOLO. На фото можно наглядно увидеть, зачем всё это было и как выглядит после и до (фотки перепутались).
P.S. Мы постоянно там экспериментируем, подключаем разных ритейлеров и т.д., поэтому что-то может изредка отваливаться.
🔥10🤗4😱1
Всё больше и больше набирают обороты open-vocabulary (OV) методы в компьютерном зрении. Это подходы, позволяющие вместо фиксированного списка категорий для классификации, детекции, сегментации, whatever, задавать теги \ текстовые описания искомых классов. Таким образом, модели учатся понимать и сравнивать семантику текста и изображения.
Касательно простых методов, как классификация, визуально-языковые модели (VLM), такие как CLIP, BLIP, BLIP2 и легионы других, уже давно достаточно развиты, хорошо известны и активно используются повсеместно.
Куда более сложно решить задачу OV в разрезе детекции или сегментации. Существуют различные методы и готовые решения, свои собственные бенчмарки и т.д.
И вот, ещё один шаг вперёд делает Google. Совсем недавно они анонсировали RO-ViT. В кратце, когда мы тренируем VLM модель, мы учим её сравнивать признаки всего изображения с признаками из текста. Если эта модель затем будет использована для адаптации к задаче детекции, это может быть не очень хорошо: требуется работа на уровне не всего изображения, а его регионов.
Авторы этот вопрос решают через модификацию positional embeddings - специальных элементов, которые хранят пространственную информацию о патчах, на которые изображение разбивается перед подачей в трансформер. Ну и там ещё есть нюансы, можете прочитать в оригинальном посте. Например, softmax cross entropy loss заменили на focal, что меня, как фаната, очень радует.
В итоге, конечно, показывают, что всех пересотили, даже CoCa модель, у которой в 3 раза больше параметров.
Касательно простых методов, как классификация, визуально-языковые модели (VLM), такие как CLIP, BLIP, BLIP2 и легионы других, уже давно достаточно развиты, хорошо известны и активно используются повсеместно.
Куда более сложно решить задачу OV в разрезе детекции или сегментации. Существуют различные методы и готовые решения, свои собственные бенчмарки и т.д.
И вот, ещё один шаг вперёд делает Google. Совсем недавно они анонсировали RO-ViT. В кратце, когда мы тренируем VLM модель, мы учим её сравнивать признаки всего изображения с признаками из текста. Если эта модель затем будет использована для адаптации к задаче детекции, это может быть не очень хорошо: требуется работа на уровне не всего изображения, а его регионов.
Авторы этот вопрос решают через модификацию positional embeddings - специальных элементов, которые хранят пространственную информацию о патчах, на которые изображение разбивается перед подачей в трансформер. Ну и там ещё есть нюансы, можете прочитать в оригинальном посте. Например, softmax cross entropy loss заменили на focal, что меня, как фаната, очень радует.
В итоге, конечно, показывают, что всех пересотили, даже CoCa модель, у которой в 3 раза больше параметров.
👏4👍3🔥3
Что скажете насчёт идеи оставлять аудио-комментарии в коде?
Если думаете, что это шутка, то, увы, для IDE от JetBrains уже существует плагин😅
Если думаете, что это шутка, то, увы, для IDE от JetBrains уже существует плагин😅
🤯12💩10👍3😁2
Буквально полчаса назад выступил на AIST-2023 с нашей MiVOLO!🎉
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.
Увы, но никто из нас не смог прилететь и выступить оффлайн☹️ Пришлось по Зуму.
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.
AIST (Analysis of Images, Social Networks and Texts) - это международная конференция, на которой выступают с научными трудами в соответствующих сферах. Представленные работы публикуются в журналах Springer.
Увы, но никто из нас не смог прилететь и выступить оффлайн
А ещё, к сожалению, я не заметил вовремя, что выступление транслируется на Youtube.
Так что с запозданием, но делюсь с вами: тыц для посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12🎉6👏4👍2
Forwarded from Техножрица 👩💻👩🏫👩🔧
Случайно наткнулась на очень милый препринт, называется CatFLW: Cat Facial Landmarks in the Wild Dataset ( https://arxiv.org/abs/2305.04232 ).
Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.
Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.
Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.
#объяснения_статей
Его авторы создали датасет с разметкой facial landmarks (ключевых точек лица) для кошек и котов. Ключевые точки лица (или, в данном случае, мордочки) - это те точки, которые отмечают положение на лице определенных элементов, присутствующих плюс-минус на всех лицах (например, внутренних уголков глаз), но имеющих разное положение в зависимости от конкретного лица, от его выражения и т.п. В случае людей landmark points используются, соответственно, для того, чтобы распознавать лица или их выражения, а также чтобы нацеплять на них всратые маски в Тик Токе.
На рис. 1 можно видеть пример разметки: отмечены точки по контуру глаз, зрачков, ноздрей, на границе ушек котика и другие.
Авторы отмечают, что их датасет содержит намного больше ключевых точек, чем аналоги (см. рис. 2). Также они рассказывают, что в процессе разметки использовали модель-разметчик, которая сперва пыталась самостоятельно отметить нужные точки, и только потом человек поправлял ее результат, если это было необходимо. Полученные поправки, соответственно, были использованы для дальнейшего обучения модели-разметчика, которая в результате размечала все лучше и лучше (human in the loop). Это сэкономило авторам много времени.
Авторы надеются, что с помощью этого датасета можно будет натренировать более совершенные модели для детекции эмоций котиков, в частности, для детекции испытываемой животными боли. В перспективе это может помочь нам лучше понимать животных и лучше о них заботиться.
#объяснения_статей
❤8👏4⚡2