ML-легушька – Telegram
ML-легушька
3.48K subscribers
1.39K photos
162 videos
6 files
91 links
Гений, стартапер, плейбой, филантроп
Для связи: @MLfroge
Download Telegram
Делимся опытом: ML System Design для анализа коротких видео [1/3]
Давайте поговорим сначала про задачу и ограничения.
Задача: пользователь записывает несколько коротких (до 1 минуты) видео, подряд, соответственно записал одно - сразу записывает другое. Нужно выдать по каждому видео аналитику поведения пользователя, про улыбчивость, жесты, зрительный контакт, речь и прочее.
Ограничения: куда же без ограничений? Если вы крутая бигтех компания у вас их намного меньше, а тут они следующие: есть немного времени на разработку, условно один-два месяца, есть один Я, который в видео не бумбум, есть одна машинка с Tesla T4, и условно большое количество кредитов на MongoDB и google cloud. Нужно, чтобы результат пользователю выдавался как можно быстрее. Идеально - сразу после записи всех видео. Нагрузка по пользователям небольшая, условно не более 5-10 человек одновременно. Данных нет, бюджета на разметку тоже нет. Соответственно, нужно собрать сервис на основе готовых решений.
А теперь поехали...
🔥283🤮2🤡2👍1
Делимся опытом: ML System Design для анализа коротких видео[2/3]
Теперь поговорим о том, какое итоговое решение с точки зрения инфраструктуры и коммуникаций у меня получилось.
Есть бэкэнд и фронтенд, на котором записывается видео, дальше видео кладется в google cloud bucket, который через gcfuse присоединен к машинке с Tesla T4, на которой мы будем разворачивать наш сервис. Машинка тоже гугловая, соответственно задержка между попаданием видео в бакет и на машинку очень маленькая. Почему не сразу стримить на машинку? Впадлу стыковать все это дело, к тому же бакет расширяется легче чем машинка, и через такое подключение питон может читать всю информацию будто с жесткого диска.
Информация обо всей аналитике и вообще все хранится в MongoDB, соответственно там есть коллекция под эти видео. Как только видео загружается, в записи, соответствующей видео, ставится статус UPLOADED, то есть оно полностью загружено на бакет и готово к использованию.
Что происходит на машинке? Запускается питоновский скрипт, который инициализирует два типа multiprocessing воркеров - один воркер мониторит MongoDB через pymongo на предмет новых записей, и все новые видео кладет в очередь на обработку. Другие воркеры - экземпляры пайплайна обработки, они обрабатывают видео и отправляют информацию в MongoDB о том, что видео обработано, вместе с результатами обработки, и посылают запрос в следующий сервис, который уже отдельно обрабатывает текст, извлеченный из видео, и говорит бэку что можно забрать результаты. Питоновский multiprocessing имеет ограничения, однако его было достаточно, плюс в случае запуска множества питоновских скриптов подобного типа могли возникать проблемы синхронизации, и пришлось бы дописывать балансировщик, который будет раскидывать задачи, что дополнительная попоболь, особенно для меня, который не сильно до этого упарывался с инфраструктурой, а сроки-то поджимают.
Если вы гуру систем дезигна, можете кинуть в меня помидорами в комментариях и предложить конструктивные улучшения. Также прикладываю картинку для легкости восприятия.
21🤮3🤡2
🔥30👏5🤮1🤡1
Скоро будет очень интересный пост, про математику анархизма. Я крайне долго над ним думал, это будет магнум опус текущего развития моих жизненных взглядов на устройство общества, осталось провести некоторые вычислительные эксперименты. Ждите 🔥🔥🔥
136🤡10👍9👎1🌭1
Только что мой мозг изрек одну из гениальнейших фраз за все время.
Мне показывают книгу "Нимб и крест" и спрашивают почитал бы, а я отвечаю "да, цикл лекций этому говну"
❤‍🔥16🤔8😁4🤮1🤡1
Я на первом курсе проходил стажировку в Novel Software Systems, и у меня там была идея, которую я не довел. Сейчас через 2 года мне человек который там работал со мной как наставник скинул статью где это сделали)))))))))) Но довели)))))) Я в очередной раз опередил время))))
👍35🤡29🥴4🤩3🤯1
😁39👍4🌭32🤮2
Forwarded from Русский research
Высокоцитируемый и безработный

В канал Русский research обратился учёный с необычной судьбой, Сергей Вениаминович Дорожкин, с просьбой рассказать о его ситуации и, возможно, помочь тем самым его научной работе. Я крайне редко посвящаю посты отдельным людям, но тут случай действительно уникальный.

Начнём с того, что С.В. Дорожкин является одним из самых цитируемых российских учёных (8-е место при нормировке цитирований на число соавторов) и попадает в топ-100 мирового рейтинга специалистов по биоматериаловедению. Одновременно с этим уже 20 лет Сергей Вениаминович занимается наукой лишь в качестве хобби по 1-1,5 часа в день, работая инженером по калибровке лабораторных приборов в коммерческой компании. Не имея доступа к лаборатории, учёный занимается анализом литературы и написанием обзорных статей, что само со себе непростой труд. Обзоры С.В. Дорожкина выходят в международных журналах и хорошо цитируются. Об этой удивительной ситуации писал ранее А.Р. Хохлов.

Сергей Вениаминович рассказывает, что в 2004 году закончился его последний контракт постдока в Канаде, и он вернулся в Москву, предварительно написав во все московские научные институты, где занимались близкой тематикой. Никто не ответил, приглашений на работу не поступило. В дальнейшем учёный периодически пытался выйти на контакт с представителями химфака МГУ, ИМЕТ РАН и, ранее, ИОНХ РАН, но тоже не получал ответов. В итоге он стал искать работу в коммерческих предприятиях и пришёл к текущей специальности инженера.

Единственная конструктивная реакция последовала буквально недавно от академика А.Р. Хохлова, который организовал у себя в лаборатории семинар С.В. Дорожкина, а затем принял его на работу на полставки. К сожалению, тематически интересы двух учёных в итоге не совпали, энтузиазм стал угасать, а сотрудничество на данный момент не сложилось.

Сейчас цель Сергея Вениаминовича очень проста. Найти возможность заниматься исследованиями по основному месту работы, уделять науке кратно больше времени и получать за это достойные деньги. Учёный готов как продолжить свою деятельность по написанию обзорных работ, так и подключиться к действующей лаборатории в рамках её тематики. Да, Сергей Вениаминович честно признаёт, что не умеет и не хочет участвовать в грантовой гонке. С другой стороны, свою способность выдавать востребованную «научную продукцию» он уже доказал, и, я думаю, имеет право претендовать на место в коллективе без традиционной административной нагрузки.


P.S. Честно говоря, я удивляюсь, почему никакой университет (особенно из числа бьющихся за показатели) не догадался пригласить С.В. Дорожкина на работу чисто из утилитарных соображений. Просто обеспечив учёному хороший оклад и рабочее место, организация получает, как минимум, стабильный поток востребованных статей в международных журналах и высокорейтингового сотрудника в качестве вечнозелёного инфоповода. Как максимум – при наличии близких по тематике химиков – получает консультации специалиста с широкой эрудицией в своей области.

С другой стороны, приходится признать, что уехавшим за рубеж учёным зачастую бывает сложно вернуться в российскую научную жизнь. Это другая система отношений (не худшая и не лучшая, а именно другая), и разница не сводится к пресловутым бегам за грантами. Хотя, безусловно, и вечный поиск финансирования доливает масла в огонь.

Ну и поскольку пост в жанре "ищу работу" публикуется в канале впервые, я понятия не имею, чем его заканчивать. Пожелаю Сергею Вениаминовичу найти правильное место и, наконец, уделять науке столько времени, сколько хочется.
38💔2🤮1🤡1
И снова я в Иннополисе
18🔥5😁2🤮1💋1
❤‍🔥14🤮1🤡1
😁495👍2🤮1🤡1
🔥47😁15🤡2🤮1