Когда рекомендательная система смотрит только на ваши лайки — страдает весь фид.
VK перекрутил свой стек и внедрил мультимодальные модели, которые читают смысл контента: что в видео происходит, какая там эмоция, кто в кадре и почему это может понравиться пользователю.
Кросс-форматная модель объединяет изображение, звук, текст и обложку в единое пространство.
Мультимодальная языковая модель объясняет сюжет и даже «понимает», на каких сценах вы задержались дольше.
Плюс работает распознавание популярных персон — потому что пользователи чаще смотрят то, что связано с любимыми героями.
Это не «угадайка по лайкам», а полноценный анализ медиаконтента, который делает рекомендации точнее.
VK перекрутил свой стек и внедрил мультимодальные модели, которые читают смысл контента: что в видео происходит, какая там эмоция, кто в кадре и почему это может понравиться пользователю.
Кросс-форматная модель объединяет изображение, звук, текст и обложку в единое пространство.
Мультимодальная языковая модель объясняет сюжет и даже «понимает», на каких сценах вы задержались дольше.
Плюс работает распознавание популярных персон — потому что пользователи чаще смотрят то, что связано с любимыми героями.
Это не «угадайка по лайкам», а полноценный анализ медиаконтента, который делает рекомендации точнее.
🤡22🔥3❤1❤🔥1