очевидное-невероятное. обоих CIFAR нашли кучу дублей между train / test, что компрометирует очень много научных статей. #deeplearning
источник: https://arxiv.org/abs/1902.00423
arXiv.org
Do We Train on Test Data? Purging CIFAR of Near-Duplicates
The CIFAR-10 and CIFAR-100 datasets are two of the most heavily benchmarked datasets in computer vision and are often used to evaluate novel methods and model architectures in the field of deep...
весь отчёт в аттаче. Спойлер: агент Дональд получает героя советского союза. Тайно естественно.
Data is data
где-то грязненько, где-то чистенько, а в районе Северянинского путепровода просто х-во как-то :)
Интересно. От аналитики Яндекса у многих в правительстве Москвы бомбануло и пост аккуратно удалили.
у HH все деньги ушли на исследование рынка , на дизайнера не осталось. (не делайте так). На РБК не сильно лучше табличка. https://rating.hh.ru/rating2018/
вчера искал пруфы на один текст. Нашёл американских психологов из 90х, которые исследовали дискриминацию по разным признакам. В данной работе они взяли 27 толстых и 31 нормальную эенщины и давали им положительную и отрицательную обратную связь от лица белого мужчины. Текст не отличался. Женщины с лишним весом связали этот фидбек с тем, что они толстые, но виду не подали. Просто чувствовали себя несчастными. Так вот рождается "дискриминация". Статья целиком за пейволом. Это ж наука, а не data science какой-то. https://psycnet.apa.org/record/1993-21499-001
а вот их большая статья на эту тему, которую добрые люди утащили к себе. если закачается конечно. пока не очень хочет.