К вопросу зрелых бенчмарков TAP-Vid - эталон в области анализа движения на видео DeepMind формализовали задачу долгосрочного отслеживания любой точки на видео (TAP, track any point), включая деформацию, ускорения, повороты, перекрытие другими объектами. https://arxiv.org/abs/2211.03726