Я пытаюсь посмотреть, одинаково ли между двумя страницами фильм, и для этого мне хотелось бы сравнить Актеры как один из критериев. Тем не менее, актеры часто перечисляются по-разному на разных страницах. Например:Fuzzy-match Список людей
На этой странице, https://play.google.com/store/movies/details?id=cSdcb2KOH74, актеры перечислены как «Михаил Галустян, Дэнни Трехо, Гильермо Диас, Олег Тактаров, Ким Уитли, Кристофер Робин Миллер, Роберт Медведь, Владимир Яглыч, Джош Мак-Лерран»
Одна эта страница, http://www.imdb.com/title/tt2167970/, актеры, как «Стебунов, Олеринская, Владимир Яглыч»
Ранее я делал очень грубый матч на:
if actors_from_site_1[0] == actors_from_site_2[0]
Но, как вы можете видеть из приведенного выше случая, это не очень хорошая техника. Какая была бы лучшая техника, чтобы увидеть, соответствуют ли актеры из одного фильма другим?
... и что тогда? – MattDMo
@MattDMo: Если пересечение содержит достаточно большой набор участников, вы можете считать их одинаковыми ... или вы можете использовать эту информацию в сочетании с другой информацией, чтобы решить, являются ли фильмы одинаковыми или нет ... – ArtOfWarfare
@ArtOfWarfare верный. Я написал свой комментарий, когда ответ был [не совсем ничего] (http://stackoverflow.com/revisions/29381487/1). – MattDMo