Это похоже на такой тривиальный вопрос, но я не могу найти ответ нигде!Что противоположно Союзу в Pyspark
У меня есть два RDD, один с векторизованной статьей и другой с кучей стоп-слов. Мой первый инстинкт состоял в том, чтобы использовать функцию фильтра, но, видимо, вы не можете взаимодействовать с двумя RDD. Я знаю, что Union позволяет RDD взаимодействовать, но мне нужна полная противоположность этому, поэтому я могу отфильтровать все временные слова в моем первом RDD.
Любая помощь будет высоко оценена.
EDIT:
RDD1_filtered = RDD1.filter(lambda word: word not in RDD2)
Оба РДУ представляют собой список слов. Я получаю ошибку о том, что я не могу иметь два РДА взаимодействующими
Можете ли вы показать код? У вас, похоже, есть кортеж в вашем RDD, так почему бы вам не отфильтровать его? –
Я добавил команду, которую я пытаюсь использовать для фильтрации. – madsthaks
Пожалуйста, покажите [mcve]? –