2016-11-09 4 views
0

Как удалить пустые твиты с помощью filter() в pyspark? Я сделал следующийКак удалить пустые твиты с помощью фильтра() в pyspark?

tweets = sc.textFile(.....) 
tweets.count() 

результат дает мне 13995. Однако, когда я импортировал данные из MongoDB, он показал 11186

Я не могу показаться, чтобы применить команду filter() для удаления пустых твитов. Помоги пожалуйста.

ответ

0

Если ваши данные как этот

tweets = sc.parallelize(["title1", "", "title2", "title3", ""]) 

вы можете использовать len(x) как условие фильтра:

tweets.filter(lambda x: len(x) > 0).count()