Использование pyspark, мне нужно отфильтровать несколько файлов журнала ежедневного доступа службы SNS от пользователя nos. И затем, преффицируйте результат, группируя его пользователем. Вот часть питона скрипт, который извлекает журнал доступа пользователей с массивом пользователей NOS:Оформление результата SparkContext textFile отфильтрованных линий
def is_user_log(line):
return any(userno in line for userno in userno_array)
sc = SparkContext(appName="<app_name>")
text_file = sc.textFile(hdfs_url)
lines = text_file.filter(is_user_log)
Теперь у меня есть журналы доступа, что я заинтересован в позвонив по телефону lines.collect(), но то, что я нужно сделать здесь, чтобы сгруппировать результат пользователем nos. Чтобы быть конкретным, когда Spark улавливает интересующую меня линию, я хочу, чтобы она добавила несколько слов в строку. Можно ли использовать pyspark?
Спасибо за отзыв. Но «некоторые слова» должны быть разными по строкам, например. пользователю нет, что линия захвачена. – choiapril
Нет проблем, см. Обновленный ответ – Mariusz