Если у меня есть столбец данных строки типа в входящем наборе данных Azure ML, который содержит теги HTML, привносящие мои результаты, как я могу удалить эти теги?Как удалить HTML из текстового столбца в Azure ML Выполнить шаг сценария Python
1
A
ответ
1
Как это:
def azureml_main(dataframe1 = None, dataframe2 = None):
dataframe1[1] = dataframe1['text'].str.replace('<[^<]+?>', ' ', case=False)
return dataframe1,
Запомнить предшествовать Execute Python Script
шаг с шагом Clean Missing Data
и изменить действие, чтобы удалить всю строку (если это необходимо). Это важно, потому что этап Execute Python Script
не может вернуть пустой dataframe
. Только в этом случае вы знаете свои данные.
Позвольте мне также указать, что шаг Preprocessing Text
позволяет применять регулярное выражение. Это еще одна альтернатива, которая может быть подходящей для вашей ситуации.