2014-01-19 1 views
0

Я пытался использовать Tokenize для поиска IP-адрес с номером портаКак получить регулярные выражения в RapidMiner?

enter image description here

но, видимо, он использует регулярное выражение для определения маркеров разделителя, то есть он возвращает текст между IP-адресами. Можно ли сами получить адреса?

UPDATE

У меня есть один большой файл журнала текстуальное в качестве входных данных. Он содержит строки, строки содержат сообщения о IP-адресах. Я хотел бы принять все адреса, которые они подсчитывают.

Возможно ли это с помощью RapidMiner?

ответ

0

Если вы хотите, чтобы в наборе примеров содержались атрибуты с именами, равными IP-адресу и дополнительному порту, вы можете попробовать следующее.

Передайте документы оператору Process Documents.

Внутри этого использования Tokenize со следующим регулярным выражением.

[^0-9.:]

Сразу после этого, используйте оператор Filter Token (by Content) с условием contains match и последующим регулярным выражением.

\d+\.{1}\d+\.{1}\d+\.{1}\d+:*\d*

+0

У меня есть один файл. Это «документ»? Пожалуйста, объясните, как ваш метод может работать? –

+0

В операторе «Документы процесса» задайте параметр «Вектор Creation» как «Term Occurrences». Это будет считать количество раз, когда атрибут появляется в одном документе. – awchisholm

+0

Для информации имеется оператор 'Keep Document Parts', который позволяет сохранять контент, представляющий интерес, до отметки. – awchisholm