Я пытаюсь выяснить, лучший способ использовать университет парсер для обработки лог-файл CSV с линиями выглядит, как показано ниже,однозначность анализатор - Обработка строк с фантастическими конструкциями
«23.62.3.74», 80, «testUserName», 147653, «Устройство сбора журналов 100», «31/02/15 00:05:10 GMT», - 1, «10.37.255.3», «TCP», «destination_ip = 192.62.3.74 | product_id = 0071 | option1_type = (s-dns) | proxy_machine_ip = 10.1.255.3 "
Как вы можете видеть, это файл с разделителями-запятыми, но последний столбец имеет кучу значений с префиксами с именами полей. Мое требование - выборочно извлекать значения из нормальных полей и из этого последнего большого поля.
Я знаю главный процессор строк в Univocity, но я сомневаюсь, что он вписывается в эту категорию. Не могли бы вы направить меня в правильном направлении?
Примечание: Я могу обрабатывать поля с префиксом имени в rowProcessed(String[] row, ParsingContext context)
, если я реализую процессор строк, но, если возможно, я ищу что-то родное для Univocity?
Спасибо, R
Спасибо, что это было полезно, меня немного беспокоит производительность из-за жестких требований к производительности. Если я могу пойти на обработку этого в процессоре строк и смотрю на «ConcurrentRowProcessor», я могу попробовать попробовать, как я могу выжать. Приветствия .. R –
Рад помочь. Я попытаюсь придумать способ более легко обрабатывать подобные требования и добавить его в библиотеку. Такая проблема не является чем-то необычным. –
Отличный .. да, эти файлы журналов (Common Event Format) являются общими, они довольно большие в размере линии. Будет интересно увидеть встроенную поддержку таких форматов. Опять же, как я сказал в прошлый раз, когда я получаю некоторое свободное время, я могу выкопать часть вашей базы кода и снять с вас PR :) –