Я работаю над анализом простого текста и преобразованием его в пары значений ключа. Например, простой текст:Анализ текстового текста на какой-либо структурированный объект
some_uninteresting_thing
key1 valueA, some_uninteresting_thing valueB
key2 valueD
key3 some_uninteresting_thing valueE
key4 valueG(valueH, valueI)
key5 some_uninteresting_thing
И возможные отображения:
Map(
key1 ->(valueA, valueB,valueC),
key2 ->(valueD, valueE),
key3 ->(valueF)
key4 ->(valueH, valueI)
...
)
Amd результат будет:
key1 ->(valueA, valueB)
key2 ->(valueD)
key4 ->(valueH, valueI)
(key5 не должны быть отображены, потому что не имеет соответствующих значений. Как вы можете видеть, простой текст мягкий. Какая библиотека java поможет справиться с этим?
В случае, если линия, как 'ключ1 значение а, VALUE млрд, valueC' карте до 1 пара ключ/значение ('ключ1' => 'значение а, VALUE млрд, valueC') или 3 пары ключ/значение ('ключ1' = > 'valueA' и 'key1' => 'valueB и' key1 '=>' valueC ')? –
Как ваш код обрабатывает первую строку вашего примера? Является ли 'some_uninteresting_thing' ключом без значения, или что? И как это должно быть учтено при обработке последней строки? –
Как можно различать «неинтересный» текст и «интересный текст». Например, если первая строка «это жизнь, Джим», это неинтересно или это ключ = «это», значение А = «жизнь», значение Б = «Джим»? –