Я пытаюсь предварительно обработать некоторый текст с помощью регулярного выражения в рубине для ввода в картограф и хотел бы разделить на возврат каретки, обозначающий этот пункт.Ruby ARGF & RegEx: Как разбить на карету возврата каретки « r n», но не конец строки « r n»
Текст будет приходить в картограф, используя ARGF.each как часть Hadoop потоковой работы
"\"Walter Elliot, born March 1, 1760, married, July 15, 1784, Elizabeth,\r\n"
"daughter of James Stevenson, Esq. of South Park, in the county of\r\n"
"Gloucester, by which lady (who died 1800) he has issue Elizabeth, born\r\n"
"June 1, 1785; Anne, born August 9, 1787; a still-born son, November 5,\r\n"
"1789\"\r\n"
"\r\n" # <----- this is where I would like to split
"Precisely such had the paragraph originally stood from the printer's\r\n"
После того, как я это сделал я буду грызть возвращение новой строки/каретки каждой строки.
Это будет выглядеть примерно так:
ARGF.each do |text|
paragraph = text.split(INSERT_REGEX_HERE)
#some more blah will happen beyond here
end
UPDATE:
Нужный выход, то есть массив следующим образом:
[
[0] "\"Walter Elliot, born March 1, 1760, married, July 15, 1784, Elizabeth,\r\n"
"daughter of James Stevenson, Esq. of South Park, in the county of\r\n"
"Gloucester, by which lady (who died 1800) he has issue Elizabeth, born\r\n"
"June 1, 1785; Anne, born August 9, 1787; a still-born son, November 5,\r\n"
"1789\"\r\n"
[1] "Precisely such had the paragraph originally stood from the printer's\r\n"
]
В конце концов, что я хочу, следующий массив с нет возвратов каретки в пределах массива:
[
[0] "\"Walter Elliot, born March 1, 1760, married, July 15, 1784, Elizabeth,"
"daughter of James Stevenson, Esq. of South Park, in the county of"
"Gloucester, by which lady (who died 1800) he has issue Elizabeth, born"
"June 1, 1785; Anne, born August 9, 1787; a still-born son, November 5,"
"1789\""
[1] "Precisely such had the paragraph originally stood from the printer's"
]
Заранее благодарим за любые идеи.
Итак, в приведенном выше примере ваш желаемый результат - это именно то, что именно? Массив из двух элементов? – Anthony
это пример файла, который я использую: [файл] (http://www.gutenberg.org/cache/epub/158/pg158.txt) Одним из подходов, упрощающих дело, было бы предварительно обработать файл перед он вводится в ARGF и удаляет \ r \ n в новых строках, но чтобы оставить символ \ r \ n, обозначающий абзац –