Я пытаюсь создать учебные данные для поиска имени openNLP и буду признателен за любую помощь, которую вы могли бы предложить.Заменить все элементы в списке в текстовом файле
Если бы я был текстовый файл так:
Pierre Vinken, 61 years old, will join the board as a nonexecutive director Nov. 29.
John Smith is chairman of Elsevier N.V., the Dutch publishing group.
и список имен второго файла, таких как:
Pierre Vinken
John Smith
Будет ли способ, чтобы найти все упоминания о имена в текстовом файле и соответствующим образом помечать их в файле для создания учебных данных, так что файл теперь читается следующим образом:
<START:CEO> Pierre Vinken <END>, 61 years old, will join the board as a nonexecutive director Nov. 29.
<START:CEO> John Smith <END> is chairman of Elsevier N.V., the Dutch publishing group.
Обратите внимание, что я знаю, что другие шаги предварительной обработки необходимы, чтобы сделать файл подходящим для обучения, например, заставляя данные в одно предложение на строку.
Я был бы признателен за решение, которое имеется в Notepad ++ или R, но при необходимости я также имею доступ к инструментам оболочки. Благодаря!