У меня есть большой набор данных, посвященный ценам на фондовом рынке & информации. Поскольку данные не готовы для конечной аналитики, я сейчас на стадии очистки данных, чтобы сделать ее готовой к использованию для анализа &.Провести приблизительное сопоставление (нечеткое) в R
Поскольку информация в ячейках не все соответствует одному отсортированному формату. Он содержит набор различных шаблонов, все из которых мне нужно учитывать.
Ex.
КОЛОННЫ НАЗНАЧЕНИЕ
- ДИВИДЕНДНАЯ-СР.1/- НА АКЦИЮ
- AGM/DIV-RS.3.50 НА АКЦИЮ
- SPL ДИВ-RS.2.70 за акцию
- ДИВ - FIN 3.50RE PER SHARE + SPL-Rs.1.4
- FV SPLIT Rs.10 - RE.1
- BON 3: 2 + SPLT Rs. 5 до Rs.2.5
- БОНУС 4: 1
- ДИВ: 10%
Так что я хочу нечеткая логика подход, чтобы проверить на наличие SPLIT, дивидендной BONUS и который когда-либо клеток шаблон match встречается в столбце PURPOSE, мне нужна позиция индекса этого конкретного шаблона в строке, чтобы извлечь числовое значение, следующее за ним.
Есть ли какой-либо путь в R, чтобы определить, можно ли проверять шаблоны и сопоставлять их примерно при возврате значения - индексы для них одинаковы в соответствующих строках? (таким образом, что в случае если символы изменится, кроме того, в будущем в соответствии с обозначениями правительственного веб-сайта в хранилище данных, или формат/позиционирования/изменения распорных. - это может объяснить все эти изменения автоматически)