2016-09-24 5 views
0

У меня есть большой набор данных, посвященный ценам на фондовом рынке & информации. Поскольку данные не готовы для конечной аналитики, я сейчас на стадии очистки данных, чтобы сделать ее готовой к использованию для анализа &.Провести приблизительное сопоставление (нечеткое) в R

Поскольку информация в ячейках не все соответствует одному отсортированному формату. Он содержит набор различных шаблонов, все из которых мне нужно учитывать.

Ex.

КОЛОННЫ НАЗНАЧЕНИЕ

  1. ДИВИДЕНДНАЯ-СР.1/- НА АКЦИЮ
  2. AGM/DIV-RS.3.50 НА АКЦИЮ
  3. SPL ДИВ-RS.2.70 за акцию
  4. ДИВ - FIN 3.50RE PER SHARE + SPL-Rs.1.4
  5. FV SPLIT Rs.10 - RE.1
  6. BON 3: 2 + SPLT Rs. 5 до Rs.2.5
  7. БОНУС 4: 1
  8. ДИВ: 10%

Так что я хочу нечеткая логика подход, чтобы проверить на наличие SPLIT, дивидендной BONUS и который когда-либо клеток шаблон match встречается в столбце PURPOSE, мне нужна позиция индекса этого конкретного шаблона в строке, чтобы извлечь числовое значение, следующее за ним.

Есть ли какой-либо путь в R, чтобы определить, можно ли проверять шаблоны и сопоставлять их примерно при возврате значения - индексы для них одинаковы в соответствующих строках? (таким образом, что в случае если символы изменится, кроме того, в будущем в соответствии с обозначениями правительственного веб-сайта в хранилище данных, или формат/позиционирования/изменения распорных. - это может объяснить все эти изменения автоматически)

ответ

0

Вот альтернатива вы можете рассмотреть, хотя это не отвечает на вопрос, как:

  1. Получить изменения имен с сайта NSE как CSV: https://www.nseindia.com/corporates/content/securities_info.htm
  2. использовать пакет quantmod Получить раскол и дивиденды от yahoo

    getDividends ("INFY.NS", from = "2000-01-01");
    getSplits ("INFY.NS", from = "2000-01-01")