2016-04-12 7 views
-1

Я использую R для чтения текста. Проход состоит из 100 предложений, то он помещается в список, список, как:Частота отсчета n-грамм в тексте с использованием r

[[1]] 

[1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016 

[[2]] 

[1] "chrisreedfilm: RT @hammertonail: #SXSW2016 doc THE SEER: A PORTRAIT OF WENDELL BERRY gets reviewed by @chrisreedfilm 

[[3]] 

[1] "iamscottrandell: RT @therevue: Take a jaunt down #MemoriesofSXSW & read the stories of @JRNelsonMusic @thegillsmusic & @TheBlancosMusic 
... 
... 

[[99]] 

[1] "SunPowerTalent: SunPower #Clerical #Job: Supply Chain Intern (#Austin, TX) 

[[100]] 

[1] "SunPowerTalent: #Finance #Job alert: General Ledger Accountant | SunPower 

Каждый объект в списке является «предложение» от одного и того же текста. Как я могу подсчитать частоту всех 3-граммов в этом тексте и узнать, какое предложение составляет 3 грамма?

Большое спасибо.

ответ

0

Вы можете использовать пакет R textcat (https://CRAN.R-project.org/package=textcat) для этого. Если список из 100 предложений называются x просто сделать:

library("textcat") 
n3gram <- textcat_profile_db(x, n = 3) 

Это тот список из 100 элементов (соответствующих исходные предложения), содержащих 3-грамм, заказанных по частоте. См. ?textcat_profile_db для получения более подробной информации и примеров.