Частота отсчета n-грамм в тексте с использованием r

-1

Я использую R для чтения текста. Проход состоит из 100 предложений, то он помещается в список, список, как:Частота отсчета n-грамм в тексте с использованием r

[[1]] 

[1] "WigWagCo: For #TBT here's a video of Travis McCollum (Co-Founder and COO of WigWag) at #SXSW2016 

[[2]] 

[1] "chrisreedfilm: RT @hammertonail: #SXSW2016 doc THE SEER: A PORTRAIT OF WENDELL BERRY gets reviewed by @chrisreedfilm 

[[3]] 

[1] "iamscottrandell: RT @therevue: Take a jaunt down #MemoriesofSXSW &amp; read the stories of @JRNelsonMusic @thegillsmusic &amp; @TheBlancosMusic 
... 
... 

[[99]] 

[1] "SunPowerTalent: SunPower #Clerical #Job: Supply Chain Intern (#Austin, TX) 

[[100]] 

[1] "SunPowerTalent: #Finance #Job alert: General Ledger Accountant | SunPower

Каждый объект в списке является «предложение» от одного и того же текста. Как я могу подсчитать частоту всех 3-граммов в этом тексте и узнать, какое предложение составляет 3 грамма?

Большое спасибо.

источник

2016-04-12 Paul

Вы можете использовать пакет R textcat (https://CRAN.R-project.org/package=textcat) для этого. Если список из 100 предложений называются x просто сделать:

library("textcat") 
n3gram <- textcat_profile_db(x, n = 3)

Это тот список из 100 элементов (соответствующих исходные предложения), содержащих 3-грамм, заказанных по частоте. См. ?textcat_profile_db для получения более подробной информации и примеров.

источник

2016-04-12 10:49:31

Частота отсчета n-грамм в тексте с использованием r

ответ

Смежные вопросы