Я нашел этот предыдущий вопрос на SO: N-grams: Explanation + 2 applications. О.П. привел этот пример, и спросил, если это было правильно:Что такое n грамм?
Sentence: "I live in NY."
word level bigrams (2 for n): "# I', "I live", "live in", "in NY", 'NY #'
character level bigrams (2 for n): "#I", "I#", "#l", "li", "iv", "ve", "e#", "#i", "in", "n#", "#N", "NY", "Y#"
When you have this array of n-gram-parts, you drop the duplicate ones and add a counter for each part giving the frequency:
word level bigrams: [1, 1, 1, 1, 1]
character level bigrams: [2, 1, 1, ...]
Кто-то в разделе ответов подтвердил это было правильно, но, к сожалению, я немного потерял за что я не в полной мере понять все остальное, что было сказал! Я использую LingPipe и следую учебнику, в котором говорится, что я должен выбрать значение от 7 до 12, но без указания причины.
Что такое хорошее значение nGram и как его принять во внимание при использовании инструмента, такого как LingPipe?
Edit: Это был учебник: http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
Так меньше Ngram, тем больше сравнений и тем более точный анализ? Я пытаюсь понять, почему в этом учебнике предлагается число от 7 до 12. – user2649614
Итак, для анализа настроений в твитах, как мне выбрать номер? Просто удача? – user2649614
Я думаю, что самый простой способ найти лучшее число - экспериментировать. В качестве примера вы можете разделить свои учебные данные в две половины, тренироваться в первом тайме, а затем использовать число, которое дает вам лучшие результаты со вторым. Или попробуйте чайные листья! – zoul