2017-02-07 13 views
0

Я ищу новые идеи для двух функций, которые я реализую.Сегментация и коллокации

1.) Текст сегментация особенность:

Ex: 
        User Query:     Resolved Query: 
        -----------     --------------- 
      It has lotsofwordstogether It has lots of words together 

    I am using normal recursion or DP solution using unigrams probability. 

2.) Вид словосочетании:

Ex: 
     User Query:      Resolved Query: 
     ----------      --------------- 
    I like t shirts in Wal mart  I like t-shirts in Walmart 

Нет понятия, как сделать, чтобы это. Только идея, которую я имею в настоящее время, символизирует предложение и объединяет не значащие токены с предыдущими токенами или другими токенами для формирования слов, которые можно проверить против униграмм.

Эти решения медленны для моих требований (особенно первого). Я хочу использовать эти функции вместе. Ищите лучшие идеи.

ответ

0

Я предполагаю, что стандартные подходы включают буквы n-граммов.

Таким образом, 'wal mart' станет 'wal' 'alm' 'lma' 'mar' 'art'.

+0

Я новичок в этом поле. Можете ли вы указать какую-то книгу или онлайн-источник на это. Как можно разрешить футболку с помощью n-граммы? – starkk92

0

Для проблемы 1), найдя границы слов, вы можете использовать существующие алгоритмы для токенизации восточно-азиатских языков. Как правило, они связаны с применением моделей Hidden Markov:

http://dev.datasift.com/blog/using-japanese-tokenization-generate-more-accurate-insight

https://nlp.stanford.edu/IR-book/html/htmledition/tokenization-1.html

я могу думать о применении алгоритма CKY (используется для анализа контекстно-свободной грамматики), особенно, если вы можете найти словарь, который обеспечивает сегментации слога и инвентаря слога.

Проблема 2), я думаю, это всего лишь пример коррекции правописания. Просто обрабатывайте пробелы, как вы относитесь к любому другому персонажу.

Я бы разместил больше ссылок, но у меня недостаточно репутации.

Это непростые проблемы, удачи!