2011-01-20 2 views
6

Я ищу лучший PHP-способ сканирования множества текстовых записей (объявлений) и вытаскивания ключевых слов - каждый знает о части речи мечения? Есть ли способ PHP-ish сделать это?Как внедрить тег-признак Part of of Speech (POS)

Я сканирую много объявлений в Интернете, но не с категориями! Чтобы ускорить процесс категоризации, я хочу установить теггер Part of of Speech (http://en.wikipedia.org/wiki/Part-of-speech_tagging). В принципе, это классные алгоритмические пакеты для анализа текста, которые могут рассказать мне, какие слова являются существительными (например, «Квартира», «Автомобиль», «Собака» и т. Д.) И какие слова являются нежелательными, например, если, и, и т. Д. , BUT ...

В настоящее время онлайн-службы пометки - одно из Yahoo, которое, похоже, становится менее любящим в наши дни - другое - XEROX. Тем не менее, я действительно заинтересован в установке моей собственной библиотеки/программного обеспечения и подключении ее к моему веб-приложению.

Кто-нибудь знает, как установить POS-метку, которая работает с веб-приложением PHP? Я умираю, чтобы понять это, поэтому любая информация, совет или другая мудрость, которую вы имеете, действительно оценены!

Вот список МНОГО различного программного обеспечения POS: http://www-nlp.stanford.edu/links/statnlp.html#Taggers (Смотрите в разделе "POS Taggers")

Спасибо за чтение этого!

+0

какой лучший POS-теггер? Есть идеи? –

ответ

5

Ian Barber реализовал Brill Tagger на PHP, который он представляет на своем сайте PHP/ir, где описывает его использование для анализа твитов.

2

Да, я в настоящее время использую тег Brill. Это работает в некоторой степени, хотя я бы хотел выяснить, как внести свой вклад в его набор правил. Он допускает множество ошибок, но при этом дает около 85% точных данных. Моя единственная проблема в том, что она МЕДЛЕННАЯ!

Это правильно, где оно подсчитано, на словах с двойным смыслом - однако есть много соглашений, которые не учтены, например, контрастные предложения союзов, например, я могу сказать что-то отрицательное о ком-то, но после запятой скажу что-то которые меняют полярность на положительную, или нет. Компьютер не может видеть идиомы.