Для некоторых ИК-пурпусов я хотел бы извлечь фрагмент текста и перед анализом хочу удалить слова остановки. Для этого я сделал txt
файл стоп-слов, а затем, используя следующий код, пытаясь удалить эти бесполезные слова:Остановить удаление слова пошло не так
private static void stopWordRemowal() throws FileNotFoundException, IOException {
Set<String> stopWords = new LinkedHashSet<String>();
BufferedReader br = new BufferedReader(new FileReader("StopWord.txt"));
for(String line;(line = br.readLine()) != null;)
stopWords.add(line.trim());
BufferedReader br2 = new BufferedReader(new FileReader("text"));
FileOutputStream theNewWords=new FileOutputStream(temp);
for(String readReady;(readReady = br2.readLine()) != null;)
{
StringTokenizer tokenizer =new StringTokenizer(readReady) ;
String temp=tokenizer.nextToken();
if(!stopWords.equals(temp))
{
theNewWords.write(temp.getBytes());
theNewWords.write(System.getProperty("line.separator").getBytes());
}}
}
Но на самом деле это не работает хорошо. Учитывая следующий пример текста фрагмент кода:
Text summarization is the process of extracting salient information from the source text and to present that
information to the user in the form of summary
выход будет, как:
Text
summarization
is
the
process
of
extracting
salient
information
from
the
source
text
and
to
present
that
information
to
the
user
in
the
form
of
summary
это почти как никакого эффекта. Но я не знаю, почему.
Просьба также отправить файл StopWord.txt. Также обратите внимание, что у вас есть проблемы с интервалом в вашем коде. – Cristik