2012-06-19 2 views
2

Как можно разделить предложение как "He and his brother playing football." на несколько частей, например "He and", "and his", "his brother", "brother playing" и "playing football". Можно ли это сделать с помощью Java?Как разделить предложение на части Java?

+0

В то время как мы в этом, что конкретно вы имели в виду, разделив предложение на (а) «несколько часть»? Какие части? – duskwuff

+3

Волшебное слово - разделители! – theAlse

+0

Я попытался использовать разделители. Но я не могу заставить его разделить предложение, как указано выше. – cchua

ответ

7

Предполагая, что «слова» всегда разделены одним пространством. Используйте String.split()

String[] words = "He and his brother playing football.".split("\\s+"); 
for (int i = 0, l = words.length; i + 1 < l; i++) 
     System.out.println(words[i] + " " + words[i + 1]); 
+0

спасибо, что есть работа. И у меня еще одна проблема: я могу разделить предложения на «Он», «Он и», «и его», «его брат», «брат играет» и «играет в футбол». Я хочу получить первое слово, а затем следовать другому. – cchua

+0

@cchua, Итак, просто напишите 'слова [0]' перед циклом. – st0le

+0

ОК, я понял. Как насчет "." после «футбола» « – cchua

2
String str="He and his brother playing football"; 

    String [] strArray=str.split(" "); 
    for(int i=0;i<strArray.length-1 ;i++) 
    { 
     System.out.println(strArray[i]+" "+strArray[i+1]); 
    } 
+0

спасибо, что есть работа. И еще у меня есть еще одна проблема: я могу разделить предложения на «Он», «Он и», «и его», «его брат», «брат играет», «играть в футбол» и «футбол». – cchua

0

Используйте StringTokenizer для разделения пробелами или другими символами.

import java.util.StringTokenizer; 

public class Test { 

     private static String[] tokenize(String str) { 
      StringTokenizer tokenizer = new StringTokenizer(str); 
     String[] arr = new String[tokenizer.countTokens()]; 
     int i = 0; 
     while (tokenizer.hasMoreTokens()) { 
     arr[i++] = tokenizer.nextToken(); 
     } 
     return arr; 
    } 

    public static void main(String[] args) { 
     String[] strs = tokenize("Sandy sells seashells by the sea shore."); 
     for (String s : strs) 
      System.out.println(s); 
    } 
} 

Если распечатать:

Sandy

продает

ракушек

по

в

ами ea

берег.

Может быть, может быть, это не то, что вам нужно.

+0

Я не понимаю, вы можете дать мне полный пример, чтобы запустить его. – cchua

+0

@cchua Попробуйте это. Он будет делить на _spaces_, хотя и не в речи. Что вы пытаетесь сделать с ним в любом случае? – iracigt

+0

Дело в том, что мне нужно разделить его на 2 слова, как указано выше. Позже я подумаю, как сделать сравнение с 2 словами, которые указаны в текстовом файле. Внутри текстового файла содержится много строк предложений. – cchua

3

Вы можете сделать это, используя Класс BreakIterator и его статический метод getSentenceInstance(). Это Returns a new BreakIterator instance for sentence breaks for the default locale.

You can also use getWordInstance(), getLineInstance().. to break words, line...etc

например:

BreakIterator boundary = BreakIterator.getSentenceInstance(); 

boundary.setText("Your_Sentence"); 

int start = boundary.first(); 

int end = boundary.next(); 

Iterate over it... to get the Sentences....

Для получения более подробной посмотреть на этой ссылке:

http://docs.oracle.com/javase/6/docs/api/java/text/BreakIterator.html

Edited Ответ: This is a working code

String sent = "My name is vivek. I work in TaxSmart"; 
     BreakIterator bi = BreakIterator.getSentenceInstance(); 
     bi.setText(sent); 
     int index = 0; 
     while (bi.next() != BreakIterator.DONE) { 
     String sentence = sent.substring(index, bi.current()); 
     System.out.println("Sentence: " + sentence); 
     index = bi.current(); 
     } 
+0

Я не понимаю, вы можете дать мне полный пример, чтобы запустить его. – cchua

+0

Интересно, первый раз услышать об этом классе 'BreakIterator'. Я только что протестировал, результат содержит пробелы. например, для 'как вы? ', я получил' 0,3 [как] 3,4 [] 4,7 [are] 7,8 [] 8,11 [вы] 11,12 [?] ' –

+0

@ LiuYan 刘 研 вы не разделяете свой код здесь. – cchua