2009-08-01 5 views
1

Мне нравится отслеживать delicious.com/popular RSS-канал. Однако в последнее время в статьях все больше азиатских страниц. Поскольку я не понимаю азиатских языков, я хотел бы как-то отфильтровать их из фида и сэкономить некоторое время.Как фильтровать азиатский язык из RSS-канала?

Я пытался что-то приготовить с помощью Yahoo pipes, но не смог заставить его работать.

Кто-нибудь знает, как это сделать?

ответ

1

У меня было немного удачи в http://pipes.yahoo.com/pipes/pipe.info?_id=yJh1aRp_3hGaPi23tPvyrQ

Источник трубы имеет всю информацию, но бит ключ работает фильтр с регулярным выражением ^[A-Za-z 0-9 \.,\?'""[email protected]#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\] ~] + $ '.

Это будет отфильтровывать любые каналы, которые используют ничего, кроме стандартного ASCII в заголовке. К сожалению, это означает, что он также будет фильтровать такие слова, как «résumé», но вам должно быть довольно легко настроить регулярное выражение для включения общих неанглийских символов с языков, которые вы знаете.

+0

Спасибо! Это будет хорошо для меня. – MvdD

0

Возможно, вы захотите пропустить заголовки, где более X% символов НЕ относятся к кодам блоков, назначенным скриптам тех языков, которые вы можете понять. Например, если вы не можете читать греческий, русский, арабский, иврит, армянский, китайский, японский, корейский, индийский языки и т. Д., Отбрасывать названия, где более 10 символов не находятся в диапазоне U + 0000 до U + 0233. Это оставляет вас латинским алфавитом. Идея оставить маржу, как 10%, для знаков препинания; также технические статьи могут использовать символы, которые не находятся в базовом алфавите.