2013-02-17 3 views
2

Я хочу получить этот список, чтобы позже работать над ним для линкистических исследований.Как получить полный список названий страниц из Википедии?

API:Allpagesis limited to 500 queries. Мне нужны все они (4 миллиона).

Возможно атаковать его с помощью dbpedia.

Любой трюк для этого?

+0

http://dumps.wikimedia.org/backup-index.html (только для личного или некоммерческого использования) – nneonneo

+0

Первая страница содержит 500 результатов, но вы можете получить следующую, выполнив 'query-continue'. – svick

+0

Загрузка результатов 4M 500 на 500 займет у вас ... – nneonneo

ответ

6

Фонд Викимедиа, в котором работает Википедия, публикует периодические отвалы всех своих проектов до http://dumps.wikimedia.org.

Вы можете просмотреть последний дайджест enwiki (начиная с этой публикации) здесь: http://dumps.wikimedia.org/enwiki/20130204/.

Этот файл, который, вероятно, наиболее интересен для вас, это список всех названий страниц: http://dumps.wikimedia.org/enwiki/20130204/enwiki-20130204-all-titles-in-ns0.gz.

+0

Спасибо Nneonneo. Я на самом деле нашел его сам, благодаря вашему верхнему комментарию, но я счастлив подтвердить ваш ответ! Ты дал мне трюк! – Hugolpz