Я знаю, что Gutenberg (компания, предоставляющая общедоступные книги) не разрешает автоматический доступ к своему веб-сайту, однако они предоставляют их в «машиночитаемом формате» именно для этой цели , в частности RDF. Я, будучи новым, никогда не слышал об этом формате, и googling мало помог. Я приобрел модуль rdflib, который я совершенно откровенно не знаю, что с ним делать.Python, чтение файлов RDF, скремблирование книг Gutenberg
То, что я пытаюсь сделать, это извлечь текст, который, как я полагаю, легально доступен через файлы RDF, которые я загрузил. В файле РДФ есть, среди прочего, эта линия:
<dcterms:hasFormat rdf:resource="http://www.gutenberg.org/ebooks/100.txt.utf-8"/>
Это приводит к странице Гутенберга с текстовым файлом книги, из которой я предполагаю, что программа может получить текст, хотя я не конечно, так как я не вижу различия между прямым очищением своего сайта и очищением его через файл RDF.
Итак, если текст доступен программно, как бы я это сделал?
Проект Gutenberg предоставляет свой каталог в RDF, а не фактический текст книги, так что это не решит вашу проблему. – RobV
@RobV. Я считаю, что точка пользователя состоит в том, что тройка ' dcterms: hasFormat "предоставляет URL-адрес для текста. Я согласен, однако, что если автоматический доступ запрещен, просто URL-адрес не помогает, поскольку доступ к нему по-прежнему будет автоматическим доступом. –
Какие поиски в Google не помогли? Первые несколько запросов [поиск Google для rdf] (https://www.google.com/search?q=rdf) касаются того, что такое RDF, как он используется, как он выглядит и т. Д. –