Я работаю с файлами ARC, которые были сгенерированы обход Heritrix. Когда я просматриваю эти страницы в Wayback Machine, похоже, что большая часть графики загружается с моей локальной машины, поэтому я предполагаю, что эти графики хранятся внутри файлов ARC. Это верно? Если да, то каков наилучший способ извлечения изображений?извлечение графики из обходных сайтов (файлы ARC)
0
A
ответ
0
Я нашел одно решение, а сценарий под названием Perl arc_extractor: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt
Он извлекает все файлы, которые находятся в файле ARC, разделенные папки в соответствии с местом, из которого они были получены. И да, он включает файлы изображений.
Сценарий не слишком изящный ... поэтому, если у кого-то есть другие предложения, которые мне интересны, узнав о них.