В Linux среде мне нужно будет удалить дубликаты изображений с помощью md5 файла, но перед удалением, я хочу написать в файле какой-то список CSV изудаление дубликатов изображений с помощью кли
Удалено Файл -> Linked Первый файл Удалено Файл -> Linked File
Etc.
проблема заключается в том, что у меня есть структура
Главная Папка вложенная_папка Sub-Sub Folder Sub-Sub-Sub Folder
Изображения
С более чем 200.000 файлов
Так скрипт должен быть достаточно хорошо, чтобы не висеть и быть быстрым.
В каком направлении вы бы предложили?
У меня есть ubuntu под рукой.
UPDATE:
Я нашел скрипт, который делает с небольшой модификацией, что мне нужно. Он ищет и находит дубликаты md5 и удаляет дубликаты. Только последний шаг, необходимый, чтобы сделать файл со списком удаленного файла -> дубликат, который остается
#!/bin/bash
DIR="/home/gevork/Desktop/webserver/maps.am/all_tiles/dubai_test"
find $DIR -type f -exec md5sum {} \; | sort > /home/gevork/Desktop/webserver/maps.am/all_tiles/dubai_test/sums-sorted.txt
OLDSUM=""
IFS=$'\n'
for i in `cat /home/gevork/Desktop/webserver/maps.am/all_tiles/dubai_test/sums-sorted.txt`; do
NEWSUM=`echo "$i" | sed 's/ .*//'`
NEWFILE=`echo "$i" | sed 's/^[^ ]* *//'`
if [ "$OLDSUM" == "$NEWSUM" ]; then
echo rm "$NEWFILE"
else
OLDSUM="$NEWSUM"
OLDFILE="$NEWFILE"
fi
done
У вас есть изображения в 'Main Folder', а также в' Subfolder' 'Main Folder' и т. Д.? Кроме того, вы хотите решить, является ли файл изображением или вы знаете, что все файлы в этих папках являются изображениями? Или вы просто хотите удалить дубликаты файлов, независимо от того, что они? – mmgp
@mmgp Все файлы находятся в концевой подпапке уровня 3. Все изображения размером 256X256. Мне нужно удалить дубликаты по md5 и написать текстовый файл, где будет список удаленных файлов -> не удаленный дубликат –
Являются ли они точные копии, то есть даже данные exif не изменены? Я не вижу причины, по которой это будет помечено как обработка изображений. – mmgp