У нас есть папка с данными объемом 150 Гб. Внутри этого содержимого файла есть любой формат (doc, jpg, png, txt и т. Д.). Нам нужно проверить все содержимое файла друг против друга, чтобы проверить, существует ли дублирующее содержимое файла. Если да, то распечатайте список имен файлов. Для этого сначала я использовал ArrayList<File>
для хранения всех файлов, затем использовал метод FileUtils.contentEquals(file1, file2)
. Когда я пытаюсь сделать это для небольшого количества файлов (папка), он работает, но для этой папки данных 150 Гб он не показывает никакого результата. Я думаю, что сначала сохранение всех файлов в ArrayList создает проблему. Проблема JVM Heap, я не уверен.Проверить содержимое повторяющегося файла с помощью Java
У кого-нибудь есть лучший совет и образец кода для обработки этого объема данных? Пожалуйста, помогите мне.
Вы пытались вычислить контрольную сумму файла, а не читать? – Prashant
Я напрямую использовал метод FileUtils.contentEquals для проверки файлов для поиска и сохранения результата. – Mostafizur
@Prashant, пожалуйста, напишите мне пример кода для этого? – Mostafizur