Друзья. Я некоторое время посветил этой теме.
Позвольте донести свой опыт.
Всякие хеши, контрольные суммы и утилиты типа fdupes работают с одинаковыми файлами, а не похожими.
Этот метод забываем.
Если изображения имеют одинаковый размер, то нужен специальный метод сравнения.
есть утилита
findimagedupes, которая работает относительно неплохо, и на основе которой можно сделать скрипт по поиску дубликатов изображений.
Но она работает в общем тоже через пень колоду с картинками, имеющими разное разрешение или сжатыми-растянутыми.
Я пытался
реализовать идею загрубления и нормализации изображений. Качество поиска - тоже слабое. Скрипт и программа были на моем блоге. К сожалению исходники уже утеряны.
Лучше всего работают утилиты построенные на
алгоритме хаара.
Такой алгоритм реализован в программе digikam. Единственный трабл - digikam не дает инструмента пакетного удаления дубликатов. Я
сделал скрипт, который позволяет после поиска в digikam из командной строки удалить дубликаты.
Немного неудобно, нужно после поиска выходить из digikam, но этот метод самый лучший.