Автор Тема: Удаление дубликатов строк из несортированного текста (Прочитано 1343 раз)

ReNzRv · « : 14 Сентября 2016, 19:34:33 »

Вот здесь нашел пример решения:

if (data[$0]++ == 0)
lines[++count] = $0 ""
END -
for (i = 1; i != count; i++)
print lines[i] ""

Тестовый Text.txt:

Text 1235
Text 123
Text 1237
Text 1234
Text 1235
Text 1236
Text 1237
Text 1238

sort Text.txt | uniq -dc
      2 Text 1235
      2 Text 1237

Переписал так в одну строку:

{if (data[$0]++ == 0) ; lines[++count] = $0 ""}; END {for (i = 1; i != count; i++) print lines[i] ""}
НО не работает:

cat Text.txt | awk '{if (data[$0]++ == 0) ; lines[++count] = $0 ""}; END {for (i = 1; i != count; i++) print lines[i] ""}'

Text 1235
Text 123
Text 1237
Text 1234
Text 1235
Text 1236
Text 1237

Что не так?

Azure

Можно из без awk

nl -nln Text.txt |
sort -k2V |
uniq -dcf1 |
sort -k3n,3n |
sed 's/[0-9]\+\s*//2'

Пользователь добавил сообщение 14 Сентября 2016, 20:50:46:

seen[$0]++ == 1{
    line[NR]=$0
    }
END{
    for(i in line)
        print seen[line[i]], line[i]
   }

ReNzRv

nl -nln Text.txt | sort -k2V | uniq -dcf1 | sort -k3n,3n | sed 's/[0-9]\+\s*/-/'
      -1     	Text 1235
      -3     	Text 1237

cat Text.txt | awk 'seen[$0]++ == 1{line[NR]=$0}; END{for(i in line) print seen[line[i]], line[i]}'
2 Text 1235
2 Text 1237

ошибка?

Пользователь добавил сообщение 14 Сентября 2016, 20:58:38:

sort Text.txt | uniq -dc
      2 Text 1235
      2 Text 1237

Это я написал чтобы показать дубликаты строк.

Смысл - удалить из строк дубликаты без сортировки. Результат такой должен быть:

Text 1235
Text 123
Text 1237
Text 1234
Text 1236
Text 1238

Azure

ошибка?

Скопировал промежуточный тестовый вариант. Поправил.
Уникальные строки без сортировки выводятся так

awk '!seen[$0]++' Text.txt

Пользователь добавил сообщение 14 Сентября 2016, 21:07:09:

Конечно после awk не так красиво

nl -nln Text.txt | sort -k2 -u | sort -n -k1,1 | cut -f2-

ReNzRv

Как просто))

Зачем такой код там в ссылке в нагородили? Спасибо.

Форум русскоязычного сообщества Ubuntu