Форум русскоязычного сообщества Ubuntu


Считаете, что Ubuntu недостаточно дружелюбна к новичкам?
Помогите создать новое Руководство для новичков!

Автор Тема: как удалить похожие строки (не дубликаты) в текстовом файле  (Прочитано 1264 раз)

0 Пользователей и 1 Гость просматривают эту тему.

Оффлайн shkur

  • Автор темы
  • Новичок
  • *
  • Сообщений: 49
    • Просмотр профиля
    • Карта Фитнес
как удалить похожие строки (не дубликаты) в текстовом файле и пронумеровать снизу вверх с ведущими нулями (seq -w 99 -1 1) (пробовал nl -w4 -nrz tst.txt   но не получается выставить счетчик правильно с последней цифры)

cat tst.txt
http://cs4833.vkontakte.ru/u39275384/audio/364a1312ebe5.mp3?/Pendulum - The Island  .mp3
http://cs4833.vkontakte.ru/u39275384/audio/364a1312ebe5.mp3?/The Island (Pt. II) .mp3
http://cs4833.vkontakte.ru/u39275384/audio/364a1312ebe5.mp3?/Pendulum - The Island (Pt. II) .mp3

как видим ссылки одинаковые, названия разные. Не могу дописать скрипт синхронизации (html версия). Помогите плз.
karta-fitness.ru

Оффлайн RazrFalcon

  • O_o
  • Старожил
  • *
  • Сообщений: 3129
  • Zombie Mod
    • Просмотр профиля
    • Я на GitHub
Эммм... Покажите что должно быть в итоге.
Что на входе и что на выходе. Так будет всем понятней.
Gentoo + KDE, Official Windows Hater
Хотите помочь нашей вики: https://help.ubuntu.ru/wiki/fixme

Оффлайн shkur

  • Автор темы
  • Новичок
  • *
  • Сообщений: 49
    • Просмотр профиля
    • Карта Фитнес
на входе
http://cs4833.vkontakte.ru/u39275384/audio/364a1312ebe5.mp3?/Pendulum - The Island  .mp3
http://cs4833.vkontakte.ru/u39275384/audio/364a1312ebe5.mp3?/The Island (Pt. II) .mp3
http://cs4833.vkontakte.ru/u39275384/audio/364a1312ebe5.mp3?/Pendulum - The Island (Pt. II) .mp3
http://cs4597.vkontakte.ru/u42180815/audio/a951bd115090.mp3?/Black Sun Empire - Extraction .mp3
http://cs4752.vkontakte.ru/u88901910/audio/13a1d8b29363.mp3?/Calvin West - Children (Extended Mix) .mp3

на выходе
http://cs4833.vkontakte.ru/u39275384/audio/364a1312ebe5.mp3?/Pendulum - The Island (Pt. II) .mp3
http://cs4597.vkontakte.ru/u42180815/audio/a951bd115090.mp3?/Black Sun Empire - Extraction .mp3
http://cs4752.vkontakte.ru/u88901910/audio/13a1d8b29363.mp3?/Calvin West - Children (Extended Mix) .mp3

т.е. желательно сохранить более длинное название.

ну и пронумеровать строки как-то, но это потом, надо сначала удалить дубликаты
karta-fitness.ru

Оффлайн RazrFalcon

  • O_o
  • Старожил
  • *
  • Сообщений: 3129
  • Zombie Mod
    • Просмотр профиля
    • Я на GitHub
Это уже какой то интеллектуальность поиск получается.
Проще сделать шаблоны имхо.
Типа:
.* - .*\.mp3И также удалять все строки с левыми символами, типа: ()/|\ и тд.
Gentoo + KDE, Official Windows Hater
Хотите помочь нашей вики: https://help.ubuntu.ru/wiki/fixme

Оффлайн shkur

  • Автор темы
  • Новичок
  • *
  • Сообщений: 49
    • Просмотр профиля
    • Карта Фитнес
если можно - для тех кто в танке :) как это на шаблонах?
karta-fitness.ru

Оффлайн alexander.pronin

  • Старожил
  • *
  • Сообщений: 2539
    • Просмотр профиля
Я думаю, что ТС хочет:
- разделить адреса на dirname и basename
- отсортировать dirname
- к dirname приписать самые длинные соответствующие basename.
И пронумеровать результат.
Как-то так.

 

Страница сгенерирована за 0.016 секунд. Запросов: 22.