Trier des URL

Marsh Posté le 29-05-2014 à 17:13:41

Salut tout le monde,

Je dispose d'un fichier .txt au format UNICODE. Ce fichier contient plus de 1 000 liens URL listés de la manière suivante :

Lien 1
Lien 2
Lien 3

Lien 5

Lien 6

Lien 7
Lien 8

...

Il arrive qu'à la fin de chaque URL, un espace sépare un "court commentaire" ce qui amène ce genre de ligne :

Lien 10 | Commentaire

J'aimerais bien savoir s'il existe une méthode pour trier tous ces liens. Car il y a des doublons, et que trier tout çà un par un, çà risque de faire long.

D'avance merci :-)

Reply

Marsh Posté le 29-05-2014 à 17:13:41

Reply

Marsh Posté le 29-05-2014 à 22:15:11

Si vous avez Excel (ou l'équivalent chez Libre Office), vous pouvez l'importer en donnant la barre verticale comme séparateur, et faire un tri, puis exporter le résultat dans un fichier Unicode.

Il me semble qu'Excel accepte Unicode, mais il y a plusieurs sortes d'Unicode, soit celui d'Unix souvent codé sur 2 octets, soit les Unicodes codés sur des longueurs variables que sont l'UTF-8, et l'UTF-16.

Sinon, il reste la solution de s'écrire un petit programme maison. J'en avais fait un en C pour des fichiers Unicode sur 2 octets, commençant par FF FE. Il fait 504 lignes, commentaires inclus, donc c'est trop long pour donner le code source ici, mais si ça vous intéresse, je vous l'enverrai par mail.

Message édité par olivthill le 29-05-2014 à 22:16:16

Reply

Marsh Posté le 08-06-2014 à 20:00:14

Merci d'avoir répondu

Je me retrouve avec un fichier Excel avec plusieurs colonnes.

Sachant que les commentaires je m'en fiche, je me concentre que sur la colonne avec plein d'URL.

J'ai effectué mon tri, et je vois bien que j'ai des doublons (x2), triplons (x3), parfois 9 ou 10 ! :cry:

Alors c'est vachement fastidieux, car j'ai là, pas loin de 5 000 URL...

Y'aurai une commande spéciale à créer pour faire genre :

Si ligne X apparaît >1 fois, alors suppression de l'ensemble des copies de la ligne X - 1 (garder celle que je veux)

Je ne sais pas si c'est clair, au pire je peux te filer un échantillon de mon tableau :jap:

Reply

Marsh Posté le 08-06-2014 à 22:26:54

Salut,

Il existe des commandes linux pour trier des données et supprimer les doublons. Sur Windows tu peux utiliser Cygwin.

Essaye avec la commande sort : sort -u fichier_entree.txt >> fichier_sortie.txt

Par contre il faut que ton fichier soit en format UNIX. Avec Notepad ++, il faut convertir les sauts de ligne en format UNIX dans le menu édition.

Message cité 1 fois
Message édité par Profil supprimé le 08-06-2014 à 22:33:15

Reply

Marsh Posté le 08-06-2014 à 23:04:00

Et ajoutant une pincée de uniq, c’est parfait.

Message cité 1 fois

Reply

Marsh Posté le 08-06-2014 à 23:19:15

:jap:
C'est la solution qui me venait à l'esprit également :jap: !

Reply

Marsh Posté le 10-06-2014 à 20:17:54

Okay...

Bon j'ai un truc en Unicode-8 ou 16 je ne sais plus.

Donc la solution en gros, c'est d'installer Cygwin ?

C'est une distribution Linux ou un logiciel qui émule un environnement Unix ?

Pour info j'suis en W8.1 et pas une superstar en Info

Message édité par tang56 le 10-06-2014 à 20:18:11

Reply

Trier des URL

Sujets relatifs:

Leave a Replay