Obtenir TOUT le texte entre 2 balises via xml.etree.ElementTree

Obtenir TOUT le texte entre 2 balises via xml.etree.ElementTree - Python - Programmation

Marsh Posté le 19-07-2011 à 10:31:22    

Bonjour,
 
Je ne parviens pas à récupérer le contenu texte d'une balise <span> en python après navigation DOM et obtention d'un 'Element'. La méthode .text ne renvoit pas tout le contenu, elle semble perturbée par une syntaxe douteuse.
http://www.python.org/doc/current/ [...] ement.text
 
Texte traité :

Code :
  1. <span class="webkit-html-tag">
  2.   <td
  3.   <span class="webkit-html-attribute-name">style</span>
  4.   ="
  5.   <span class="webkit-html-attribute-value">border-left-style:solid; border-left-width:1px;</span>
  6.   ">
  7. </span>


 
dans la chaine final, je ne trouve que [<td]. Les contenus [="] et [">] sont passés à la trape.
 
Il y aurait un mode RAW qui laisserait passer tous les sous éléments ?
 
Sinon, pas besoin de faire la remarque, ceux qui ont écrit la page que je retraite ne savent visiblement pas faire de HTML... c'est le site de l'assemblée nationnale.

Reply

Marsh Posté le 19-07-2011 à 10:31:22   

Reply

Marsh Posté le 19-07-2011 à 11:49:10    

NounouRs a écrit :

Bonjour,
 
Je ne parviens pas à récupérer le contenu texte d'une balise <span> en python après navigation DOM et obtention d'un 'Element'. La méthode .text ne renvoit pas tout le contenu, elle semble perturbée par une syntaxe douteuse.
http://www.python.org/doc/current/ [...] ement.text
 
Texte traité :

Code :
  1. <span class="webkit-html-tag">
  2.   <td
  3.   <span class="webkit-html-attribute-name">style</span>
  4.   ="
  5.   <span class="webkit-html-attribute-value">border-left-style:solid; border-left-width:1px;</span>
  6.   ">
  7. </span>


 
dans la chaine final, je ne trouve que [<td]. Les contenus [="] et [">] sont passés à la trape.
 
Il y aurait un mode RAW qui laisserait passer tous les sous éléments ?
 
Sinon, pas besoin de faire la remarque, ceux qui ont écrit la page que je retraite ne savent visiblement pas faire de HTML... c'est le site de l'assemblée nationnale.


C'est pas du XML, elementtree peut pas parser un truc pareil, il est pas fait pour ça [:petrus75]


---------------
Stick a parrot in a Call of Duty lobby, and you're gonna get a racist parrot. — Cody
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed