faire une regex [DELPHI] - Delphi/Pascal - Programmation
Marsh Posté le 29-06-2004 à 18:13:40
Code :
|
(pour faire propre il faudrait aussi rajouter la détection des scripts et feuilles de style)
sinon il y a des composants gratuits gérant les expressions régulières, tu peux toujours aller faire un tour sur www.torry.net
Marsh Posté le 30-06-2004 à 09:56:27
Merci beaucoup, c'est déjà un départ !
Marsh Posté le 23-07-2004 à 17:35:28
antp a écrit : |
Code :
|
Marsh Posté le 23-07-2004 à 17:36:25
Il peut y avoir des scripts n'importe où sur la page
(et des commentaires aussi en fait)
Puis body peut-être écrit en majuscule, et il peut y avoir des attributs dans body...
Marsh Posté le 23-07-2004 à 17:39:24
antp a écrit : Il peut y avoir des scripts n'importe où sur la page |
Ce n'etait qu'une suggestion, je n'ai meme pas tester le truc. Mais au final le probleme est beaucoup plus compliqué. Le mieux serait en fait le composant XMLDocument.
Marsh Posté le 23-07-2004 à 17:50:41
XMLDocument il va avoir du mal avec une page HTML
Si on a un document XML propre c'est plus simple, même en le faisant "à la main" comme ici.
Marsh Posté le 23-07-2004 à 18:00:22
antp a écrit : XMLDocument il va avoir du mal avec une page HTML |
Je vois mal pourquoi il aurait du mal avec un document HTML. Un document HTML ne serait-ce pas d'ailleurs également un document XML...
Marsh Posté le 23-07-2004 à 18:04:48
non, pas du tout
ceci par exemple :
http://antp.be/temp/html4open.html
c'est un document HTML parfaitement valide
mais il y aurait des dizaines d'erreurs pour un parseur XML, car plein de tags sont ouverts.
Puis peu de pages HTML sont conformes aux specs de toute façon.
Marsh Posté le 23-07-2004 à 18:15:27
antp a écrit : non, pas du tout |
Je suis d'accord, c'est vrai que les specs du HTML acceptes ton document (d'ailleurs, w3.org le valide). Mais bon, il faut avouer que le HTML va ceder sa place au XHTML. Pour ce qui est des specs, je trouve ca dommage qu'autant de sites, surtout des sites avec une frequence de visite enorme ne fasses pas un minimum attention. Quand on voit que la page d'accueil de microsoft.com n'a meme pas de DOCTYPE... Mais bon, oui je sais, c'est microsoft...
Marsh Posté le 23-07-2004 à 18:18:07
XHTML c'est du XML, mais HTML ne l'est pas et n'a jamais eu ce but. c'est du SGML (XML étant aussi du SGML il me semble).
Marsh Posté le 23-07-2004 à 18:19:57
antp a écrit : XHTML c'est du XML, mais HTML ne l'est pas et n'a jamais eu ce but. c'est du SGML (XML étant aussi du SGML il me semble). |
Oui le XML est du SGML
Marsh Posté le 29-06-2004 à 17:48:11
Bonjour,
j'utilise idHTTP pour récupérer une page que j'ai fait sur Internet, et je voudrais ne récupérer que le texte (donc enlever tous les codes HTML) avait vous une solution à ce problème
je ne voudrais pas passer par un autre composant si possible comme WebBrowser qui lui le fait mais la je n'arrrive pas à récupérer le résultat ailleur que dans un RichEdit alors que je le voudrais dans une variable !
Merci d'avance !
---------------
Tout à commencé par un rêve...