Existe-t-il une bibliothèque pour extraire des données d’une page HTML?

Je voudrais extraire des informations d’une page Web. Malheureusement, le site Web (4chan) ne dispose pas d’une API publique, pour autant que je sache.

Qu’est-ce qu’une bonne bibliothèque pour extraire des données spécifiques d’un document HTML? Je préfère une bibliothèque de logiciels libres fonctionnant sur les systèmes UNIX.


Edit: fondamentalement, je veux obtenir des messages et des images de 4chan. La page Web n’est pas valide HTML (et n’a pas de doctype), donc l’parsingur ne devrait pas être trop ssortingct.

Ce que vous recherchez est un HTML Dom Parse.

Ce lien d’une question précédente devrait vous aider. Voir aussi cette question

C’est correct, il y a beaucoup de bibliothèques pour parsingr les données HTML. Par exemple, si vous utilisez Perl, vous pouvez utiliser HTML :: Parse.

Si vous voulez juste un résultat rapide et que vous acceptez d’utiliser une commande système, vous pouvez utiliser:

lynx -dump http://4chan.org 

ou

 links -dump http://4chan.org