Este ejemplo de código muestra cómo analizar HTML en Java usando jsoup. Como hay muchas bibliotecas para varios propósitos, hay muchos analizadores html en Java. Muchos desarrolladores se preguntan cuál es el mejor antes de tomar una decisión sobre un analizador HTML. Jsoup es un muy buen comienzo.
El siguiente código Java acepta una URL, busca elementos por nombre de clase y encuentra todos los enlaces disponibles en la página.
import java.io.IOException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class Main{ public static void main(String[] args) throws IOException { Document doc = Jsoup.connect("http://www.programcreek.com").get(); Elements titles = doc.select(".entrytitle"); //print all titles in main page for(Element e: titles){ System.out.println("text: " +e.text()); System.out.println("html: "+ e.html()); } //print all available links on page Elements links = doc.select("a[href]"); for(Element l: links){ System.out.println("link: " +l.attr("abs:href")); } } } |
Puede descargar el analizador html jsoup Java simplemente buscando en Google «jsoup».