Ce parere aveti despre cursul de Interfete Evoluate de anul acesta ?(tematica curs, laboratoare)

sâmbătă, 1 decembrie 2007

Crawler Web

Poate va intrebati cat de greu este sa faci un program care sa intre pe site-uri automat ex. yahoo360, mySpace si sa obtina informatii despre persoanele care posteaza pe acel site si relatiile intre ele si apoi sa le salveze pentru o vizualizare/prelucrare ulterioara.
Va spun eu, tot ce iti trebuie ca sa faci acel program sunt : cunostiinte minime de Java , o baza de date (MySql) si un profil de plecare pe acel site.

Conectarea
Site-ul poate necesita logarea cu un profil pentru accesarea paginilor. Pentru aceasta va fi nevoie de pastrarea si trimiterea de cookie-uri corespunzatoare pentru a te identifica in fiecare cerere de pagina. Pentru primirea si trimiterea de cookie-uri se foloseste clasa HttpURLConnection . Un exemplu de folosire este prezentat in articolul http://martin.nobilitas.com/java/cookies.html.

Prelucrarea paginii
In functie de tipul site-ului paginile pot fi xhtml sau doar html. Pentru parsarea xhtml in Java principalele pachete ce pot fi utilizate sunt org.xml.sax si javax.xml.parsers , tutoriale pentru folosirea lor se gasesc la adresele
http://java.sun.com/webservices/jaxp/dist/1.1/docs/tutorial/sax/index.html ptr SAX si
http://java.sun.com/webservices/jaxp/dist/1.1/docs/tutorial/dom/index.html ptrDOM.
Recomandarea mea este sa folositi SAX-ul pentru pagini mari deoarece este mai rapid, iar DOM-ul pentru pagini mai mici.

De obicei pentru a descoperii noi profile de utilizatori este deajuns sa cauti in pagina link-uri cu o anumita forma. De exemplu pentru yahoo360 url-ul pentru profil este de forma http://360.yahoo.com/profile-ID , unde ID este o combinatie de litere.

Niciun comentariu:

Ce parere aveti despre tehnologia Ajax ?

 
Director-Web.net