Cum să se onduleze sau wget o pagina web?

voturi
16

Aș dori să fac un loc de muncă cron de noapte, care preia pagina mea StackOverflow și diff-l de la pagina din ziua precedentă, așa că am putea vedea un rezumat al schimbării mele întrebări, răspunsuri, clasament, etc.

Din păcate, nu am putut obține dreptul set de cookie-uri, etc, pentru a face acest lucru. Vreo idee?

De asemenea, atunci când beta este terminat, va pagina mea de stare să fie accesibilă fără să vă conectați?

Întrebat 05/08/2008 la 21:38
sursa de către utilizator
În alte limbi...                            


5 răspunsuri

voturi
9

Pagina dvs. de stare este disponibil acum fără să vă conectați (faceți clic pe logout și încercați să - l). În cazul în care beta-cookie - ul este dezactivat, nu va fi nimic între tine și pagina dvs. de stare.

Pentru wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Publicat 05/08/2008 la 21:43
sursa de către utilizator

voturi
6

De la Mark Harrison

Și aici e ceea ce funcționează ...

ondula -s --cookie soba =. https://stackoverflow.com/users

Și pentru wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Publicat 05/08/2008 la 23:04
sursa de către utilizator

voturi
3

Buna idee :)

Presupun că ai lui wget second hand

--load-cookies (filename)

s-ar putea ajuta un pic, dar ar putea fi mai ușor de folosit ceva de genul mecanizarea (în Perl sau Python) pentru a imita un browser mai complet pentru a obține un păianjen bun.

Publicat 05/08/2008 la 21:43
sursa de către utilizator

voturi
2

Și aici e ceea ce funcționează ...

curl -s --cookie soba=. http://stackoverflow.com/users
Publicat 05/08/2008 la 22:22
sursa de către utilizator

voturi
2

Nu am putut da seama cum să obțineți cookie-uri pentru a lucra, fie, dar am fost în stare să ajung la pagina mea de starea în browser-ul meu în timp ce am fost deconectat, deci presupun acest lucru va funcționa o dată StackOverflow merge publice.

Aceasta este o idee interesantă, dar nu va tine, de asemenea, ridica diff din codul HTML de bază? Ai o strategie pentru a evita care se încheie cu o dif de HTML și nu conținutul propriu-zis?

Publicat 05/08/2008 la 21:46
sursa de către utilizator

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more