Как завить или Wget веб-страницы?

голоса
16

Я хотел бы сделать каждую ночь хрон, который извлекает мою страницу StackOverflow и дифференциалы его со страницы предыдущего дня, так что я могу увидеть сводку изменений моих вопросов, ответы, рейтинг и т.д.

К сожалению, я не мог получить право устанавливать куки, и т.д., чтобы сделать эту работу. Есть идеи?

Кроме того, когда бета закончена, будет моя страница состояния будет доступна без регистрации?

Задан 05/08/2008 в 21:38
источник пользователем
На других языках...                            


5 ответов

голоса
9

Ваша страница статуса доступна теперь без входа в систему (нажмите выход из системы и попробовать). Когда отключен бета-куки, не будет ничего между вами и вашей страницей состояния.

Для Wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Ответил 05/08/2008 в 21:43
источник пользователем

голоса
6

От Марка Харрисона

А вот то, что работает ...

свернуться -s --cookie соба =. https://stackoverflow.com/users

И для Wget:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
Ответил 05/08/2008 в 23:04
источник пользователем

голоса
3

Хорошая идея :)

Я полагаю, вы использовали Wget-х

--load-cookies (filename)

может немного помочь, но может быть проще использовать что-то вроде Mechanize (в Perl или Python), чтобы имитировать браузер более полно, чтобы получить хороший паук.

Ответил 05/08/2008 в 21:43
источник пользователем

голоса
2

А вот то, что работает ...

curl -s --cookie soba=. http://stackoverflow.com/users
Ответил 05/08/2008 в 22:22
источник пользователем

голоса
2

Я не мог понять, как получить печенье работать либо, но я был в состоянии получить на мою страницу статуса в браузере, когда я вошел, так что я предполагаю, что это будет работать, как только StackOverflow идет общественности.

Это интересная идея, но не вы также подобрать на посмотреть различие основного HTML-код? У вас есть стратегия, чтобы избежать в конечном итоге с дифф в HTML и не фактическое содержание?

Ответил 05/08/2008 в 21:46
источник пользователем

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more