Cum să obțineți session_id atunci când se utilizează Crawlera script Lua în Scrapy Splash?

voturi
0

După cum știți, vom folosi acest script Lua atunci când încercăm să folosim Scrapy Splash cu Crawlera:

function use_crawlera(splash)
  -- Make sure you pass your Crawlera API key in the 'crawlera_user' arg.
  -- Have a look at the file spiders/quotes-js.py to see how to do it.
  -- Find your Crawlera credentials in https://app.scrapinghub.com/
  local user = splash.args.crawlera_user

  local host = 'proxy.crawlera.com'
  local port = 8010
  local session_header = 'X-Crawlera-Session'
  local session_id = 'create'

  splash:on_request(function (request)
    request:set_header('X-Crawlera-Cookies', 'disable')
    request:set_header(session_header, session_id)
    request:set_proxy{host, port, username=user, password=''}
  end)

  splash:on_response_headers(function (response)
    if type(response.headers[session_header]) ~= nil then
      session_id = response.headers[session_header]
    end
  end)
end

function main(splash)
  use_crawlera(splash)
    splash:init_cookies(splash.args.cookies)
    assert(splash:go{
      splash.args.url,
      headers=splash.args.headers,
      http_method=splash.args.http_method,
    })  
      assert(splash:wait(3))
    return {
      html = splash:html(),
      cookies = splash:get_cookies(),
    }
end

Există o session_idvariabilă în acel script Lua care am nevoie de prost, dar cum pot accesa de răspunsul Scrapy lui?

Am incercat response.session_idsau response.headers['X-Crawlera-Session']dar ambele nu funcționează.

Întrebat 27/11/2018 la 15:13
sursa de către utilizator
În alte limbi...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more