PHPCURL获取cookies模拟登录的方法-创新互联

要提取google搜索的部分数据,发现google对于软件抓取它的数据屏蔽的厉害,以前伪造下 USER-AGENT 就可以抓数据,但是现在却不行了。利用抓包数据发现,Google 判断了 cookies,当你没有cookies的时候,直接返回 302 跳转,而且是连续几十个302跳转,根本抓不了数据。

创新互联不只是一家网站建设的网络公司;我们对营销、技术、服务都有自己独特见解,公司采取“创意+综合+营销”一体化的方式为您提供更专业的服务!我们经历的每一步也许不一定是最完美的,但每一步都有值得深思的意义。我们珍视每一份信任,关注我们的成都网站建设、网站建设质量和服务品质,在得到用户满意的同时,也能得到同行业的专业认可,能够为行业创新发展助力。未来将继续专注于技术创新,服务升级,满足企业一站式营销型网站建设需求,让再小的高端网站设计也能产生价值!

因此,在发送搜索命令时,需要先提取 cookies 并保存,然后利用保存下来的这个cookies再次发送搜索命令即可正常抓数据了。这其实和论坛的模拟登录一个道理,先POST登录,获取cookies并保存,然后利用这个cookies访问就可以了。

PHP 代码如下:

$login_url = 'XXX';

 $post_fields['email'] = 'XXXX';

 $post_fields['password'] = 'XXXX';

 $post_fields['origURL'] = 'XXX';

 $post_fields['domain'] = 'xxx.com';

 //cookie文件存放在网站根目录的temp文件夹下

 $cookie_file = tempnam('./temp','cookie');

 $ch = curl_init($login_url);

 curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.5) Gecko/20091102 Firefox/3.5.5');

 curl_setopt($ch, CURLOPT_HEADER, 0);

 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

 curl_setopt($ch, CURLOPT_MAXREDIRS, 1);

 curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

 curl_setopt($ch, CURLOPT_AUTOREFERER, 1);

 curl_setopt($ch, CURLOPT_POST, 1);

 curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);

 curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);

 curl_exec($ch);

 curl_close($ch);

 //带上cookie文件,访问需要访问的页面

 $send_url='xxx.com';

 $ch = curl_init($send_url);

 curl_setopt($ch, CURLOPT_HEADER, 0);

 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

 curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);

 $contents = curl_exec($ch);

 curl_close($ch);

 //清理cookie文件

unlink($cookie_file);

 //输出网页内容

print_r($contents);

在temp文件夹下保存一个cookie前缀的临时文件,例如:coo3A98.tmp文件

打开这个文件得到如下代码:

PHP CURL获取cookies模拟登录的方法

要使用php来格式化该文件,使用以下代码就能实现

 $cookie_folder = dirname(__FILE__)."/temp";

 $lines = file($cookie_folder.'/coo3A98.tmp');

 $trows = '';

 foreach($lines as $line) {

   if($line[0] != '#' && substr_count($line, "\t") == 6) {

     $tokens = explode("\t", $line);

     $tokens = array_map('trim', $tokens);

     $tokens[4] = date('Y-m-d h:i:s', $tokens[4]);

     $trows .= '' . implode('', $tokens) . '' . PHP_EOL;

   }

 }

 echo '

'.PHP_EOL.''.PHP_EOL.$trows.''.PHP_EOL.'
';

 ?>

运行之后就如下图所示,已经被写入到table当中

PHP CURL获取cookies模拟登录的方法

大功告成,如果只读取其中字段可自行修改即可。

另外有需要云服务器可以了解下创新互联cdcxhl.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


网页题目:PHPCURL获取cookies模拟登录的方法-创新互联
网站地址:http://csdahua.cn/article/djhops.html
扫二维码与项目经理沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流