爬虫闯关 第四关

地址:http://www.heibanke.com/lesson/crawler_ex03/

本关的难点是从页面解析并拼接出需要的目标密码,理解题目很重要啊~

另外获取密码的页面加载耗时很长,也需要考虑如何处理。

解题思路

首次进入题目页面,同样的跳转到了登录页面:

登录页面

登录成功后,出现如下页面,发现还是猜密码。

登录成功

但这次不是试出来的需要找出来,那从哪里找呢?先随便输入个密码

密码错误页面

提示密码错误,同时给出了找密码的页面,继续访问:

密码列表

初步观察,页面的表格中有两列,其中一列是密码的位置,另外一列是密码的值,猜测是将密码的值拼接成一个字符串,但是页面只有13页,每页8个数值,正好100个数,而位置数最大的出现了100,将这100个数放入到dict(location,value)里,然后再对dict的key进行排序,对value进行拼接,不就得到密码了嘛。

然而现实是残酷的,发现密码的位置中存在重复,也就是遍历完13页数据,并不能得到所有的密码值,然后我就猜想是不是对没有出现在页面的位置进行填充0处理,发现还是失败。

在多次试验中,发现每次获取到的密码的位置并不是相同的,也就是页面里的随机的意思,也就是不断的调用查询密码列表页面,总是能够获取到所有密码的值的。

实现代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
# coding=utf-8

import requests, bs4

# 题目URL
url = 'http://www.heibanke.com/lesson/crawler_ex03/'

# 登录URL,获取cookie
login_url = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex03/'

# 获取密码URL
pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'

login_data = {'username':'liuhaha', 'password':'123456'}

# 获取默认cookie
response = requests.get(url)
if response.status_code == 200:
print('Welcome')
cookies = response.cookies

# 登录
login_data['csrfmiddlewaretoken'] = cookies['csrftoken']
login_response = requests.post(login_url, allow_redirects=False, data=login_data, cookies=cookies)
if login_response.status_code == 200:
print('login sucessfully')

# 获取登录成功后的cookie
cookies = login_response.cookies

# TODO 解析最大页数

payload = {}
pwd_data = {}
i = 0
# 通过观察,密码应该有100个数字组成。
# 由于每次获取到的密码会有重复,所以不是一次查询完就能获取到所有数字
# 这里一直进行查询,直到获取到100个数字
while len(pwd_data) < 100:
# 因为每一页的密码位置都是随机给出的,其实这里可以不传page参数,一直调用pwd_url也可以获取到全部密码
payload['page'] = i % 13
pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'
print('------------------------')
print('loading data from %s?page=%s ...' %(pwd_url, i%13))
pwd_response = requests.get(pwd_url, cookies=cookies, params=payload)

soup = bs4.BeautifulSoup(pwd_response.text, "html.parser")

# 获取表格
table = soup.select('[class="table table-striped"]')

# 解析表格数据,过滤掉表头
temp_data = {}
for tr in table[0].find_all('tr')[1:]:
tds = tr.find_all('td')
# 分别取出password的位置及其对应的数字
pwd_data[int(tds[0].getText())] = tds[1].getText()
temp_data[int(tds[0].getText())] = tds[1].getText()
# print(temp_data)
i = i + 1
print('The load has run %s times and now the pwd_data length is %s' % (i, len(pwd_data)))

# print(pwd_data)
# print('The length of password is %s.' % len(pwd_data))

# 拼接password
password = ''
for key in sorted(pwd_data.keys()):
password = password + pwd_data[key]
print(password)

# 重新登录
playload = {'username':'liuhaha', 'password':password}
playload['csrfmiddlewaretoken'] = cookies['csrftoken']

r = requests.post(url, data=playload, cookies=cookies)

print(u'执行结果:' + str(r.status_code))

if r.status_code == 200:
# print(r.text)
if u"成功" in r.text:
print(u'闯关成功!密码为:' + password)
# break
else:
print(u'Failed')
# break

最终执行了62次后获取到了全部密码。

执行结果

多线程版

经过上面的程序,发现执行过程比较漫长,另外页面也有提示说网页会慢半拍,实验证明运行一次用时差不多1400s,将近24分钟啊! 😵

那么也许需要一个高效率的方法进行解析,多线程?

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
# coding=utf-8

import requests, bs4
import threading
import time

def login():
# 登录URL,获取cookie
login_url = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex03/'
login_data = {'username':'liuhaha', 'password':'123456'}

# 获取默认cookie
response = requests.get(url)
if response.status_code == 200:
print('Welcome')
cookies = response.cookies

# 登录
login_data['csrfmiddlewaretoken'] = cookies['csrftoken']
login_response = requests.post(login_url, allow_redirects=False, data=login_data, cookies=cookies)
if login_response.status_code == 200:
print('login sucessfully')

return login_response.cookies

def getPassword(page):
global pwd_data
payload['page'] = page
print(threading.currentThread().getName() + ', loading %s?page=%s ...' %(pwd_url, page))
pwd_response = requests.get(pwd_url, cookies=cookies, params=payload)

soup = bs4.BeautifulSoup(pwd_response.text, "html.parser")

pwd_pos = soup.findAll('td', {'title':'password_pos'})
pwd_value = soup.findAll('td', {'title':'password_val'})

for index in range(len(pwd_pos)):
pwd_data[int(pwd_pos[index].getText())] = pwd_value[index].getText()
print(threading.currentThread().getName() + ', now the pwd_data length is %s' % len(pwd_data))

class MyThread(threading.Thread):
def __init__(self, s):
threading.Thread.__init__(self)
self.s = s

def run(self):
global pwd_data
global count
while len(pwd_data) < 100:
count += 1
print('The sub-thread has run %s times' % count)
getPassword(count % 13)

if __name__ == '__main__':
start = time.time()
payload = {}
# 存放密码键值对
pwd_data = {}
# 记录运行次数
count = 0

# 题目URL
url = 'http://www.heibanke.com/lesson/crawler_ex03/'
# 获取密码URL
pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'

# 获取登录成功后的cookie
cookies = login()

threads = []
for i in range(0, 5): # 线程数,可自定义
thread = MyThread(cookies)
threads.append(thread)
thread.start()

# 等待所有线程完成
for thread in threads:
thread.join()

# 拼接password
password = ''
for key in sorted(pwd_data.keys()):
password = password + pwd_data[key]
print(password)

# 重新登录
playload = {'username':'liuhaha', 'password':password}
playload['csrfmiddlewaretoken'] = cookies['csrftoken']

r = requests.post(url, data=playload, cookies=cookies)

print(u'执行结果:' + str(r.status_code))

if r.status_code == 200:
# print(r.text)
if u"成功" in r.text:
print(u'闯关成功!密码为:' + password)
print(u'用时 %s s' % (time.time() - start))
# break
else:
print(u'Failed')

多线程下,也许是网站限制,发现不管设置几个线程,运行时间总是在470s左右,不到8分钟,虽说时间仍然很长,但是比单线程版本已经有了明显提升。 😬

多线程运行结果

hoxis wechat
提供 CSDN 资料免费下载服务,欢迎来撩~
赞赏一杯咖啡
  • 本文作者: hoxis | 微信公众号【不正经程序员】
  • 本文链接: https://hoxis.github.io/爬虫闯关第四关.html
  • 版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 许可协议。转载请注明出处!
  • 并保留本声明和上方二维码。感谢您的阅读和支持!
0%