解题思路

首次进入题目页面，同样的跳转到了登录页面：

登录页面

登录成功后，出现如下页面，发现还是猜密码。

登录成功

但这次不是试出来的需要找出来，那从哪里找呢？先随便输入个密码

密码错误页面

提示密码错误，同时给出了找密码的页面，继续访问：

密码列表

初步观察，页面的表格中有两列，其中一列是密码的位置，另外一列是密码的值，猜测是将密码的值拼接成一个字符串，但是页面只有13页，每页8个数值，正好100个数，而位置数最大的出现了100，将这100个数放入到dict(location,value)里，然后再对dict的key进行排序，对value进行拼接，不就得到密码了嘛。

然而现实是残酷的，发现密码的位置中存在重复，也就是遍历完13页数据，并不能得到所有的密码值，然后我就猜想是不是对没有出现在页面的位置进行填充0处理，发现还是失败。

在多次试验中，发现每次获取到的密码的位置并不是相同的，也就是页面里的随机的意思，也就是不断的调用查询密码列表页面，总是能够获取到所有密码的值的。

实现代码

# coding=utf-8

import requests, bs4

# 题目URL
url = 'http://www.heibanke.com/lesson/crawler_ex03/'

# 登录URL，获取cookie
login_url = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex03/'

# 获取密码URL
pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'

login_data = {'username':'liuhaha', 'password':'123456'}

# 获取默认cookie
response = requests.get(url)
if response.status_code == 200:
    print('Welcome')
cookies = response.cookies

# 登录 
login_data['csrfmiddlewaretoken'] = cookies['csrftoken']
login_response = requests.post(login_url, allow_redirects=False, data=login_data, cookies=cookies)
if login_response.status_code == 200:
    print('login sucessfully')

# 获取登录成功后的cookie
cookies = login_response.cookies

# TODO 解析最大页数

payload = {}
pwd_data = {}
i = 0
# 通过观察，密码应该有100个数字组成。
# 由于每次获取到的密码会有重复，所以不是一次查询完就能获取到所有数字
# 这里一直进行查询，直到获取到100个数字
while len(pwd_data) < 100:
    # 因为每一页的密码位置都是随机给出的，其实这里可以不传page参数，一直调用pwd_url也可以获取到全部密码
    payload['page'] = i % 13
    pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'
    print('------------------------')
    print('loading data from %s?page=%s ...' %(pwd_url, i%13))
    pwd_response = requests.get(pwd_url, cookies=cookies, params=payload)

    soup = bs4.BeautifulSoup(pwd_response.text, "html.parser")

    # 获取表格
    table = soup.select('[class="table table-striped"]')

    # 解析表格数据，过滤掉表头
    temp_data = {}
    for tr in table[0].find_all('tr')[1:]:
        tds = tr.find_all('td')
        # 分别取出password的位置及其对应的数字
        pwd_data[int(tds[0].getText())] = tds[1].getText()
        temp_data[int(tds[0].getText())] = tds[1].getText()
    # print(temp_data)
    i = i + 1
    print('The load has run %s times and now the pwd_data length is %s' % (i, len(pwd_data)))
        
# print(pwd_data)
# print('The length of password is %s.' % len(pwd_data))

# 拼接password
password = ''
for key in sorted(pwd_data.keys()):
    password = password + pwd_data[key]
print(password)

# 重新登录
playload = {'username':'liuhaha', 'password':password}
playload['csrfmiddlewaretoken'] = cookies['csrftoken']

r = requests.post(url, data=playload, cookies=cookies)

print(u'执行结果：' + str(r.status_code))

if r.status_code == 200:
    # print(r.text)
    if u"成功" in r.text:
        print(u'闯关成功！密码为：' + password)
        # break
else:
    print(u'Failed')
    # break

最终执行了62次后获取到了全部密码。

执行结果

多线程版

经过上面的程序，发现执行过程比较漫长，另外页面也有提示说网页会慢半拍，实验证明运行一次用时差不多1400s，将近24分钟啊！ 😵

那么也许需要一个高效率的方法进行解析，多线程？

# coding=utf-8

import requests, bs4
import threading
import time

def login():
    # 登录URL，获取cookie
    login_url = 'http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex03/'
    login_data = {'username':'liuhaha', 'password':'123456'}

    # 获取默认cookie
    response = requests.get(url)
    if response.status_code == 200:
        print('Welcome')
    cookies = response.cookies

    # 登录 
    login_data['csrfmiddlewaretoken'] = cookies['csrftoken']
    login_response = requests.post(login_url, allow_redirects=False, data=login_data, cookies=cookies)
    if login_response.status_code == 200:
        print('login sucessfully')

    return login_response.cookies

def getPassword(page):
    global pwd_data
    payload['page'] = page
    print(threading.currentThread().getName() + ', loading %s?page=%s ...' %(pwd_url, page))
    pwd_response = requests.get(pwd_url, cookies=cookies, params=payload)

    soup = bs4.BeautifulSoup(pwd_response.text, "html.parser")

    pwd_pos = soup.findAll('td', {'title':'password_pos'})
    pwd_value = soup.findAll('td', {'title':'password_val'})

    for index in range(len(pwd_pos)):
        pwd_data[int(pwd_pos[index].getText())] = pwd_value[index].getText()
    print(threading.currentThread().getName() + ', now the pwd_data length is %s' % len(pwd_data))
    
class MyThread(threading.Thread):  
    def __init__(self, s):  
        threading.Thread.__init__(self)
        self.s = s  
      
    def run(self):  
        global pwd_data
        global count
        while len(pwd_data) < 100:
            count += 1
            print('The sub-thread has run %s times' % count)
            getPassword(count % 13)
              
if __name__ == '__main__':  
    start = time.time()
    payload = {}
    # 存放密码键值对
    pwd_data = {}
    # 记录运行次数
    count = 0

    # 题目URL
    url = 'http://www.heibanke.com/lesson/crawler_ex03/'
     # 获取密码URL
    pwd_url = 'http://www.heibanke.com/lesson/crawler_ex03/pw_list/'
   
    # 获取登录成功后的cookie
    cookies = login()

    threads = []
    for i in range(0, 5):  # 线程数,可自定义  
        thread = MyThread(cookies)
        threads.append(thread)
        thread.start()
    
    # 等待所有线程完成
    for thread in threads:
        thread.join()
    
    # 拼接password
    password = ''
    for key in sorted(pwd_data.keys()):
        password = password + pwd_data[key]
    print(password)

    # 重新登录
    playload = {'username':'liuhaha', 'password':password}
    playload['csrfmiddlewaretoken'] = cookies['csrftoken']

    r = requests.post(url, data=playload, cookies=cookies)

    print(u'执行结果：' + str(r.status_code))

    if r.status_code == 200:
        # print(r.text)
        if u"成功" in r.text:
            print(u'闯关成功！密码为：' + password)
            print(u'用时 %s s' % (time.time() - start))
            # break
    else:
        print(u'Failed')