python获取某数据库网站所有连接列表

大佬发的网站,是一个被拖数据库的下载地址,有各种各样的数据库。

https://cdn.databases.today/

因为本机用的linux 没有迅雷,所以用py写了个批量获取下载连接的脚本,他的目标是将目标网址的url获取出来,利用xpath选择器。并写入到本地test.txt文件中。

其实这就是一个定向爬虫,修改xpath和url就可以爬其他的页面。

代码:

#.*-coding:utf-8-*-
import requests
import re
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

from lxml import etree


def write(file):
    with open('test.txt', 'a+r') as f:
        f.write(file+'\n')
class spider(object):

    def getsource(self,url):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:53.0) Gecko/20100101 Firefox/53.0'}
        sourceHtml = requests.get(url, headers=headers)
        return sourceHtml.text
    def getNeedInfo(self,sourceHtml):
        selector = etree.HTML(sourceHtml)
        for a in range(3,79):
            i = '/html/body/pre/div/a[' + str(a) + ']/text()'
            urls = selector.xpath(i)
            strurls = list(urls)
            urls_2 = url + strurls[0]
            write(urls_2)
            print '正在处理:' + urls_2
            #/html/body/pre/div/a[79]




if __name__ == '__main__':
    spider = spider()
    url = "https://cdn.databases.today/"
    allPageInfo = []
    sourceHtml = spider.getsource(url)
    spider.getNeedInfo(sourceHtml)

 

1

Related Posts

Comments

  1. 膜拜大佬

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据