python爬虫：爬取医药数据库drugbank

这个是帮朋友做的，难点就是他们有一个反爬虫机制，用request一直不行，后面我就用selenium直接把网页copy下来，然后再来解析本地的html文件，就木有问题啦。

现在看来，写得有点傻，多包涵。

# -*- coding:utf-8 -*-

import os
import time
import datetime
import codecs
from lxml import etree
from selenium import webdriver
import csv
#控制编码，全英文网页，用不着
# import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')

# # date格式转为string格式
today = datetime.date.today()
today_string = today.strftime('%Y-%m-%d')

#通过浏览器得到网页页面--反反爬虫
def html_getter(site,file_name):
    driver = webdriver.Firefox()
    # chromedriver = r'C:Program Files (x86)GoogleChromeApplicationchromedriver.exe'
    # os.environ['webdriver.chrome.driver'] = chromedriver
    # driver = webdriver.Chrome(chromedriver)
    driver.get(site)
    driver.maximize_window() # 将浏览器最大化显示
    time.sleep(5) # 控制间隔时间，等待浏览器反映
    # 保存页面
    source_code = driver.find_element_by_xpath("//*").get_attribute("outerHTML")
    f = codecs.open(file_name, 'w+', 'utf8')
    f.write(source_code)
    f.close()

#打开保存在本地的html文件
def file_html(file_name):
    f = open(file_name,'r')
    html = f.read()
    f.close()
    return html

#写入csv，也可以有其他写入方式，这个地方就csv啦
def csv_writer(ll):
    headers = ['drug','inter','snp_rs_id','Allele_name','Defining_change','Adverse_Reaction','ref','href','original_title']
    with open('drugbank.csv','a') as f:
        f_csv = csv.writer(f)
        f_csv.writerow(headers)
        f_csv.writerows(ll)

#用xpath解析网页，得到表格数据，我就是这么爱xpath，不喜欢正则表达式
def data_get(html):
    selector = etree.HTML(html)
    tbody=selector.xpath('/html/body/main/table/tbody/tr')
    for each in tbody:
        # #1.'drug'
        drug_name=each.xpath('td[1]/strong/text()')[0]
        drug_sn=each.xpath('td[1]/a/text()')[0]
        drug=drug_name+'   '+drug_sn
        # #print(drug)
        # #2.'Interacting Gene/Enzyme'
        int=each.xpath('td[2]')[0]
        inter=int.xpath('string(.)')
        # print(inter)
        # #3.'SNP RS ID'
        snp=each.xpath('td[3]/a/text()')
        if snp:
            snp_rs_id=snp[0]
        else:
            snp_rs_id='Not Available   '
        #print snp_rs_id
        #4.Allele name
        Allele=each.xpath('td[4]/text()')
        if Allele:
            Allele_name=Allele[0]
        else:
            Allele_name='Not Available '
        # #print Allele_name
        # #5.'Defining change'
        Defining=each.xpath('td[5]/text()')
        if Defining:
            Defining_change=Defining[0]
        else:
            Defining_change='Not Available '
        # print Defining_change
        # 6.'Adverse Reaction'
        Adverse=each.xpath('td[6]/text()')
        if Adverse:
            Adverse_Reaction=Adverse[0]
        else:
            Adverse_Reaction='Not Available    '
        # print Adverse_Reaction
        #7.'Reference(s)'
        ref=each.xpath('td[7]/span/a/text()')[0]
        href=each.xpath('td[7]/span/a/@href')[0]
        original_title=each.xpath('td[7]/span/a/@data-original-title')[0]
        # print ref
        # print(href)
        # print(original_title)

        tt=(drug,inter,snp_rs_id,Allele_name,Defining_change,Adverse_Reaction,ref,href,original_title)
        ll.append(tt)

#print ll



if __name__ == '__main__':
    ll=[]
    for i in range(1,5):
        page_num=i
        site='http://www.drugbank.ca/genobrowse/snp-adr?page='+str(page_num)
        #get the html through webdriver
        file_name=unicode(today_string)+u'drugbank_'+unicode(str(page_num))+u'.html'

        html_getter(site,file_name)
        html=file_html(file_name)
        data_get(html)
    csv_writer(ll)

python爬虫：爬取医药数据库drugbank

精子活力

华三交换机版本升级华三交换机版本升级通过U盘

最新文章

三星Galaxy A26首批渲染图曝光后置配备三摄相机

消息称鸿蒙智行尊界轿车命名为“S800”，采用紫色、银色双拼

蔚来宣布在阿塞拜疆开展业务，2025 年第二季度正式开启产品交付

Steam 国区 398 元起，游戏《乐高地平线大冒险》发售

变量提升和函数提升哪个优先级高(为什么低层次的变量不能使用高层次)

win解压缩怎么卸载干净

黑莓桌面管理器怎么用(黑莓桌面管理器如何导出通讯录)

关于鸟的故事（关于鸟类的绘本故事）

丝瓜水有什么功效和作用

莫理循（莫理循环拍摄凌迟）

最新评论

标签

关注我们么么哒！

python爬虫：爬取医药数据库drugbank

精子活力

华三交换机版本升级 华三交换机版本升级通过U盘

最新文章

三星Galaxy A26首批渲染图曝光 后置配备三摄相机

最新评论

标签

关注我们 么么哒！

关注我们的公众号

华三交换机版本升级华三交换机版本升级通过U盘

三星Galaxy A26首批渲染图曝光后置配备三摄相机

关注我们么么哒！