在我们创建配置文件的时候,可能会出现一些值需要重复填写多次的问题。例如我最近写了一个可配置爬虫,只需要配置几条 XPath,就能够自动生成一个 Scrapy 爬虫。从而快速完成简单网站的爬取。
目前创新互联已为数千家的企业提供了网站建设、域名、虚拟空间、网站托管维护、企业网站设计、泸县网站维护等服务,公司将坚持客户导向、应用为本的策略,正道将秉承"和谐、参与、激情"的文化,与客户和合作伙伴齐心协力一起成长,共同发展。
这个配置文件长这样:
- name: 某某网站爬虫
- host: 'https://www.kingname.info'
- headers:
- user-agent: xxx
- host: yyyy
- referer: zzz
- rule:
- start_url: 'https://www.kingname.info'
- detail_url: //div[@class="xxx"]/a/@href
- next_page_xpath: //div[@class="next"]/@href
- ...其他配置参数...
这个配置文件是使用 YAML 格式创建的。我们可以看到,最外层的host的值为https://www.kingname.info,而在rule里面,start_url的值也是这个网址。这样就重复了。这种重复的情况还有很多,例如列表页的翻页链接的 XPath 与正文页的翻页链接的 XPath 是一样的,多个类型可以具有相同的执行规则等等。
如果你使用 JSON 来作为配置文件的格式,那么确实你要重复写。但如果你使用 YAML 来作为配置文件的格式,那么你可以通过添加锚记(anchor)和别名(alias)的方式,实现一次填写,多次使用的效果。
我们先来看一个简单的例子:
- import yaml
- config = '''
- name: &name 青南
- salary: 99999
- other_name: *name
- '''
- info = yaml.safe_load(config)
- print(info)
运行效果如下图所示:
可以看到,原本定义一个key-value类型的值,应该是key: value的形式,但是这里我写成key: &锚记名 value,于是,这个锚记名就相当于是一个变量名,就可以在其他地方引用。引用的时候,写作*锚记名。这有点像 C 语言中的获取变量的内存地址(&),然后显示指针的值(*)。锚记名可以 key 相同,也可以不同。
当然,除了简单的key-value,也可以在复杂的场景下使用,例如:
- import yaml
- config = '''
- article_xpath: &article
- title: //div[@class="title"]/text()
- detail: //div[@class="content"]/text()
- image:
- - //div/img[@class="xx"]/@href
- - //p/img[@class="yy"]/@href
- about_xpath:
- summary: //div[@class="summary"]/text()
- book_xpath: *article
- '''
- info = yaml.safe_load(config)
运行效果如下图所示:
这样一来,如果某一项会多次出现的配置发生了修改,我们只需要改一个地方,就能在多个地方同时自动生效,不用再一个一个手动修改了。既节省了时间又不容易出错。
本文转载自微信公众号「未闻Code」,可以通过以下二维码关注。转载本文请联系未闻Code公众号。
网站名称:一日一技:如何处理配置文件中的重复值?
文章来源:http://www.csdahua.cn/qtweb/news11/28911.html
网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网