首 页 >> 通知公告
案例解析:为什么没有下载全文也被封IP?
[2016-03-28]

案例解析:为什么没有下载全文也被封IP

 

201631日、19日,我所图书信息中心连续两次接到APS美国物理学会发来的警告邮件,称:因监测到半导体所发生系统的或其他原因不明的下载行为,涉事的半导体所相关IP已被封闭,要求我们做出说明。 

接到警告邮件后,我们启动了超量下载行为调查程序,通过对比APS发来的日志记录和我所服务器的日志记录,我们找到了这两位用户,到用户办公室实地了解情况并查看了他们的计算机。令人意外的是,这两位用户都是使用EndNote文献管理软件搜索文献,分别找到214篇、111APS文献,并使用了find fulltext搜索下载全文,但没有成功下载一篇APS全文。在没有下载全文的情况下,为什么还会被封闭IP?是否APS的监测警告机制有问题?是否误判误报误封IP 

为解开这个疑问,我们做了进一步的测试分析:

1、我们随意选取了APS日志中的一条看似下载全文的URL地址信息,复制到浏览器地址栏,打开页面后,出现的并非下载全文页面,而是下载全文前的验证码页面,且验证码是图片而非文字或字母:

2、由此我们推断,EndNote无法自动识别验证图片,所以没有下载成功一篇APS全文,但APS的服务器记录下了用户请求全文的行为,这个行为信息看上去是下载成功了,但实际并未下载。

3、为了证实这个推断,我们邀请了中科院文献情报中心的专家分别在院文献情报中心和半导体所IP范围内,在EndNote系统中搜索下载APS全文,没有一篇下载成功。事实证明,APS的图片验证码挡住了EndNote的下载请求。

4、基于上述调查和测试,我们认为,APS在有效防止文献管理软件批量下载全文的同时,其下载监控系统也在系统下载行为发生时启动了超量告警、封闭IP的动作。

5、基于上述结论,我们向APS提出建议:修改数据库系统监测机制,在用户没有下载全文的情况下,不能封闭IP

6、APS的回复是:

(1)    对过量下载的衡量,并不是简单看用户下载全文的数量,同时也要看用户有没有使用软件来自动下载全文的行为,更严重的行为包括使用网络爬行软件对整个网站内容链接的抓取。

(2)    对于用户来说,正因为EndNote无法正常下载该篇全文,所以软件会不断向服务器端发出下载的请求(这也解释了为什么日志记录中会出现重复的URL地址信息),在达到阈值后被封。

(3)    短时间内的大量下载请求会占用服务器资源,甚至会拖垮服务器,所以这种行为一般出版社无论是在网站的terms of use中或是在签署订购协议中都是禁止的,包括APSAIPACS出版社都有类似规定。

7、由此可见:出版社的数据库服务器如果是收到不间断的线程下载要求指令,它会识别这是用户在使用程序做系统性下载,所以会自动触发关闭IP的指令。

8、  出版商认为:用户应该知道并且自觉地不使用软件来下载。

9、我们又联系了EndNote软件的供应商--汤森路透公司,是否能对EndNote的批量下载增加一个数量限制?汤森路透的答复是:目前EndNote对全文下载数量没有任何限制,用户应自觉、合理使用全文下载功能。

 

在此提醒全所用户:

1、慎重使用EndNote等软件的全文下载功能,超量下载行为极易被出版商封闭IP


2、超量下载的危害:

(1)    被出版商封闭IP,半导体所相关用户将无法使用全文资源。

(2)    对半导体所的声誉造成负面影响,有可能被取消电子资源集团采购补贴。

(3)    中科院电子资源集团采购按使用量计费,超量下载会造成半导体所下载量虚高,增加采购成本。

3、  在保护半导体所用户正当使用权益的同时,我们也将对因超量下载行为造成IP被封的用户进行处罚。

 

                                              图书信息中心

                                              2016-3-29