开放图书馆安娜的档案现已提供中文学术搜索读秀知识库 另外近期攻击增多可能影响访问
知名开放图书馆安娜的档案 (Anna's Archive) 日前发布博客介绍最近组织的大规模数据抓取活动,包括从中文学术搜索知识库读秀 (DuXiu) 抓取数据可供用户通过安娜的档案搜索和下载数据。
安娜的档案是个致力于提供电子书和学术论文的搜索引擎平台,该网站希望创造开放的信息资源库帮助用户轻松找到文件,而不是因为各种付费墙导致内容无法检索和下载。
有关攻击影响访问的情况:
最近针对安娜的档案发起的攻击活动有所增加,目前团队正在采取措施加强基础设施和运营安全,尽管团队并未提到影响网站访问,不过最近有部分用户访问时可能会观察到访问或者连接超时的情况,遇到这种情况通常说明攻击正在增强,用户可以换个时间再访问。
最近组织的抓取活动:
安娜的档案最近组织抓取活动从多个知识库抓取数据,包括 IA Controlled Digital Lending、HathiTrust 以及读秀 (DuXiu) 等,此次抓取活动新增数千万份文件,这意味着用户可以找到的内容显著增加。
最近安娜的档案还收集并发布历史上规模最大的图书元数据集合,包括 WorldCat 和 Google Books 等,这样团队可以识别哪些图书并未从收藏中消失,哪些图书需要提高保存优先级。
其他分支平台的更新:
最近安娜的档案与两个 LibGen 分支、STC/Nexus 和 Z-Library 建立合作关系,因此从这些知识库也获得数千万份文件,这些文件可以极大地扩充安娜的档案知识库。
有个问题是新出现的 WeLib 分支镜像了安娜的档案大部分的数据库,同时还使用安娜的档案的代码库分支,为此安娜的档案也从 WebLib 复制了一些用户界面上的改进。
只不过让人疑惑的是 WeLib 分支只从安娜的档案镜像数据库,并没有分享任何新库,也没有分享代码库改进。这种做法显然是不合理的,因此安娜的档案团队不建议用户使用 WeLib 分支。
最后安娜的档案服务器上还有数百 TB 的数据等待处理,如果你愿意可以访问志愿服务页面和捐赠页面为安娜的档案提供帮助。










