串联不同格式的文档(如EXCEL和PDF)搭建数据库

本文介绍一种高阶的数据库搭建方法,用于打通串联不同格式的文档,搭建数据库。此前的教程里,介绍了如何将EXCEL、CSV、PDF、图片、视频链接、音频、第三方数据库导出资料等格式的文件上传至DiVoMiner平台,用来形成系统性的数据库。

点这里回顾单一文件格式数据上传的具体操作和注意事项

在某些复杂研究场景下,还可以会遇到以下困扰:

  • 不同的文件格式各有各的特点和局限,单独使用,各自为政,比如excel可以很好地存放结构化格式,但是对图片和视频的支持能力较弱;
  • 图片、pdf、音频、视频等内容信息丰富,表达方式“自由”,相对来说,文件本身能做的结构化信息相对较少;
  • 数据条块分割,难以有一种文件格式可以打通不同文件的数据;

那么有没有一种方法,可以“完美地”兼容所有类型的数据呢?能达到这样“打通数据”功能的操作方式?

想要打通不同文件的数据,这样的需求,用术语来说,叫“数据关联”。看上去有点复杂,但是不用担心,因为今天要介绍的,就是如何通过DiVoMiner平台上的一个小功能,鼠标点几下,就可以达到字段匹配的目的,也就是,实现我们想要的打通数据的效果。

跟着案例操作,点击这里下载练习数据集

以知名文献资料数据库中国知网为例,目前知网提供的全文下载通常是PDF或CAJ格式文件,均可以通过比较简单的方式上传到DiVoMiner平台,但是这样一来,论文的标题、作者、机构来源、基金项目等资料一股脑放在“内容”字段下,后续分析起来,似乎不怎么方便。

上传后的PDF字段寥寥

另一方面,知网还提供文献属性资料的下载,比如作者、摘要、基金项目等。具体做法是勾选想要下载资料的文献,【导出与分析】中选择“自定义”,后续页面下载“xls”,就可以得到文献的属性数据,是已经高度结构化的结果,下方有逐步截图。

勾选文献,找到【导出与分析】“自定义”格式
进入导出页面,选择“xls”格式下载

现在,PDF存储了单篇论文的全文内容,而EXCEL中存放了除了全文以外的各类属性字段,要怎么把这两大块数据串起来呢?

仔细观察,就能发现,PDF和EXCEL的数据有一个共同的字段(变量)——论文的标题,尽管字段名有差别,但是可以通过简单的校正,就可以做匹配操作,把两块数据串起来。划重点!!!

  1. 把EXCEL的指代论文名的字段“Title-题名”改成和PDF一致的“名称”;
  2. 检查PDF和EXCEL中的同一篇论文的论文名是否一致,重点检查横线、下划线等细节,知网下载的端口不同,可能会存在同一个论文名称信息不同的情况;
  3. EXCEL的“xls”另存为“xlsx”格式。

接下来,把校正过的EXCEL上传到DiVoMiner平台上存放PDF的同一个数据库中,【配置数据】页面,选择“数据更新”【字段选择】“名称”(就是PDF和EXCEL共有字段,用于匹配),完成上传就可以了。这样我们的数据库里PDF和EXCEL就完美结合起来了。

上传EXCEL【配置数据】,选择【数据更新】,使用“名称”字段作为匹配依据
上传成功后,可以看到创建的新数据是0条,因为没有创建新数据,而是把EXCEL信息补充在了原PDF上
在【编码库】可以看到,数据都串联起来了

本文展示的是PDF和EXCEL的结合案例,实际上,各种格式的文件都可以打通处理,只需要找到统一的、一致的那个识别字段,就可以使用DiVoMiner平台自动匹配,协助轻松完成数据库管理工作。强大的用户们可以开发想象力,试试看吧!


Is this article helpful?

       

相关文章