本文介绍一种高阶的数据库搭建方法,用于打通串联不同格式的文档,搭建数据库。此前的教程里,介绍了如何将EXCEL、CSV、PDF、图片、视频链接、音频、第三方数据库导出资料等格式的文件上传至DiVoMiner平台,用来形成系统性的数据库。
在某些复杂研究场景下,还可以会遇到以下困扰:
- 不同的文件格式各有各的特点和局限,单独使用,各自为政,比如excel可以很好地存放结构化格式,但是对图片和视频的支持能力较弱;
- 图片、pdf、音频、视频等内容信息丰富,表达方式“自由”,相对来说,文件本身能做的结构化信息相对较少;
- 数据条块分割,难以有一种文件格式可以打通不同文件的数据;
那么有没有一种方法,可以“完美地”兼容所有类型的数据呢?能达到这样“打通数据”功能的操作方式?
想要打通不同文件的数据,这样的需求,用术语来说,叫“数据关联”。看上去有点复杂,但是不用担心,因为今天要介绍的,就是如何通过DiVoMiner平台上的一个小功能,鼠标点几下,就可以达到字段匹配的目的,也就是,实现我们想要的打通数据的效果。
跟着案例操作,点击这里下载练习数据集
以知名文献资料数据库中国知网为例,目前知网提供的全文下载通常是PDF或CAJ格式文件,均可以通过比较简单的方式上传到DiVoMiner平台,但是这样一来,论文的标题、作者、机构来源、基金项目等资料一股脑放在“内容”字段下,后续分析起来,似乎不怎么方便。
另一方面,知网还提供文献属性资料的下载,比如作者、摘要、基金项目等。具体做法是勾选想要下载资料的文献,【导出与分析】中选择“自定义”,后续页面下载“xls”,就可以得到文献的属性数据,是已经高度结构化的结果,下方有逐步截图。
现在,PDF存储了单篇论文的全文内容,而EXCEL中存放了除了全文以外的各类属性字段,要怎么把这两大块数据串起来呢?
仔细观察,就能发现,PDF和EXCEL的数据有一个共同的字段(变量)——论文的标题,尽管字段名有差别,但是可以通过简单的校正,就可以做匹配操作,把两块数据串起来。划重点!!!
- 把EXCEL的指代论文名的字段“Title-题名”改成和PDF一致的“名称”;
- 检查PDF和EXCEL中的同一篇论文的论文名是否一致,重点检查横线、下划线等细节,知网下载的端口不同,可能会存在同一个论文名称信息不同的情况;
- EXCEL的“xls”另存为“xlsx”格式。
接下来,把校正过的EXCEL上传到DiVoMiner平台上存放PDF的同一个数据库中,【配置数据】页面,选择“数据更新”,【字段选择】“名称”(就是PDF和EXCEL共有字段,用于匹配),完成上传就可以了。这样我们的数据库里PDF和EXCEL就完美结合起来了。
本文展示的是PDF和EXCEL的结合案例,实际上,各种格式的文件都可以打通处理,只需要找到统一的、一致的那个识别字段,就可以使用DiVoMiner平台自动匹配,协助轻松完成数据库管理工作。强大的用户们可以开发想象力,试试看吧!