串联不同格式的文档（如EXCEL和PDF）搭建数据库

本文介绍一种高阶的数据库搭建方法，用于打通串联不同格式的文档，搭建数据库。此前的教程里，介绍了如何将EXCEL、CSV、PDF、图片、视频链接、音频、第三方数据库导出资料等格式的文件上传至DiVoMiner平台，用来形成系统性的数据库。

在某些复杂研究场景下，还可以会遇到以下困扰：

那么有没有一种方法，可以“完美地”兼容所有类型的数据呢？能达到这样“打通数据”功能的操作方式？

想要打通不同文件的数据，这样的需求，用术语来说，叫“数据关联”。看上去有点复杂，但是不用担心，因为今天要介绍的，就是如何通过DiVoMiner平台上的一个小功能，鼠标点几下，就可以达到字段匹配的目的，也就是，实现我们想要的打通数据的效果。

跟着案例操作，点击这里下载练习数据集

以知名文献资料数据库中国知网为例，目前知网提供的全文下载通常是PDF或CAJ格式文件，均可以通过比较简单的方式上传到DiVoMiner平台，但是这样一来，论文的标题、作者、机构来源、基金项目等资料一股脑放在“内容”字段下，后续分析起来，似乎不怎么方便。

另一方面，知网还提供文献属性资料的下载，比如作者、摘要、基金项目等。具体做法是勾选想要下载资料的文献，【导出与分析】中选择“自定义”，后续页面下载“xls”，就可以得到文献的属性数据，是已经高度结构化的结果，下方有逐步截图。

现在，PDF存储了单篇论文的全文内容，而EXCEL中存放了除了全文以外的各类属性字段，要怎么把这两大块数据串起来呢？

仔细观察，就能发现，PDF和EXCEL的数据有一个共同的字段（变量）——论文的标题，尽管字段名有差别，但是可以通过简单的校正，就可以做匹配操作，把两块数据串起来。划重点！！！

接下来，把校正过的EXCEL上传到DiVoMiner平台上存放PDF的同一个数据库中，【配置数据】页面，选择“数据更新”，【字段选择】“名称”（就是PDF和EXCEL共有字段，用于匹配），完成上传就可以了。这样我们的数据库里PDF和EXCEL就完美结合起来了。

本文展示的是PDF和EXCEL的结合案例，实际上，各种格式的文件都可以打通处理，只需要找到统一的、一致的那个识别字段，就可以使用DiVoMiner平台自动匹配，协助轻松完成数据库管理工作。强大的用户们可以开发想象力，试试看吧！

支援中心