DiVoMiner®提供方便快捷的方法进行数据抽样。从整体数据中抽取部分数据形成抽样库,独立于【编码库】(整体数据),单独执行机器编码、人工编码、统计分析和可视化等功能。即是可以多库并行。
建立抽样库的做法有两个途径,第一种是在【总览】界面抽样。第二种是在【编码库】中抽样。具体的做法如下:
方法一:【总览】界面抽样
进入【数据管理】-【总览】,选择一个数据库,如【新闻数据库】,点击【抽样】。
给抽样库命名,也可以选择已有抽样库。点击【下一步】
抽样方法可选择随机、按某个标准顺序和倒序排列。
填写抽样数量,抽样数量可设置具体的条数或整体数据的百分比。
设置抽样范围,即在特定的数据范围内进行抽样。通过设置一定的抽样条件,进一步确定抽样范围。
- 【全部条件】指筛选同时满足多个条件,条件之间是“和and”的关系;
- 【任意条件】指筛选时满足下列条件中的任意一个就入选,条件之间是“或or”的关系。
点击【确定】完成抽样范围的设置。
抽样库显示在【数据管理】-【总览】下的数据库列表中,可直接针对抽样库进行独立的操作。
注意:抽样库中的数据独立于其他数据库,抽样完成后,将产生数据容量和文件容量,编码库总量也随之增加。
方法二:【编码库】抽样
进入【编码库】,选择一个数据库,如【新闻数据库】,点击【抽样】。抽样方式与在【总览】中抽样方式相同。进入抽样设置页面,对样本库进行命名,选取抽样方法,设定抽样范围即完成抽样。