话题创建成功后,自动进入到【数据管理】-【总览】页面。在这里可以看到各数据库中整体数据情况,如编码库、回收库、已编码量、当前话题已用数据容量及文件容量等信息。一个话题中可建立多个数据库,允许上传不同类型数据。话题预设一个数据库。
第一步:建立数据库。想要在建立“新闻”和“微博”两个数据库,可修改预设数据库名称为“新闻数据库”。
可以点击【+添加数据库】,输入数据库名称“微博数据库”。
第二步:完成数据库建立后,在“新闻数据库”操作框中点击【上传数据】,选择数据档上传。
平台支持上传EXCEL、CSV、WORD、TEXT、PDF、图片、视频链接、音频、第三方数据库导出资料等格式的文件,建立用户的专属数据库。
选择对应格式,点击或将文件拖拽到上传区域。
注意:EXCEl文档需要是xlsx格式,单个文档上限200M。
想要保证数据处理的每一步都顺利进行,并且最后得到科学、严谨的实验结果,必须保证:
- 数据源预处理时分类清晰、字段属性准确;
- 上传数据时文件格式、大小符合要求;
- 配置数据时编码格式准确无误;
与此同时,平台还有许多超赞的小功能帮助大家高效管理数据文件。比如:支持多数据库合并分析、支持多种类型文件上传、pdf分割工具等等。
选择上传文件后,可以预览数据,并且给每一列数据的字段类型下定义,可选择文本、数值、布尔值、日期和数组等字段形式。
- 文本:文本型数据,一般包括汉字、英文字母、拼音符号等,阿拉伯数字也可以作为文本型数据;
- 数值:按数字尺度测量的数据;
- 布尔值:又称为逻辑数据类型,又二进制数字组成,0和1,即真/假(True/ False);
- 日期:日期时间数据。
TIPS:字段是上标有红点,意思是该字段是新上传字段,可修改字段名称。曾上传过的字段不能够再次修改字段类型。如果是再次上传的字段,可“转化为已有字段“类型。
进入【配置数据】页面,可以调整查看数据的页面样式,是在【编码库】查看数据和【内容编码】页面做人工编码时的呈现效果。由用户自定义呈现格式,试着将“标题”字段拖拽至【标题】栏位,日期”字段拖拽至【信息】栏位,“正文”字段拖拽至【正文】,点击【提交数据】完成数据上传。
TIPS:机器编码仅处理【标题】和【正文】栏位的数据,可依据实际需求调整栏位数据。
补充说明,上传的文档需要注意一些问题:
第三步:进入【编码库】可以查看已上传的数据,核对数据量。点击任意一条数据,查看数据呈现效果。
如需清理数据,可在【编码库】中【移除】无关或垃圾数据。
第四步:如后续需要修改数据查看页面样式(或需要变更机器编码的数据范围),可在【数据管理】-【总览】,对应数据库的【更多操作】-【显示设定】中进行修改。