【简答题】
中文信息处理技术课程作业 一. 作业名称 1. 用字统计和字表比较练习。 二. 作业目的 1. 了解字频统计的基本内容和方法; 2. 思考字频统计不同方法的优劣。 三. 作业内容 1、 认真阅读文件夹“国家语委语料库”中全部文件; 2、 不要使用字词频统计软件,尝试手工处理并统计“正文文本 .txt ”的下列用字情况: (1) 全文字表(按“正文文本”原始顺序排列、一字一行的字表,带序号); (2) 全文字种(“正文文本”中出现的全部不重复的字符,带出现次数); (3) 两表交集(既在“正文文本”中出现、又在“常用字表”中出现的字符); (4) 全文独有(只在“正文文本”中出现,不在“常用字表”中出现的字符); (5) 字表独有(只在“常用字表”中出现,不在“正文文本”中出现的字符); 说明: i. “ 全文 ”指的是“正文文本 .txt ”,“ 字表 ”指的是“ 3-3_ 现代汉语常用字表 .xls ” ii. 以上各项需分别在 Excel 文件(工作簿)中新建一个工作表(即 sheet ) 3、 将自己的统计结果跟字频统计工具的结果进行比较,看有无异同; 4、 另找一篇文本自己做练习; 5、 记录下所遇到的问题,并尝试提出解决方案,保存为文件。 四. 作业要求 1、 Excel 文件命名格式为: 用字统计 - 学号 - 姓名 - 八位日期 - 四位时间 。 2、 问题和对策命名格式为: 问题和对策 - 学号 - 姓名 - 八位日期 - 四位时间 。 正文文本.txt 02_语料库加工-20181102.doc 操作步骤(语料库加工).doc EditPlus汉化版v3.12Build602.rar 语料库在线.rar
举报
参考答案:
参考解析:
举一反三