中文文本分类中的特征选择研究
- 文件介绍:
- 该文件为 pdf 格式(源文件可编辑),下载需要
20 积分
- 中文文本分类中的特征选择研究
目的: 随着信息技术不断前进和互联网技术的迅猛发展和普及,信息呈近乎爆炸的形式急速膨胀。无论网络上、企业中或是个人系统上,都有海量的信息需要处理。文本作为计算机系统中信息的最重要表现形式之一,其增长速度更为惊人。如何在海量文本库中搜寻、过滤和管理这些文本成为一个亟待解决的问题。作为数据挖掘技术的重要手段之一,基于机器学习的文本分类技术可以在较大程度上解决文本库杂乱无章的现象,帮助人们将大量的文本自动分门别类,从而更好地把握文本信息,使信息的价值最大化。 在采用向量空间模型对文本进行表示的情况下,文本分类的最大特点和困难之一是特征空间的高维性和文档表示向量的稀疏性。中文的词条总数有二十多万条,寻求一种有效的特征抽取算法,降低特征空间的维数,提高分类的效率和精度,成为文本自动分类中需要首先面对的重要问题。特征选择是解决这个问题的有效方法。 本选题的核心目的就在于研究如何进行特征项的选取,使得分类的效率和效果最好。 思路: 首先需要理解中文文本分类技术以及应用的框架,熟悉中文文本分类技术的各个组成部分,然后搭建一个中文文本分类的辅助平台(包括分词组件、分类器、测试文档集、训练文档集,大部分都可以从开源软件或公开资料里获得),在辅助平台的基础上研究特征相的提取并用实验检验之。 方法: 通过阅读大量的资料或文档学习所要用的知识和技术,并通过实验验证自己的想法和理论。 相关支持条件: PC、java或C++开发环境、中文文本分类辅助平台(自己搭建)、Internet ...
中文文本分类中的特征选择研究_下载(pdf格式) 技术文档