R语言做文本挖掘 Part2分词处理
首先安装跟服装相关的词典,同样是从搜狗输入法的词库中下载的两个服饰类的词典,下载地址http://pinyin.sogou.com/dict/cate/index/397,这个地址下的前两个词库。 [plain] view plain copy print ?
明星 2 pangu Text 3 fushi 服饰 4?? ali 服饰 下一步是将数据读入R中,可以看到一共有1640条微博数据,注意数据的编码格式,readLines默认读取格式是gbk格式的,读取格式不对时会乱码。 [plain] view plain copy print ?
接下来就是做分词了,要先去除数据中可能存在的数字和一些特殊符号,然后分词。 [plain] view plain copy print ?
[19] "防水效果使得实用性更[25] "高极具春日吸睛[31] "亮点春季海澜之家男士休闲[37] "西服韩版西装外套"???? "HWXAJAA" 小编修身薄款连帽暖心防风保暖撞色线条年轻走亲访友出行选择活力过冬轻松冬季热卖正品羽绒服"???? "HWRAJGA" 可以看到微博内容都已经被做过分词处理了,这个过程很简单,但实际上可能需要多次查看分词处理结果,有些词库中不存在所以被截开了的词需要被添加进去,从而让分词效果达到最好。 ? 3.?????? 去停词 (编辑:徐州站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |