博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文词频统计及词云制作
阅读量:5880 次
发布时间:2019-06-19

本文共 504 字,大约阅读时间需要 1 分钟。

1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?(认真想一想回答)

 

2.中文分词(**两项选做,此次作业要求不能雷同。)

下载一中文长篇小说,并转换成UTF-8编码。使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

**排除一些无意义词、合并同一词。

**使用wordcloud库绘制一个词云。

import jiebafile = open('z.txt','r').read()z = list(jieba.cut_for_search(file))d = {'\n',' ','。','“','”','?','!',',',':','…'}dic={}keys = set(z)-dfor i in keys:    dic[i]=z.count(i)num = list(dic.items())num.sort(key = lambda x:x[1],reverse=True)for i in range(20):    print(num[i])

 

转载于:https://www.cnblogs.com/dachui/p/7594022.html

你可能感兴趣的文章
项目开发总结
查看>>
知行合一
查看>>
jmeter插件之jsonpath提取响应结果和做断言
查看>>
发布支持多线程的PowerShell模块 —— MultiThreadTaskRunner
查看>>
Ubuntu ctrl+alt会导致窗口还原的问题
查看>>
第四十期百度技术沙龙笔记整理
查看>>
推荐系统那点事 —— 基于Spark MLlib的特征选择
查看>>
linux 下RTL8723/RTL8188调试记录(命令行)【转】
查看>>
SpringMVC案例1——对User表进行CRUD操作
查看>>
[Contiki系列论文之1]Contiki——为微传感器网络而生的轻量级的、灵活的操作系统...
查看>>
Android 网络编程 记录
查看>>
微软同步发行Windows 10和Windows 10 Mobile系统更新
查看>>
Zeppelin的入门使用系列之使用Zeppelin运行shell命令(二)
查看>>
form表单下的button按钮会自动提交表单的问题
查看>>
那些年追过的......写过的技术博客
查看>>
python基础教程_学习笔记19:标准库:一些最爱——集合、堆和双端队列
查看>>
C# 解决窗体闪烁
查看>>
CSS魔法堂:Transition就这么好玩
查看>>
【OpenStack】network相关知识学习
查看>>
centos 7下独立的python 2.7环境安装
查看>>