用Python统计新浪微博各种表情使用频率
来源:互联网 发布:深圳聚宝网络 编辑:程序博客网 时间:2024/06/09 21:49
用新浪微博API积累了微博广场的1.4万条数据,我选择了21个字段输出为TXT文件,想用Python稍微处理一下,统计一下这1.4万条微博里面表情使用情况,统计结构在最后。
无聊的时候用了下新浪JAVA版的API,对JAVA还不熟悉,但是稍微改一下还是没问题的,数据保存为TXT文件,再用Python处理,JAVA部分很简单,Python部分只涉及到表情的正则提取,都不好意思写出来了。
1、调用新浪JAVA API下载微博广场数据
步骤思路:
初始化API的Weibo类,设置Token后,设置下载间隔,然后重复调用getPublicTimeline()函数就可以了,下面是主要类的代码:
这个不是完整的代码,没有初始化暂停间隔,可以掠过,很简单。
2、数据格式:
要取得数据就是微博内容,先练一下手玩玩。
3、Python处理数据
目标:查看微博用户表情使用情况,暂时只分性别,如果积累了合适的数据后可以分析各个时间段人们爱用哪种表情。
步骤:
$ 读取TXT文件,递归处理每一行
$ 单独提取出微博字段,正则提取表情字段,同时把性别提取出来,放到一个dict里面,dict的格式是:表情/女性使用频率/男性使用频率,递归处理,累积频率
$ 把结果写入到文件
注意:Python正则提取中文部分,先解码成unicode编码,再正则提取,表情的标志是[],虽有误差,但无大碍。
代码:
__collection函数是处理函数,返回处理结果(dict)
脚本运行结果:
把结果放到EXCEL里面重新排序,得到如下结果:
0 0
- 用Python统计新浪微博各种表情使用频率
- 统计拼音字母使用频率 python
- 新浪微博表情效果
- 【Python】统计个人新浪微博…
- 字母出现频率统计用python实现
- 新浪微博-表情键盘的显示
- Python 对新浪微博的博文元素 (Word, Screen Name)的频率分析
- 新浪微博python API的使用
- 新浪微博字数统计
- N9新浪微博自定義表情符號
- 新浪微博-表情键盘的事件处理
- 新浪微博开放平台API访问频率限制解决方法
- 新浪微博API使用之python接口的使用
- Python 统计文章单词出现频率
- python统计并绘制频率分布直方图
- 关于新浪微博字数统计。。
- [python]使用Counter统计文章中出现频率最高的单词
- Hadoop:使用原生python编写MapReduce来统计文本文件中所有单词出现的频率功能
- 实例讲解虚拟机3种网络模式(桥接、nat、Host-only)
- UVa 10655
- 如何有效清理Mac上的内存
- 关于java.lang.IllegalArgumentException: DrawerLayout must be measured with MeasureSpec.EXACTLY异常处理
- navicat导出表结构及数据
- 用Python统计新浪微博各种表情使用频率
- Couldn't read row 0, col -1 from CursorWindow, Cursor initialization error
- AndroidStudio中具体如何直接下载Github中的代码到指定路径
- ubuntu虚拟机做服务器 无法被别的windows系统访问的解决方法
- 较大数的hash算法
- 真正好用的js验证上传文件大小
- Android 清除缓存
- Android 数据库工具
- 源码-Oracle数据库管理-第九章-SQL查询-Part 4(集合运算和子查询)