《数学之美》笔记
来源:互联网 发布:华普汇能软件 编辑:程序博客网 时间:2024/06/11 09:23
三、统计语言模型
可用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。
一个文字序列是否能构成有意义的句子
-> P(S)=P(w1,...,wn)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,...,wn-1) 概率最大问题
-> P(s)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) 马尔可夫假设
->P(wi|wi-1) ~ #(wi-1,wi) / #(wi-1)
上述是二元模型,可拓展为高阶模型P(wi|w1,...,wi-1) = P(wi|wi-N+1,...,wi-1)
一般N不会高于3?
N增大,开始模型效果显著之后不明显,但资源耗费快速上升。
更高阶的模型也无法覆盖所有语言想象现象?
上下文相关性跨度可以非常大,这是马尔可夫假设的局限性,其他一些长程依赖性可以解决这个问题。
训练数据不满足大数定理时的问题?
古德-图灵估计(概率平滑)
语料选区问题?
网页搜索应用中,多样性数据比语料干净、无噪音的数据好。
四、中文分词
查字典法:从左到右扫描,遇到字典有的词标识出来,遇到复合词匹配最长的词,遇到不认识的字串就分割成单字词。
若出现多种分词结果,利用统计语言模型找到概率最大的一组分词方法。
不同的应用,分词的一致性、颗粒度和层次都会不同。
五、隐马尔可夫
训练模型:鲍姆-韦尔奇算法(EM算法)
解码预测:维特比算法
八、布尔代数和搜索引擎的索引
搜索引擎索引好比图书馆的索引卡片,通过卡片可以找到某本书的位置。
十、民主决策式网页排名技术
PageRank算法:某网页的排名等于所有指向这个网页的其他网页权重之和(网页排名高的贡献权值大)
怎么解决其他网页的排名问题?
平均初始化各网页权值,B = A网页之间链接数矩阵 * B所有网页排名,不断相乘最后达到稳定。同时利用稀疏矩阵相乘和并行计算解决大数据问题。
十一、网页和查询的相关性
下载网页、建立索引、衡量网页质量、网页和查询相关性组成搜索引擎。
加权词频TF-IDF= TF1*IDF1 + ... + TFn*IDFn。TF词频,IDF=log(D/Dw) (D总网页数,Dw词所在网页数)
使用词频代替词数解决长短网页不公问题。删除停止词、虚词、介词。调整每个词的相关性权重。
十四、余弦定理与新闻分类
新闻的特征向量:找出一篇文章中的所有实词,并计算每个词的TF-IDF构成向量
相似性度量:余弦定理计算两两向量的夹角
事先没有新闻类别的特征向量怎么分类?
计算所有新闻两两余弦相似性,把相似性大于一个阈值的新闻合并成一个小类。把每个小类看作整体,计算小类的特征向量,再计算小类之间两两余弦相似性,然后合并成大一点的小类。
计算余弦的技巧?
分母部分可以保存不用重复计算;分子内积只考虑非零元素;删除虚词、连词、副词、介词;对在重要位置(标题、第一个句子、段落)的词进行额外提高加权值。
十五、矩阵运算和文本处理的分类问题
余弦定理计算需要多次迭代,耗时。使用SVD分解能够加快速度,但耗费内存,分类粗糙。大数据处理可以先进行SVD,再进行余弦定理。
十六、信息指纹及其应用
将一段文字、图片、视频映射成固定位数的二进制数。
伪随机数算法:PRNG<梅森旋转算法<MD5
应用:判断集合相同(利用信息指纹相加和交换率特性)、对比长字符串(将字符串提取信息指纹)、判断网页是否相同
相似哈希(具有一定容错能力的信息指纹)
十七、密码学数学原理
一个数很难进行因式分解得到两个很大的素数
十八、搜索引擎反作弊
将作弊看作是通信模型中的噪音,一方面要提高算法抗噪能力,另一个方面要过滤噪音。
二十一、拼音输入法的数学原理
输入汉字的快慢取决于击键次数(编码长度) 乘以 寻找这个键所需时间
拼音转汉字算法和最短路径问题一样,使用动态规划。
二十二、自然语言语料库
语料库组织LDC提供的Penn Tree Bank
- 《数学之美》笔记
- 《数学之美》笔记
- 数学之美 简单笔记
- [简要笔记]数学之美
- 数学之美笔记1
- 数学之美笔记2
- 《数学之美》阅读笔记
- 数学之美--笔记1
- 数学之美--笔记2
- 数学之美--笔记3
- 数学之美--笔记4
- 数学之美--笔记5
- 数学之美--笔记6
- 数学之美--笔记7
- 数学之美学习笔记
- 数学之美笔记1
- 数学之美笔记2
- 数学之美笔记3
- 基础数学公式 长期更新
- MySQL语句整理(1)
- 抽屉原理
- 内部类学习笔记
- MySQL语句整理(2)
- 《数学之美》笔记
- java jdbc流程
- react报错解决办法
- 三次样条曲线
- 斜率优化DP模板题--HDU3507 Print Article
- Linux压缩与解压缩命令
- [BZOJ 3944]Sum:杜教筛
- bootstrap 学习
- 【数论Day3】进制问题 题解