《数学之美》笔记

来源:互联网 发布:华普汇能软件 编辑:程序博客网 时间:2024/06/11 09:23

三、统计语言模型

可用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。

一个文字序列是否能构成有意义的句子

-> P(S)=P(w1,...,wn)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,...,wn-1) 概率最大问题

-> P(s)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) 马尔可夫假设

->P(wi|wi-1) ~ #(wi-1,wi) / #(wi-1)

上述是二元模型,可拓展为高阶模型P(wi|w1,...,wi-1) = P(wi|wi-N+1,...,wi-1)

 一般N不会高于3?

N增大,开始模型效果显著之后不明显,但资源耗费快速上升。

更高阶的模型也无法覆盖所有语言想象现象?

上下文相关性跨度可以非常大,这是马尔可夫假设的局限性,其他一些长程依赖性可以解决这个问题。

训练数据不满足大数定理时的问题?

古德-图灵估计(概率平滑)

语料选区问题?

网页搜索应用中,多样性数据比语料干净、无噪音的数据好。


四、中文分词

查字典法:从左到右扫描,遇到字典有的词标识出来,遇到复合词匹配最长的词,遇到不认识的字串就分割成单字词。

若出现多种分词结果,利用统计语言模型找到概率最大的一组分词方法。

不同的应用,分词的一致性、颗粒度和层次都会不同。


五、隐马尔可夫

训练模型:鲍姆-韦尔奇算法(EM算法)

解码预测:维特比算法


八、布尔代数和搜索引擎的索引

搜索引擎索引好比图书馆的索引卡片,通过卡片可以找到某本书的位置。


十、民主决策式网页排名技术

PageRank算法:某网页的排名等于所有指向这个网页的其他网页权重之和(网页排名高的贡献权值大)

怎么解决其他网页的排名问题?

平均初始化各网页权值,B = A网页之间链接数矩阵 * B所有网页排名,不断相乘最后达到稳定。同时利用稀疏矩阵相乘和并行计算解决大数据问题。


十一、网页和查询的相关性

下载网页、建立索引、衡量网页质量、网页和查询相关性组成搜索引擎。

加权词频TF-IDF= TF1*IDF1 + ... + TFn*IDFn。TF词频,IDF=log(D/Dw) (D总网页数,Dw词所在网页数)

使用词频代替词数解决长短网页不公问题。删除停止词、虚词、介词。调整每个词的相关性权重。


十四、余弦定理与新闻分类

新闻的特征向量:找出一篇文章中的所有实词,并计算每个词的TF-IDF构成向量

相似性度量:余弦定理计算两两向量的夹角

事先没有新闻类别的特征向量怎么分类?

计算所有新闻两两余弦相似性,把相似性大于一个阈值的新闻合并成一个小类。把每个小类看作整体,计算小类的特征向量,再计算小类之间两两余弦相似性,然后合并成大一点的小类。

计算余弦的技巧?

分母部分可以保存不用重复计算;分子内积只考虑非零元素;删除虚词、连词、副词、介词;对在重要位置(标题、第一个句子、段落)的词进行额外提高加权值。


十五、矩阵运算和文本处理的分类问题

余弦定理计算需要多次迭代,耗时。使用SVD分解能够加快速度,但耗费内存,分类粗糙。大数据处理可以先进行SVD,再进行余弦定理。


十六、信息指纹及其应用

将一段文字、图片、视频映射成固定位数的二进制数。

伪随机数算法:PRNG<梅森旋转算法<MD5

应用:判断集合相同(利用信息指纹相加和交换率特性)、对比长字符串(将字符串提取信息指纹)、判断网页是否相同

相似哈希(具有一定容错能力的信息指纹)


十七、密码学数学原理

一个数很难进行因式分解得到两个很大的素数


十八、搜索引擎反作弊

将作弊看作是通信模型中的噪音,一方面要提高算法抗噪能力,另一个方面要过滤噪音。


二十一、拼音输入法的数学原理

输入汉字的快慢取决于击键次数(编码长度) 乘以 寻找这个键所需时间

拼音转汉字算法和最短路径问题一样,使用动态规划。


二十二、自然语言语料库

语料库组织LDC提供的Penn Tree Bank

原创粉丝点击