《数学之美》笔记

来源：互联网发布：华普汇能软件编辑：程序博客网时间：2024/06/11 09:23

三、统计语言模型

可用于机器翻译、语音识别、印刷体或手写体识别、拼写纠错、汉字输入和文献查询。

一个文字序列是否能构成有意义的句子

-> P(S)=P(w1,...,wn)=P(w1)P(w2|w1)P(w3|w1,w2)...P(wn|w1,...,wn-1) 概率最大问题

-> P(s)=P(w1)P(w2|w1)P(w3|w2)...P(wn|wn-1) 马尔可夫假设

->P(wi|wi-1) ~ #(wi-1,wi) / #(wi-1)

上述是二元模型，可拓展为高阶模型P(wi|w1,...,wi-1) = P(wi|wi-N+1,...,wi-1)

一般N不会高于3？

N增大，开始模型效果显著之后不明显，但资源耗费快速上升。

更高阶的模型也无法覆盖所有语言想象现象？

上下文相关性跨度可以非常大，这是马尔可夫假设的局限性，其他一些长程依赖性可以解决这个问题。

训练数据不满足大数定理时的问题？

古德-图灵估计（概率平滑）

语料选区问题？

网页搜索应用中，多样性数据比语料干净、无噪音的数据好。

四、中文分词

查字典法：从左到右扫描，遇到字典有的词标识出来，遇到复合词匹配最长的词，遇到不认识的字串就分割成单字词。

若出现多种分词结果，利用统计语言模型找到概率最大的一组分词方法。

不同的应用，分词的一致性、颗粒度和层次都会不同。

五、隐马尔可夫

训练模型：鲍姆-韦尔奇算法（EM算法）

解码预测：维特比算法

八、布尔代数和搜索引擎的索引

搜索引擎索引好比图书馆的索引卡片，通过卡片可以找到某本书的位置。

十、民主决策式网页排名技术

PageRank算法：某网页的排名等于所有指向这个网页的其他网页权重之和（网页排名高的贡献权值大）

怎么解决其他网页的排名问题？

平均初始化各网页权值，B = A网页之间链接数矩阵 * B所有网页排名，不断相乘最后达到稳定。同时利用稀疏矩阵相乘和并行计算解决大数据问题。

十一、网页和查询的相关性

下载网页、建立索引、衡量网页质量、网页和查询相关性组成搜索引擎。

加权词频TF-IDF= TF1*IDF1 + ... + TFn*IDFn。TF词频，IDF=log(D/Dw) (D总网页数，Dw词所在网页数)

使用词频代替词数解决长短网页不公问题。删除停止词、虚词、介词。调整每个词的相关性权重。

十四、余弦定理与新闻分类

新闻的特征向量：找出一篇文章中的所有实词，并计算每个词的TF-IDF构成向量

相似性度量：余弦定理计算两两向量的夹角

事先没有新闻类别的特征向量怎么分类？

计算所有新闻两两余弦相似性，把相似性大于一个阈值的新闻合并成一个小类。把每个小类看作整体，计算小类的特征向量，再计算小类之间两两余弦相似性，然后合并成大一点的小类。

计算余弦的技巧？

分母部分可以保存不用重复计算；分子内积只考虑非零元素；删除虚词、连词、副词、介词；对在重要位置（标题、第一个句子、段落）的词进行额外提高加权值。

十五、矩阵运算和文本处理的分类问题

余弦定理计算需要多次迭代，耗时。使用SVD分解能够加快速度，但耗费内存，分类粗糙。大数据处理可以先进行SVD，再进行余弦定理。

十六、信息指纹及其应用

将一段文字、图片、视频映射成固定位数的二进制数。

伪随机数算法：PRNG<梅森旋转算法<MD5

应用：判断集合相同（利用信息指纹相加和交换率特性）、对比长字符串（将字符串提取信息指纹）、判断网页是否相同

相似哈希（具有一定容错能力的信息指纹）

十七、密码学数学原理

一个数很难进行因式分解得到两个很大的素数

十八、搜索引擎反作弊

将作弊看作是通信模型中的噪音，一方面要提高算法抗噪能力，另一个方面要过滤噪音。

二十一、拼音输入法的数学原理

输入汉字的快慢取决于击键次数（编码长度）乘以寻找这个键所需时间

拼音转汉字算法和最短路径问题一样，使用动态规划。

二十二、自然语言语料库

语料库组织LDC提供的Penn Tree Bank

阅读全文

0 0