如何比较两个文本的相似度
来源:互联网 发布:刺激女生乳头知乎 编辑:程序博客网 时间:2024/06/02 10:21
本文转自:点击打开链接
比较一篇文章和其它文章的相似度,可以拆解为以下几个步骤。
1、定义:如何认定两篇文章具有相似性?
a)有若干相同的单词或者关键词主题词。
b)有若干相同的句子。
c)有若干相同的段落。
2、设计算法和系数:需要根据测试数据和经验来设定计算公式,首先我们可以假设。
a)假设主题词的相似度占整篇文章相似度的比重为20%,即0.2 *a
b)假设句子相似度占整篇文章相似度的比重为50%,即0.5*b
c)假设段落的相似度占整篇文章相似度的比重为30%,即0.3*c
3、整篇文章的相似度为0.2*a + 0.5*b +0.3*c,剩下的就是该如何计算a、b、c的问题了。
a)主题词的相似度,可以根据主题词在两篇文章中的命中次数比例来计算
b)句子相似度,可以通过标点符号进行断句,计算出两篇文章中相同句子的数量和所有句子的数量比例来计算
c)段落的相似度,可以通过动态规划算法,具体参见《算法导论》动态规划部分计算出两篇文章相同字符串的最大长度来计算。
0 0
- 如何比较两个文本的相似度
- 如何比较两个文本的相似度
- 如何比较两个文本的相似度
- 如何比较两个文本的相似度 .
- 如何比较两个文本的相似度 .
- PHP比较两个数组的相似度
- 比较两个字符串的相似度
- oracle比较两个字符串的相似度
- 比较两个字符串的相似度
- PHP 比较两个字符串的相似度
- 比较两个字符串的相似度
- AudioCompare比较两个音频的相似度
- 大文本相似度比较
- 如何计算两个文档的相似度
- 如何求两个序列的相似度
- SQL_函数比较两个字符串的相似度
- python 比较两个序列的相似度,不需要分词
- Word2vec 计算两个文本之间相似度
- 最常用的开源游戏引擎
- JadClipse 反编译
- UVa 10341 - Solve It
- 图片缓存
- CentOS 6.5挂载windows NTFS硬盘
- 如何比较两个文本的相似度
- 计算机应用
- cString is deprecated :first deprecated in iOS 2.0
- 活性炭热再生法为工业上最成熟的再生法
- 跟着BOY 学习COCOS2D-X 网络篇---强联网(采用技术 BSD SOCKET+多线程技术 +protobuf)(环境搭建篇+服务器)
- 接近传感器(CM3652)在触摸屏手机中的应用
- 使用JUnit
- UITextFiled select改成中文
- Android事件分发机制完全解析,带你从源码的角度彻底理解(下)