线上行为分析和建模原理

来源:互联网 发布:linux 磁盘使用情况 编辑:程序博客网 时间:2024/06/10 09:44

OnlineBehavioral Analysis and Modeling Methodology (OBAMM)1

David J.Robinson†, Vincent H. Berk†,and George V. Cybenko†

†Firstname.M.Lastname@Dartmouth.EDU, ThayerSchool of Engineering at

DartmouthCollege, Hanover, New Hampshire

 

摘要:本文介绍了一个新颖的方法,该方法是跟踪记录用户使用计算机的行为,从而创建一个精细粒度的用户使用模式的画像。这个画像,可以用来检测用户异常的线上行为,识别入侵,恶意的知情人,错误分派的资源和错序的业务流程等。成功检测这些行为能显著的减少敏感数据的泄漏风险,或关键资产因为疏忽管理而被暴露的风险。

1 介绍

随着人们使用它来处理工作和生活方方面面的事情,万维网已经成为一个世界上最大的信息库。由于我们对WEB的依赖不断增长,能够采集到的关于个体如何使用Internet的信息也在不断增长。

电子商务公司和销售公司几年前就开始利用这方面的数据,通过积累个人信息用于销售活动或者提升个性化购物体验。

显然这些数据对销售公司很重要,但同样这些数据对其他领域也有潜在的收益。比如,在计算机安全和知识资产保护方面,但很少有人关注到这些领域如何使用用户行为画像。尽管画像面临如何处理个人隐私的问题,这通常是比较棘手的。但精确的画像和用户行为描述能够消灭许多计算机相关的犯罪行为。在计算机安全领域使用画像信息能帮助有效地检测流氓用户,恶意行为,违章和未授权的数据泄露,甚至在某些情况下,阻止它们的发生。

本文中,我们提出了基于个体web浏览行为的线上行为分析和建模方法来精确有效地将用户分类,并且提出在计算机安全领域应该如何使用这些信息。

本文的第二部分 介绍了其他领域研究画像信息的方法作为背景知识。

第三部分简要介绍OBAMM。

第四部分介绍一个使用OBAMM的初步使用结果。

第五部分介绍这个技术在计算机安全领域可以怎么用。

第六部分总结和规划后续的工作。

2 背景知识

电子商务和销售公司已经使用用户画像好些年了。简单的说,它们的方法是搜集大量的个人用户信息。通过将个人的消费历史信息(线上的和线下的)、金融记录、杂志销售、超市储值卡、调查和彩票抽奖等信息做聚合起来分析,获得用户画像。这些信息通过清洗、整理和分析等统计和数据挖掘的技术手段产生对应个体的“购物”画像。这个画像随后被用于帮助进行广告活动和提升个性化购物体验,或关联产品推荐等。Amazon就是一个很好的例子,通过在电子邮件促销活动中增加“推荐物品”和“购买了此商品的人还购买了xx”这两个信息来告诉用户这些物品可能是你感兴趣的,或者让顾客看看过去的销售记录。

另一方面,随着能从某些维度记录和分析网络流量的工业设备的出现,网络流量画像成为一个正在新兴的领域。然而,这些画像仅能从网络会话和流量的层次来分析。而对用户画像至关重要的应用层信息还没有被利用。一些产品,比如Qradar(seehttp://www.q1labs.com)和Mazu Profiler (seehttp://www.mazunetworks.com)认为TCP/IP流量模式是无记忆的行为指示器。然而我们寻找一个更全面的,面向用户行为的画像,而不仅仅是主机流量级别的画像。

 

最后一个在获得巨大成功的领域是业务流程建模。尽管主要目的是被用为一个工具在组织中建模工作流来优化效率和生产率,但很多关于个体用户行为和关键特征的建模的研究都因此而开展着。

传统的数据搜集通过调查问卷和访谈,直接观察方式。关于什么数据是有用的,如何使用这些数据产生精确的个体画像,这个研究领域提供了大量的信息和有用的经验。我们的自动数据搜集技术也许能推动业务流程建模学的发展,因为相比原传统的方法而言,我们能提供简单有效地方法测试假说和搜集用户的行为。

3 方法

OBAMM 是一个新技术,使用用户网页浏览行为,来精确的分类找出个体最感兴趣的领域是什么。

我们’默默地’嗅探网络流量来获得浏览信息,不是主动侵入主机的浏览器程序。基于我们命名为“反向类别查询”的方法,只需要相当少量的用户数据,OBAMM 就可以提供非常准确的分类模型。尽管在基本实现上的差异不同。我们提出的方法还是遵循数据挖掘的通用方法论,比如:搜集数据、处理数据、发现模式、分析模式。下面我们将简要介绍这些都如何通过OBAMM来实现。

3.1 用户数据

由于线上用户利用Internet做任何事情,做研究、娱乐、线上购物。似乎我们需要用来描述用户的信息应该是唾手可得的。

尽管某些领域已经利用用户的浏览行为做研究,比如提高对等网络的查找[10],比如出版商和零售商的推荐系统等[11, 12]。但是利用这些信息来创建一个彻底的用户行为画像方面做的很少。

提供这类详细需求的关键的信息片段来自URL的组成。URL代表的一个文档或资源的全球的通用地址。URL的常见形式是WEB页面地址。当一个用户操作浏览器请求一个URL,或者点击一个超链时,一个HTTP/GET请求就产生了。这个GET请求能够被捕获到,从这个GET请求中能够分析得到目标主机、各种客户端浏览器信息等内容。

通过搜集用户访问过的URL,就能获得用户在一段时间内看到的信息的大部分。在加上网站数量,频率和访问时长等,这些就可以比较简单的描绘出个体的素描。

3.2 数据分类

OBAMM的关键是反向分类数据库的存在。数据有各种形式,但是就本文研究的范围而言,我们只对按照某种原则分等级归类好的URL感兴趣。这种分类数据的一个列子是Open Directory

Project (ODP). ODP是一个人工分类的互联网链接的开放内容目录,内容相似的URL被高层次的分类组织在一起,又被低层次的子类相互区分。比如一个URL:http://www.dartmouth.edu

会返回如下的分类信息:

Reference: Education: Colleges andUniversities: North America: United States: New Hampshire: Dartmouth College

这个信息能够被转化为一个有向图G=(V,E),其中V表示URL类别描述的集合,E是连接两个类别的边的集合。上述分类的表达,会产生类似图1的有向图。


‘反向分类’是通过分析更多的URL来实现的,这些URL所对应的有向图信息需要添加到一起形成一个更大的图来代表用户的浏览行为。在图中,通过增加边的权重描述来代表访问频率,增加节点的权重来代表喜好的通用性。用这种方式创建图,能提供一个简单的方式可视化一个用户的画像,同时也能看到容易被忽略的数据间的关系。

比如,如何下面两个URL: http://espn.go.com 和 http://www.vivacheap.com,也许不能立即看到这两个站点之间有什么样的联系。但是通过将各自的分类信息加入到有向图中,如图2所示,就可以通过直观的或者数学匹配的方式看到一个事实,这两个URL共享了一个SPORT节点。这会变成一个描述用户画像的很有意义的开始。此外,聚类技术能够在不同的分类级别应用,从而从不同级别展示数据的抽象(也许需要用到裁剪算法消除可能的‘噪音’)。




Figure 2:Visual Correlation of Seemingly Disparate Data

除了ODP,还有一些商用的或开源的选择,可以获取URL的分类信息。比如YellowPages.com, http://kc.forticare.com/等。需要注重考虑的是,当使用多数据源时,这些数据源必须要能够规范化成一种格式和一种分类结构。

 

3.3 模式发现和模式分析

实际用户画像的格式是我们研究的核心。尽管现存的一些商业工具声称能跟踪用户行为,得到用户画像,但大多数分析在TCP层面,很少涉及到用户真正做了什么。

当我们考虑行为画像时,有三个不同层次的画像模型:

1.0th层模型:字节流级别事件的记录,比如:访问过的站点列表。

2.1st层模型:频率,可行性分布,比如伯努利分布模型,基于之前的访问频率,可以预测一个站点被访问的可能性。

3. 2nd 层模型: 因果关系,时间相关,比如隐-马尔科夫模型分析两个网站访问的转移概率

大部分行为画像属于0th范畴,他们没有对重要的时间顺序的事件建模。比如一个人会先访问他们喜欢的购物网站,然后再去第二家。同样大部分用户每天按同样顺序访问新闻和邮件网站。这些都是重要的用户行为信号。

在我们的研究中,我们认为用户画像是由用户的浏览行为来记录的。用户的浏览行为用下面的关键特征标示:目的地,频率,时长,次序。

目的地代表用户实际浏览的地点,这个信息提供了详细的喜欢、不喜欢、喜好、兴趣等个体相关的信息。

频率代表个体访问某个网站的次数。这个信息与时长结合起来可以推导出某个数据对特定个体的重要性。

次序代表浏览行为的顺序,从这个可能推断出一个特定用户的行为模式。

尽管只基于用户浏览行为,这些信息的组合提供了详细的能被用于分类目的的个体属性,通过将我们的画像建立在0、1、2层分析模型上,我们能够说明用户在做什么,还能说明是怎么做的。图3是一个图形化的表述,关于一个特定用户的网络浏览信息分类和时间上的交互。



Figure 3: TemporalAspects of Categorical User Data

4 实验结果

为了测试OBAMM,我们选择使用ODP和少量的的blacklist信息(来自Blacklist.com)作为我们分类库的数据集。在实验的时候DMOZ数据集包含了4,830,584 URI连接,总共分成69类(包括类和子类)。Blacklist信息在合并入DMOZ数据集前,做了规范化,目的是保证两个数据源数据一致。

这69个分类通过把URL字符串HASH后的值构成分类索引,用来根据URL查询分类类型。尽管我们也知道有更好的有效率的方法来存储和检索这些信息。但是就实验而言,我们觉得这种方法性能和准确性上能够满足了。

在所有的分类数据被采集和存储后,从我们的实验室的个体采集大概一周的样本数据。样本数据通过预处理,仅包含HTTP Get请求(并且样本数据安装源IP切分。我们假设不同的源IP代表不同的用户。),删除了广告链接和其它自动生成的链接。最终为每个个体用户形成一个文件,文件中包含该用户访问的所有URL。这些文件中的URL被用于查询分类库,用来获得每个URL的分类信息,并构建一个有向图,用类别名称作为节点,边的权重代表用户访问该类型下的网站对应的次数。图形信息使用GraphML格式来存储(seehttp://graphml.graphdrawing.org) ,能够方便的用类似yED (see http://www.yworks.com)这样的工具查看、分析和操作。图4表示的一个用户访问分类图的子集,代表用户范围“Computers”子类下的习惯。


Figure 4:Subset of a directed graph representing a user’s browsing habits as they relateto computers

正如图4中所看到的,在高层次上很明显的看出用户有哪些行为,这些行为的频率。OBAMM一个重要的特性是能够从不同抽象层面观察用户的行为。图中每一个大一点的矩形实际代表一组两个以上的节点(in undirected subtrees of the principle node).图5就是一个举例, Shoppingtree节点如何进一步展开,显示更多的信息。


Figure 5:Expansion of Shoppingtree category node

我们从数据集中抽取了5个个体,每个个体抽取一周的数据。通过使用ODP和blacklist 数据集的一个分类,分析结果是63%的URL能够精确定位到分类。尽管初看起来,不是很好的一个数字。一些因素需要考虑,首先只使用了一个分类数据源(blacklist中只取了很少一部分数据)。其次我们使用了hash方法来匹配URL。通过更进一步的分析我们的样本数据,我们认为如果使用支持模糊匹配的数据结构,那么我们的分类识别率可以提高15-20%的量。

 

5 安全性应用

使用这个方法,我们能快速产生画像描述,每个用户兴趣主题,在每个主题上花费了多少时间,这个主题对应的URL访问了多少次?

这些画像是关于用户网上行为的一个很独特的指示器,能够提供在一系列的领域提供洞察力:

1)恶意危害。目标主机显示在一天的某几个时间点活动频繁,或者访问流量异常。这可能代表一个被攻击的机器正在向外部攻击者泄露敏感数据信息。

2. 在工作时间之外的活动可能意味着恶意的内部员工使用信任环境获取或分发敏感文档。

3. 商业流程建模。通常大量的工作无关的网络浏览行为意味着员工的工作效率需要优化。

4.失序业务流程优化.两个或更多的用户花费很多的时间在与同一组网站的连接上,也许意味着需要建立一个特别的服务来规避组织的低效率。不仅仅能获得高效率,同样也规避了安全风险,当外部第三方被用来交互敏感任务的信息时

尽管这些安全和效率的含义是明显的,潜在的知识资产的影响是不明显的。一些今天成功的组织都在严密防范知识资产的风险,来自内外部攻击者和泄密者,甚至无意识的行为等。现存的网络安全解决方案关注与网络包、文件检测的非法信号检测。还很少有人检测用户的行为,这正是我们的终极目标。

…..(剩下都是水文,实在不想翻译了)

 

参考文献:

1.Brown B, Aaron M (2001) The politics of nature. In: Smith J (ed) The rise ofmodern genomics,3rd edn. Wiley, New York.

2.Olmez A E (2006), Exploring the Culture-Performance Link in HeterogeneousCoalitionOganizations. PhD Thesis, George Mason University, Fairfax, VA.

3.Smith J, Jones M Jr, Houghton L et al(1999) Future of health insurance. N EnglJ Med965:325-329

4.South J, Blass B (2001) The future of modern genomics. Blackwell, London

5.Tantipathananandh C, Berger-Wolf T Y, Kempe D (2007) A framework for community identificationin dynamic social networks. In: proceedings of the 13th international conference on knowledge discovery and datamining 717-726

6.V. Berk an G. Cybenko, “Process Query Systems”, IEEE Computer, January 2007, p62-71

7.Qradar, http://www.q1labs.com

8.Mazu Profiler, http://www.mazunetworks.com

9.Ian H. Witten and Eibe Frank, “Data Mining, Practical Machine Learning Toolsand Techniques”,

2nd edition, MK publishers 2005

10.Lu J, Callan J (2006) User Modeling for Full-Text Federated Search inPeer-to-Peer Networks.

In:Annual ACM Conference on Research and Development in Information Retriev

alProceedings of the 29th annual international ACM SIGIR conference on Researchand

developmentin information retrieval 332-339

11. Quatse,Jesse and Najmi, Amir (2007) "Empirical Bayesian Targeting,"Proceedings,

WORLDCOMP'07,World Congress in Computer Science, Computer Engineering, and

AppliedComputing

12. Parsons,J., Ralph, P., & Gallagher K. (2004) Using viewing time to infer userpreference in

recommender systems. AAAI Workshop in Semantic WebPersonalization, San Jose, California,July.





原创粉丝点击