机器学习在互联网应用面临的 10 大挑战
来源:互联网 发布:vb代码大全 编辑:程序博客网 时间:2024/06/11 17:12
1: “数据稀释性”:训练一个模型,需要大量(标注)数据,但是数据往往比较稀疏。比如,我们想训练一个模型表征某人 “购物兴趣”,但是这个人在网站上浏览行为很少,购物历史很少,很难训练出一个 “meaningful model” 来预测应该给这个人推荐什么商品等 …
2:“不平稳随机过程产生的数据”:机器学习模型往往假设数据的产生是 “平稳随机过程”。但是有些互联网数据(比如 spam 邮件,spam 网站等)的产生是动态的,不平稳随机过程 …
3~4:高数量和高质量 “标定数据” 是机器学习效果的保障,但是获取标定数据需要耗费大量人力和财力。而且,人会出错,人有主观性。如何获取高数量和高质量标定数据,或者用机器学习方法只标定 “关键” 数据 (active learning) 值得深入研究 …
5:”Scalability” 是互联网的核心问题之一。搜索引擎索引的重要网页超过 100 亿: 如果1台机器每秒处理1000 网页,需要至少100天。所以出现了 MapReduce, MPI, Spark, Pegasus, Pregel, Hama … 等分布式计算构架。选择什么样的计算平台,和算法设计紧密相关 …
6:“速度” 是互联网核心的用户体验。线下模型训练可以花费很长时间:比如,Google 某个模型更新一次需要几千台机器,大约训练半年时间。但是,线上使用模型的时候 要求一定要 “快,实时 (real-time)” …
7: 互联网 每时每刻 都在产生大量新数据,要求模型随之不停更新,所以 “online learning” 是机器学习的一个重要研究方向。人也是一样: Life is an online learning process … “online learning” 也是人最重要的能力之一
8:“Cold- Start” (冷启动) 是互联网应用的典型问题:一个好互联网产品,用的人多,得到的数据多;得到的数据越多,模型训练的越好,产品会变得更好用,用的人就会更多 … 进入 “良性循环”。对于一个新产品,在初期,要面临数据不足的 “冷启动” 问题 …
9: 机器学习之美在于对于不同的问题需要不同建模方法。我去给讲座的时候,经常听有人说:“SVM 做过,Naive Bayes 做过 … 但效果不好”;做过很简单,但能否 “做到极致”? 这个世界你能想到别人想不到的事情概率极低,只有一件你花十倍努力做到极致的事情!
10:“Human + Machine” 机器学习应用在一个特定领域,需要特定领域的专家知识:机器学习应用在 “医学”,需要一个经验丰富的医生;应用在 “股票”,需要一个有10年以上经验的操盘手;应用在 “互联网”,需要一个上网时间超过 1万小时的 PM …
- 机器学习在互联网应用面临的 10 大挑战
- 机器学习在互联网应用面临的 10 大挑战
- 机器学习在推荐上面临的十大挑战
- 机器学习面临的挑战和解决方法
- 微软05年面临的10大挑战
- 游戏开发者面临的10大技术挑战
- 思科2007面临的5大挑战
- 老三套商业模式在移动互联网面临挑战
- 企业应用开发面临的挑战
- 无监督学习面临的众多挑战
- 我国大数据战略实施面临的五大挑战
- 大数据引发的变革与企业面临的挑战
- Portal面临的挑战
- 阿里巴巴面临的挑战
- 入侵检测系统(IDS)面临的三大挑战
- 2007年微软面临的五大挑战
- 浅析传统关系数据库面临大数据的挑战
- 大数据安全:hadoop面临的安全挑战
- 关于序列的几个算法
- cassandra1.1.0中Compaction部分源代码解析——LeveledCompactionStrategy
- GNU ARM汇编--(五)中断汇编之嵌套中断处理
- android图片处理方法(不断收集中)
- qplot
- 机器学习在互联网应用面临的 10 大挑战
- 新闻发布系统
- Android 修改Bitmap 图片像素的信息 R G B 颜色值 详解
- 去看李记者,天津印象
- 上转型对象的成员变量和成员方法的调用
- experiment:use rsize let std::wstring.compare is right
- jQuery LigerUI 使用教程入门篇
- poj 1552 Doubles
- Response的一些方法总结