面试日(阿里巴巴校园招聘第三日,复旦大学面试)

来源:互联网 发布:java知名培训机构 编辑:程序博客网 时间:2024/06/10 13:47

校园招聘日到了关键的一天,最后一天,在复旦的叶耀珍的多功能厅进行的最后的面试工作。

二十多位的面试官对贰佰余位同学进行的面试和选拔。整体感觉下来,上午的比下午的同学相对比较要好一点。毕竟考试的成绩是有优势、有功底的。但是也遇到了部分不太自觉的同学,往届的和09年毕业的同学也参加了应届学生的竞争。为了保证公正性,我们坚决执行了预定的游戏规则。

相对于java和C++的热门,数据库和数据仓库的人才还是有待发展、推广。毕竟相对来说数据库和数据仓库不想java一样大红大紫。但是从长远来看数据绝对是未来的主流,永不落幕,相信数据仓库的路会越走越宽。阿里巴巴的数据仓库会越走越棒。

 

从面试的整体结果来看,上海的同学相对来说实践还是比较丰富的。比起浙江这边的高校同学,实践环节、实践项目还是有优势的。

 

下面介绍一下阿里巴巴数据仓库的几大值得大家期待和观看的技术领域:

【数据挖掘】结合B2B电子商务业务,发掘潜在客户,挽留流失客户,并对付费客户进行增值业务产品交叉销售;分析用户网站浏览行为,优化用户网站体验,为网站内容运营提供支持。

 

【决策支持系统】构建企业决策支持系统,为各级管理和网站运营人员提供KPI指标监控和各种决策数据依据;

 

【日志收集处理】研究超海量的网站日志的准实时收集与处理,为后续的用户行为分析、数据挖掘和企业决策提供稳定、可靠的数据来源;结合GP Hadoop分布式平台实现了每日数亿条点击流日志的准实时解析,结合各种异构数据库Erosa数据库准实时同步。

 

【分布式数据计算】利用HADOOPGreenplum等分布式存储计算框架,构建支撑海量、按需扩展的高效能计算平台,并在该平台上提供包括数据同步工具(DHW)、文本模式识别、数据挖掘算法包在内的各种通用组件,对DB应用,日志流处理、算法实现等各种应用进行有效支撑;分布式数据库利用列存储和压缩数据库中压缩比例超过110数据库吞吐量达到数十Gb每秒,两秒完成两亿offer全表扫描。分布数据库合理的数据分区和投影技术在十分钟内完成2亿乘2亿对象的相关性计算,中间临时结果超过1TB

 

【算法研究】针对文本分析、个性化推荐、客户细分等众多应用领域的难题进行理论研究;在现有算法基础上改进和创新,以适应超大规模数据和分布式计算环境的需要。

 

【用户行为研究】通过对相关性、用户网络行为特征的研究,实现Behavioral Targeting的解决方案,并深入研究算法优化、模型改善,为电子商务个性化营销提供数据基础。