我的编程生活-20120320

来源:互联网 发布:c 调用json接口 编辑:程序博客网 时间:2024/06/02 08:58

   今天晚上七点早早的回到了家里,先睡了一个小时的觉,然后感觉精神稍微清醒了点。

   这几天一直在看heritrix源码,不熟悉东西一大堆。不仅仅是因为不喜欢用别人的代码,而是想更多的了解一些东西,而不是做多了就像运维一样。于是在上面耗费了一周左右的时间,也只是大致理清了框架,知道哪里可以被优化,哪里可以进行修改。革命尚未成功,同志必须努力。

  数据有了之后,需要提取部分给LDA,这部分倒是好弄,下一部分则是分词和计算用户-广告的相似度。看了几篇paper都没有确定好一个方案。也只有先按MS的那个样例先做下,不行就把他们的模型替换为PLSI看看效果。不过表示谨慎乐观。反正三月份搞定这些事情是很难的了。

  聚类那块,之前有了改进方案,也蛮想改改看看效果怎么样。然后PM有认为feature个数不够,让我先整文本分类这块,一点都不熟悉,也没怎么涉及过,于是折腾到现在。

  anyway,fighting。

  过几天在把今年的计划放到博客中。

原创粉丝点击