毕业设计
还是写写毕设的过程吧。从选导师开始,这就是一个很烦的事情。因为热门导师有很多人选,三个志愿其实后两个完全没意义,我就三个都没要我。。还好最后我的导师还不错,很负责的,每一两周都检查我们的进度,提一些建议。
不想随便写个无聊的项目,最开始我的选择是Kaggle上的Personalize Expedia Hotel Searches - ICDM 2013,导师觉得她也不熟,就换了个短文本聚类的题目,最开始的选题是《并行聚类算法在短小文本上的应用》,寒假的时候在家还在看谱聚类的算法,《A Tutorial on Spectral Clustering》(请Google)写得很详细,数学太烂了,看了点线性代数,还是看不懂,后来导师告诉我不用看证明了= =只实现出来就好。 接下来几个月就慢慢在意写代码的基础上实现了K-means、层次聚类和谱聚类,再通过WordNet获取相似度,最后就搞定了。。放弃了Hadoop相关的东西,所有内容都是导师提供的,创新性为0。这是答辩PPT。
最后一周的时候,导师叫我把传统文本聚类的向量空间模型也做出来,数据集是路透社经过处理后的一些向量,我还请了假写好代码之后发现求出的最佳聚类数目跟正确答案不匹配,又没有和原始数据的对应关系,根本没法debug。那个时候一个人在新租的房子里非常不爽,我的感受就像在做一个需求不清的项目,到了最后一刻又要改需求。反思之后,感觉我的整体毕设就是一直被导师push,像在完成一个作业一样,应该要反过来才对,最开始就应该好好研究一下我原始的选题,早一点要实验数据,早知道是这样的数据的话就应该很早放弃并行,这么点数据搞毛线啊。还有一点很不爽,就是没有去做数据的预处理,起初还想做twitter真实数据呢。。完全不可能。最后的东西只是在很烂的数据上跑了一下而已。
通过毕设了解一点学术圈了,就是不停地提出想法、做实验、发论文的样子。数据挖掘这边coding其实不太重要,数学不行寸步难行。最后写论文的时候花了很久,写到将近一万字到一万五千字是最艰难的,都不知道些什么好了,最后凑到两万多字,四十多页。假期在家看谱聚类的时候也很不爽的。。还想去嘉定看看大组答辩都有啥呢,那天没去,在印论文。
再列几个有价值的参考资料:
-
漫谈 Clustering 系列 对各种聚类算法都有介绍
-
Clustering Indices Bernard Desgraupes University Paris Ouest Lab Modal’X April 2013 介绍各种聚类评价方法
-
Web数据挖掘 聚类算法介绍详细,译者还有sjtu的俞勇,不过翻译一般,有些词前后译文都不一样。。
-
TF-IDF与余弦相似性的应用(一):自动提取关键词 阮一峰的文章,我论文里的传统文本聚类就是在凑字数- -
-
互联网时代的社会语言学:基于SNS的文本数据挖掘 M67很早以前写的,just for fun
写论文的过程中Word仍然经常崩溃或者按了保存其实没存上,非常感谢Dropbox一直在备份,还保留历史记录。这次学到了Word自动加参考文献、给图片和表格加编号,还有用制表符给公式编号,以后估计也用不到了。
comments powered by Disqus