这是基于spark的电影推(tuī)荐系统数据(jù)集下载,博(bó)主一年前写过一个这样的文章(zhāng),电影推荐也是博主一年前就学习过的,温故而知新,重新拿出来好好(hǎo)重新研究(jiū)一番。
随着大数据时代的到来,数据当中挖取金子的工作越来越有吸引力(lì)。利用Spark在内存迭代运算、机(jī)器学习(xí)领域强悍性能的优势,使用spark处理数据挖掘问题就显得很有实际价值。这篇(piān)文章给大家分享一个spark MLlib 的推(tuī)荐实战例子。我(wǒ)将会分享怎样用spark MLlib做一(yī)个电影评分(fèn)的推荐系统(tǒng)。使用(yòng)到的算法是user-based协同过滤。如(rú)果(guǒ)对Spark MLlib不太了解(jiě)的,请阅读我的(de)上一篇(piān)博客。
1. 拷贝spark-assembly-1.4.1-hadoop2.6.0.jar到WebContent/WEB-INF/lib目录;
(spark-assembly-1.4.1-hadoop2.6.0.jar文件(jiàn)由(yóu)原(yuán)生spark-assembly-1.4.1-hadoop2.6.0.jar删除javax/servlet包获(huò)得,由于太大,所以就没有上传了);
2. 拷贝原(yuán)生spark-assembly-1.4.1-hadoop2.6.0.jar文件到HDFS(目录和代码中一致(zhì));
3. 拷贝WebContent/WEB-INF/lib目录中的Spark141-als.jar到HDFS(目录和代码(mǎ)中保持(chí)一致);
4. 拷贝(bèi)Hadoop集群(调用所使用的集(jí)群,每个人不一(yī)样)配置文件(jiàn)yarn-site.xml到(dào)HDFS(目录和代码中(zhōng)保持一致);
5. 修改相关配置文件,由于hadoop相关配置、系(xì)统的一些属性需(xū)要(yào)修改为实际的配置及属性,所(suǒ)以针(zhēn)对(duì)这些需要进行修改(后面版本中(zhōng)会对此(cǐ)单独一(yī)个配置文(wén)件)。
