pep-material: main_testing2/danube.scala@fec2c2f2d3db (annotated)

284 fc20e5f83f0e updated Christian Urban <urbanc@in.tum.de> parents: 266 diff changeset	1	// Core Part about Movie Recommendations
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	2	// at Danube.co.uk
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	3	//========================================
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	4
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	5
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	6	object CW7b { // for purposes of generating a jar
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	7
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	8	import io.Source
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	9	import scala.util._
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	10
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	11
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	12	// (1) Implement the function get_csv_url which takes an url-string
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	13	// as argument and requests the corresponding file. The two urls
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	14	// of interest are ratings_url and movies_url, which correspond
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	15	// to CSV-files.
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	16	// The function should return the CSV file appropriately broken
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	17	// up into lines, and the first line should be dropped (that is without
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	18	// the header of the CSV file). The result is a list of strings (lines
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	19	// in the file).
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	20
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	21	def get_csv_url(url: String) : List[String] = {
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	22	val csv = Source.fromURL(url)("ISO-8859-1")
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	23	csv.mkString.split("\n").toList.drop(1)
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	24	}
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	25
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	26	val ratings_url = """https://nms.kcl.ac.uk/christian.urban/ratings.csv"""
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	27	val movies_url = """https://nms.kcl.ac.uk/christian.urban/movies.csv"""
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	28
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	29	// test cases
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	30
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	31	//val ratings = get_csv_url(ratings_url)
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	32	//val movies = get_csv_url(movies_url)
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	33
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	34	//ratings.length // 87313
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	35	//movies.length // 9742
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	36
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	37	// (2) Implement two functions that process the CSV files. The ratings
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	38	// function filters out all ratings below 4 and returns a list of
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	39	// (userID, movieID) pairs. The movies function just returns a list
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	40	// of (movieId, title) pairs.
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	41
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	42
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	43	//def process_ratings(lines: List[String]) : List[(String, String)] = {
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	44	// for (cols <- lines.map(_.split(",").toList);
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	45	// if (cols(2).toFloat >= 4)) yield (cols(0), cols(1))
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	46	//}
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	47
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	48	def process_ratings(lines: List[String]) : List[(String, String)] = {
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	49	for (cols <- lines.map(_.split(",").toList);
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	50	if (cols(2).toInt >= 4)) yield (cols(0), cols(1))
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	51	}
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	52
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	53	def process_movies(lines: List[String]) : List[(String, String)] = {
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	54	for (cols <- lines.map(_.split(",").toList)) yield (cols(0), cols(1))
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	55	}
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	56
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	57	// test cases
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	58
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	59	//val good_ratings = process_ratings(ratings)
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	60	//val movie_names = process_movies(movies)
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	61
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	62	//good_ratings.length //48580
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	63	//movie_names.length // 9742
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	64
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	65	//==============================================
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	66	// Do not change anything below, unless you want
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	67	// to submit the file for the advanced part 3!
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	68	//==============================================
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	69
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	70
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	71	// (3) Implement a grouping function that calulates a map
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	72	// containing the userIds and all the corresponding recommendations
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	73	// (list of movieIds). This should be implemented in a tail
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	74	// recursive fashion, using a map m as accumulator. This map
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	75	// is set to Map() at the beginning of the claculation.
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	76
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	77	def groupById(ratings: List[(String, String)],
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	78	m: Map[String, List[String]]) : Map[String, List[String]] = ratings match {
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	79	case Nil => m
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	80	case (id, mov) :: rest => {
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	81	val old_ratings = m.getOrElse (id, Nil)
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	82	val new_ratings = m + (id -> (mov :: old_ratings))
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	83	groupById(rest, new_ratings)
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	84	}
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	85	}
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	86
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	87	// test cases
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	88	//val ratings_map = groupById(good_ratings, Map())
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	89	//val movies_map = movie_names.toMap
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	90
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	91	//ratings_map.get("414").get.map(movies_map.get(_)) // most prolific recommender with 1227 positive ratings
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	92	//ratings_map.get("474").get.map(movies_map.get(_)) // second-most prolific recommender with 787 positive ratings
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	93	//ratings_map.get("214").get.map(movies_map.get(_)) // least prolific recommender with only 1 positive rating
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	94
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	95
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	96	//(4) Implement a function that takes a ratings map and a movie_name as argument.
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	97	// The function calculates all suggestions containing
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	98	// the movie mov in its recommendations. It returns a list of all these
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	99	// recommendations (each of them is a list and needs to have mov deleted,
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	100	// otherwise it might happen we recommend the same movie).
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	101
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	102	def favourites(m: Map[String, List[String]], mov: String) : List[List[String]] =
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	103	(for (id <- m.keys.toList;
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	104	if m(id).contains(mov)) yield m(id).filter(_ != mov))
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	105
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	106
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	107
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	108	// test cases
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	109	// movie ID "912" -> Casablanca (1942)
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	110	// "858" -> Godfather
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	111	// "260" -> Star Wars: Episode IV - A New Hope (1977)
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	112
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	113	//favourites(ratings_map, "912").length // => 80
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	114
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	115	// That means there are 80 users that recommend the movie with ID 912.
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	116	// Of these 80 users, 55 gave a good rating to movie 858 and
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	117	// 52 a good rating to movies 260, 318, 593.
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	118
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	119
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	120	// (5) Implement a suggestions function which takes a rating
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	121	// map and a movie_name as arguments. It calculates all the recommended
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	122	// movies sorted according to the most frequently suggested movie(s) first.
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	123	def suggestions(recs: Map[String, List[String]],
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	124	mov_name: String) : List[String] = {
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	125	val favs = favourites(recs, mov_name).flatten
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	126	val favs_counted = favs.groupBy(identity).view.mapValues(_.size).toList
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	127	val favs_sorted = favs_counted.sortBy(_._2).reverse
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	128	favs_sorted.map(_._1)
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	129	}
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	130
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	131	// test cases
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	132
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	133	//suggestions(ratings_map, "912")
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	134	//suggestions(ratings_map, "912").length
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	135	// => 4110 suggestions with List(858, 260, 318, 593, ...)
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	136	// being the most frequently suggested movies
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	137
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	138	// (6) Implement recommendations functions which generates at most
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	139	// two of the most frequently suggested movies. It Returns the
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	140	// actual movie names, not the movieIDs.
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	141
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	142	def recommendations(recs: Map[String, List[String]],
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	143	movs: Map[String, String],
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	144	mov_name: String) : List[String] =
828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	145	suggestions(recs, mov_name).take(2).map(movs.get(_).get)
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	146
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	147
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	148	// testcases
329 828326d1b3b2 updated Christian Urban <urbanc@in.tum.de> parents: 326 diff changeset	149
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	150	// recommendations(ratings_map, movies_map, "912")
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	151	// => List(Godfather, Star Wars: Episode IV - A NewHope (1977))
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	152
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	153	// recommendations(ratings_map, movies_map, "260")
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	154	// => List(Star Wars: Episode V - The Empire Strikes Back (1980),
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	155	// Star Wars: Episode VI - Return of the Jedi (1983))
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	156
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	157	// recommendations(ratings_map, movies_map, "2")
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	158	// => List(Lion King, Jurassic Park (1993))
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	159
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	160	// recommendations(ratings_map, movies_map, "0")
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	161	// => Nil
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	162
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	163	// recommendations(ratings_map, movies_map, "1")
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	164	// => List(Shawshank Redemption, Forrest Gump (1994))
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	165
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	166	// recommendations(ratings_map, movies_map, "4")
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	167	// => Nil (there are three ratings for this movie in ratings.csv but they are not positive)
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	168
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	169	// (7) Calculate the recommendations for all movies according to
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	170	// what the recommendations function in (6) produces (this
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	171	// can take a few seconds). Put all recommendations into a list
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	172	// (of strings) and count how often the strings occur in
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	173	// this list. This produces a list of string-int pairs,
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	174	// where the first component is the movie name and the second
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	175	// is the number of how many times they were recommended.
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	176	// Sort all the pairs according to the number
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	177	// of times they were recommended (most recommended movie name
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	178	// first).
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	179
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	180	def occurrences(xs: List[String]): List[(String, Int)] =
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	181	for (x <- xs.distinct) yield (x, xs.count(_ == x))
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	182
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	183	def most_recommended(recs: Map[String, List[String]],
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	184	movs: Map[String, String]) : List[(String, Int)] = {
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	185	val all = (for (name <- movs.toList.map(_._1)) yield {
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	186	recommendations(recs, movs, name)
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	187	}).flatten
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	188	val occs = occurrences(all)
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	189	occs.sortBy(_._2).reverse
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	190	}
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	191
1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	192
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	193	//most_recommended(ratings_map, movies_map).take(3)
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	194	// =>
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	195	// List((Matrix,698),
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	196	// (Star Wars: Episode IV - A New Hope (1977),402),
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	197	// (Jerry Maguire (1996),382))
211 1859d978b18e updated Christian Urban <urbanc@in.tum.de> parents: diff changeset	198
284 fc20e5f83f0e updated Christian Urban <urbanc@in.tum.de> parents: 266 diff changeset	199	}
379 73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	200
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	201	//val ratings_url = """https://nms.kcl.ac.uk/christian.urban/ratings.csv"""
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	202	//val movies_url = """https://nms.kcl.ac.uk/christian.urban/movies.csv"""
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	203
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	204	/*
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	205	val ratings = get_csv_url(ratings_url)
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	206	val movies = get_csv_url(movies_url)
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	207
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	208	val good_ratings = process_ratings(ratings)
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	209	val movie_names = process_movies(movies)
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	210
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	211	val ratings_map = groupById(good_ratings, Map())
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	212	val movies_map = movie_names.toMap
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	213
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	214
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	215	println(most_recommended(ratings_map, movies_map).take(3))
73ad2e018516 updated Christian Urban <christian.urban@kcl.ac.uk> parents: 347 diff changeset	216	*/

author	Christian Urban <christian.urban@kcl.ac.uk>
	Wed, 02 Dec 2020 01:15:14 +0000
changeset 382	fec2c2f2d3db
parent 379	73ad2e018516
child 384	627a944c744b
permissions	-rw-r--r--