rdd1 = sc.parallelize([1, 10, 2, 3, 4, 5]) rdd2 = sc.parallelize([1, 6, 2, 3, 7, 8]) rdd1.intersection(rdd2).collect() # [1, 2, 3]