Nếu dữ liệu của bạn như thế này
tweets = sc.parallelize(["title1", "", "title2", "title3", ""])
bạn có thể sử dụng len(x)
làm điều kiện bộ lọc:
tweets.filter(lambda x: len(x) > 0).count()
Nếu dữ liệu của bạn như thế này
tweets = sc.parallelize(["title1", "", "title2", "title3", ""])
bạn có thể sử dụng len(x)
làm điều kiện bộ lọc:
tweets.filter(lambda x: len(x) > 0).count()