À đợi đã - tôi nghĩ là tôi có nó. Nếu tôi làm điều gì đó như thế này, nó có vẻ hoạt động:
null = u'\u0000'
new_df = df.withColumn('e', regexp_replace(df['e'], null, ''))
Và sau đó ánh xạ tới tất cả các cột chuỗi:
string_columns = ['d','e']
new_df = df.select(
*(regexp_replace(col(c), null, '').alias(c) if c in string_columns else c for
c in df.columns)
)