Identify duplicate record in Dataframe

Question

I have a dataframe as below which identifies full name of any person: ------------------- | f_name | l_name | ------------------- | abc | xyz | | xyz | abc | | pqr | lmn | -----------...

Accepted Answer

Use dropDuplicates function available for Dataset with the proper key:val df = Seq(  ("abc", "xyz"),  ("xyz", "abc"),  ("pqr", "lmn")).toDF("f_name", "l_name")df.withColumn("key", array_sort(array('f_name, 'l_name))).dropDuplicates("key")+------+------+----------+|f_name|l_name|       key|+------+------+----------+|   pqr|   lmn|[lmn, pqr]||   abc|   xyz|[abc, xyz]|+------+------+----------+

Advertisement

Answer