SQL Server: How to flatten nested arrays by merging values using

Question

I have 10000 jsons with different ids each has 10000 names. How to flatten nested arrays by merging values usin SQL Server? Jsons can be read in any language, I&#8217;m looking for any SQL dialect that can transform the data as I&#8217;m using spark connectors. I use many SQL dialects including not limiting S…

Accepted Answer

OK, so we have 2 &#8220;problems&#8221; we need to solve here. Firstly, the fact that you need a dynamic number of columns as you don&#8217;t know what names are you your data. This means you need dynamic SQL.Next is the problem that not every name has a value for every year, so we need to also have a &#8220;year&#8221; table we can LEFT JOIN from so that we have a row for every name.This, as a result, is going to be really messy, but it can be done. I&#8217;ve left comments where I can on this, but the best thing i can really suggest is taking the time to read the SQL, PRINTing/SELECTing the dynamic statement, and learning what it does.First let&#8217;s build a static version, so you can see what it would look like. So here I use a CTE to get all the years, and then another to get the data in a normalised format from the JSON. Finally unpivot the data using condititional aggregation:--Sample JSONDECLARE @JSON nvarchar(MAX) = N'{  "id": 1,  "name_1_a": [    {      "date": 2001,      "val": 1    },    {      "date": 2002,      "val": 2    },    {      "date": 2003,      "val": 3    }  ],  "name_1_b": [    {      "date": 2001,      "val": 4    },    {      "date": 2002,      "val": 5    },    {      "date": 2003,      "val": 6    }  ],  "name_2_a": [    {      "date": 2001,      "val": 21    },    {      "date": 2002,      "val": 22    },    {      "date": 2003,      "val": 23    }  ],   "name_10000_xvz": [    {        "date": 2000,        "val": 30    },    {      "date": 2001,      "val": 31    },    {      "date": 2002,      "val": 32    },    {      "date": 2003,      "val": 33    }  ]}';--Get distinct YearsWITH Years AS(    SELECT DISTINCT V.date    FROM OPENJSON(@JSON) J         CROSS APPLY (SELECT *                      FROM OPENJSON(J.[value])                            WITH(date int)                       WHERE ISJSON(J.[value]) = 1) V),--Get DataData AS(    SELECT J.[key] AS [name],           V.date,           V.val     FROM OPENJSON(@JSON) J         CROSS APPLY (SELECT *                      FROM OPENJSON(J.[value])                            WITH(date int,                                val int)                       WHERE ISJSON(J.[value]) = 1) V)--Final Select and UnpivotSELECT JSON_VALUE(@JSON, '$.id') AS ID,       Y.Date,       ISNULL(MAX(CASE D.[name] WHEN 'name_1_a' THEN D.val END),0) AS name_1_a,       ISNULL(MAX(CASE D.[name] WHEN 'name_1_b' THEN D.val END),0) AS name_1_b,       ISNULL(MAX(CASE D.[name] WHEN 'name_2_a' THEN D.val END),0) AS name_2_a,       ISNULL(MAX(CASE D.[name] WHEN 'name_10000_xvz' THEN D.val END),0) AS name_10000_xvzFROM Years Y     LEFT JOIN Data D ON Y.Date = D.DateGROUP BY Y.Date;As I mentioned, however, this isn&#8217;t dynamic. This is, therefore where it gets a little more messy. I, for the below, am assuming you&#8217;re using a recent version of SQL Server, and thus have access to STRING_AGG (if not, you&#8217;ll need to use the old FOR XML PATH and STUFF method):--Sample JSONDECLARE @JSON nvarchar(MAX) = N'{  "id": 1,  "name_1_a": [    {      "date": 2001,      "val": 1    },    {      "date": 2002,      "val": 2    },    {      "date": 2003,      "val": 3    }  ],  "name_1_b": [    {      "date": 2001,      "val": 4    },    {      "date": 2002,      "val": 5    },    {      "date": 2003,      "val": 6    }  ],  "name_2_a": [    {      "date": 2001,      "val": 21    },    {      "date": 2002,      "val": 22    },    {      "date": 2003,      "val": 23    }  ],   "name_10000_xvz": [    {        "date": 2000,        "val": 30    },    {      "date": 2001,      "val": 31    },    {      "date": 2002,      "val": 32    },    {      "date": 2003,      "val": 33    }  ]}';--Variables for dynamic SQLDECLARE @SQL nvarchar(MAX),        @CRLF nchar(2) = NCHAR(13) + NCHAR(10);DECLARE @Delimiter varchar(20) = N',' + @CRLF + N'       ';--You'll note the start is all the sameSET @SQL = N'--Get disinct Years' + @CRLF +            N'WITH Years AS(' + @CRLF +            N'    SELECT DISTINCT V.date' + @CRLF +            N'    FROM OPENJSON(@JSON) J' + @CRLF +            N'         CROSS APPLY (SELECT *' + @CRLF +            N'                      FROM OPENJSON(J.[value]) ' + @CRLF +            N'                           WITH(date int) ' + @CRLF +            N'                      WHERE ISJSON(J.[value]) = 1) V),' + @CRLF +            N'--Get Data' + @CRLF +            N'Data AS(' + @CRLF +            N'    SELECT J.[key] AS [name],' + @CRLF +            N'           V.date,' + @CRLF +            N'           V.val ' + @CRLF +            N'    FROM OPENJSON(@JSON) J' + @CRLF +            N'         CROSS APPLY (SELECT *' + @CRLF +            N'                      FROM OPENJSON(J.[value]) ' + @CRLF +            N'                           WITH(date int,' + @CRLF +            N'                                val int) ' + @CRLF +            N'                      WHERE ISJSON(J.[value]) = 1) V)' + @CRLF +            N'--Final Select and Unpivot' + @CRLF +            N'SELECT JSON_VALUE(@JSON, ''$.id'') AS ID,' + @CRLF +           N'       Y.Date,' + @CRLF +           (SELECT STRING_AGG(N'ISNULL(MAX(CASE D.[name] WHEN ' + QUOTENAME(J.[key],'''') + N' THEN D.val END),0) AS ' + QUOTENAME(J.[key]),@Delimiter)            FROM OPENJSON(@JSON) J) + @CRLF +           N'FROM Years Y' + @CRLF +           N'     LEFT JOIN Data D ON Y.Date = D.Date' + @CRLF +           N'GROUP BY Y.Date;';PRINT @SQL; --YOur best friend for debuggingEXEC sys.sp_executesql @SQL, N'@JSON nvarchar(MAX)', @JSON;db<>fiddle

Advertisement

Answer