Home > Mobile >  How to build triangular matrix as df with data from dataframe
How to build triangular matrix as df with data from dataframe

Time:11-17

Let's say: I have dataframe like this:

import pandas as pd

df = pd.DataFrame({'a':['a1','a2','a3','a4','a5'],'b':[1,2,3,4,5]})

Output:

    a  b
0  a1  1
1  a2  2
2  a3  3
3  a4  4
4  a5  5

Now I would like to add new columns corresponding to a1, a2, a3, a4, a5

for index, row in df.iterrows():
    df[index] = np.NaN

Output:

    a  b   0   1   2   3   4
0  a1  1 NaN NaN NaN NaN NaN
1  a2  2 NaN NaN NaN NaN NaN
2  a3  3 NaN NaN NaN NaN NaN
3  a4  4 NaN NaN NaN NaN NaN
4  a5  5 NaN NaN NaN NaN NaN

How can I generate a triangular matrix in the dataframe?

I would like the following output:

    a  b 0   1   2   3   4
0  a1  1 a1  a2  a3  a4  a5
1  a2  2 NaN a2  a3  a4  a5
2  a3  3 NaN NaN a3  a4  a5
3  a4  4 NaN NaN NaN a4  a5
4  a5  5 NaN NaN NaN NaN a5

Should I build one extra dataframe as a triangular matrix and then merge? What is the easiest way?

CodePudding user response:

This will work:

for i in range(df.shape[0]):
    df.iloc[i, i 2:] = df['a'][i:]

Output:

>>> df
    a  b   0   1   2   3   4
0  a1  1 NaN NaN NaN NaN NaN
1  a2  2 NaN NaN NaN NaN NaN
2  a3  3 NaN NaN NaN NaN NaN
3  a4  4 NaN NaN NaN NaN NaN
4  a5  5 NaN NaN NaN NaN NaN

>>> for i in range(df.shape[0]):
...    df.iloc[i, i 2:] = df['a'][i:]

>>> df
    a  b    0    1    2    3   4
0  a1  1   a1   a2   a3   a4  a5
1  a2  2  NaN   a2   a3   a4  a5
2  a3  3  NaN  NaN   a3   a4  a5
3  a4  4  NaN  NaN  NaN   a4  a5
4  a5  5  NaN  NaN  NaN  NaN  a5

CodePudding user response:

An efficient approach would be to use numpy (numpy.tile and numpy.triu):

import numpy as np
np.triu(np.tile(df['a'].values, (len(df), 1)))

Then craft a dataframe and join:

df.join(pd.DataFrame(np.triu(np.tile(df['a'].values, (len(df), 1))),
                     index=df.index
                     ).replace({0: pd.NA}))

output:

    a  b     0     1     2     3   4
0  a1  1    a1    a2    a3    a4  a5
1  a2  2  <NA>    a2    a3    a4  a5
2  a3  3  <NA>  <NA>    a3    a4  a5
3  a4  4  <NA>  <NA>  <NA>    a4  a5
4  a5  5  <NA>  <NA>  <NA>  <NA>  a5
alternative
n = len(df)
df.join(pd.DataFrame(np.tile(df['a'].values, (n, 1)), index=df.index
                     ).where(np.triu(np.ones((n, n))).astype(bool)))

output:

    a  b    0    1    2    3   4
0  a1  1   a1   a2   a3   a4  a5
1  a2  2  NaN   a2   a3   a4  a5
2  a3  3  NaN  NaN   a3   a4  a5
3  a4  4  NaN  NaN  NaN   a4  a5
4  a5  5  NaN  NaN  NaN  NaN  a5

CodePudding user response:

My solution was similar to mozway but not in 3 steps:)

import pandas as pd
import numpy as np

d = { "a":['a1','a2','a3','a4','a5']  }
"create dataframe from dict"

df = pd.DataFrame(d)
indek1 = list(df.index)
column1 = df['a'].values
lista_tot = []
for k in indek1:
    lista_tot.append(column1)

a = np.triu(lista_tot, 0)

df1 = pd.DataFrame(a)
print(df1)

df = df.join(df1)
print(df)
  • Related