Kopiuj
data = []
with open('extracted_plwn_deriv.tsv') as file:
for line in file.readlines():
if line not in ['\n']:
if not 'GERUNDIUM' in line:
line = line.strip("\n")
a,b,c = line.split("\t")
data.append([c,a])
out. skrócony:
Kopiuj
[['odsłuchiwać', 'odsłuch'],
['zgodzić się', 'zgoda'],
['rzeczywistość', 'rzeczywisty'],
['niezależny', 'niezależność'],
['niezależność', 'niezależny'],
['minerał', 'mineralny'],
['pociot', 'pociotek'],
['smutek', 'smutny'],
['Czerniowce', 'czerniowiecki'],
i dalej
Kopiuj
graph_group={}
for pair in data:
nodein,nodeout = pair
if nodeout in graph_group:
graph_group[nodeout].append(nodein)
else:
graph_group[nodeout] = [nodein]
graph_group
out:
Kopiuj
{'odsłuch': ['odsłuchiwać'],
'zgoda': ['zgodzić się', 'zgodzić się', 'godzić'],
'rzeczywisty': ['rzeczywistość', 'rzeczywistość'],
'niezależność': ['niezależny', 'niezależny', 'niezależny'],
'niezależny': ['niezależność', 'niezależność', 'niezależność'],
'mineralny': ['minerał', 'minerał'],
'pociotek': ['pociot'],
'smutny': ['smutek', 'smuta'],
'czerniowiecki': ['Czerniowce'],
'lugrowy': ['lugier'],
'obojętność': ['obojętny', 'obojętny', 'obojętny'],...
i po usunięciu duplikatów z list
Kopiuj
without_duplicates = {key: list(set(value)) for key, value in graph_group.items()}
without_duplicates
out:
Kopiuj
{'odsłuch': ['odsłuchiwać'],
'zgoda': ['godzić', 'zgodzić się'],
'rzeczywisty': ['rzeczywistość'],
'niezależność': ['niezależny'],
'niezależny': ['niezależność'],
'mineralny': ['minerał'],
'pociotek': ['pociot'],
'smutny': ['smuta', 'smutek'],
'czerniowiecki': ['Czerniowce'],
'lugrowy': ['lugier'],
'obojętność': ['obojętny'],...