從此文本資料: https ://drive.google.com/file/d/1p34ChEAC9R7HnkyllnpCLCYrIevP4u8T/view?usp=sharing
我想以這種形式創建一個結構:
{
'tokens': ['Setelah', 'melalui', 'proses', 'telepon', 'yang', 'panjang', 'tutup', 'sudah', 'kartu', 'kredit', 'bca', 'Ribet'],
'tag': ['O', 'B', 'B', 'I', 'O', 'O', 'B', 'O', 'B', 'I', 'I', 'B']
}
{
'tokens': ['@HaloBCA', 'Saya', 'mencoba', 'mengakses', 'menu', 'm-BCA', 'saya', 'namun', 'saya', 'mendapat', 'respons', 'Fasilitas', 'Mobile', 'Banking', 'terblokir', 'bagimana', 'sih', 'padahal', 'saya', 'baru', 'coba', 'akses', 'lo'],
'tag': ['B', 'O', 'O', 'B', 'B', 'I', 'O', 'O', 'O', 'B', 'I', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
}
這是我嘗試做的,使用字典:
f = open("a_testdata.txt", "r")
dicts = {}
tokens = []
tags = []
for line in f:
if len(line.strip()) != 0:
fields = line.split('\t')
text = fields[0]
tag = fields[1].strip()
tokens.append(text)
tags.append(tag)
dicts['token'] = tokens
dicts['tag'] = tags
else:
tokens = []
tags = []
for key, value in dicts.items():
print(key, value)
這僅輸出最后的句子。
token ['@HaloBCA', 'Saya', 'mencoba', 'mengakses', 'menu', 'm-BCA', 'saya', 'namun', 'saya', 'mendapat', 'respons', 'Fasilitas', 'Mobile', 'Banking', 'terblokir', 'bagimana', 'sih', 'padahal', 'saya', 'baru', 'coba', 'akses', 'lo']
tag ['B', 'O', 'O', 'B', 'B', 'I', 'O', 'O', 'O', 'B', 'I', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O']
我的問題是,如果字典不可能,如何將這些句子(1 個句子用空白線分隔,見文本檔案)組合成一個結構?如果可以,我該如何使用 DataFrame?
uj5u.com熱心網友回復:
- 你需要一個字典陣列,因為鍵不能重復
- 在重置令牌/標簽串列之前,您需要將其保存到輸出,然后
dicts也重置 - 極端情況:如果
dicts有資料,并且我們最后沒有遇到空行,則不會將資料添加到串列中
f = open("a_testdata.txt", "r")
output = []
dicts = {}
tokens = []
tags = []
for line in f:
if len(line.strip()) != 0:
fields = line.split('\t')
text = fields[0]
tag = fields[1].strip()
tokens.append(text)
tags.append(tag)
else:
dicts['token'] = tokens
dicts['tag'] = tags
output.append(dicts)
dicts = {}
tokens = []
tags = []
if dicts:
output.append(dicts)
for item in output:
for key, value in item.items():
print(key, value)
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/446414.html
上一篇:排序陣列串列的arraylist
