我有一個有兩列的資料框。我想將行合并為串列,條件是直到句號的行將是一個串列,句號之后的行將是另一個串列。這應該反映在兩列上,但是,條件基于第一列。例如:
| 代幣 | 標簽 |
|---|---|
| 比較 | ○ |
| 的 | ○ |
| 布地奈德 | 一世 |
| 渦輪增壓器 | 一世 |
| 和 | ○ |
| 布地奈德 | 一世 |
| 水色 | 一世 |
| . | ○ |
| 犀牛皮質 | ○ |
| 學習 | ○ |
| 團體 | ○ |
| . | ○ |
應產生以下結果:
| 代幣 | 標簽 |
|---|---|
| ["比較","of","布地奈德","Turbuhaler","與","布地奈德","aqua","."] | ["O","O","I","I","O","I","I","O"] |
| [“犀牛”,“學習”,“小組”,“。”] | ["O","O","O","O"] |
我該如何解決這個問題?
uj5u.com熱心網友回復:
嘗試:
tmp = (df["Tokens"] == ".").astype(int).shift().cumsum().fillna(0)
x = df.groupby(tmp).agg(list).reset_index(drop=True)
print(x)
印刷:
Tokens label
0 [Comparison, of, budesonide, Turbuhaler, with, budesonide, aqua, .] [O, O, I, I, O, I, I, O]
1 [Rhinocort, Study, Group, .] [O, O, O, O]
轉載請註明出處,本文鏈接:https://www.uj5u.com/net/438690.html
標籤:Python python-3.x 熊猫 列表 数据框
