在字符級別對單詞串列進行編碼-有解無憂

我想實作一個接收單詞串列并回傳張量的函式

這個想法是為每個單詞創建張量，其中每一行都填充零和一個代表該位置的字母。例如，單詞"abc"將由以下張量表示：

tensor([[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]])

uj5u.com熱心網友回復：

您可以使用字典映射的組合來實作這一點，F.one_hot它是執行密集到一個熱轉換的內置函式。

構造字典映射str到索引。我們將插入一個額外的字符"0"來方便地為短于最大長度的單詞添加一些填充：
```
>>> alphabet = dict(zip('0abcdefghijklmnopqrstuvwxyz', range(27)))
```

找到最大長度并填充較短的單詞：

>>> max_length = max(len(w) for w in words)

用適當數量的0字符填充所有單詞：

>>> padded = [w   '0'*(max_length - len(w)) for w in words]
['cd0', 'abc']

現在通過遍歷所有填充的單詞和字符來構建張量：

>>> dense = torch.tensor([[alphabet[c] for c in w] for w in padded])
tensor([[3, 4, 0],
        [1, 2, 3]])

最后申請torch.functional.one_hot：

>>> x = F.one_hot(dense, num_classes=27)
tensor([[[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],

        [[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]])

一直以來，我們都在使用包含26 1值的字典，其中額外的字符"0"用于對填充值進行單熱編碼。我們現在可以洗掉對應于的第一列"0"：

>>> x[..., 1:]
tensor([[[0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]],

        [[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
         [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]])

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/342909.html

標籤：Python 麻木的

上一篇：PythonPandas用當前代碼的更快速方式迭代具有復雜計算的行

下一篇：Spring---IoC（控制反轉）原理學習筆記【全】