TypeError: a bytes-like object is required, not 'str'-有解無憂

完全參照網路上他人的程式做情感分析，但這段程式也出現問題：.........line 101, in words
degreeDict[d.split(' ')[0]] = d.split(' ')[1]
TypeError: a bytes-like object is required, not 'str'
python3 編碼什么那么麻煩啊？請問大家這個怎么解決？



#!/usr/bin/env python  

#-*- coding: utf-8 -*- 

from collections import defaultdict

import os

import re

import jieba

import codecs

import sys

import chardet

import matplotlib.pyplot as plt

import importlib 

importlib.reload(sys)



#使用jieba 函式  對 sentence 文本進行分詞



def sent2word(sentence):



#呼叫jieba進行分詞

    segList = jieba.cut(sentence)



#分詞后的結果存為segResult 為list型別

    segResult = []

    for w in segList:

        segResult.append(w)



#呼叫 readLines 讀取停用詞

    stopwords = readLines('E:/詞庫/stop_words.txt')



#如果是停用詞 就不保存到newSent

    newSent = []

    for word in segResult:

        if word+'\n' in stopwords:

            continue

        else:

            newSent.append(word)

#回傳newSent

    return newSent





#直接對 sentence 進行分詞  不使用停用詞 并回傳（主要是根據word需要這個操作）

def returnsegResult(sentence):



    segResult = []

    segList = jieba.cut(sentence)



    for w in segList:

        segResult.append(w)

    return segResult





#獲取 filepath 目錄下的所有檔案目錄并回傳

def eachFile(filepath):

    pathDir =  os.listdir(filepath)

    child=[]

    for allDir in pathDir:

        child.append(os.path.join('%s/%s' % (filepath, allDir)))

    return child



#讀取 filename路徑的每一行資料 并回傳 轉換為GBK

def readLines(filename):

    fopen = open(filename, 'rb',encoding='UTF-8')

    

    

    data=https://bbs.csdn.net/topics/[]

    for x in fopen.readlines():

        if x.strip() != b'':

                data.append(x.strip())#data.append(unicode(x.strip(),"GBK"))



    fopen.close()

    return data





#讀取 filename路徑 的每一行資料 并回傳

def readLines2(filename):

    fopen = open(filename, 'rb')#FILE_OBJECT= open('order.log','r', encoding='UTF-8')

    data=https://bbs.csdn.net/topics/[]

    for x in fopen.readlines():

        if x.strip() != '':

                data.append(x.strip())#x.strip()



    fopen.close()

    return data



#主要為情感定位  見程式檔案相關代碼 這里是為了速度 提取了部分代碼 本來應該在classifyWords 里邊  貌似對速度影響不大

def words():

    #情感詞

    senList = readLines2('E:/詞庫/BosonNLP_sentiment_score/BosonNLP_sentiment_score.txt')

    senDict = defaultdict()

    

    

   # for s in senList:

   #     senDict[s.split()[0]] = s.split(' ')[1]

    #否定詞

    notList = readLines2('E:/詞庫/notDict.txt')

    #程度副詞

    degreeList = readLines2("E:/sentiment/degreeDict.txt")

    degreeDict = defaultdict()

    

    for d in degreeList:

        

        degreeDict[d.split(' ')[0]] = d.split(' ')[1]

                          

    return senDict,notList,degreeDict



# (1) 情感詞



# 見文本檔案  根據情感定位  獲得句子相關得分

def classifyWords(wordDict,senDict,notList,degreeDict):



    senWord = defaultdict()

    notWord = defaultdict()

    degreeWord = defaultdict()

    for word in wordDict.keys():

        if word in senDict.keys() and word not in notList and word not in degreeDict.keys():

            senWord[wordDict[word]] = senDict[word]

        elif word in notList and word not in degreeDict.keys():

            notWord[wordDict[word]] = -1

        elif word in degreeDict.keys():

            degreeWord[wordDict[word]] = degreeDict[word]

    return senWord, notWord, degreeWord





#計算句子得分  見程式檔案

def scoreSent(senWord, notWord, degreeWord, segResult):

    W = 1

    score = 0

    # 存所有情感詞的位置的串列

    senLoc = senWord.keys()

    notLoc = notWord.keys()

    degreeLoc = degreeWord.keys()

    senloc = -1

    # notloc = -1

    # degreeloc = -1

    # 遍歷句中所有單詞segResult，i為單詞絕對位置

    for i in range(0, len(segResult)):

        # 如果該詞為情感詞

        if i in senLoc:

            # loc為情感詞位置串列的序號

            senloc += 1

            # 直接添加該情感詞分數

            score += W * float(senWord[i])

            # print "score = %f" % score

            if senloc < len(senLoc) - 1:

                # 判斷該情感詞與下一情感詞之間是否有否定詞或程度副詞

                # j為絕對位置

                for j in range(senLoc[senloc], senLoc[senloc + 1]):

                    # 如果有否定詞

                    if j in notLoc:

                        W *= -1

                    # 如果有程度副詞

                    elif j in degreeLoc:

                        W *= float(degreeWord[j])

        # i定位至下一個情感詞

        if senloc < len(senLoc) - 1:

            i = senLoc[senloc + 1]

    return score





#串列 轉 字典

def listToDist(wordlist):

    data=https://bbs.csdn.net/topics/{}

    for x in range(0, len(wordlist)):

        data[wordlist[x]]=x

    return data



#繪圖相關  自行百度下

def runplt():

    plt.figure()

    plt.title('test')

    plt.xlabel('x')

    plt.ylabel('y')

    #這里定義了  圖的長度 比如 2000條資料 就要 寫 0,2000  

    plt.axis([0,1000,-10,10])

    plt.grid(True)

    return plt









#主題從這里開始 上邊全是方法





#獲取 test/neg 下所有檔案 路徑

filepwd=eachFile("E:/test/neg")



score_var=[]





#獲取 本地的情感詞 否定詞 程度副詞

words_vaule=words()



#回圈 讀取 filepwd  （也就是test/neg目錄下所有檔案全部跑一下）

for x in filepwd:

    #讀目錄下檔案的內容

    data=https://bbs.csdn.net/topics/readLines(x,'rb')

    #對data內容進行分詞

    datafen=sent2word(data[0])

    #串列轉字典

    datafen_dist=listToDist(datafen)

    #通過classifyWords函式 獲取句子的 情感詞 否定詞 程度副詞 相關分值

    data_1=classifyWords(datafen_dist,words_vaule[0],words_vaule[1],words_vaule[2])

    # 通過scoreSent 計算 最后句子得分

    data_2=scoreSent(data_1[0],data_1[1],data_1[2],returnsegResult(data[0]))

    # 將得分保存在score_var 以串列的形式

    score_var.append(data_2)

    #列印句子得分

    print(data_2)



#對所有句子得分進行倒序排列

score_var.sort(reverse=True)



#計算一個index 值 存 1~ 所有句子長度 以便于繪圖

index=[]

for x in range(0,len(score_var)):

    index.append(x+1)



#初始化繪圖

plt=runplt();

#帶入引數

plt.plot(index,score_var,'r.')

#顯示繪圖

plt.show();

uj5u.com熱心網友回復：

TypeError: a bytes-like object is required, not 'str'
型別錯誤，需要一個位元組型物件，不是一個字串物件。
你代碼中的degreeList是以位元組讀入的，degreeList是一個位元組串列。
for d in degreeList:
這里d是一個位元組物件，而不是字串，因此d.split(' ') 這里提示型別錯誤，改為d.decode().split()即可

uj5u.com熱心網友回復：

補充，如果你要的是位元組型，不是字串型，那就改為d.split(' '.encode())

uj5u.com熱心網友回復：

@CaiNiaoWuZui 改成d.decode().split()之后又出現“UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte
”錯誤了

uj5u.com熱心網友回復：

這說明d的encoding不是utf-8的，而你的python環境默認的編碼是utf-8,給decode傳d的編碼即可, d.decode(encoding=).split(' ')。
如果不明白的話，請你好好去補補編碼的知識。常見的編碼有GBK、GB2312、UTF-8、ISO-8859-1等等。不同編碼的位元組串只能用對應的編碼解碼

uj5u.com熱心網友回復：

嗯嗯，編碼這部分已經解決，謝謝@CaiNiaoWuZui

uj5u.com熱心網友回復：

請問樓主用的情感詞典程度副詞詞典都是啥呀

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/48342.html

標籤：腳本語言(Perl/Python)

上一篇：python 讀寫excle問題

下一篇：請問這一段fortran求6到10000的完數的代碼哪里出了問題，一直是這個結果