我的環境是spark2.1+hdp2.6 采用spark on yarn模式,在用pyspark時,使用了python3.5
結果在執行類似distinct 陳述句
user_data = sc.textFile("/testdata/u.user")
user_fields = user_data.map(lambda line: line.split("|"))
num_genders = user_fields.map(lambda fields: fields[2]).distinct().count()
報例外,如下
File "/data/opt/hadoop-2.6.0/tmp/nm-local-dir/usercache/jsdxadm/appcache/application_1494985561557_0001/container_1494985561557_0001_01_000002/pyspark.zip/pyspark/rdd.py", line 72, in portable_hash
raise Exception("Randomness of hash of string should be disabled via PYTHONHASHSEED")
Exception: Randomness of hash of string should be disabled via PYTHONHASHSEED
根據原始碼好像由于安全漏洞,增加了對python3控制
if sys.version >= '3.3' and 'PYTHONHASHSEED' not in os.environ:
raise Exception("Randomness of hash of string should be disabled via PYTHONHASHSEED")
我按網上方式,采用兩種方法,都不行,哪位碰到,能告訴一下如何解決的嗎
1、echo "export PYTHONHASHSEED=0" >> /root/.bashrc
2、spark.yarn.appMasterEnv.PYTHONHASHSEED="XXXX"
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/64447.html
標籤:Spark
上一篇:如何成為一名大資料相關的從業者??望有大神帶路,謝謝。
下一篇:阿里云服務器上 獲取流的方案
