請教如何在Spark中使用scala.tools.nsc.interpreter.IMain-有解無憂

Hi 大家好，

我目前做的一個專案想使用配置的方式來決定Spark的處理流程。理想的情況是，將Spark中呼叫RDD的函式，按照順序，定義到組態檔中去。然后在Spark的程式中把這些函式拼接好，存放在字串變數中，再通過決議器來執行這個字串。類似Perl語言中使用eval來呼叫代碼片段。但是在運行時，程式報錯。請大神幫忙看看。非常感謝！

比如：用戶定義了如下步驟（word count例子）：

     1) textFile("files///<file_full_path>")
     2) flatMap(line => line.split(" "))
     3) map(word => (word, 1))
     4) reduceByKey(_ + _)
     5) foreach(println)

以上步驟定義在組態檔中，然后Spark driver中會把它們拼接成如下字串，存放在變數processFlow中：

     val processFlow =
     """
     sc.textFile("file:///input.txt").flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _).foreach(println)
     """

接著，Spark會呼叫以上變數，執行所定義的代碼。

下面是我的源代碼。

     import org.apache.spark.SparkConf
     import org.apache.spark.SparkContext
     import scala.collection.mutable.{Map, ArraySeq}
     import scala.tools.nsc.GenericRunnerSettings
     import scala.tools.nsc.interpreter.IMain
     class TestMain {
       def exec(): Unit = {
         val out = System.out
         val flusher = new java.io.PrintWriter(out)
         val interpreter = {
           val settings = new GenericRunnerSettings( println _ )
           settings.usejavacp.value = true
           new IMain(settings, flusher)
         }
         val conf = new SparkConf().setAppName("TestMain")
         val sc = new SparkContext(conf)
         val methodChain =
           """
           val textFile = sc.textFile("file:///input.txt")
           textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + _).foreach(println)
           """
         interpreter.bind("sc", sc);
         val resultFlag = interpreter.interpret(methodChain)
       }
     }
     object TestMain {
       def main(args: Array[String]) {
         val testMain = new TestMain()
         testMain.exec()
         System.exit(0)
       }
     }

程式運行時報錯，下面是錯誤日志。

     sc: org.apache.spark.SparkContext = org.apache.spark.SparkContext@7d87addd
     org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost): java.lang.ClassNotFoundException: $anonfun$1
             at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
             at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
             at java.security.AccessController.doPrivileged(Native Method)
             at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
             at java.lang.ClassLoader.loadClass(ClassLoader.java:425)
             at java.lang.ClassLoader.loadClass(ClassLoader.java:358)
             at java.lang.Class.forName0(Native Method)
             at java.lang.Class.forName(Class.java:270)
             at org.apache.spark.serializer.JavaDeserializationStream$$anon$1.resolveClass(JavaSerializer.scala:68)
             at java.io.ObjectInputStream.readNonProxyDesc(ObjectInputStream.java:1612)
             at java.io.ObjectInputStream.readClassDesc(ObjectInputStream.java:1517)
             at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1771)
             at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
             at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1990)
             at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1915)
             at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1798)
             at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
             at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1990)
             at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1915)
             at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1798)
             at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
             at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:1990)
             at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1915)
             at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1798)
             at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1350)
             at java.io.ObjectInputStream.readObject(ObjectInputStream.java:370)
             at org.apache.spark.serializer.JavaDeserializationStream.readObject(JavaSerializer.scala:76)
             at org.apache.spark.serializer.JavaSerializerInstance.deserialize(JavaSerializer.scala:115)
             at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:61)
             at org.apache.spark.scheduler.Task.run(Task.scala:89)
             at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
             at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
             at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
             at java.lang.Thread.run(Thread.java:745)

     Driver stacktrace:
             at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1431)
             at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1419)
             at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1418)
             at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
             at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
             at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1418)
             at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:799)
             at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:799)
             at scala.Option.foreach(Option.scala:236)
             at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:799)
             at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1640)
             at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1599)
             at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1588)
             at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
             at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:620)
             at org.apache.spark.SparkContext.runJob(SparkContext.scala:1843)
             at org.apache.spark.SparkContext.runJob(SparkContext.scala:1856)
             at org.apache.spark.SparkContext.runJob(SparkContext.scala:1869)
             at org.apache.spark.SparkContext.runJob(SparkContext.scala:1940)
             at org.apache.spark.rdd.RDD$$anonfun$collect$1.apply(RDD.scala:927)
             at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150)
             at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:111)
             at org.apache.spark.rdd.RDD.withScope(RDD.scala:316)
             at org.apache.spark.rdd.RDD.collect(RDD.scala:926)
             at .<init>(<console>:12)
             at .<clinit>(<console>)
             at .<init>(<console>:7)
             at .<clinit>(<console>)
             at $print(<console>)
             at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
             at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
             at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
             at java.lang.reflect.Method.invoke(Method.java:606)
             at scala.tools.nsc.interpreter.IMain$ReadEvalPrint.call(IMain.scala:734)
             at scala.tools.nsc.interpreter.IMain$Request.loadAndRun(IMain.scala:983)
             at scala.tools.nsc.interpreter.IMain.loadAndRunReq$1(IMain.scala:573)
             at scala.tools.nsc.interpreter.IMain.interpret(IMain.scala:604)
             at scala.tools.nsc.interpreter.IMain.interpret(IMain.scala:568)
             at com.tr.ecp.test.TestMain.exec(TestMain.scala:44)
             at com.tr.ecp.test.TestMain$.main(TestMain.scala:57)
              ...

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/77282.html

標籤：Spark

上一篇：請教大神：spark1.6.2編譯到core時出錯

下一篇：關于網站資料遷移