स्पार्क क्लस्टर और कैसंड्रा

के लिए जनसग्राफ का सेटअप और कॉन्फ़िगरेशन मैं एक मशीन पर स्पार्क (1.6.1) के साथ जनसग्राफ (0.1.0) चला रहा हूं। मैंने here वर्णित के रूप में मेरी कॉन्फ़िगरेशन की। स्पार्कग्राफ कंप्यूटर के साथ gremlin-console पर आलेख तक पहुंचने पर, यह हमेशा खाली होता है। मुझे लॉगफाइल में कोई त्रुटि नहीं मिल रही है, यह सिर्फ एक खाली ग्राफ है।स्पार्क क्लस्टर और कैसंड्रा

क्या कोई भी स्पार्क के साथ जनसग्राफ का उपयोग कर रहा है और उसकी कॉन्फ़िगरेशन और गुण साझा कर सकता है?

एक JanusGraph का उपयोग करना, मैं उम्मीद आउटपुट मिलता है:

gremlin> graph=JanusGraphFactory.open('conf/test.properties') 
==>standardjanusgraph[cassandrathrift:[127.0.0.1]] 
gremlin> g=graph.traversal() 
==>graphtraversalsource[standardjanusgraph[cassandrathrift:[127.0.0.1]], standard] 
gremlin> g.V().count() 
14:26:10 WARN org.janusgraph.graphdb.transaction.StandardJanusGraphTx - Query requires iterating over all vertices [()]. For better performance, use indexes 
==>1000001 
gremlin>

GraphComputer के रूप में स्पार्क के साथ एक HadoopGraph का उपयोग करना, ग्राफ खाली है:

gremlin> graph=GraphFactory.open('conf/test.properties') 
==>hadoopgraph[cassandrainputformat->gryooutputformat] 
gremlin> g=graph.traversal().withComputer(SparkGraphComputer) 
==>graphtraversalsource[hadoopgraph[cassandrainputformat->gryooutputformat], sparkgraphcomputer] 
gremlin> g.V().count() 
      ==>0==============================================> (14 + 1)/15]

मेरे conf/test.properties:

# 
# Hadoop Graph Configuration 
# 
gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph 
gremlin.hadoop.graphInputFormat=org.janusgraph.hadoop.formats.cassandra.CassandraInputFormat 
gremlin.hadoop.graphOutputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat 
gremlin.hadoop.memoryOutputFormat=org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat 
gremlin.hadoop.memoryOutputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat 

gremlin.hadoop.deriveMemory=false 
gremlin.hadoop.jarsInDistributedCache=true 
gremlin.hadoop.inputLocation=none 
gremlin.hadoop.outputLocation=output 

# 
# Titan Cassandra InputFormat configuration 
# 
janusgraphmr.ioformat.conf.storage.backend=cassandrathrift 
janusgraphmr.ioformat.conf.storage.hostname=127.0.0.1 
janusgraphmr.ioformat.conf.storage.keyspace=janusgraph 
storage.backend=cassandrathrift 
storage.hostname=127.0.0.1 
storage.keyspace=janusgraph 

# 
# Apache Cassandra InputFormat configuration 
# 
cassandra.input.partitioner.class=org.apache.cassandra.dht.Murmur3Partitioner 
cassandra.input.keyspace=janusgraph 
cassandra.input.predicate=0c00020b0001000000000b000200000000020003000800047fffffff0000 
cassandra.input.columnfamily=edgestore 
cassandra.range.batch.size=2147483647 

# 
# SparkGraphComputer Configuration 
# 
spark.master=spark://127.0.0.1:7077 
spark.serializer=org.apache.spark.serializer.KryoSerializer 
spark.executor.memory=100g 

gremlin.spark.persistContext=true 
gremlin.hadoop.defaultGraphComputer=org.apache.tinkerpop.gremlin.spark.process.computer.SparkGraphComputer

एचडीएफएस सही ढंग से कॉन्फ़िगर किया गया है जैसा किवर्णित है:

gremlin> hdfs 
==>storage[DFS[DFSClient[clientName=DFSClient_NONMAPREDUCE_178390072_1, ugi=cassandra (auth:SIMPLE)]]]

स्रोत

2017-05-05 Felix Hill

इन गुणों फिक्सिंग का प्रयास करें:

janusgraphmr.ioformat.conf.storage.keyspace=janusgraph 
storage.keyspace=janusgraph

बदलें साथ:

janusgraphmr.ioformat.conf.storage.cassandra.keyspace=janusgraph 
storage.cassandra.keyspace=janusgraph

डिफ़ॉल्ट keyspace नाम janusgraph है, इसलिए संपत्ति के नाम पर गलतियों के बावजूद, मैं ' टी लगता है कि आपने उस समस्या को तब तक नहीं देखा होगा जब तक आप एक अलग कुंजीपटल नाम का उपयोग करके अपना डेटा लोड नहीं करते।

बाद की संपत्ति Configuration Reference में वर्णित है। इसके अलावा, हडोप-ग्राफ़ उपयोग के लिए दस्तावेज़ों को बेहतर बनाने के लिए इस open issue पर नजर रखें।

स्रोत

2017-05-16 05:42:41

स्पार्क क्लस्टर और कैसंड्रा

उत्तर

संबंधित मुद्दे