आप PySpark का उपयोग करते हैं, तो आप सहभागी आदेश पर अमल कर सकते हैं :
सूची एक चुने हुए निर्देशिका से सभी फाइलों:
hdfs dfs -ls <path>
जैसे: hdfs dfs -ls /user/path
: एक चुने हुए निर्देशिका में
import os
import subprocess
cmd = 'hdfs dfs -ls /user/path'.split()
files = subprocess.check_output(cmd).strip().split('\n')
for path in files:
print path
या खोज फ़ाइलें:
hdfs dfs -find <path> -name <expression>
जैसे: hdfs dfs -find /user/path -name *.txt
:
import os
import subprocess
cmd = 'hdfs dfs -find {} -name *.txt'.format(source_dir).split()
files = subprocess.check_output(cmd).strip().split('\n')
for path in files:
filename = path.split(os.path.sep)[-1].split('.txt')[0]
print path, filename
स्रोत
2017-05-10 07:09:21
हाय, क्या आप कृपया मुझे यह सलाह दे सकते हैं कि hdfscli.cfg फ़ाइल कैसे बनाएं, मुझे नहीं पता कि पोर्ट नंबर क्या है। [वैश्विक] default.alias = देव [dev.alias] url = http: //dev.namenode: बंदरगाह उपयोगकर्ता = एन –