bash 循环 HDFS 目录中的文件

Question

提问by Sal

I need to loop over all csv files in a Hadoop file system. I can list all of the files in a HDFS directory with

我需要遍历 Hadoop 文件系统中的所有 csv 文件。我可以列出 HDFS 目录中的所有文件

> hadoop fs -ls /path/to/directory
Found 2 items
drwxr-xr-x   - hadoop hadoop          2 2016-10-12 16:20 /path/to/directory/tmp
-rwxr-xr-x   3 hadoop hadoop 4691945927 2016-10-12 19:37 /path/to/directory/myfile.csv

and can loop over all files in a standard directory with

并且可以循环遍历标准目录中的所有文件

for filename in /path/to/another/directory/*.csv; do echo $filename; done

but how can I combine the two?I've tried

但我怎样才能将两者结合起来呢？我试过了

for filename in `hadoop fs -ls /path/to/directory | grep csv`; do echo $filename; done

but that gives me some nonsense like

但这给了我一些废话

Found
2
items
drwxr-xr-x

hadoop
hadoop
2    
2016-10-12
....

Answer 1

采纳答案by matesc

This should work

这应该工作

for filename in `hadoop fs -ls /path/to/directory | awk '{print $NF}' | grep .csv$ | tr '\n' ' '`
do echo $filename; done

bash 循环 HDFS 目录中的文件

提问by Sal

采纳答案by matesc

相关推荐

最近更新

标签

bash 循环 HDFS 目录中的文件

提问by Sal

采纳答案by matesc

相关推荐

Bash 将变量作为带引号的参数传递

bash Jenkins 在控制台输出页面中显示 echo 命令

bash 将 JSON 漂亮打印转换为一行

在 bash 脚本中运行 php：错误“无法打开输入文件”

相关推荐

最近更新

标签