Hadoop集成

Flink将使用环境变量HADOOP_CLASSPATH来扩充启动Flink组件(如Client,JobManager或TaskManager)时使用的类路径。默认情况下,大多数Hadoop发行版和云环境都不会设置此变量,因此如果Flink选择Hadoop类路径,则必须在运行Flink组件的所有计算机上导出环境变量。

在YARN上运行时,这通常不是问题,因为在YARN中运行的组件将使用Hadoop类路径启动,但是在向YARN提交作业时,Hadoop依赖项必须位于类路径中。为此,通常就足够了

export HADOOP_CLASSPATH=`hadoop classpath`

In the shell 。请注意,这hadoop是hadoop二进制文件,它classpath是一个参数,用于打印已配置的Hadoop类路径。