2016-10-17 5 views
0

Я пытаюсь подключиться к SparkSQL thriftserver (Spark 1.6.2) через Knox в кластере, защищенном Kerberos (распределение Hadoop - HDP 2.4.2). У нас есть такая же архитектура для Hive, и она работает нормально. Поскольку Спарк использует один и тот же бережливый сервер, я думал, что делать то же самое было бы тривиально, но на самом деле это не так.Подключиться к Spark thriftserver через Knox

Ошибка брошенной Спарк thriftserver при подключении через Нокс:

16/10/17 15:25:39 ERROR ThriftHttpServlet: Failed to authenticate with hive/_HOST kerberos principal 
16/10/17 15:25:39 ERROR ThriftHttpServlet: Error: 
org.apache.hive.service.auth.HttpAuthenticationException: java.lang.reflect.UndeclaredThrowableException 
at org.apache.hive.service.cli.thrift.ThriftHttpServlet.doKerberosAuth(ThriftHttpServlet.java:361) 
at org.apache.hive.service.cli.thrift.ThriftHttpServlet.doPost(ThriftHttpServlet.java:136) 
at javax.servlet.http.HttpServlet.service(HttpServlet.java:755) 
at javax.servlet.http.HttpServlet.service(HttpServlet.java:848) 
at org.spark-project.jetty.servlet.ServletHolder.handle(ServletHolder.java:684) 
at org.spark-project.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:501) 
at org.spark-project.jetty.server.session.SessionHandler.doHandle(SessionHandler.java:229) 
at org.spark-project.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1086) 
at org.spark-project.jetty.servlet.ServletHandler.doScope(ServletHandler.java:428) 
at org.spark-project.jetty.server.session.SessionHandler.doScope(SessionHandler.java:193) 
at org.spark-project.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1020) 
at org.spark-project.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:135) 
at org.spark-project.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:116) 
at org.spark-project.jetty.server.Server.handle(Server.java:366) 
at org.spark-project.jetty.server.AbstractHttpConnection.handleRequest(AbstractHttpConnection.java:494) 
at org.spark-project.jetty.server.AbstractHttpConnection.content(AbstractHttpConnection.java:982) 
at org.spark-project.jetty.server.AbstractHttpConnection$RequestHandler.content(AbstractHttpConnection.java:1043) 
at org.spark-project.jetty.http.HttpParser.parseNext(HttpParser.java:957) 
at org.spark-project.jetty.http.HttpParser.parseAvailable(HttpParser.java:240) 
at org.spark-project.jetty.server.AsyncHttpConnection.handle(AsyncHttpConnection.java:82) 
at org.spark-project.jetty.io.nio.SelectChannelEndPoint.handle(SelectChannelEndPoint.java:667) 
at org.spark-project.jetty.io.nio.SelectChannelEndPoint$1.run(SelectChannelEndPoint.java:52) 
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615) 
at java.lang.Thread.run(Thread.java:744) 
Caused by: java.lang.reflect.UndeclaredThrowableException 
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1727) 
at org.apache.hive.service.cli.thrift.ThriftHttpServlet.doKerberosAuth(ThriftHttpServlet.java:358) 
... 24 more 
Caused by: org.apache.hive.service.auth.HttpAuthenticationException: Authorization header received from the client is empty. 
at org.apache.hive.service.cli.thrift.ThriftHttpServlet.getAuthHeader(ThriftHttpServlet.java:502) 
at org.apache.hive.service.cli.thrift.ThriftHttpServlet.access$100(ThriftHttpServlet.java:68) 
at org.apache.hive.service.cli.thrift.ThriftHttpServlet$HttpKerberosServerAction.run(ThriftHttpServlet.java:403) 
at org.apache.hive.service.cli.thrift.ThriftHttpServlet$HttpKerberosServerAction.run(ThriftHttpServlet.java:366) 
at java.security.AccessController.doPrivileged(Native Method) 
at javax.security.auth.Subject.doAs(Subject.java:415) 
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1709) 
... 25 more 

Кто-нибудь есть какие-либо идеи по этому поводу, и как это исправить?

Спасибо, Marco

ответ

0

Как и в HiveServer2 пустой авторизации клиента на самом деле может быть отвлекающим маневром. Первый HTTP-запрос не имеет заголовка, но обычно отправляется после вызова SPNEGO с сервера.

Я действительно не знал, что бережливый сервер SparkSQL можно использовать так же, как и улей. Знаете ли вы, поддерживает ли она Trusted Proxy, как это реализовано во многих сервисах в Hadoop? Это то, что позволяет компоненту третьей части, например Apache Knox, действовать от имени другого пользователя, утверждая имя аутентифицированного пользователя с помощью параметра doAs query. Он также гарантирует, что theAsAs исходит от удостоверения, которому он доверяет. В этом случае, используя аутентификацию kerberos/SPNEGO.

Если у него нет поддержки доверенных прокси, он не будет работать прямо из коробки. Либо он должен быть добавлен к бережному серверу SparkSQL, либо к производителю отправки, созданному для SparkSQL в Ноксе. Пользовательская отправка позволит нам распространять идентификатор пользователя, как ожидается от SparkSQL.

Надеюсь, что это поможет.

--larry