2016-07-17 2 views
5

У меня возникли проблемы с выполнением заданий hadoop как в псевдокласте, так и в режиме кластера под ubuntu 16.04.logouts во время работы hadoop под ubuntu 16.04

При запуске установки vanila hadoop/hdfs - мой пользователь hadoop получает , и все процессы, выполняемые этим пользователем, закрыты. Я ничего не вижу в журналах (/ var/log/systemd, journalctl или dmesg), что объясняет, почему пользователь выходит из системы.

Похоже, я не единственный, кто имеет проблемы с этим или подобным вопросом:

https://stackoverflow.com/questions/38288162/in-ubuntu-16-04-running-hadoop-jar-laptop-gets-rebooted

Примечание: создание специального пользователя Hadoop фактически не решена проблема в моем случае - но ограничили выхода из системы для выделенного пользователя.

https://askubuntu.com/questions/784591/ubuntu-16-04-kills-session-when-resource-usage-is-extremely-high

Возможно ли, что некоторые проблемы вокруг UserGroupInformation класса (что может при определенных обстоятельствах привести к выходу), с, возможно, некоторые изменения в Systemd в убунту 16.04 может вызвать такое поведение?

Последние строки журнала Hadoop, что я получаю до выхода из системы:

... 
16/07/13 16:45:37 DEBUG ipc.ProtobufRpcEngine: Call: getJobReport took 4ms 
16/07/13 16:45:37 DEBUG security.UserGroupInformation: PrivilegedAction 
as:hduser (auth:SIMPLE) 
from:org.apache.hadoop.mapreduce.Job.updateStatus(Job.java:320) 
16/07/13 16:45:37 DEBUG ipc.Client: IPC Client (1360814716) connection to 
laptop/127.0.1.1:37339 from hduser sending #375 
16/07/13 16:45:37 DEBUG ipc.Client: IPC Client (1360814716) connection to 
laptop/127.0.1.1:37339 from hduser got value #375 
16/07/13 16:45:37 DEBUG ipc.ProtobufRpcEngine: Call: getJobReport took 2ms 
Terminated 
[email protected]:~$ 16/07/13 16:45:37 DEBUG ipc.Client: stopping client from 
cache: [email protected] 
exit 

journalctl:

Jul 12 16:06:44 laptop systemd-logind[978]: Removed session 7. 
Jul 12 16:06:44 laptop systemd-logind[978]: Removed session 6. 
Jul 12 16:06:44 laptop systemd-logind[978]: Removed session 5. 
Jul 12 16:06:44 laptop systemd-logind[978]: Removed session 8. 

системный журнал:

Jul 12 16:06:43 laptop systemd[4172]: Stopped target Default. 
Jul 12 16:06:43 laptop systemd[4172]: Reached target Shutdown. 
Jul 12 16:06:44 laptop systemd[4172]: Starting Exit the Session... 
Jul 12 16:06:44 laptop systemd[4172]: Stopped target Basic System. 
Jul 12 16:06:44 laptop systemd[4172]: Stopped target Sockets. 
Jul 12 16:06:44 laptop systemd[4172]: Stopped target Paths. 
Jul 12 16:06:44 laptop systemd[4172]: Stopped target Timers. 
Jul 12 16:06:44 laptop systemd[4172]: Received SIGRTMIN+24 from PID 
10101 (kill). 
Jul 12 16:06:44 laptop systemd[1]: Stopped User Manager for UID 1001. 
Jul 12 16:06:44 laptop systemd[1]: Removed slice User Slice of hduser. 

ответ

5

Я также имел проблемы. Это заняло у меня время, но я нашел решение здесь: https://unix.stackexchange.com/questions/293069/all-services-of-a-user-are-killed-when-running-multiple-services-under-this-user

В принципе, некоторые процессы отладки просто прекращаются, потому что почему бы и нет. Но systemd, кажется, убивает весь процесс пользователя, когда он видит, что процесс службы умирает.

Исправление добавить

[login] 
KillUserProcesses=no 

для /etc/systemd/logind.conf и перезагрузки.

У меня было несколько версий ubuntu для отладки проблемы, и исправление, похоже, работает только на ubuntu 16.04.

+0

Я обновил файл logind.conf. Это работало на моем ноутбуке, но не на виртуальной машине, которую я использую. –

3

У меня была такая же проблема. Наконец, я нашел, что /bin/kill in ubuntu16.04 has bug in killing process group может решить эту проблему.

Если PID меньше -1, то сиг посылается каждому процессу в группе процессов, чей идентификатор -pid

Из-за ошибки в Procps-нг -3.3.10, убейте группу процессов, идентификатор которой начинается с 1, вызывается bin/yarn application -kill AppID, приведет к выходу пользователей из системы.

Проблема решена после замены /bin/kill на новый kill, составленный из procps-ng-3.3.12.

tar xJf procps-ng-3.3.12.tar.xz 
cd procps-ng-3.3.12 
./configure 
sudo cp .lib/kill /bin/kill 
sudo chown root:root /bin/kill 
sudo cp proc/.libs/libprocps.so.6.0.0 /lib/x86_64-linux/gnu/ 
sudo chown root:root /lib/x86_64-linux-gnu/libprocps.so.6.0.0 
2

У меня была та же проблема. Я использовал Apache APEX, который является родным. При убийстве любого приложения APEX моя система использовала для входа в систему.

Решение: Замените файл Разрушитель (присутствует в/бен/убить) в Ubuntu 16 с уничтожений файла Ubuntu 14.

Все работает гладко, как перед обновлением для меня.

 Смежные вопросы

  • Нет связанных вопросов^_^