Add new “daemon-util” script to start/stop Ganeti daemons
[ganeti-local] / daemons / ganeti-masterd
index 285bcbf..4e77c71 100755 (executable)
@@ -1,4 +1,4 @@
-#!/usr/bin/python -u
+#!/usr/bin/python
 #
 
 # Copyright (C) 2006, 2007 Google Inc.
@@ -28,22 +28,18 @@ inheritance from parent classes requires it.
 
 
 import os
-import errno
 import sys
 import SocketServer
 import time
 import collections
-import Queue
-import random
 import signal
-import simplejson
 import logging
 
-from cStringIO import StringIO
 from optparse import OptionParser
 
 from ganeti import config
 from ganeti import constants
+from ganeti import daemon
 from ganeti import mcpu
 from ganeti import opcodes
 from ganeti import jqueue
@@ -55,6 +51,7 @@ from ganeti import ssconf
 from ganeti import workerpool
 from ganeti import rpc
 from ganeti import bootstrap
+from ganeti import serializer
 
 
 CLIENT_REQUEST_WORKERS = 16
@@ -110,14 +107,17 @@ class IOServer(SocketServer.UnixStreamServer):
     """
     self.request_workers.AddTask(self, request, client_address)
 
-  def serve_forever(self):
+  @utils.SignalHandled([signal.SIGINT, signal.SIGTERM])
+  def serve_forever(self, signal_handlers=None):
     """Handle one request at a time until told to quit."""
-    sighandler = utils.SignalHandler([signal.SIGINT, signal.SIGTERM])
-    try:
-      while not sighandler.called:
-        self.handle_request()
-    finally:
-      sighandler.Reset()
+    assert isinstance(signal_handlers, dict) and \
+           len(signal_handlers) > 0, \
+           "Broken SignalHandled decorator"
+    # Since we use SignalHandled only once, the resulting dict will map all
+    # signals to the same handler. We'll just use the first one.
+    sighandler = signal_handlers.values()[0]
+    while not sighandler.called:
+      self.handle_request()
 
   def server_cleanup(self):
     """Cleanup the server.
@@ -152,7 +152,7 @@ class ClientRqHandler(SocketServer.BaseRequestHandler):
         logging.debug("client closed connection")
         break
 
-      request = simplejson.loads(msg)
+      request = serializer.LoadJson(msg)
       logging.debug("request: %s", request)
       if not isinstance(request, dict):
         logging.error("wrong request received: %s", msg)
@@ -170,7 +170,7 @@ class ClientRqHandler(SocketServer.BaseRequestHandler):
         success = True
       except errors.GenericError, err:
         success = False
-        result = (err.__class__.__name__, err.args)
+        result = errors.EncodeException(err)
       except:
         logging.error("Unexpected exception", exc_info=True)
         err = sys.exc_info()
@@ -181,7 +181,7 @@ class ClientRqHandler(SocketServer.BaseRequestHandler):
         luxi.KEY_RESULT: result,
         }
       logging.debug("response: %s", response)
-      self.send_message(simplejson.dumps(response))
+      self.send_message(serializer.DumpJson(response))
 
   def read_message(self):
     while not self._msgs:
@@ -195,6 +195,7 @@ class ClientRqHandler(SocketServer.BaseRequestHandler):
 
   def send_message(self, msg):
     #print "sending", msg
+    # TODO: sendall is not guaranteed to send everything
     self.request.sendall(msg + self.EOM)
 
 
@@ -209,67 +210,120 @@ class ClientOps:
     # TODO: Parameter validation
 
     if method == luxi.REQ_SUBMIT_JOB:
+      logging.info("Received new job")
       ops = [opcodes.OpCode.LoadOpCode(state) for state in args]
       return queue.SubmitJob(ops)
 
+    if method == luxi.REQ_SUBMIT_MANY_JOBS:
+      logging.info("Received multiple jobs")
+      jobs = []
+      for ops in args:
+        jobs.append([opcodes.OpCode.LoadOpCode(state) for state in ops])
+      return queue.SubmitManyJobs(jobs)
+
     elif method == luxi.REQ_CANCEL_JOB:
       job_id = args
+      logging.info("Received job cancel request for %s", job_id)
       return queue.CancelJob(job_id)
 
     elif method == luxi.REQ_ARCHIVE_JOB:
       job_id = args
+      logging.info("Received job archive request for %s", job_id)
       return queue.ArchiveJob(job_id)
 
     elif method == luxi.REQ_AUTOARCHIVE_JOBS:
       (age, timeout) = args
+      logging.info("Received job autoarchive request for age %s, timeout %s",
+                   age, timeout)
       return queue.AutoArchiveJobs(age, timeout)
 
     elif method == luxi.REQ_WAIT_FOR_JOB_CHANGE:
       (job_id, fields, prev_job_info, prev_log_serial, timeout) = args
+      logging.info("Received job poll request for %s", job_id)
       return queue.WaitForJobChanges(job_id, fields, prev_job_info,
                                      prev_log_serial, timeout)
 
     elif method == luxi.REQ_QUERY_JOBS:
       (job_ids, fields) = args
+      if isinstance(job_ids, (tuple, list)) and job_ids:
+        msg = ", ".join(job_ids)
+      else:
+        msg = str(job_ids)
+      logging.info("Received job query request for %s", msg)
       return queue.QueryJobs(job_ids, fields)
 
     elif method == luxi.REQ_QUERY_INSTANCES:
-      (names, fields) = args
-      op = opcodes.OpQueryInstances(names=names, output_fields=fields)
+      (names, fields, use_locking) = args
+      logging.info("Received instance query request for %s", names)
+      if use_locking:
+        raise errors.OpPrereqError("Sync queries are not allowed",
+                                   errors.ECODE_INVAL)
+      op = opcodes.OpQueryInstances(names=names, output_fields=fields,
+                                    use_locking=use_locking)
       return self._Query(op)
 
     elif method == luxi.REQ_QUERY_NODES:
-      (names, fields) = args
-      op = opcodes.OpQueryNodes(names=names, output_fields=fields)
+      (names, fields, use_locking) = args
+      logging.info("Received node query request for %s", names)
+      if use_locking:
+        raise errors.OpPrereqError("Sync queries are not allowed",
+                                   errors.ECODE_INVAL)
+      op = opcodes.OpQueryNodes(names=names, output_fields=fields,
+                                use_locking=use_locking)
       return self._Query(op)
 
     elif method == luxi.REQ_QUERY_EXPORTS:
-      nodes = args
-      op = opcodes.OpQueryExports(nodes=nodes)
+      nodes, use_locking = args
+      if use_locking:
+        raise errors.OpPrereqError("Sync queries are not allowed",
+                                   errors.ECODE_INVAL)
+      logging.info("Received exports query request")
+      op = opcodes.OpQueryExports(nodes=nodes, use_locking=use_locking)
       return self._Query(op)
 
     elif method == luxi.REQ_QUERY_CONFIG_VALUES:
       fields = args
+      logging.info("Received config values query request for %s", fields)
       op = opcodes.OpQueryConfigValues(output_fields=fields)
       return self._Query(op)
 
+    elif method == luxi.REQ_QUERY_CLUSTER_INFO:
+      logging.info("Received cluster info query request")
+      op = opcodes.OpQueryClusterInfo()
+      return self._Query(op)
+
     elif method == luxi.REQ_QUEUE_SET_DRAIN_FLAG:
       drain_flag = args
+      logging.info("Received queue drain flag change request to %s",
+                   drain_flag)
       return queue.SetDrainFlag(drain_flag)
 
-    else:
-      raise ValueError("Invalid operation")
+    elif method == luxi.REQ_SET_WATCHER_PAUSE:
+      (until, ) = args
+
+      if until is None:
+        logging.info("Received request to no longer pause the watcher")
+      else:
+        if not isinstance(until, (int, float)):
+          raise TypeError("Duration must be an integer or float")
+
+        if until < time.time():
+          raise errors.GenericError("Unable to set pause end time in the past")
 
-  def _DummyLog(self, *args):
-    pass
+        logging.info("Received request to pause the watcher until %s", until)
+
+      return _SetWatcherPause(until)
+
+    else:
+      logging.info("Received invalid request '%s'", method)
+      raise ValueError("Invalid operation '%s'" % method)
 
   def _Query(self, op):
     """Runs the specified opcode and returns the result.
 
     """
     proc = mcpu.Processor(self.server.context)
-    # TODO: Where should log messages go?
-    return proc.ExecOpCode(op, self._DummyLog, None)
+    return proc.ExecOpCode(op, None)
 
 
 class GanetiContext(object):
@@ -344,25 +398,20 @@ class GanetiContext(object):
     self.glm.remove(locking.LEVEL_NODE, name)
 
 
-def ParseOptions():
-  """Parse the command line options.
+def _SetWatcherPause(until):
+  """Creates or removes the watcher pause file.
 
-  @return: (options, args) as from OptionParser.parse_args()
+  @type until: None or int
+  @param until: Unix timestamp saying until when the watcher shouldn't run
 
   """
-  parser = OptionParser(description="Ganeti master daemon",
-                        usage="%prog [-f] [-d]",
-                        version="%%prog (ganeti) %s" %
-                        constants.RELEASE_VERSION)
+  if until is None:
+    utils.RemoveFile(constants.WATCHER_PAUSEFILE)
+  else:
+    utils.WriteFile(constants.WATCHER_PAUSEFILE,
+                    data="%d\n" % (until, ))
 
-  parser.add_option("-f", "--foreground", dest="fork",
-                    help="Don't detach from the current terminal",
-                    default=True, action="store_false")
-  parser.add_option("-d", "--debug", dest="debug",
-                    help="Enable some debug messages",
-                    default=False, action="store_true")
-  options, args = parser.parse_args()
-  return options, args
+  return until
 
 
 def CheckAgreement():
@@ -408,6 +457,7 @@ def CheckAgreement():
   # here a real node is at the top of the list
   all_votes = sum(item[1] for item in votes)
   top_node, top_votes = votes[0]
+
   result = False
   if top_node != myself:
     logging.critical("It seems we are not the master (top-voted node"
@@ -422,62 +472,106 @@ def CheckAgreement():
   return result
 
 
-def main():
-  """Main function"""
+def CheckAgreementWithRpc():
+  rpc.Init()
+  try:
+    return CheckAgreement()
+  finally:
+    rpc.Shutdown()
 
-  options, args = ParseOptions()
-  utils.debug = options.debug
-  utils.no_fork = True
 
-  if options.fork:
-    utils.CloseFDs()
+def _RunInSeparateProcess(fn):
+  """Runs a function in a separate process.
 
-  rpc.Init()
-  try:
-    ssconf.CheckMaster(options.debug)
+  Note: Only boolean return values are supported.
+
+  @type fn: callable
+  @param fn: Function to be called
+  @rtype: bool
+
+  """
+  pid = os.fork()
+  if pid == 0:
+    # Child process
+    try:
+      # Call function
+      result = int(bool(fn()))
+      assert result in (0, 1)
+    except:
+      logging.exception("Error while calling function in separate process")
+      # 0 and 1 are reserved for the return value
+      result = 33
 
-    # we believe we are the master, let's ask the other nodes...
-    if not CheckAgreement():
+    os._exit(result)
+
+  # Parent process
+
+  # Avoid zombies and check exit code
+  (_, status) = os.waitpid(pid, 0)
+
+  if os.WIFSIGNALED(status):
+    signum = os.WTERMSIG(status)
+    exitcode = None
+  else:
+    signum = None
+    exitcode = os.WEXITSTATUS(status)
+
+  if not (exitcode in (0, 1) and signum is None):
+    logging.error("Child program failed (code=%s, signal=%s)",
+                  exitcode, signum)
+    sys.exit(constants.EXIT_FAILURE)
+
+  return bool(exitcode)
+
+
+def CheckMasterd(options, args):
+  """Initial checks whether to run or exit with a failure.
+
+  """
+  ssconf.CheckMaster(options.debug)
+
+  # If CheckMaster didn't fail we believe we are the master, but we have to
+  # confirm with the other nodes.
+  if options.no_voting:
+    if options.yes_do_it:
       return
 
-    dirs = [(constants.RUN_GANETI_DIR, constants.RUN_DIRS_MODE),
-            (constants.SOCKET_DIR, constants.SOCKET_DIR_MODE),
-           ]
-    for dir_name, mode in dirs:
-      try:
-        os.mkdir(dir_name, mode)
-      except EnvironmentError, err:
-        if err.errno != errno.EEXIST:
-          raise errors.GenericError("Cannot create needed directory"
-            " '%s': %s" % (constants.SOCKET_DIR, err))
-      if not os.path.isdir(dir_name):
-        raise errors.GenericError("%s is not a directory" % dir_name)
-
-    # This is safe to do as the pid file guarantees against
-    # concurrent execution.
-    utils.RemoveFile(constants.MASTER_SOCKET)
+    sys.stdout.write("The 'no voting' option has been selected.\n")
+    sys.stdout.write("This is dangerous, please confirm by"
+                     " typing uppercase 'yes': ")
+    sys.stdout.flush()
 
-    master = IOServer(constants.MASTER_SOCKET, ClientRqHandler)
-  finally:
-    rpc.Shutdown()
+    confirmation = sys.stdin.readline().strip()
+    if confirmation != "YES":
+      print >>sys.stderr, "Aborting."
+      sys.exit(constants.EXIT_FAILURE)
 
-  # become a daemon
-  if options.fork:
-    utils.Daemonize(logfile=constants.LOG_MASTERDAEMON)
+    return
+
+  # CheckAgreement uses RPC and threads, hence it needs to be run in a separate
+  # process before we call utils.Daemonize in the current process.
+  if not _RunInSeparateProcess(CheckAgreementWithRpc):
+    sys.exit(constants.EXIT_FAILURE)
 
-  utils.WritePidFile(constants.MASTERD_PID)
-  try:
-    utils.SetupLogging(constants.LOG_MASTERDAEMON, debug=options.debug,
-                       stderr_logging=not options.fork, multithreaded=True)
 
-    logging.info("Ganeti master daemon startup")
+def ExecMasterd (options, args):
+  """Main master daemon function, executed with the PID file held.
+
+  """
+  # This is safe to do as the pid file guarantees against
+  # concurrent execution.
+  utils.RemoveFile(constants.MASTER_SOCKET)
 
+  master = IOServer(constants.MASTER_SOCKET, ClientRqHandler)
+  try:
     rpc.Init()
     try:
       # activate ip
-      master_node = ssconf.SimpleConfigReader().GetMasterNode()
-      if not rpc.RpcRunner.call_node_start_master(master_node, False):
-        logging.error("Can't activate master IP address")
+      master_node = ssconf.SimpleStore().GetMasterNode()
+      result = rpc.RpcRunner.call_node_start_master(master_node, False, False)
+      msg = result.fail_msg
+      if msg:
+        logging.error("Can't activate master IP address: %s", msg)
 
       master.setup_queue()
       try:
@@ -487,9 +581,28 @@ def main():
     finally:
       rpc.Shutdown()
   finally:
-    utils.RemovePidFile(constants.MASTERD_PID)
     utils.RemoveFile(constants.MASTER_SOCKET)
 
 
+def main():
+  """Main function"""
+  parser = OptionParser(description="Ganeti master daemon",
+                        usage="%prog [-f] [-d]",
+                        version="%%prog (ganeti) %s" %
+                        constants.RELEASE_VERSION)
+  parser.add_option("--no-voting", dest="no_voting",
+                    help="Do not check that the nodes agree on this node"
+                    " being the master and start the daemon unconditionally",
+                    default=False, action="store_true")
+  parser.add_option("--yes-do-it", dest="yes_do_it",
+                    help="Override interactive check for --no-voting",
+                    default=False, action="store_true")
+  dirs = [(constants.RUN_GANETI_DIR, constants.RUN_DIRS_MODE),
+          (constants.SOCKET_DIR, constants.SOCKET_DIR_MODE),
+         ]
+  daemon.GenericMain(constants.MASTERD, parser, dirs,
+                     CheckMasterd, ExecMasterd)
+
+
 if __name__ == "__main__":
   main()