Make DiagnoseOS use the modified OS objects
[ganeti-local] / lib / backend.py
index 500feba..bb5bfe0 100644 (file)
@@ -1,4 +1,4 @@
-#!/usr/bin/python
+#
 #
 
 # Copyright (C) 2006, 2007 Google Inc.
@@ -80,45 +80,32 @@ def StopMaster():
 
 
 def AddNode(dsa, dsapub, rsa, rsapub, sshkey, sshpub):
-  """ adds the node to the cluster
-      - updates the hostkey
-      - adds the ssh-key
-      - sets the node id
-      - sets the node status to installed
-
-  """
-  f = open("/etc/ssh/ssh_host_rsa_key", 'w')
-  f.write(rsa)
-  f.close()
-
-  f = open("/etc/ssh/ssh_host_rsa_key.pub", 'w')
-  f.write(rsapub)
-  f.close()
-
-  f = open("/etc/ssh/ssh_host_dsa_key", 'w')
-  f.write(dsa)
-  f.close()
+  """Joins this node to the cluster.
 
-  f = open("/etc/ssh/ssh_host_dsa_key.pub", 'w')
-  f.write(dsapub)
-  f.close()
+  This does the following:
+      - updates the hostkeys of the machine (rsa and dsa)
+      - adds the ssh private key to the user
+      - adds the ssh public key to the users' authorized_keys file
 
-  if not os.path.isdir("/root/.ssh"):
-    os.mkdir("/root/.ssh")
+  """
+  sshd_keys =  [(constants.SSH_HOST_RSA_PRIV, rsa, 0600),
+                (constants.SSH_HOST_RSA_PUB, rsapub, 0644),
+                (constants.SSH_HOST_DSA_PRIV, dsa, 0600),
+                (constants.SSH_HOST_DSA_PUB, dsapub, 0644)]
+  for name, content, mode in sshd_keys:
+    utils.WriteFile(name, data=content, mode=mode)
 
-  f = open("/root/.ssh/id_dsa", 'w')
-  f.write(sshkey)
-  f.close()
+  try:
+    priv_key, pub_key, auth_keys = ssh.GetUserFiles(constants.GANETI_RUNAS,
+                                                    mkdir=True)
+  except errors.OpExecError, err:
+    logger.Error("Error while processing user ssh files: %s" % err)
+    return False
 
-  f = open("/root/.ssh/id_dsa.pub", 'w')
-  f.write(sshpub)
-  f.close()
+  for name, content in [(priv_key, sshkey), (pub_key, sshpub)]:
+    utils.WriteFile(name, data=content, mode=0600)
 
-  f = open('/root/.ssh/id_dsa.pub', 'r')
-  try:
-    utils.AddAuthorizedKey('/root/.ssh/authorized_keys', f.read(8192))
-  finally:
-    f.close()
+  utils.AddAuthorizedKey(auth_keys, sshpub)
 
   utils.RunCmd([constants.SSH_INITD_SCRIPT, "restart"])
 
@@ -129,25 +116,31 @@ def LeaveCluster():
   """Cleans up the current node and prepares it to be removed from the cluster.
 
   """
-  if os.path.exists(constants.DATA_DIR):
-    for dirpath, dirnames, filenames in os.walk(constants.DATA_DIR):
-      if dirpath == constants.DATA_DIR:
-        for i in filenames:
-          os.unlink(os.path.join(dirpath, i))
+  if os.path.isdir(constants.DATA_DIR):
+    for rel_name in utils.ListVisibleFiles(constants.DATA_DIR):
+      full_name = os.path.join(constants.DATA_DIR, rel_name)
+      if os.path.isfile(full_name) and not os.path.islink(full_name):
+        utils.RemoveFile(full_name)
+
+
+  try:
+    priv_key, pub_key, auth_keys = ssh.GetUserFiles(constants.GANETI_RUNAS)
+  except errors.OpExecError, err:
+    logger.Error("Error while processing ssh files: %s" % err)
+    return
 
-  f = open('/root/.ssh/id_dsa.pub', 'r')
+  f = open(pub_key, 'r')
   try:
-    utils.RemoveAuthorizedKey('/root/.ssh/authorized_keys', f.read(8192))
+    utils.RemoveAuthorizedKey(auth_keys, f.read(8192))
   finally:
     f.close()
 
-  utils.RemoveFile('/root/.ssh/id_dsa')
-  utils.RemoveFile('/root/.ssh/id_dsa.pub')
+  utils.RemoveFile(priv_key)
+  utils.RemoveFile(pub_key)
 
 
 def GetNodeInfo(vgname):
-  """ gives back a hash with different informations
-  about the node
+  """Gives back a hash with different informations about the node.
 
   Returns:
     { 'vg_size' : xxx,  'vg_free' : xxx, 'memory_domain0': xxx,
@@ -170,6 +163,12 @@ def GetNodeInfo(vgname):
   if hyp_info is not None:
     outputarray.update(hyp_info)
 
+  f = open("/proc/sys/kernel/random/boot_id", 'r')
+  try:
+    outputarray["bootid"] = f.read(128).rstrip("\n")
+  finally:
+    f.close()
+
   return outputarray
 
 
@@ -228,7 +227,7 @@ def GetVolumeList(vg_name):
 
 
 def ListVolumeGroups():
-  """List the volume groups and their size
+  """List the volume groups and their size.
 
   Returns:
     Dictionary with keys volume name and values the size of the volume
@@ -267,7 +266,7 @@ def NodeVolumes():
 
 
 def BridgesExist(bridges_list):
-  """Check if a list of bridges exist on the current node
+  """Check if a list of bridges exist on the current node.
 
   Returns:
     True if all of them exist, false otherwise
@@ -281,7 +280,7 @@ def BridgesExist(bridges_list):
 
 
 def GetInstanceList():
-  """ provides a list of instances
+  """Provides a list of instances.
 
   Returns:
     A list of all running instances on the current node
@@ -299,8 +298,7 @@ def GetInstanceList():
 
 
 def GetInstanceInfo(instance):
-  """ gives back the informations about an instance
-  as a dictonary
+  """Gives back the informations about an instance as a dictionary.
 
   Args:
     instance: name of the instance (ex. instance1.example.com)
@@ -357,7 +355,7 @@ def GetAllInstancesInfo():
 
 
 def AddOSToInstance(instance, os_disk, swap_disk):
-  """Add an os to an instance.
+  """Add an OS to an instance.
 
   Args:
     instance: the instance object
@@ -587,7 +585,42 @@ def ShutdownInstance(instance):
   return True
 
 
-def CreateBlockDevice(disk, size, on_primary, info):
+def RebootInstance(instance, reboot_type, extra_args):
+  """Reboot an instance.
+
+  Args:
+    instance    - name of instance to reboot
+    reboot_type - how to reboot [soft,hard,full]
+
+  """
+  running_instances = GetInstanceList()
+
+  if instance.name not in running_instances:
+    logger.Error("Cannot reboot instance that is not running")
+    return False
+
+  hyper = hypervisor.GetHypervisor()
+  if reboot_type == constants.INSTANCE_REBOOT_SOFT:
+    try:
+      hyper.RebootInstance(instance)
+    except errors.HypervisorError, err:
+      logger.Error("Failed to soft reboot instance: %s" % err)
+      return False
+  elif reboot_type == constants.INSTANCE_REBOOT_HARD:
+    try:
+      ShutdownInstance(instance)
+      StartInstance(instance, extra_args)
+    except errors.HypervisorError, err:
+      logger.Error("Failed to hard reboot instance: %s" % err)
+      return False
+  else:
+    raise errors.ParameterError("reboot_type invalid")
+
+
+  return True
+
+
+def CreateBlockDevice(disk, size, owner, on_primary, info):
   """Creates a block device for an instance.
 
   Args:
@@ -605,7 +638,7 @@ def CreateBlockDevice(disk, size, on_primary, info):
   clist = []
   if disk.children:
     for child in disk.children:
-      crdev = _RecursiveAssembleBD(child, on_primary)
+      crdev = _RecursiveAssembleBD(child, owner, on_primary)
       if on_primary or disk.AssembleOnSecondary():
         # we need the children open in case the device itself has to
         # be assembled
@@ -631,6 +664,8 @@ def CreateBlockDevice(disk, size, on_primary, info):
     device.SetSyncSpeed(constants.SYNC_SPEED)
     if on_primary or disk.OpenOnSecondary():
       device.Open(force=True)
+    DevCacheManager.UpdateCache(device.dev_path, owner,
+                                on_primary, disk.iv_name)
 
   device.SetInfo(info)
 
@@ -653,7 +688,10 @@ def RemoveBlockDevice(disk):
     logger.Info("Can't attach to device %s in remove" % disk)
     rdev = None
   if rdev is not None:
+    r_path = rdev.dev_path
     result = rdev.Remove()
+    if result:
+      DevCacheManager.RemoveCache(r_path)
   else:
     result = True
   if disk.children:
@@ -662,7 +700,7 @@ def RemoveBlockDevice(disk):
   return result
 
 
-def _RecursiveAssembleBD(disk, as_primary):
+def _RecursiveAssembleBD(disk, owner, as_primary):
   """Activate a block device for an instance.
 
   This is run on the primary and secondary nodes for an instance.
@@ -682,7 +720,7 @@ def _RecursiveAssembleBD(disk, as_primary):
   children = []
   if disk.children:
     for chld_disk in disk.children:
-      children.append(_RecursiveAssembleBD(chld_disk, as_primary))
+      children.append(_RecursiveAssembleBD(chld_disk, owner, as_primary))
 
   if as_primary or disk.AssembleOnSecondary():
     r_dev = bdev.AttachOrAssemble(disk.dev_type, disk.physical_id, children)
@@ -692,12 +730,15 @@ def _RecursiveAssembleBD(disk, as_primary):
       r_dev.Open()
     else:
       r_dev.Close()
+    DevCacheManager.UpdateCache(r_dev.dev_path, owner,
+                                as_primary, disk.iv_name)
+
   else:
     result = True
   return result
 
 
-def AssembleBlockDevice(disk, as_primary):
+def AssembleBlockDevice(disk, owner, as_primary):
   """Activate a block device for an instance.
 
   This is a wrapper over _RecursiveAssembleBD.
@@ -707,7 +748,7 @@ def AssembleBlockDevice(disk, as_primary):
     True for secondary nodes
 
   """
-  result = _RecursiveAssembleBD(disk, as_primary)
+  result = _RecursiveAssembleBD(disk, owner, as_primary)
   if isinstance(result, bdev.BlockDev):
     result = result.dev_path
   return result
@@ -726,7 +767,10 @@ def ShutdownBlockDevice(disk):
   """
   r_dev = _RecursiveFindBD(disk)
   if r_dev is not None:
+    r_path = r_dev.dev_path
     result = r_dev.Shutdown()
+    if result:
+      DevCacheManager.RemoveCache(r_path)
   else:
     result = True
   if disk.children:
@@ -735,35 +779,37 @@ def ShutdownBlockDevice(disk):
   return result
 
 
-def MirrorAddChild(md_cdev, new_cdev):
-  """Extend an MD raid1 array.
+def MirrorAddChildren(parent_cdev, new_cdevs):
+  """Extend a mirrored block device.
 
   """
-  md_bdev = _RecursiveFindBD(md_cdev, allow_partial=True)
-  if md_bdev is None:
-    logger.Error("Can't find md device")
+  parent_bdev = _RecursiveFindBD(parent_cdev, allow_partial=True)
+  if parent_bdev is None:
+    logger.Error("Can't find parent device")
     return False
-  new_bdev = _RecursiveFindBD(new_cdev)
-  if new_bdev is None:
-    logger.Error("Can't find new device to add")
+  new_bdevs = [_RecursiveFindBD(disk) for disk in new_cdevs]
+  if new_bdevs.count(None) > 0:
+    logger.Error("Can't find new device(s) to add: %s:%s" %
+                 (new_bdevs, new_cdevs))
     return False
-  new_bdev.Open()
-  md_bdev.AddChild(new_bdev)
+  parent_bdev.AddChildren(new_bdevs)
   return True
 
 
-def MirrorRemoveChild(md_cdev, new_cdev):
-  """Reduce an MD raid1 array.
+def MirrorRemoveChildren(parent_cdev, new_cdevs):
+  """Shrink a mirrored block device.
 
   """
-  md_bdev = _RecursiveFindBD(md_cdev)
-  if md_bdev is None:
+  parent_bdev = _RecursiveFindBD(parent_cdev)
+  if parent_bdev is None:
+    logger.Error("Can't find parent in remove children: %s" % parent_cdev)
     return False
-  new_bdev = _RecursiveFindBD(new_cdev)
-  if new_bdev is None:
+  new_bdevs = [_RecursiveFindBD(disk) for disk in new_cdevs]
+  if new_bdevs.count(None) > 0:
+    logger.Error("Can't find some devices while removing children: %s %s" %
+                 (new_cdevs, new_bdevs))
     return False
-  new_bdev.Open()
-  md_bdev.RemoveChild(new_bdev.dev_path)
+  parent_bdev.RemoveChildren(new_bdevs)
   return True
 
 
@@ -881,6 +927,7 @@ def _ErrnoOrStr(err):
     detail = str(err)
   return detail
 
+
 def _OSSearch(name, search_path=None):
   """Search for OSes with the given name in the search_path.
 
@@ -892,7 +939,6 @@ def _OSSearch(name, search_path=None):
     The base_dir the OS resides in
 
   """
-
   if search_path is None:
     search_path = constants.OS_SEARCH_PATH
 
@@ -903,17 +949,17 @@ def _OSSearch(name, search_path=None):
 
   return None
 
+
 def _OSOndiskVersion(name, os_dir):
-  """Compute and return the api version of a given OS.
+  """Compute and return the API version of a given OS.
 
-  This function will try to read the api version of the os given by
+  This function will try to read the API version of the os given by
   the 'name' parameter and residing in the 'os_dir' directory.
 
   Return value will be either an integer denoting the version or None in the
   case when this is not a valid OS name.
 
   """
-
   api_file = os.path.sep.join([os_dir, "ganeti_api_version"])
 
   try:
@@ -949,14 +995,11 @@ def _OSOndiskVersion(name, os_dir):
 def DiagnoseOS(top_dirs=None):
   """Compute the validity for all OSes.
 
-  For each name in all the given top directories (if not given defaults i
-  to constants.OS_SEARCH_PATH it will return an object. If this is a valid
-  os, the object will be an instance of the object.OS class. If not,
-  it will be an instance of errors.InvalidOS and this signifies that
-  this name does not correspond to a valid OS.
+  Returns an OS object for each name in all the given top directories
+  (if not given defaults to constants.OS_SEARCH_PATH)
 
   Returns:
-    list of objects
+    list of OS objects
 
   """
   if top_dirs is None:
@@ -966,7 +1009,7 @@ def DiagnoseOS(top_dirs=None):
   for dir in top_dirs:
     if os.path.isdir(dir):
       try:
-        f_names = os.listdir(dir)
+        f_names = utils.ListVisibleFiles(dir)
       except EnvironmentError, err:
         logger.Error("Can't list the OS directory %s: %s" % (dir,str(err)))
         break
@@ -975,7 +1018,7 @@ def DiagnoseOS(top_dirs=None):
           os_inst = OSFromDisk(name, base_dir=dir)
           result.append(os_inst)
         except errors.InvalidOS, err:
-          result.append(err)
+          result.append(objects.OS.FromInvalidOS(err))
 
   return result
 
@@ -1029,7 +1072,7 @@ def OSFromDisk(name, base_dir=None):
                              script)
 
 
-  return objects.OS(name=name, path=os_dir,
+  return objects.OS(name=name, path=os_dir, status=constants.OS_VALID_STATUS,
                     create_script=os_scripts['create'],
                     export_script=os_scripts['export'],
                     import_script=os_scripts['import'],
@@ -1060,7 +1103,7 @@ def SnapshotBlockDevice(disk):
         if child.size == disk.size:
           # return implies breaking the loop
           return SnapshotBlockDevice(child)
-  elif disk.dev_type == "lvm":
+  elif disk.dev_type == constants.LD_LV:
     r_dev = _RecursiveFindBD(disk)
     if r_dev is not None:
       # let's stay on the safe side and ask for the full size, for now
@@ -1114,7 +1157,7 @@ def ExportSnapshot(disk, dest_node, instance):
 
   destcmd = utils.BuildShellCmd("mkdir -p %s && cat > %s/%s",
                                 destdir, destdir, destfile)
-  remotecmd = ssh.BuildSSHCmd(dest_node, 'root', destcmd)
+  remotecmd = ssh.BuildSSHCmd(dest_node, constants.GANETI_RUNAS, destcmd)
 
 
 
@@ -1256,7 +1299,7 @@ def ImportOSIntoInstance(instance, os_disk, swap_disk, src_node, src_image):
     os.mkdir(constants.LOG_OS_DIR, 0750)
 
   destcmd = utils.BuildShellCmd('cat %s', src_image)
-  remotecmd = ssh.BuildSSHCmd(src_node, 'root', destcmd)
+  remotecmd = ssh.BuildSSHCmd(src_node, constants.GANETI_RUNAS, destcmd)
 
   comprcmd = "gunzip"
   impcmd = utils.BuildShellCmd("(cd %s; %s -i %s -b %s -s %s &>%s)",
@@ -1282,7 +1325,7 @@ def ListExports():
 
   """
   if os.path.isdir(constants.EXPORT_DIR):
-    return os.listdir(constants.EXPORT_DIR)
+    return utils.ListVisibleFiles(constants.EXPORT_DIR)
   else:
     return []
 
@@ -1306,6 +1349,38 @@ def RemoveExport(export):
   return True
 
 
+def RenameBlockDevices(devlist):
+  """Rename a list of block devices.
+
+  The devlist argument is a list of tuples (disk, new_logical,
+  new_physical). The return value will be a combined boolean result
+  (True only if all renames succeeded).
+
+  """
+  result = True
+  for disk, unique_id in devlist:
+    dev = _RecursiveFindBD(disk)
+    if dev is None:
+      result = False
+      continue
+    try:
+      old_rpath = dev.dev_path
+      dev.Rename(unique_id)
+      new_rpath = dev.dev_path
+      if old_rpath != new_rpath:
+        DevCacheManager.RemoveCache(old_rpath)
+        # FIXME: we should add the new cache information here, like:
+        # DevCacheManager.UpdateCache(new_rpath, owner, ...)
+        # but we don't have the owner here - maybe parse from existing
+        # cache? for now, we only lose lvm data when we rename, which
+        # is less critical than DRBD or MD
+    except errors.BlockDeviceError, err:
+      logger.Error("Can't rename device '%s' to '%s': %s" %
+                   (dev, unique_id, err))
+      result = False
+  return result
+
+
 class HooksRunner(object):
   """Hook runner.
 
@@ -1392,7 +1467,7 @@ class HooksRunner(object):
     subdir = "%s-%s.d" % (hpath, suffix)
     dir_name = "%s/%s" % (self._BASE_DIR, subdir)
     try:
-      dir_contents = os.listdir(dir_name)
+      dir_contents = utils.ListVisibleFiles(dir_name)
     except OSError, err:
       # must log
       return rr
@@ -1415,3 +1490,56 @@ class HooksRunner(object):
       rr.append(("%s/%s" % (subdir, relname), rrval, output))
 
     return rr
+
+
+class DevCacheManager(object):
+  """Simple class for managing a chache of block device information.
+
+  """
+  _DEV_PREFIX = "/dev/"
+  _ROOT_DIR = constants.BDEV_CACHE_DIR
+
+  @classmethod
+  def _ConvertPath(cls, dev_path):
+    """Converts a /dev/name path to the cache file name.
+
+    This replaces slashes with underscores and strips the /dev
+    prefix. It then returns the full path to the cache file
+
+    """
+    if dev_path.startswith(cls._DEV_PREFIX):
+      dev_path = dev_path[len(cls._DEV_PREFIX):]
+    dev_path = dev_path.replace("/", "_")
+    fpath = "%s/bdev_%s" % (cls._ROOT_DIR, dev_path)
+    return fpath
+
+  @classmethod
+  def UpdateCache(cls, dev_path, owner, on_primary, iv_name):
+    """Updates the cache information for a given device.
+
+    """
+    fpath = cls._ConvertPath(dev_path)
+    if on_primary:
+      state = "primary"
+    else:
+      state = "secondary"
+    if iv_name is None:
+      iv_name = "not_visible"
+    fdata = "%s %s %s\n" % (str(owner), state, iv_name)
+    try:
+      utils.WriteFile(fpath, data=fdata)
+    except EnvironmentError, err:
+      logger.Error("Can't update bdev cache for %s, error %s" %
+                   (dev_path, str(err)))
+
+  @classmethod
+  def RemoveCache(cls, dev_path):
+    """Remove data for a dev_path.
+
+    """
+    fpath = cls._ConvertPath(dev_path)
+    try:
+      utils.RemoveFile(fpath)
+    except EnvironmentError, err:
+      logger.Error("Can't update bdev cache for %s, error %s" %
+                   (dev_path, str(err)))