rpc: Add a simple failure reporting framework
[ganeti-local] / tools / cfgupgrade
index 9825cf6..7ce75c1 100755 (executable)
@@ -1,7 +1,7 @@
 #!/usr/bin/python
 #
 
-# Copyright (C) 2007, 2008 Google Inc.
+# Copyright (C) 2007, 2008, 2009 Google Inc.
 #
 # This program is free software; you can redistribute it and/or modify
 # it under the terms of the GNU General Public License as published by
@@ -21,8 +21,8 @@
 
 """Tool to upgrade the configuration file.
 
-This code handles only the types supported by simplejson. As an example, "set"
-is a "list".
+This code handles only the types supported by simplejson. As an
+example, 'set' is a 'list'.
 
 """
 
@@ -39,28 +39,52 @@ from ganeti import constants
 from ganeti import serializer
 from ganeti import utils
 from ganeti import cli
+from ganeti import bootstrap
+from ganeti import config
 
 
-# We need to keep filenames locally because they might be renamed between
-# versions.
-CONFIG_DATA_PATH = constants.DATA_DIR + "/config.data"
-SERVER_PEM_PATH = constants.DATA_DIR + "/server.pem"
-KNOWN_HOSTS_PATH = constants.DATA_DIR + "/known_hosts"
-SSCONF_CLUSTER_NAME_PATH = constants.DATA_DIR + "/ssconf_cluster_name"
-SSCONF_CONFIG_VERSION_PATH = constants.DATA_DIR + "/ssconf_config_version"
-
 options = None
 args = None
 
 # Unique object to identify calls without default value
 NoDefault = object()
 
+# Dictionary with instance old keys, and new hypervisor keys
+INST_HV_CHG = {
+  'hvm_pae': constants.HV_PAE,
+  'vnc_bind_address': constants.HV_VNC_BIND_ADDRESS,
+  'initrd_path': constants.HV_INITRD_PATH,
+  'hvm_nic_type': constants.HV_NIC_TYPE,
+  'kernel_path': constants.HV_KERNEL_PATH,
+  'hvm_acpi': constants.HV_ACPI,
+  'hvm_cdrom_image_path': constants.HV_CDROM_IMAGE_PATH,
+  'hvm_boot_order': constants.HV_BOOT_ORDER,
+  'hvm_disk_type': constants.HV_DISK_TYPE,
+  }
+
+# Instance beparams changes
+INST_BE_CHG = {
+  'vcpus': constants.BE_VCPUS,
+  'memory': constants.BE_MEMORY,
+  'auto_balance': constants.BE_AUTO_BALANCE,
+  }
+
+# Field names
+F_SERIAL = 'serial_no'
+
 
 class Error(Exception):
   """Generic exception"""
   pass
 
 
+def SsconfName(key):
+  """Returns the file name of an (old) ssconf key.
+
+  """
+  return "%s/ssconf_%s" % (options.data_dir, key)
+
+
 def ReadFile(file_name, default=NoDefault):
   """Reads a file.
 
@@ -88,6 +112,23 @@ def WriteFile(file_name, data):
                   dry_run=options.dry_run, backup=True)
 
 
+def GenerateSecret(all_secrets):
+  """Generate an unique DRBD secret.
+
+  This is a copy from ConfigWriter.
+
+  """
+  retries = 64
+  while retries > 0:
+    secret = utils.GenerateSecret()
+    if secret not in all_secrets:
+      break
+    retries -= 1
+  else:
+    raise Error("Can't generate unique DRBD secret")
+  return secret
+
+
 def SetupLogging():
   """Configures the logging module.
 
@@ -108,6 +149,128 @@ def SetupLogging():
   root_logger.addHandler(stderr_handler)
 
 
+def Cluster12To20(cluster):
+  """Upgrades the cluster object from 1.2 to 2.0.
+
+  """
+  logging.info("Upgrading the cluster object")
+  # Upgrade the configuration version
+  if 'config_version' in cluster:
+    del cluster['config_version']
+
+  # Add old ssconf keys back to config
+  logging.info(" - importing ssconf keys")
+  for key in ('master_node', 'master_ip', 'master_netdev', 'cluster_name'):
+    if key not in cluster:
+      cluster[key] = ReadFile(SsconfName(key)).strip()
+
+  if 'default_hypervisor' not in cluster:
+    old_hyp = ReadFile(SsconfName('hypervisor')).strip()
+    if old_hyp == "xen-3.0":
+      hyp = "xen-pvm"
+    elif old_hyp == "xen-hvm-3.1":
+      hyp = "xen-hvm"
+    elif old_hyp == "fake":
+      hyp = "fake"
+    else:
+      raise Error("Unknown old hypervisor name '%s'" % old_hyp)
+
+    logging.info("Setting the default and enabled hypervisor")
+    cluster['default_hypervisor'] = hyp
+    cluster['enabled_hypervisors'] = [hyp]
+
+  # hv/be params
+  if 'hvparams' not in cluster:
+    logging.info(" - adding hvparams")
+    cluster['hvparams'] = constants.HVC_DEFAULTS
+  if 'beparams' not in cluster:
+    logging.info(" - adding beparams")
+    cluster['beparams'] = {constants.PP_DEFAULT: constants.BEC_DEFAULTS}
+
+  # file storage
+  if 'file_storage_dir' not in cluster:
+    cluster['file_storage_dir'] = constants.DEFAULT_FILE_STORAGE_DIR
+
+  # candidate pool size
+  if 'candidate_pool_size' not in cluster:
+    cluster['candidate_pool_size'] = constants.MASTER_POOL_SIZE_DEFAULT
+
+
+def Node12To20(node):
+  """Upgrades a node from 1.2 to 2.0.
+
+  """
+  logging.info("Upgrading node %s" % node['name'])
+  if F_SERIAL not in node:
+    node[F_SERIAL] = 1
+  if 'master_candidate' not in node:
+    node['master_candidate'] = True
+  for key in 'offline', 'drained':
+    if key not in node:
+      node[key] = False
+
+
+def Instance12To20(drbd_minors, secrets, hypervisor, instance):
+  """Upgrades an instance from 1.2 to 2.0.
+
+  """
+  if F_SERIAL not in instance:
+    instance[F_SERIAL] = 1
+
+  if 'hypervisor' not in instance:
+    instance['hypervisor'] = hypervisor
+
+  # hvparams changes
+  if 'hvparams' not in instance:
+    instance['hvparams'] = hvp = {}
+  for old, new in INST_HV_CHG.items():
+    if old in instance:
+      if (instance[old] is not None and
+          instance[old] != constants.VALUE_DEFAULT and # no longer valid in 2.0
+          new in constants.HVC_DEFAULTS[hypervisor]):
+        hvp[new] = instance[old]
+      del instance[old]
+
+  # beparams changes
+  if 'beparams' not in instance:
+    instance['beparams'] = bep = {}
+  for old, new in INST_BE_CHG.items():
+    if old in instance:
+      if instance[old] is not None:
+        bep[new] = instance[old]
+      del instance[old]
+
+  # disk changes
+  for disk in instance['disks']:
+    Disk12To20(drbd_minors, secrets, disk)
+
+  # other instance changes
+  if 'status' in instance:
+    instance['admin_up'] = instance['status'] == 'up'
+    del instance['status']
+
+
+def Disk12To20(drbd_minors, secrets, disk):
+  """Upgrades a disk from 1.2 to 2.0.
+
+  """
+  if 'mode' not in disk:
+    disk['mode'] = constants.DISK_RDWR
+  if disk['dev_type'] == constants.LD_DRBD8:
+    old_lid = disk['logical_id']
+    for node in old_lid[:2]:
+      if node not in drbd_minors:
+        raise Error("Can't find node '%s' while upgrading disk" % node)
+      drbd_minors[node] += 1
+      minor = drbd_minors[node]
+      old_lid.append(minor)
+    old_lid.append(GenerateSecret(secrets))
+    del disk['physical_id']
+  if disk['children']:
+    for child in disk['children']:
+      Disk12To20(drbd_minors, secrets, child)
+
+
 def main():
   """Main program.
 
@@ -124,11 +287,21 @@ def main():
                          " output file")
   parser.add_option(cli.FORCE_OPT)
   parser.add_option(cli.DEBUG_OPT)
-  parser.add_option('--verbose', dest='verbose',
+  parser.add_option('-v', '--verbose', dest='verbose',
                     action="store_true",
                     help="Verbose output")
+  parser.add_option('--path', help="Convert configuration in this"
+                    " directory instead of '%s'" % constants.DATA_DIR,
+                    default=constants.DATA_DIR, dest="data_dir")
   (options, args) = parser.parse_args()
 
+  # We need to keep filenames locally because they might be renamed between
+  # versions.
+  options.CONFIG_DATA_PATH = options.data_dir + "/config.data"
+  options.SERVER_PEM_PATH = options.data_dir + "/server.pem"
+  options.KNOWN_HOSTS_PATH = options.data_dir + "/known_hosts"
+  options.RAPI_CERT_FILE = options.data_dir + "/rapi.pem"
+
   SetupLogging()
 
   # Option checking
@@ -136,36 +309,42 @@ def main():
     raise Error("No arguments expected")
 
   if not options.force:
-    usertext = ("%s MUST run on the master node. Is this the master"
-                " node?" % program)
+    usertext = ("%s MUST be run on the master node. Is this the master"
+                " node and are ALL instances down?" % program)
     if not cli.AskUser(usertext):
       sys.exit(1)
 
   # Check whether it's a Ganeti configuration directory
-  if not (os.path.isfile(CONFIG_DATA_PATH) and
-          os.path.isfile(SERVER_PEM_PATH) or
-          os.path.isfile(KNOWN_HOSTS_PATH)):
+  if not (os.path.isfile(options.CONFIG_DATA_PATH) and
+          os.path.isfile(options.SERVER_PEM_PATH) or
+          os.path.isfile(options.KNOWN_HOSTS_PATH)):
     raise Error(("%s does not seem to be a known Ganeti configuration"
-                 " directory") % constants.DATA_DIR)
+                 " directory") % options.data_dir)
 
-  config_version = ReadFile(SSCONF_CONFIG_VERSION_PATH, "1.2").strip()
+  config_version = ReadFile(SsconfName('config_version'), "1.2").strip()
   logging.info("Found configuration version %s", config_version)
 
-  config_data = serializer.LoadJson(ReadFile(CONFIG_DATA_PATH))
+  config_data = serializer.LoadJson(ReadFile(options.CONFIG_DATA_PATH))
 
   # Ganeti 1.2?
   if config_version == "1.2":
     logging.info("Found a Ganeti 1.2 configuration")
 
-    old_config_version = config_data["cluster"].get("config_version", None)
+    cluster = config_data["cluster"]
+
+    old_config_version = cluster.get("config_version", None)
     logging.info("Found old configuration version %s", old_config_version)
     if old_config_version not in (3, ):
       raise Error("Unsupported configuration version: %s" %
                   old_config_version)
+    if 'version' not in config_data:
+      config_data['version'] = constants.BuildVersion(2, 0, 0)
+    if F_SERIAL not in config_data:
+      config_data[F_SERIAL] = 1
 
     # Make sure no instance uses remote_raid1 anymore
     remote_raid1_instances = []
-    for instance in config_data["instances"]:
+    for instance in config_data["instances"].values():
       if instance["disk_template"] == "remote_raid1":
         remote_raid1_instances.append(instance["name"])
     if remote_raid1_instances:
@@ -174,15 +353,28 @@ def main():
       raise Error("Unable to convert configuration as long as there are"
                   " instances using remote_raid1 disk template")
 
-    # The configuration version will be stored in a ssconf file
-    if 'config_version' in config_data['cluster']:
-      del config_data['cluster']['config_version']
-
     # Build content of new known_hosts file
-    cluster_name = ReadFile(SSCONF_CLUSTER_NAME_PATH).rstrip()
-    cluster_key = config_data['cluster']['rsahostkeypub']
+    cluster_name = ReadFile(SsconfName('cluster_name')).rstrip()
+    cluster_key = cluster['rsahostkeypub']
     known_hosts = "%s ssh-rsa %s\n" % (cluster_name, cluster_key)
 
+    Cluster12To20(cluster)
+
+    # Add node attributes
+    logging.info("Upgrading nodes")
+    # stable-sort the names to have repeatable runs
+    for node_name in utils.NiceSort(config_data['nodes'].keys()):
+      Node12To20(config_data['nodes'][node_name])
+
+    # Instance changes
+    logging.info("Upgrading instances")
+    drbd_minors = dict.fromkeys(config_data['nodes'], 0)
+    secrets = set()
+    # stable-sort the names to have repeatable runs
+    for instance_name in utils.NiceSort(config_data['instances'].keys()):
+      Instance12To20(drbd_minors, secrets, cluster['default_hypervisor'],
+                     config_data['instances'][instance_name])
+
   else:
     logging.info("Found a Ganeti 2.0 configuration")
 
@@ -192,23 +384,37 @@ def main():
 
     known_hosts = None
 
-  config_version_str = "%s\n" % constants.BuildVersion(2, 0, 0)
   try:
     logging.info("Writing configuration file")
-    WriteFile(CONFIG_DATA_PATH, serializer.DumpJson(config_data))
-
-    logging.info("Writing configuration version %s",
-                 config_version_str.strip())
-    WriteFile(SSCONF_CONFIG_VERSION_PATH, config_version_str)
+    WriteFile(options.CONFIG_DATA_PATH, serializer.DumpJson(config_data))
 
     if known_hosts is not None:
       logging.info("Writing SSH known_hosts file (%s)", known_hosts.strip())
-      WriteFile(KNOWN_HOSTS_PATH, known_hosts)
+      WriteFile(options.KNOWN_HOSTS_PATH, known_hosts)
+
+    if not options.dry_run:
+      if not os.path.exists(options.RAPI_CERT_FILE):
+        bootstrap._GenerateSelfSignedSslCert(options.RAPI_CERT_FILE)
+
   except:
     logging.critical("Writing configuration failed. It is proably in an"
                      " inconsistent state and needs manual intervention.")
     raise
 
+  # test loading the config file
+  if not options.dry_run:
+    logging.info("Testing the new config file...")
+    cfg = config.ConfigWriter(cfg_file=options.CONFIG_DATA_PATH,
+                              offline=True)
+    # if we reached this, it's all fine
+    vrfy = cfg.VerifyConfig()
+    if vrfy:
+      logging.error("Errors after conversion:")
+      for item in vrfy:
+        logging.error(" - %s" % item)
+    del cfg
+    logging.info("File loaded successfully")
+
 
 if __name__ == "__main__":
   main()