Migration Tools: Progess III
[pithos] / tools / lib / hashmap.py
1 # Copyright 2011 GRNET S.A. All rights reserved.
2
3 # Redistribution and use in source and binary forms, with or
4 # without modification, are permitted provided that the following
5 # conditions are met:
6
7 #   1. Redistributions of source code must retain the above
8 #      copyright notice, this list of conditions and the following
9 #      disclaimer.
10
11 #   2. Redistributions in binary form must reproduce the above
12 #      copyright notice, this list of conditions and the following
13 #      disclaimer in the documentation and/or other materials
14 #      provided with the distribution.
15
16 # THIS SOFTWARE IS PROVIDED BY GRNET S.A. ``AS IS'' AND ANY EXPRESS
17 # OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
18 # WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
19 # PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL GRNET S.A OR
20 # CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
21 # SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT
22 # LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF
23 # USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED
24 # AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
25 # LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
26 # ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE
27 # POSSIBILITY OF SUCH DAMAGE.
28
29 # The views and conclusions contained in the software and
30 # documentation are those of the authors and should not be
31 # interpreted as representing official policies, either expressed
32 # or implied, of GRNET S.A.
33
34 import hashlib
35
36 def file_read_iterator(fp, size=1024):
37     while True:
38         data = fp.read(size)
39         if not data:
40             break
41         yield data
42
43 class HashMap(list):
44     
45     def __init__(self, blocksize, blockhash):
46         super(HashMap, self).__init__()
47         self.blocksize = blocksize
48         self.blockhash = blockhash
49     
50     def _hash_raw(self, v):
51         h = hashlib.new(self.blockhash)
52         h.update(v)
53         return h.digest()
54     
55     def _hash_block(self, v):
56         return self._hash_raw(v.rstrip('\x00'))
57     
58     def hash(self):
59         if len(self) == 0:
60             return self._hash_raw('')
61         if len(self) == 1:
62             return self.__getitem__(0)
63         
64         h = list(self)
65         s = 2
66         while s < len(h):
67             s = s * 2
68         h += [('\x00' * len(h[0]))] * (s - len(h))
69         while len(h) > 1:
70             h = [self._hash_raw(h[x] + h[x + 1]) for x in range(0, len(h), 2)]
71         return h[0]
72     
73     def load(self, fp):
74         self.size = 0
75         for block in file_read_iterator(fp, self.blocksize):
76             self.append(self._hash_block(block))
77             self.size += len(block)