src/sorting/scaling.py

   1 #!/usr/bin/env python
   2
   3 """Measure how a sorting executable scales with N.
   4
   5 The executable should support one of the following:
   6   executable path/to/data/file
   7   cat path/to/data/file | executable
   8 Where the data file is of the format output by data.py.
   9 """
  10
  11 import subprocess
  12 import time
  13 import sys
  14
  15 import numpy
  16 import matplotlib
  17 matplotlib.use('Agg')  # select backend that doesn't require X Windows
  18 import pylab
  19
  20
  21 def generate_data(generator, stream, N, ordered=False):
  22     print >> sys.stderr, 'generate %d data points (ordered? %s)' % (
  23         N, ordered)
  24     stream.seek(0)
  25     stream.truncate()
  26     args = [generator, str(N)]
  27     if ordered:
  28         args.insert(1, '--ordered')
  29     q = subprocess.Popen(args, stdout=stream)
  30     status = q.wait()
  31     assert status == 0, status
  32     stream.flush()
  33
  34 def run_test(executable, stdin=True, data_filename=None):
  35     print >> sys.stderr, 'run %s' % executable
  36     if stdin:
  37         with open(data_filename, 'r') as f:
  38             contents = f.read()
  39     start = time.time()
  40     if stdin:
  41         p = subprocess.Popen([executable],
  42                              stdout=open('/dev/null', 'w'))
  43         p.communicate(contents)
  44     else:
  45         p = subprocess.Popen([executable, data_filename],
  46                              stdout=open('/dev/null', 'w'))
  47     status = p.wait()
  48     stop = time.time()
  49     assert status == 0, status
  50     return stop - start
  51
  52 def run_tests(executable, stdin=True, generator='./data.py', data_file=None,
  53               ordered=False, repeats=10, max_time=1e2):
  54     times = {}
  55     prev_time = 0
  56     N = 2
  57     while prev_time < max_time:
  58         print
  59         ts = numpy.zeros((repeats,), dtype=numpy.double)
  60         for i in range(repeats):
  61             generate_data(generator, data_file, N, ordered=ordered)
  62             ts[i] = run_test(executable, stdin, data_file.name)
  63         times[N] = ts
  64         prev_time = ts.mean()
  65         N *= 2
  66     return times
  67
  68 def main(argv=None):
  69     import optparse
  70     import tempfile
  71
  72     if argv == None:
  73         argv = sys.argv[1:]
  74
  75     p = optparse.OptionParser(
  76         usage='%prog [options] executable', epilog=__doc__)
  77     p.format_epilog = lambda formatter: __doc__
  78     p.add_option('-s', '--stdin', dest='stdin', default=False,
  79                  action='store_true', help='Use the stdin executable syntax.')
  80     p.add_option('-g', '--generator', dest='generator', default='./data.py',
  81                  help='Executable generating the random source (%default).')
  82     p.add_option('-r', '--repeats', dest='repeats', default=10, type='int',
  83                  help='Number of repeats to run at each N (%default).')
  84     p.add_option('-m', '--max-time', dest='max_time', default=1e2,type='float',
  85                  help='Number of repeats to run at each N (%default).')
  86     p.add_option('-p', '--plot', dest='plot', default=None,
  87                  help='Filename for a scaling plot (no plot is generated if this option is not set).')
  88
  89     options,args = p.parse_args(argv)
  90
  91     executable = args[0]
  92
  93     data_file = tempfile.NamedTemporaryFile()
  94     kwargs = {
  95         'executable': executable,
  96         'stdin': options.stdin,
  97         'generator': options.generator,
  98         'data_file': data_file,
  99         'repeats': options.repeats,
 100         'max_time': options.max_time,
 101         }
 102     try:
 103         times = run_tests(ordered=False, **kwargs)
 104         ordered_times = run_tests(ordered=True, **kwargs)
 105     except:
 106         data_file.close()
 107         raise
 108
 109     columns = ['N',
 110                'ordered mean (s)', 'ordered std. dev. (s)',
 111                'random mean (s)', 'random std. dev. (s)']
 112     plots = dict([(c, []) for c in columns])
 113
 114     print '# sort times for %s' % executable
 115     print '# %d repeats' % options.repeats
 116     print '#%s' % '\t'.join(columns)
 117     invalid = numpy.array(numpy.inf)
 118     for key in sorted(set(times.keys() + ordered_times.keys())):
 119         om = ordered_times.get(key, invalid).mean()
 120         os = ordered_times.get(key, invalid).std()
 121         m = times.get(key, invalid).mean()
 122         s = times.get(key, invalid).std()
 123         print '\t'.join([str(x) for x in [key, om, os, m, s]])
 124         for c,x in zip(columns, [key, om, os, m, s]):
 125             plots[c].append(x)
 126
 127     if options.plot:
 128         f = pylab.figure()
 129         a = pylab.axes()
 130         a.hold(True)
 131         for c,color in zip(['ordered', 'random'], 'br'):
 132             a.errorbar(
 133                 x=plots['N'],
 134                 y=plots['%s mean (s)' % c],
 135                 yerr=plots['%s std. dev. (s)' % c],
 136                 fmt='%so-' % color, label=c)
 137         a.set_title('sort times for %s' % executable)
 138         a.set_xscale('log')
 139         a.set_yscale('log')
 140         a.set_xlabel('N')
 141         a.set_ylabel('t (s)')
 142         a.legend(loc='best')
 143         f.savefig(options.plot)
 144
 145 if __name__ == '__main__':
 146     main()