wren/benchmark/run_all

#!/usr/bin/python

import math
import os
import re
import subprocess
import sys

BENCHMARKS = []

def BENCHMARK(name, pattern):
  BENCHMARKS.append((name, re.compile(pattern, re.MULTILINE)))

BENCHMARK("binary_trees", """stretch tree of depth 15\t check: -1
32768\t trees of depth 4\t check: -32768
8192\t trees of depth 6\t check: -8192
2048\t trees of depth 8\t check: -2048
512\t trees of depth 10\t check: -512
128\t trees of depth 12\t check: -128
32\t trees of depth 14\t check: -32
long lived tree of depth 14\t check: -1
elapsed: (\\d+\\.\\d+)""")

BENCHMARK("fib", r"""832040
832040
832040
832040
832040
elapsed: (\d+\.\d+)""")

LANGUAGES = [
  ("wren",   "../build/Release/wren", ".wren"),
  ("js",     "node",                  ".js"),
  ("lua",    "lua",                   ".lua"),
  ("python", "python",                ".py"),
  ("ruby",   "ruby",                  ".rb")
]

# How many times to run a given benchmark. Should be an odd number to get the
# right median.
NUM_TRIALS = 5

results = []

def calc_stats(nums):
  """Calculates the mean, median, and std deviation of a list of numbers."""
  mean = sum(nums) / len(nums)
  nums.sort()
  median = nums[(len(nums) - 1) / 2]
  diffs = ((n - mean) * (n - mean) for n in nums)
  std_dev = math.sqrt(sum(diffs) / len(nums))
  return [mean, median, std_dev]


def run_benchmark_once(benchmark, language):
  args = [language[1], benchmark[0] + language[2]]
  out = subprocess.check_output(args, universal_newlines=True)
  match = benchmark[1].match(out)
  if match:
    return float(match.group(1))
  else:
    print "Incorrect output:"
    print out
    return None


def run_benchmark(benchmark, language):
  name = "{0} - {1}".format(benchmark[0], language[0])
  print "{0:22s}".format(name),

  if not os.path.exists(benchmark[0] + language[2]):
    print "No implementation for this language"
    return

  times = []
  for i in range(0, NUM_TRIALS):
    time = run_benchmark_once(benchmark, language)
    if not time:
      return
    times.append(time)
    sys.stdout.write(".")

  times.sort()
  stats = calc_stats(times)
  print " mean: {0:.4f} median: {1:.4f} std_dev: {2:.4f}".format(
      stats[0], stats[1], stats[2])

  results.append([name, times])

def graph_results():
  print

  INCREMENT = {
    '-': 'o',
    'o': 'O',
    'O': '0',
    '0': '0'
  }

  # Scale everything by the highest time.
  highest = 0
  for result in results:
    time = max(result[1])
    if time > highest: highest = time

  print "{0:22s}0.0 {1:64.4f}".format("", highest)
  for result in results:
    line = ["-"] * 68
    for time in result[1]:
      index = int(time / highest * 67)
      line[index] = INCREMENT[line[index]]
    print "{0:22s}{1}".format(result[0], "".join(line))
  print


for benchmark in BENCHMARKS:
  for language in LANGUAGES:
    run_benchmark(benchmark, language)
  graph_results()
  results = []
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`#!/usr/bin/python`

			`import math`
Get binary_trees benchmark working. Wren is actually doing well in it: wren mean: 1.9441 median: 1.9428 std_dev: 0.0260 lua mean: 3.5992 median: 3.6033 std_dev: 0.0156 python mean: 3.6667 median: 3.7097 std_dev: 0.1340 ruby mean: 1.3941 median: 1.3914 std_dev: 0.0091 2013-11-29 16:19:13 -08:00			`import os`
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`import re`
			`import subprocess`
			`import sys`

Get binary_trees benchmark working. Wren is actually doing well in it: wren mean: 1.9441 median: 1.9428 std_dev: 0.0260 lua mean: 3.5992 median: 3.6033 std_dev: 0.0156 python mean: 3.6667 median: 3.7097 std_dev: 0.1340 ruby mean: 1.3941 median: 1.3914 std_dev: 0.0091 2013-11-29 16:19:13 -08:00			`BENCHMARKS = []`

			`def BENCHMARK(name, pattern):`
			`BENCHMARKS.append((name, re.compile(pattern, re.MULTILINE)))`

			`BENCHMARK("binary_trees", """stretch tree of depth 15\t check: -1`
			`32768\t trees of depth 4\t check: -32768`
			`8192\t trees of depth 6\t check: -8192`
			`2048\t trees of depth 8\t check: -2048`
			`512\t trees of depth 10\t check: -512`
			`128\t trees of depth 12\t check: -128`
			`32\t trees of depth 14\t check: -32`
			`long lived tree of depth 14\t check: -1`
			`elapsed: (\\d+\\.\\d+)""")`

			`BENCHMARK("fib", r"""832040`
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`832040`
			`832040`
			`832040`
			`832040`
Get binary_trees benchmark working. Wren is actually doing well in it: wren mean: 1.9441 median: 1.9428 std_dev: 0.0260 lua mean: 3.5992 median: 3.6033 std_dev: 0.0156 python mean: 3.6667 median: 3.7097 std_dev: 0.1340 ruby mean: 1.3941 median: 1.3914 std_dev: 0.0091 2013-11-29 16:19:13 -08:00			`elapsed: (\d+\.\d+)""")`
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00
			`LANGUAGES = [`
			`("wren", "../build/Release/wren", ".wren"),`
Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`("js", "node", ".js"),`
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`("lua", "lua", ".lua"),`
			`("python", "python", ".py"),`
Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`("ruby", "ruby", ".rb")`
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`]`

ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00			`# How many times to run a given benchmark. Should be an odd number to get the`
			`# right median.`
Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`NUM_TRIALS = 5`
ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00
			`results = []`

Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`def calc_stats(nums):`
			`"""Calculates the mean, median, and std deviation of a list of numbers."""`
			`mean = sum(nums) / len(nums)`
			`nums.sort()`
			`median = nums[(len(nums) - 1) / 2]`
			`diffs = ((n - mean) * (n - mean) for n in nums)`
			`std_dev = math.sqrt(sum(diffs) / len(nums))`
			`return [mean, median, std_dev]`


			`def run_benchmark_once(benchmark, language):`
			`args = [language[1], benchmark[0] + language[2]]`
			`out = subprocess.check_output(args, universal_newlines=True)`
			`match = benchmark[1].match(out)`
			`if match:`
			`return float(match.group(1))`
			`else:`
Get binary_trees benchmark working. Wren is actually doing well in it: wren mean: 1.9441 median: 1.9428 std_dev: 0.0260 lua mean: 3.5992 median: 3.6033 std_dev: 0.0156 python mean: 3.6667 median: 3.7097 std_dev: 0.1340 ruby mean: 1.3941 median: 1.3914 std_dev: 0.0091 2013-11-29 16:19:13 -08:00			`print "Incorrect output:"`
			`print out`
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`return None`


			`def run_benchmark(benchmark, language):`
Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`name = "{0} - {1}".format(benchmark[0], language[0])`
			`print "{0:22s}".format(name),`
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00
Get binary_trees benchmark working. Wren is actually doing well in it: wren mean: 1.9441 median: 1.9428 std_dev: 0.0260 lua mean: 3.5992 median: 3.6033 std_dev: 0.0156 python mean: 3.6667 median: 3.7097 std_dev: 0.1340 ruby mean: 1.3941 median: 1.3914 std_dev: 0.0091 2013-11-29 16:19:13 -08:00			`if not os.path.exists(benchmark[0] + language[2]):`
			`print "No implementation for this language"`
			`return`

Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`times = []`
ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00			`for i in range(0, NUM_TRIALS):`
Get binary_trees benchmark working. Wren is actually doing well in it: wren mean: 1.9441 median: 1.9428 std_dev: 0.0260 lua mean: 3.5992 median: 3.6033 std_dev: 0.0156 python mean: 3.6667 median: 3.7097 std_dev: 0.1340 ruby mean: 1.3941 median: 1.3914 std_dev: 0.0091 2013-11-29 16:19:13 -08:00			`time = run_benchmark_once(benchmark, language)`
			`if not time:`
			`return`
			`times.append(time)`
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`sys.stdout.write(".")`

			`times.sort()`
			`stats = calc_stats(times)`
			`print " mean: {0:.4f} median: {1:.4f} std_dev: {2:.4f}".format(`
			`stats[0], stats[1], stats[2])`

Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`results.append([name, times])`
ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00
			`def graph_results():`
			`print`

Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`INCREMENT = {`
			`'-': 'o',`
			`'o': 'O',`
			`'O': '0',`
			`'0': '0'`
			`}`

ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00			`# Scale everything by the highest time.`
			`highest = 0`
			`for result in results:`
			`time = max(result[1])`
			`if time > highest: highest = time`

Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`print "{0:22s}0.0 {1:64.4f}".format("", highest)`
ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00			`for result in results:`
Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`line = ["-"] * 68`
ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00			`for time in result[1]:`
Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`index = int(time / highest * 67)`
			`line[index] = INCREMENT[line[index]]`
			`print "{0:22s}{1}".format(result[0], "".join(line))`
			`print`

ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00
Get a basic benchmark runner going. 2013-11-22 08:55:22 -08:00			`for benchmark in BENCHMARKS:`
			`for language in LANGUAGES:`
			`run_benchmark(benchmark, language)`
Add JS version of binary tree benchmark. 2013-11-29 20:25:00 -08:00			`graph_results()`
			`results = []`
ASCII art graph of benchmark results! 2013-11-22 09:17:45 -08:00