Google menjalankan 32 tolak ukur untuk membandingkan kedua model. Mulai dari tes keseluruhan yang luas seperti tolak ukur Pemahaman Bahasa Multi-tugas hingga tes yang membandingkan kemampuan kedua model untuk menghasilkan kode Python.
“Saya rasa kami secara substansial unggul dalam 30 dari 32 tolok ukur tersebut. Beberapa di antaranya sangat sempit. Beberapa di antaranya lebih besar,” kata Hassabis.