Poker Bot 'Pluribus' Mengalahkan Manusia Teratas di Hold'em Enam-Max Tanpa Batas

Poker Bot 'Pluribus' Mengalahkan Manusia Teratas di Hold'em Enam-Max Tanpa Batas
Spread the love


Ketika para ilmuwan komputer pertama kali mulai membuat bot yang mampu mengalahkan pemain profesional manusia terbaik di poker, setidaknya ada beberapa hiburan dalam kenyataan bahwa bot hanya unggul dalam batas holdem. Kompleksitas dari ukuran taruhan membuat varian yang lebih umum menyebar aman tanpa batas tetap aman untuk saat ini.

Kemudian pada tahun 2017, sebuah bot bernama Libratus mengalahkan pilihan pro manusia terbaik dalam head-up hold'em tanpa batas, dan komunitas poker harus resor untuk menghibur diri bahwa bot hanya bisa menang di head-up poker.

Namun, pada Juni 2019, para peneliti di balik Libratus mengungkapkan bahwa bot baru mereka, Pluribus, mampu menang melawan para profesional manusia terbaik sambil bermain hold'em enam-max tanpa batas.

Noam Brown dan Tuomas Sandholm mulai bekerja di poker sebagai batu loncatan untuk masalah informasi yang tidak lengkap kompleks lainnya lebih dari satu dekade lalu di Universitas Carnegie Mellon. Kreasi terbaru mereka dibuat bersamaan dengan penelitian AI Facebook.

“Tidak ada permainan rekreasi populer lainnya yang menangkap tantangan informasi tersembunyi seefektif dan seanggun poker. Meskipun poker telah berguna sebagai tolok ukur untuk AI baru dan teknik teori permainan, tantangan informasi tersembunyi dalam pengaturan strategis tidak terbatas pada permainan rekreasi. Konsep keseimbangan von Neumann dan Nash telah diterapkan pada banyak tantangan dunia nyata seperti lelang, keamanan siber, dan penetapan harga, ”tulis Brown dan Sandholm dalam artikel penelitian mereka yang dirilis pada Majalah Sains. “Dua dekade terakhir telah menyaksikan kemajuan pesat dalam kemampuan sistem AI untuk memainkan bentuk poker yang semakin kompleks. Namun, semua terobosan sebelumnya telah terbatas pada pengaturan yang hanya melibatkan dua pemain. Mengembangkan AI manusia super untuk multiplayer poker adalah tonggak utama yang diakui secara luas. ”

Juara utama WSOP 2012 Greg MersonBot Pluribus dievaluasi terhadap profesional poker manusia dalam dua percobaan. Dalam satu, lima pemain manusia duduk dengan satu salinan Pluribus. Para pemain manusia yang terlibat dalam percobaan ini adalah Jimmy Chou, Seth Davies, Michael Gagliano, Anthony Gregg, Dong Kim, Jason Les, Linus Loeliger, Daniel McAulay, 2012 WSOP pemenang acara utama Greg Merson, pemenang gelang dua kali Nick Petrangelo, Sean Ruane, Trevor Savage, dan Jacob Toole.

Selama 12 hari, total 10.000 tangan dimainkan, dengan lima pemain sukarelawan dipilih berdasarkan ketersediaan mereka. Pemain diberi alias, pada dasarnya nama layar, sehingga mereka dapat melacak kecenderungan lawan, tetapi tidak diberi tahu identitas lawan mereka saat bermain. Untuk memberi insentif kepada manusia agar memainkan yang terbaik, $ 50.000 dibagi di antara para pemain manusia berdasarkan kinerja mereka. Pluribus memenangkan rata-rata 48 mili-big-blinds per game, atau dalam metrik yang lebih umum digunakan: 4,8 big blinds per 100 tangan.

"Ini dianggap sebagai tingkat kemenangan yang sangat tinggi dalam poker Texas Hold'em enam pemain tanpa batas, terutama terhadap sekumpulan profesional elit," lanjut artikel itu. "(Itu) menyiratkan bahwa Pluribus lebih kuat dari lawan manusia."

Eksperimen kedua melihat enam kali WSOP pemenang gelang dan Chris Ferguson empat kali Tur Poker Dunia pemenang acara utama, Darren Elias, masing-masing berhadapan dengan meja lima salinan bot Pluribus. Mereka diberi kompensasi $ 2.000 untuk berpartisipasi, dengan tambahan $ 2.000 untuk pergi ke mana saja pemain mengungguli rekan manusia lainnya. Manusia tidak tahu lawan manusia mana yang mereka coba untuk mengungguli, sehingga mereka tidak bisa fokus pada mengadaptasi permainan mereka berdasarkan pengalaman sebelumnya dengan pemain itu.

Darren EliasSekali lagi, 10.000 tangan dimainkan. Pluribus mengalahkan Elias untuk 40 mbb / game, dan Ferguson untuk 25 mbb / game, yang berarti bahwa Ferguson mengamankan bonus kinerja $ 2.000.

Brown dan Sandholm menawarkan beberapa pemikiran tentang apa pendekatan Pluribus untuk bermain enam-max hold-em tanpa batas dapat memberi tahu pemain manusia tentang strategi.

“Pluribus menegaskan kearifan manusia konvensional bahwa pincang (memanggil big blind daripada melipat atau membesarkan) kurang optimal untuk semua pemain kecuali pemain small blind yang sudah memiliki setengah big blind dalam pot sesuai aturan, dan karenanya harus berinvestasi hanya setengah dari jumlah pemain yang akan dipanggil, ”kata mereka. “Sementara Pluribus awalnya bereksperimen dengan pincang ketika menghitung strategi cetak biru offline melalui permainan mandiri, ia secara bertahap membuang tindakan ini dari strateginya saat permainan mandiri berlanjut. Namun, Pluribus tidak setuju dengan kebijaksanaan rakyat bahwa "donk bertaruh" (memimpin ketika Anda bukan agresor preflop) adalah sebuah kesalahan; Pluribus melakukan ini jauh lebih sering daripada manusia profesional. ”

Dengan salah satu tonggak utama terakhir untuk bot poker dilampaui, peneliti seperti Brown dan Sandholm dapat mulai mencurahkan lebih banyak waktu untuk aplikasi AI lainnya. Pada bulan Januari 2019 diumumkan bahwa Sandholm sedang mengerjakan penerapan apa yang telah ia pelajari melalui poker untuk masalah-masalah informasi yang tidak lengkap, seperti simulasi perang, analisis strategi militer, dan di pasar komersial. Tapi siapa yang tahu? Mungkin dia akan kembali dan bekerja pada bot yang menghancurkan Badugi full-ring dalam waktu dekat.



Be the first to comment

Leave a Reply

Alamat email Anda tidak akan dipublikasikan.


*