Poker Bot Pluribus AI Pertama yang Mengalahkan Manusia di Multiplayer No-Limit Hold’em

Dalam, bot poker bernama Libratus yang dikembangkan oleh para peneliti di Carnegie Melon University CMU yang dipimpin oleh Profesor Tuomas Sandholm dan Ph.D. Pelajar Noam Brown, mengalahkan beberapa pemain poker terbaik di dunia di Texas, menahan mereka atas ukuran sampel yang besar. Kemajuan itu dianggap sebagai tonggak sejarah pada saat itu, tetapi penerapannya terbatas karena tugas biner mengalahkan hanya satu lawan pada suatu waktu – dalam permainan head-up.

Bot poker terbaru yang dikembangkan oleh para peneliti yang sama dalam proyek bersama antara AI dan CMU mampu melakukan sesuatu yang tidak pernah dicapai oleh AI lain – mengalahkan beberapa pemain kuat dalam permainan informasi yang tidak lengkap tanpa batas yang menahan mereka dalam format enam tangan , dan itu melakukannya lebih efisien daripada bot poker lain yang terdokumentasi sebelumnya.

Michael Gagliano: “Ada beberapa permainan yang manusia sama sekali tidak membuat, terutama yang berkaitan dengan ukuran taruhannya.”

Pluribus, demikian bot itu disebut, adalah superkomputer terbaru untuk menjatuhkan pro poker, hasil proyek tersebut memiliki implikasi besar pada bidang AI dan konteks informasi yang tidak lengkap, serta aplikasi potensial untuk pemain poker – beberapa menarik dan beberapa firasat.

Pluribus Beats the Poker Pro

Poker telah lama digunakan sebagai masalah tantangan dalam penelitian AI karena, seperti yang dijelaskan Brown dan Sandholm dalam makalah ilmiah terbaru mereka, Superhuman AI untuk poker multipemain yang diterbitkan di Science Magazine, Tidak ada permainan rekreasi populer yang menangkap tantangan informasi tersembunyi secara efektif dan sebagai elegan sebagai poker.

Namun sampai sekarang, tidak ada bot yang mampu mengalahkan pemain manusia dengan andal dalam format multi-pemain, seperti cara poker dimainkan. Pluribus dirancang untuk NLHE enam-max dan mengambil beberapa pemain poker top, semua dengan hasil enam-max yang sukses dan lebih dari $ juta dalam pendapatan.

Dua percobaan terpisah dilakukan dengan Pluribus, satu menggunakan lima manusia dan satu format AI HAI dan yang lain menguji satu manusia terhadap lima AI H + AI, di mana lima salinan Pluribus saling bermain dan satu pemain manusia, tetapi tidak dapat berkolusi atau berkolusi. berkomunikasi dengan cara apa pun. Dalam kedua percobaan, bot ditemukan memiliki tingkat kemenangan yang dapat diandalkan secara signifikan atas pemain manusia.

Jason Les: “Ini adalah monster monster absolut. Saya akan mengatakan ini adalah bluffer yang jauh lebih efisien daripada kebanyakan manusia.

Dalam percobaan HAI, ada, tangan poker dimainkan selama berhari-hari. Setiap hari, lima pemain berikut berpartisipasi: Jimmy Chou, Seth Davies, Michael Gagliano, Anthony Gregg, Dong Kim, Jason Les, Linus Loeliger, Daniel McAulay, Greg Merson, Nick Petrangelo, Sean Ruane, Trevor Savage, dan Jacob Toole.

Sementara nama asli tidak diungkapkan kepada pemain, mereka semua memiliki alias sehingga mereka dapat melacak kecenderungan pemain lain selama percobaan. Para pemain juga bermain untuk mendapat bagian dari $, yang akan didistribusikan berdasarkan kinerja. Dalam format HAI, Pluribus menunjukkan tingkat kemenangan mbbgame dengan kesalahan standar mbbgame dengan mbb mewakili tirai mili-big. Dalam percobaan H + AI, Elias dan Ferguson masing-masing bermain, melawan lima salinan Pluribus, dan bot menang dengan kecepatan mbbgame dengan kesalahan standar mbbgame.

Secara keseluruhan, bot mengalahkan manusia hingga sekitar $ per tangan dan hampir $, jam, menurut posting blog AI Brown.

Desain dan Strategi Bot

Libratus dirancang untuk permainan kepala-up, permainan zero-sum di mana satu pemain menang dan satu pemain kalah. Untuk alasan ini, algoritmanya dirancang untuk menghitung perkiraan strategi keseimbangan Nash sebelum bermain. Apa yang membuat bot lebih sulit dikalahkan, adalah dua modul utama yang dimiliki bot dalam algoritmanya, yaitu penyelesaian subgame saat bermain dan menyesuaikan strategi untuk lebih mendekati keseimbangan berdasarkan pada lubang atau eksploitasi yang akan ditemukan lawannya selama permainan berlangsung. Hasilnya adalah bahwa Libratus memiliki strategi yang seimbang dan strategi campuran yang dijalankan dengan sempurna yang menyulitkan manusia untuk bermain melawan.

Strategi Pluribus sebagian besar dihitung dengan bermain sendiri, yang berarti ia mengembangkan strategi intinya berdasarkan bermain salinan dirinya sendiri daripada mendasarkannya pada input dari tangan yang dimainkan oleh manusia atau AI lain. Dalam makalah mereka, Brown dan Sandholm menjelaskan proses ini sebagai berikut: AI mulai dari awal dengan bermain secara acak, dan secara bertahap membaik ketika menentukan tindakan mana, dan distribusi probabilitas mana atas tindakan tersebut, menghasilkan hasil yang lebih baik terhadap versi strategi yang lebih awal.

AI mulai dari awal dengan bermain secara acak, dan secara bertahap membaik ketika menentukan tindakan mana, dan distribusi probabilitas mana atas tindakan tersebut, mengarah pada hasil yang lebih baik terhadap versi strategi yang sebelumnya.

Strategi offline ini disebut sebagai strategi cetak biru dan didasarkan pada suatu bentuk minimisasi penyesalan kontrafaktual CFR – sebuah algoritma bermain-sendiri berulang – yang telah digunakan dalam AI sebelumnya untuk sejumlah game kompetitif satu-satu. Pluribus secara khusus mengikuti jenis CFR Monte Carlo, yang semuanya

Source: agen poker online