Główny Usługi Przesyłania Strumieniowego AI uczy się oszukiwać w Q * bert w sposób, jakiego żaden człowiek nigdy wcześniej nie zrobił

AI uczy się oszukiwać w Q * bert w sposób, jakiego żaden człowiek nigdy wcześniej nie zrobił



Sztucznej inteligencji udało się oszukiwać z najlepszymi, jakie ludzkość ma do zaoferowania, po odkryciu exploita w klasycznej grze zręcznościowej Q * bert i uruchomieniu z nim.

Podczas gdy wcześniejsze iteracje sztucznej inteligencji grałyby poprawnie Q * bert, w pewnym momencie, gdy dowiaduje się, jak działa gra, odkrywa exploit, który pozwala jej zbierać szalone punkty. Oczywiście, jak zrobiłby to każdy gracz poszukujący punktów, powtarza ten proces, aby zwiększyć swój wynik w najbardziej efektywny sposób.

Na poniższym filmie możesz zobaczyć, jak sztuczna inteligencja porusza się po platformach. Na początku wygląda na to, że przeskakuje bez celu między platformami. Zamiast widzieć postęp gry do następnej rundy, Q * bert utknie w pętli, w której wszystkie jej platformy zaczynają migać - to tutaj sztuczna inteligencja może następnie przejść do szału punktowego, zbierając ogromne punkty.

CZYTAJ DALEJ: Jeden z najbardziej kontrowersyjnych rekordów gier został w końcu zdyskredytowany

jak naprawić podwójne kliknięcie myszą

Jak sztuczna inteligencja wygrała wojnę Q * bert

Bijąc rekord wszechczasów w tytule, sztuczna inteligencja zdobyła niewiarygodnie wysoki wynik dzięki programowaniu algorytmów strategii ewolucji. Strategie ewolucji (ES) różnią się od zwykłego uczenia się ze wzmocnieniem (RL), z którego korzysta tradycyjna sztuczna inteligencja, ponieważ jest postrzegane jako bardziej skalowalne ze względu na uczenie się przez pokolenie.

Każda pętla uczenia się jest określana jako generacja i kontynuuje swoje zadanie, dopóki nie zostanie spełniony ustalony warunek (w tym przypadku wysoki wynik). Z każdym kolejnym pokoleniem sztuczna inteligencja absorbuje wiedzę poprzedniego pokolenia i dlatego lepiej osiąga ten sam cel i przekracza go. Kontynuuj, a otrzymasz sztuczną inteligencję, która jest absolutnie bezkonkurencyjna w swoim zadaniu. Dokładnie tak się stało z wynikiem Q * bert.

Przedstawione w papier , opublikowany w zeszłym tygodniu przez naukowców z Uniwersytetu we Freiburgu w Niemczech, wygląda na to, że błąd nie był znaną ilością. W rzeczywistości, chociaż nie są zbyt zaskoczeni znalezieniem błędu, interesujące jest zobaczenie, jak sztuczna inteligencja poszła do przodu i nauczyła się wykorzystywać ją za każdym razem, gdy grała, aby zmaksymalizować swój potencjał punktacyjny.

none

CZYTAJ DALEJ: Ta sztuczna inteligencja uczyła się opanowywać Super Mario Bros.

Aby znaleźć błąd, agent musiał najpierw nauczyć się prawie ukończyć pierwszy poziom - nie zostało to zrobione od razu, ale przy użyciu wielu drobnych ulepszeń, wyjaśniają naukowcy Rejestr . Podejrzewamy, że w pewnym momencie szkolenia jedno z potomnych rozwiązań napotkało błąd i uzyskało znacznie lepszy wynik w porównaniu z rodzeństwem, co z kolei zwiększyło jego wkład w aktualizację - jego waga była najwyższa w średniej ważonej. To powoli przeniosło rozwiązanie w przestrzeń, w której coraz więcej potomstwa zaczęło napotykać ten sam błąd.

Nie znamy dokładnych warunków, w których pojawia się błąd; możliwe, że pojawia się tylko wtedy, gdy agent postępuje według wzorca, który wydaje się nieoptymalny [na przykład gdy agent marnuje czas lub nawet traci życie]. Gdyby tak było, to standardowemu RL byłoby niezwykle trudno znaleźć błąd: jeśli użyjesz nagród przyrostowych, nauczysz się strategii, które szybko przynoszą jakąś nagrodę, zamiast uczenia się strategii, które nie dają wielu nagród przez jakiś czas i potem nagle wygraj duże.

Zobacz powiązane Mistrz Dragstera Todd Rogers właśnie stracił koronę po 35 latach Ta sztuczna inteligencja uczyła się opanować Super Mario Bros 1-2 przez 17 dni Zobacz, jak sztuczna inteligencja uczy się jeździć w GTA V na Twitchu

Jednak pomimo wspaniałych wyników bota, naukowcy nie twierdzą, że jest to przypadek, w którym można opanować uczenie się ES zamiast RL. W rzeczywistości oba systemy mają swoje własne problemy, a połączenie tych dwóch jest w dużej mierze uważane za najlepszą opcję posuwania się naprzód.

Ta sama metoda ES w innych grach na Atari nie przyniosła prawie takich samych pozytywnych rezultatów. Z drugiej strony RL jest odpowiedzialny za bicie rekordów lewej, prawej i środkowej, w tym pokonanie najlepszego na świecie gracza GO. ES nadal ma swoje własne miejsce w rzeczach i tak naprawdę Nvidia wykonuje wiele szkoleń z AI, ponieważ wymaga większej mocy obliczeniowej, ale osiąga lepsze wyniki w dłuższym okresie.

Niezależnie od tego, która droga stanie się przyszłością dla rozwoju sztucznej inteligencji, przynajmniej ten bot oszukujący system nie jest taki zły teraz zhańbiony mistrz świata w grach wideo .

Ciekawe Artykuły

Wybór Redakcji

none
Twoje najlepsze opcje przenośnego grzejnika samochodowego
Zamarzniesz w samochodzie? Istnieją opłacalne opcje przenośnych grzejników samochodowych, ale ważne jest, aby ograniczyć swoje oczekiwania i ewentualnie myśleć nieszablonowo.
none
Wyłącz efekty wizualne Fluent Design w systemie Windows 10
Możesz wyłączyć efekty wizualne Fluent Design w Windows 10 Fall Creators przy użyciu dwóch różnych metod. Oto, jak można to zrobić.
none
Jak udostępniać pliki z komputera Mac na Androida
Wspólne korzystanie z Maca i Androida jest zabawne, dopóki nie musisz zrobić czegoś, na przykład przenieść plików między nimi. Na szczęście dostępnych jest kilka metod udostępniania plików między dwoma systemami operacyjnymi. Techniki obejmują aplikację Google FTP, Bluetooth i
none
Jak przypisać skróty klawiszowe powiększania podobne do przeglądarki do zmiany rozmiaru ikon na pulpicie i w oknie Eksploratora w systemie Windows 8.1 i Windows 8
Opisuje, jak zmienić rozmiar ikony na pulpicie iw oknie Eksploratora za pomocą dodatkowych klawiszy skrótu przypominających przeglądarkę Ctrl ++ i Ctrl + -
none
Nagraj rozmowę Skype bez korzystania z narzędzi innych firm
Wreszcie firma Microsofthas dodała możliwość nagrywania rozmowy Skype do aplikacji. Żadne aplikacje innych firm nie są już wymagane. Nagrania można pobierać lub udostępniać.
none
Jak wybrać wiele warstw w Procreate
Warstwy w Procreate często zawierają kilka lub nawet tylko jeden obiekt. Gdy musisz dopasować kilka elementów jednocześnie, każdy może znajdować się na osobnej warstwie. Praca na warstwach pojedynczo nie jest szczególnie produktywna. Zaznaczanie wielu
none
Ekskluzywne: Jak uruchomić nowoczesną aplikację z komputera bez przechodzenia do ekranu startowego Metro
Dziś mamy ekskluzywną wskazówkę dla czytelników Winaero, która z pewnością okaże się przydatna, jeśli korzystasz z nowoczesnych aplikacji. Czy wiesz, że zarówno Windows 8.1, jak i Windows 8 mogą natywnie uruchamiać dowolną nowoczesną aplikację bezpośrednio z pulpitu, bez użycia narzędzi innych firm? Możesz także łatwo utworzyć skrót