Siri nie zdała bardzo łatwego testu Super Bowl, uzyskując błędne 38 z 58 punktów

cyberfeed.pl 7 godzin temu

Jabłko opisał to wczoraj komentator John Gruber Siri aktualne wyniki jako „nieśmieszny żart”, podając na przykład niemożność prawidłowego wskazania zwycięzcy Super Bowl 13, zauważając, iż jest to podstawowe pytanie, na które powinien być w stanie odpowiedzieć każdy amerykański chatbot.

Okazuje się, iż nie był to całkiem przypadkowy przykład: podsunął go jego przyjaciel Paul Kafasis, który postanowił przetestować Siri na Super Bowl od 1 do 60 włącznie – i wyniki nie były dobre…

Kafasis udostępnił wyniki w wpis na blogu.

Jak więc poradziła sobie Siri? Dzięki absolutnie najbardziej charytatywnej interpretacji Siri prawidłowo podała zwycięzcę zaledwie 20 z 58 rozegranych Super Bowl. To absolutnie fatalny procent ukończenia wynoszący 34%. Gdyby Siri był rozgrywającym, zostałby wyrzucony z NFL.

Siri raz udało się uzyskać poprawną odpowiedź przez cztery lata z rzędu (Super Bowl od IX do XII), ale tylko wtedy, gdy przyznamy jej rację za udzielenie adekwatnej odpowiedzi z niewłaściwego powodu. Mówiąc bardziej realistycznie, trzykrotnie poprawnie odpowiedział trzy razy z rzędu (Super Bowls V do VII, XXXV do XXVII i LVII do LIX). W najgorszym przypadku pomylił się aż 15 razy z rzędu (Super Bowl od XVII do XXXII).

Wygląda na to, iż Siri jest wielką fanką Orłów.

Co najzabawniejsze, przypisał Philadelphia Eagles zdumiewający wynik 33 zwycięstwa w Super Bowl nie zarobili, żeby iść z tym, który mają.

Część „właściwa odpowiedź z niewłaściwego powodu” odnosi się do prośby Siri o podanie zwycięzcy Super Bowl X. Z nieznanych powodów Siri zdecydowała się odpowiedzieć obszerną odpowiedzią na temat Super Bowl IX i przypadkowo zwycięzca w obu przypadkach był ten sam .

Czasami Siri całkowicie zbaczała z trasy i całkowicie ignorowała pytanie, cytując niepowiązane wpisy z Wikipedii.

„Kto wygrał Super Bowl 23?”
Bill Belichick jest rekordzistą pod względem największej liczby zwycięstw w Super Bowl (osiem) i występów (dwanaście: dziewięć razy jako główny trener, raz jako asystent głównego trenera i dwa razy jako koordynator obrony) indywidualnie.

Ale może cyfry rzymskie powodują zamieszanie, a inne systemy AI mają takie same problemy? Gruber postanowił przeprowadzić kilka kontroli na miejscu.

Nie przeprowadziłem kompleksowego testu od Super Bowl od 1 do 60, ponieważ jestem leniwy, ale wyrywkowe sprawdzenie kilku losowych liczb z tego zakresu wskazuje, iż każdy inny agent zadający pytanie i uzyskujący odpowiedź osobiście używam, wszystkie są poprawne.

Próbowałem ChatGPT, Kagi, DuckDuckGo i Google. Cała czwórka radzi sobie choćby dobrze w prawdopodobnie podchwytliwych pytaniach dotyczących zwycięzców Super Bowl 59 i 60, które jeszcze nie zostały rozegrane. Np., zapytał zwycięzca Super Bowl 59, rozpoczyna się „Szybka odpowiedź” Kagi: „Super Bowl 59 odbędzie się 9 lutego 2025 r. Na razie mecz jeszcze się nie odbył, więc nie ma zwycięzcy, który mógłby zgłosić .”

Zwycięzcy Super Bowl nie są jakimś nieznanym tematem, jak na przykład pytanie „Kto wygrał mistrzostwa stanu w koszykówce chłopców ze szkoły średniej w Północnej Dakocie w 2004 roku?” — pytanie, które właśnie wyciągnąłem z tyłka, ale które, o dziwo, Kagi odpowiedział poprawnie dla klasy A i ChatGPT odpowiedział poprawnie Do zarówno klasa A, jak i klasa Bi podał link do ten film z meczu o mistrzostwo klasy A na YouTube.

To niesamowite! Wybrałem mało znany stan (bez urazy dla mieszkańców Dakoty, Północy i Południa), rok dość odległy w przeszłości, i sport w szkole średniej, w który osobiście grałem najlepiej i na którym najbardziej mi zależy. I zarówno Kagi, jak i ChatGPT zrobili to dobrze. (Dałbym Kagiemu ocenę A, a ChatGPT ocenę A+ za wskazanie mistrzów obu klas i dodatkowe uznanie na A+ za linki do YouTube.)

Gruber zauważa, iż stara Siri – na macOS 15.1.1 – faktycznie radzi sobie lepiej. Jasne, wydaje się mniej wydajny, ponieważ dał klasyczną odpowiedź „Oto, co znalazłem w sieci”, ale przynajmniej daje linki do prawidłowej odpowiedzi. Nowa Siri tego nie robi.

Nowa Siri — obsługiwana przez Apple Intelligence z włączoną integracją ChatGPT — uzyskuje odpowiedź całkowicie, ale przekonująco błędną, czyli najgorszy sposób, żeby to źle zrozumieć. To także niekonsekwentnie źle — zadałem to samo pytanie cztery razy i za każdym razem otrzymałem inną odpowiedź, za każdym razem błędną. To kompletna porażka.

Zdjęcie autorstwa Caleba Woodsa NA Usuń rozpryski

FTC: Korzystamy z automatycznych linków partnerskich generujących dochód. Więcej.