mkmlabs.pl
2026-02-25 9 min

AI zdobywa złote medale na olimpiadach matematycznych — i to dopiero początek

AlphaProof i AlphaGeometry 2 zdobyły złoto na IMO 2025. GPT-5 rozwiązuje 80% zadań. Modele AI osiągają poziom najlepszych uczniów świata w matematyce

0:00--:--
Udostępnij:
AI zdobywa złote medale na olimpiadach matematycznych — i to dopiero początek

Jeszcze 3 lata temu modele AI nie radziły sobie nawet z podstawowymi zadaniami z olimpiad matematycznych. Dziś zdobywają złote medale. Ta zmiana nie nastąpiła powoli — to był skok kwantowy.

Lipiec 2025: AlphaProof zdobywa złoto na IMO

Międzynarodowa Olimpiada Matematyczna (IMO) to najbardziej prestiżowy konkurs matematyczny na świecie. Co roku startuje w nim ~600 uczniów z ponad 100 krajów. Złoty medal zdobywa górne ~8% — to są przyszli profesorowie MIT, Fields Medal, geniusze matematyki.

W lipcu 2025 Google DeepMind zgłosił dwa systemy do rozwiązywania zadań IMO: AlphaProof (oparty na reinforcement learning i formalnym dowodzeniu w Lean 4) oraz AlphaGeometry 2 (specjalizowany w geometrii). Razem rozwiązały 5 z 6 zadań — wynik na poziomie złotego medalu.

To było bezprecedensowe. Zadania IMO to nie "policz 2+2". To wielogodzinne problemy wymagające twórczego myślenia, konstruowania dowodów, łączenia różnych dziedzin matematyki. Każde zadanie ma ograniczony czas (4.5 godziny na 3 zadania). Uczniowie płaczą nad nimi. A AI je rozwiązało.

Co sprawia, że zadania olimpiadowe są trudne dla AI?

Olimpiady matematyczne testują umiejętności, które AI tradycyjnie nie miało: formalne dowodzenie (nie wystarczy podać wynik — trzeba udowodnić DLACZEGO to działa), kreatywność (każde zadanie wymaga unikalnego podejścia, nie ma szablonu), wieloetapowe rozumowanie (długie łańcuchy logiczne, gdzie błąd na kroku 3 z 20 psuje cały dowód) i transfer wiedzy (łączenie teorii liczb z geometrią, algebry z kombinatoryką).

Tradycyjne LLM-y (jak GPT-3 czy wczesne GPT-4) radziły sobie fatalnie — rozwiązywały może 5-10% zadań olimpiadowych. Nie potrafiły prowadzić rygorystycznego dowodu. Halucynowały kroki, które wyglądały dobrze, ale były logicznie błędne.

Przełom: od 5% do 80% w 2 lata

Tempo poprawy jest oszałamiające. W 2024 roku najlepsze modele (GPT-4o, Claude 3.5 Sonnet) rozwiązywały 15-25% zadań z olimpiad. Na początku 2025 roku o1-preview od OpenAI podniósł to do ~40%. AlphaProof w lipcu 2025 — 83% (5/6 zadań IMO). A GPT-5 i Claude Opus 4 pod koniec 2025 i na początku 2026 roku osiągają 70-80% na archiwach zadań olimpiadowych.

Co się zmieniło? Trzy rzeczy jednocześnie: chain-of-thought reasoning (modele uczą się "myśleć na głos", rozkładając problem na kroki), reinforcement learning from formal verification (AlphaProof uczy się z Lean 4 — asystenta dowodzenia, który weryfikuje każdy krok), i skala danych treningowych (modele trenowane na milionach dowodów matematycznych, artykułach naukowych, rozwiązaniach zadań).

Benchmark FrontierMath: otwarte problemy naukowe

FrontierMath od Epoch AI to coś więcej niż olimpiady. To zbiór otwartych problemów matematycznych stworzonych przez aktywnych badaczy — problemów, których NIKT jeszcze nie rozwiązał (lub których rozwiązania nie są publiczne). Na początku 2025 roku najlepsze modele rozwiązywały <2% tych problemów.

W lutym 2026 GPT-5.4 (xhigh) osiąga 38% na pass@10. To skok z 2% do 38% w nieco ponad rok. Co ważniejsze: model rozwiązuje problemy, których żaden wcześniejszy model (ani żaden publiczny dowód) nie rozwiązał. To nie jest odtwarzanie czegoś z danych treningowych — to generowanie nowych rozwiązań.

Terence Tao wchodzi do gry

W styczniu 2026 roku Terence Tao — medalista Fieldsa, często nazywany "najinteligentniejszym matematykiem świata" — skomentował na Mathoverflow pracę 17-latka, który przy wsparciu AI (GPT Codex) i prof. Bartosza Naskręckiego z UAM rozwiązał jeden z problemów kombinatorycznych Erdősa.

Komentarz Tao: "Nice work! The way in which one handles the slow increase in k with n looks plausible to me, and it is good to have Lean confirm all the various bookkeeping and edge cases. Were any AI tools used to create the informal proof?"

Odpowiedź: tak, użyto GPT Codex do pisania kodu w Lean i poprawiania niektórych części. Tao nie miał z tym problemu — wręcz przeciwnie, traktował to jako naturalne narzędzie pracy.

To ważne: najlepsi matematycy świata nie boją się AI. Używają go. I zachęcają innych do tego samego.

Co to znaczy dla edukacji?

Olimpiady matematyczne od dekad były złotym standardem "inteligencji". Jeśli AI rozwiązuje zadania na poziomie złotego medalu IMO, to czy olimpiady tracą sens? Nie — ale ich rola się zmienia.

Zamiast testować "kto potrafi rozwiązać ten problem sam w 4.5 godziny", przyszłe olimpiady mogą testować "kto potrafi sformułować ciekawy problem", "kto potrafi zweryfikować rozwiązanie AI" i "kto potrafi znaleźć błąd w pozornie poprawnym dowodzie".

Umiejętność współpracy z AI staje się ważniejsza niż umiejętność rozwiązywania wszystkiego samodzielnie. To nie degradacja — to ewolucja.

Lekcja

Jeśli AI zdobywa złote medale na najtrudniejszych olimpiadach matematycznych świata, to pytanie "czy AI jest wystarczająco inteligentne do moich zadań biznesowych?" jest już retoryczne. Odpowiedź brzmi: tak, zdecydowanie tak. Pytanie brzmi: czy Ty potrafisz odpowiednio je użyć?

Źródła: Google DeepMind - "AI achieves silver-medal standard solving International Mathematical Olympiad problems" (lipiec 2025). Epoch AI Research - FrontierMath benchmark (luty 2026). IMO - oficjalne wyniki 2025 https://imo-official.org. AlphaProof & AlphaGeometry 2 - artykuł techniczny DeepMind. Terence Tao - komentarz na Mathoverflow (styczeń 2026). OpenAI - wyniki o1-preview na benchmarkach matematycznych (2025).

Udostępnij:
Wróć do wszystkich artykułów

Gotowy na transformację AI?

Każda rozmowa jest darmowa i niezobowiązująca. Opowiedz o swoim projekcie — odpowiemy w ciągu kilku godzin.

Rozpocznij projekt →