Anthropic wydało Claude Opus 4.8. Dla nas to nie jest kolejna premiera do odhaczenia w newsletterze — to model, którym w MKM Labs pracujemy na co dzień, więc traktujemy go jak nowe narzędzie w warsztacie, a nie jak magię. W tym tekście rozdzielamy dwie rzeczy, które w branżowych zachwytach zwykle się zlewają: to, co Anthropic faktycznie potwierdza w zapowiedzi, oraz to, co sami widzimy w testach. Jedno i drugie jest ciekawe. Ale to nie to samo.
Od razu uczciwie: w MKM Labs już testujemy Opus 4.8 w operacjach Sir Jarvisa i Hermesa oraz w naszych workflowach Claude Code. To etap kontrolowanych testów, a nie deklaracja, że nagle wszystko robi się samo. Jeśli ktoś sprzedaje Wam „rewolucję produkcyjną" po trzech dniach od premiery — przesadza.
Co dokładnie potwierdza Anthropic
Według zapowiedzi z 28 maja 2026 Opus 4.8 jest rozwinięciem Opus 4.7 — z poprawą w kodowaniu, umiejętnościach agentowych, rozumowaniu i pracy z wiedzą praktyczną. Anthropic pozycjonuje go przede wszystkim jako lepszego współpracownika: model ma trafniej oceniać sytuację, zadawać właściwe pytania, łapać własne błędy i otwarcie kwestionować plan, jeśli ten jest nietrafiony. To akurat zmiana, którą widać szybciej niż jakikolwiek benchmark — model, który mówi „to się nie spina", jest w realnej pracy wart więcej niż model, który grzecznie brnie w ślepą uliczkę.
Anthropic wskazuje też na obserwacje wczesnych testerów: mocniejszą obsługę agentów przeglądarkowych i computer-use, sprawniejsze i oszczędniejsze wywoływanie narzędzi, precyzyjniejsze cytowanie w pracy z gęstymi dokumentami, lepsze trzymanie kontekstu i stylu w długich sesjach oraz większą niezawodność agentów w zastosowaniach prawniczych, finansowych i enterprise. Warto pamiętać, że to obserwacje wczesnych testerów relacjonowane w zapowiedzi — kierunek jest spójny z tym, co sami widzimy, ale każdy poważny wdrożeniowiec i tak zweryfikuje to na własnych zadaniach.
Dynamiczne workflows i setki subagentów
Razem z modelem Anthropic udostępniło w Claude Code research preview dynamicznych workflows do większych zadań. Mechanika jest prosta do opisania, a poważna w skutkach: model potrafi zaplanować pracę, uruchomić setki równoległych subagentów, a następnie zweryfikować ich wyniki, zanim zaraportuje rezultat. To dokładnie ten wzorzec, który w MKM Labs budowaliśmy wcześniej ręcznie — rozbicie dużego audytu na fragmenty, równoległa praca, a na końcu warstwa kontroli. Teraz część tej orkiestracji wchodzi do narzędzia natywnie.
To jest dla nas najważniejsza zmiana operacyjna w tej premierze. Nie dlatego, że „więcej agentów = lepiej" — wprost przeciwnie. Wartość pojawia się dopiero wtedy, gdy po fan-oucie jest etap weryfikacji. Sto subagentów bez kontroli to sto okazji do cichego błędu. Sto subagentów z weryfikacją na końcu to realne przyspieszenie audytu kodu czy konsolidacji danych z wielu źródeł.
Kontrola effort, fast mode i ceny
Anthropic dorzuciło kontrolę „effort" w claude.ai i Cowork: wyższy effort to więcej myślenia i głębsza odpowiedź, niższy — szybciej i taniej w kontekście limitów. Opus 4.8 domyślnie pracuje na wysokim effort; Anthropic rekomenduje extra/xhigh do zadań trudnych i długich, asynchronicznych workflowów, a limity w Claude Code zostały podniesione pod pracę na wyższym effort.
Dla zespołów, które liczą koszty, istotne są dwie rzeczy. Po pierwsze, fast mode: według zapowiedzi działa z prędkością 2.5x i jest trzy razy tańszy niż fast mode dla poprzednich modeli. Po drugie, cennik: tryb regularny to 5 USD za milion tokenów wejściowych i 25 USD za milion wyjściowych, a fast mode — 10 USD wejście i 50 USD wyjście za milion. Model jest dostępny od razu wszędzie, pod identyfikatorem API claude-opus-4-8. Doszła też zmiana w Messages API: wpisy systemowe można umieszczać wewnątrz tablicy messages, co pozwala aktualizować instrukcje w trakcie zadania bez łamania prompt cache i bez przepychania zmiany przez turę użytkownika — drobiazg, który w długich workflowach naprawdę robi różnicę.
Uczciwość i łapanie własnych błędów
To wątek, na którym zależy nam najbardziej, bo dotyka zaufania. Anthropic podkreśla, że Opus 4.8 częściej sygnalizuje niepewność i rzadziej formułuje nieuzasadnione deklaracje postępu. W ich ewaluacjach model jest około cztery razy rzadziej skłonny niż Opus 4.7 przepuścić bez komentarza własne błędy w kodzie. W ocenie alignmentu Anthropic raportuje wyższe cechy prospołeczne i mniej zachowań niepożądanych niż w 4.7, na poziomie zbliżonym do Claude Mythos Preview.
Nasza obserwacja z pola: ta zmiana jest wyczuwalna w długich sesjach. Model rzadziej „udaje, że zrobił", a częściej zaznacza, czego nie sprawdził. To nie zwalnia z weryfikacji — ale przesuwa ją z gaszenia pożarów na potwierdzanie. Zaznaczamy: to nasze wrażenie z testów, a nie kolejna liczba z benchmarku.
Jak używamy Opus 4.8 w MKM Labs
Konkretnie, bez owijania. Sir Jarvis i Hermes obsługują u nas audyty baz kodu, konsolidację wielu źródeł i agentów w multi-agent, pipeline SEO i contentowy, pracę nad dowodami i procedurami w stylu ISO, QA przy dostawach dla klientów oraz bezpieczniejsze workflowy kontroli zmian. Opus 4.8 wchodzi w te procesy tam, gdzie liczy się rozumowanie i trzymanie kontekstu na długim dystansie — czyli właśnie w audytach i konsolidacji.
To, co naprawdę nas przekonuje, to nie „model pisze kod", tylko „model mówi, czego nie jest pewien". W pracy zgodnej z ISO wartością jest nie efektowna odpowiedź, lecz ślad: co sprawdzono, na jakiej podstawie, gdzie jest luka. Model, który jaśniej oddziela fakt od domysłu, lepiej się wpina w taki proces. I to jest cała różnica między demem a narzędziem, któremu można powierzyć dostawę dla klienta.
Bezpieczeństwo i kontrola zmian
Im sprawniejszy agent, tym ważniejsze bezpieczniki. U nas obowiązują niezależnie od modelu i nie negocjujemy ich „bo nowy Opus jest mądrzejszy".
Snapshoty przed większymi operacjami — żeby każdy krok dało się cofnąć. Dyscyplina git: gałęzie, małe commity, czytelna historia zamiast pracy na żywym organizmie. Testy jako warunek, nie ozdoba — zmiana bez przejścia testów nie jedzie dalej. Logi dowodowe: zapisujemy, co agent zrobił, co przeczytał i na jakiej podstawie wyciągnął wniosek. I twarda zasada: operacje nieodwracalne i destrukcyjne wymagają zatwierdzenia człowieka. Setki subagentów mogą przygotować pracę — ale przycisk z napisem „skasuj" zostaje po naszej stronie.
Co to znaczy dla firm
Opus 4.8 to realny krok naprzód w agentic codingu i pracy agentowej — potwierdzony przez Anthropic w warstwie zdolności i cen, a w naszych testach widoczny zwłaszcza w uczciwości modelu i orkiestracji wielu subagentów. Ale wartość nie bierze się z samego modelu. Bierze się z procesu wokół niego: planowania, weryfikacji, śladu dowodowego i nadzoru człowieka tam, gdzie stawka jest wysoka.
Chcecie wprowadzić Claude Code i workflowy agentowe do produkcji bezpiecznie? To jest dokładnie to, co robimy: audytujemy, projektujemy i wdrażamy proces — ze snapshotami, testami, logami dowodowymi i kontrolą zmian zgodną z ISO. Pierwsza rozmowa jest bezpłatna i niezobowiązująca. Umów konsultację →
Źródła
Anthropic — zapowiedź Claude Opus 4.8, 28.05.2026 (https://www.anthropic.com/news/claude-opus-4-8). Anthropic — dokumentacja modeli, przegląd Claude Opus 4.8 (https://docs.anthropic.com/en/docs/about-claude/models). Obserwacje własne MKM Labs z testów Opus 4.8 w Sir Jarvis/Hermes i Claude Code (maj 2026) — oznaczone w tekście jako obserwacje z pola.