Claude Code Skill Creator 2.0 — evals, benchmarki i koniec zgadywania

Anthropic właśnie zaktualizował jedno z najważniejszych narzędzi w ekosystemie Claude Code — Skill Creatora. Aktualizacja z marca 2026 dodaje coś, czego brakowało od samego początku: testy, pomiary wydajności i automatyczną optymalizację. Brzmi jak zwykły changelog? To zmienia sposób, w jaki budujemy i utrzymujemy skille.

Czym są skille w Claude Code

Skill to folder z instrukcjami, skryptami i zasobami, który Claude ładuje dynamicznie gdy jest potrzebny. Zamiast tłumaczyć Claude'owi za każdym razem jak ma coś zrobić, uczysz go raz — a on korzysta z tej wiedzy przy każdym kolejnym zadaniu.

Kluczowy plik to SKILL.md — zawiera frontmatter YAML (kiedy użyć skilla) i markdown z instrukcjami. Claude skanuje metadane (~100 tokenów), a pełne instrukcje (<5 tys. tokenów) ładuje dopiero gdy skill pasuje do zapytania.

Anthropic dzieli skille na dwa typy. Capability uplift — uczą Claude'a robić rzeczy, których bazowy model nie potrafi albo robi niespójnie. Przykład: generowanie prezentacji PowerPoint czy przetwarzanie formularzy PDF. Te skille mają ograniczoną żywotność — gdy model się poprawi, skill staje się zbędny.

Drugi typ to encoded preference (zakodowane preferencje) — sekwencyjne workflow, gdzie Claude potrafi każdy krok z osobna, ale skill definiuje kolejność i zasady zgodnie z procesem Twojego zespołu. Przykład: checklist do review NDA, albo skill generujący tygodniowy raport z danych z kilku MCP. Te skille są trwalsze.

Skill Creator — co się zmieniło

Skill Creator istniał od października 2025, kiedy Anthropic uruchomił Agent Skills. Problem? Większość autorów skilli to eksperci domenowi, nie inżynierowie. Rozumieli swoje workflow, ale nie mieli sposobu żeby sprawdzić, czy skill nadal działa po aktualizacji modelu, czy triggeruje się kiedy powinien, czy ostatnia edycja faktycznie coś poprawiła.

Marcowa aktualizacja dodaje cztery tryby pracy: Create (tworzenie), Eval (testowanie), Improve (optymalizacja) i Benchmark (pomiary bazowe). To odpowiedniki testów jednostkowych, CI/CD i profilowania — ale dla naturalnego języka.

Evals — testy dla skilli

Evals działają jak testy w software development. Definiujesz prompty testowe, opisujesz jak wygląda poprawny output, a Skill Creator odpala je przez Claude'a z załadowanym skillem i raportuje: pass rate, czas wykonania, zużycie tokenów.

Kluczowe zastosowanie to łapanie regresji. Model się aktualizuje — Twój skill może nagle działać gorzej. Bez evals dowiesz się o tym od użytkowników. Z evals — widzisz to w raporcie zanim ktokolwiek się poskarży.

Drugie zastosowanie: sprawdzanie, czy skill jest jeszcze potrzebny. Jeśli bazowy model zaczyna zdawać Twoje evals BEZ załadowanego skilla — to sygnał, że techniki ze skilla zostały wchłonięte przez model. Skill nie jest zepsuty. Po prostu nie jest już potrzebny.

Benchmarki — baseline, którego brakowało

Pojedynczy eval mówi Ci, czy skill działa dzisiaj. Benchmark mówi, czy będzie działał jutro. To zestandaryzowany pomiar na całym zestawie evals, który rejestruje pass rate, czas i tokeny — tworząc baseline do porównań po aktualizacjach modelu lub po edycji samego skilla.

Skill Creator uruchamia niezależnych agentów równolegle — każdy w czystym kontekście, z własnymi metrykami tokenów i czasu. Dzięki temu wyniki są powtarzalne i nie zaśmiecone kontekstem z poprzednich testów.

Realne przykłady? Cisco zbudowało skill bezpieczeństwa kodu na bazie Project CodeGuard — osiąga 84% overall score i 1,78x polepszenie. ElevenLabs ma skill text-to-speech z 93% overall, 94% w review i 1,32x improvement — agenty kodujące są o 32% bardziej skłonne poprawnie użyć API ElevenLabs z tym skillem.

Trigger tuning — koniec z false positives

Skill Creator analizuje Twój opis skilla pod kątem próbek promptów i sugeruje edycje, które redukują zarówno false positives (skill odpala się gdy nie powinien) jak i false negatives (skill nie odpala się gdy powinien).

Mechanizm jest sprytny. Dzieli zestaw evals na 60% treningowy i 40% testowy. Sprawdza aktualny opis (każde zapytanie 3 razy dla wiarygodności), potem wywołuje Claude'a z extended thinking żeby zaproponować poprawki na podstawie tego, co nie zadziałało. Re-ewaluuje na obu zbiorach, iteruje do 5 razy. Na końcu otwiera raport HTML w przeglądarce z wynikami per iteracja i zwraca JSON z best_description — wybranym na podstawie wyniku na zbiorze testowym, nie treningowym, żeby uniknąć overfittingu.

To rozwiązuje realny problem. Skille w Claude pojawiają się w liście available_skills z nazwą i opisem. Claude decyduje czy skonsultować skill na podstawie tego opisu. Zły opis = skill nie odpala się gdy trzeba, albo odpala się gdy nie trzeba. Teraz masz narzędzie do tego, żeby opis był precyzyjny.

Co z tego wynika

Anthropic robi dokładnie to, co powinien — przenosi rygor inżynierii oprogramowania do świata natural language. Evals to testy jednostkowe. Benchmarki to CI/CD pipeline. Trigger tuning to optymalizacja interfejsu.

Skille działają identycznie na Claude.ai, Claude Code i API. Tworzysz raz — działa wszędzie. A teraz możesz jeszcze zmierzyć, czy faktycznie działa tak jak myślisz.

Najciekawszy cytat z dokumentacji Anthropic: "Z czasem, opis w naturalnym języku tego, co skill powinien robić, może wystarczyć." Innymi słowy — przyszłość skilli to nie kod. To precyzyjny język.

Źródła: Anthropic Blog — Improving skill-creator (marzec 2026): https://claude.com/blog/improving-skill-creator-test-measure-and-refine-agent-skills Anthropic Skills Repository: https://github.com/anthropics/skills The Complete Guide to Building Skills for Claude (PDF): https://resources.anthropic.com/hubfs/The-Complete-Guide-to-Building-Skill-for-Claude.pdf Claude Code Skills Documentation: https://code.claude.com/docs/en/skills Nate Herk — Claude Code Skills Just Got Even Better (YouTube): https://www.youtube.com/watch?v=RAZVk5NPNtE