Algorytmy rekomendacji: jak matematyka decyduje, co ogladasz wieczorem
*14 marca to Miedzynarodowy Dzien Matematyki. Zamiast wzorow na tablicy — opowiem Ci o matematyce, ktora co wieczor wybiera za Ciebie film, piosenke i produkt w koszyku. I robi to lepiej, niz myslisz.*
--- Liczby, ktore mowia same za siebie
Zanim zaczniemy od teorii — twarde dane:
• Netflix: ponad 80% tresci, ktore ogladaja subskrybenci, pochodzi z rekomendacji algorytmu, a nie z recznego wyszukiwania. Sam Netflix szacuje, ze system rekomendacji oszczedza firmie ponad 1 miliard dolarow rocznie dzieki utrzymaniu klientow (nizszy churn rate: 2,3–2,4% vs. srednia branzowa 5–7%). • Spotify: algorytm rekomendacji obsluguje 751 milionow aktywnych uzytkownikow (Q4 2025) i ponad 100 milionow utworow. Model collaborative filtering jest trenowany na probce okolo 700 milionow playlist tworzonych przez uzytkownikow. • YouTube: algorytm rekomendacji odpowiada za 70% calego czasu ogladania na platformie — potwierdzil to Neal Mohan, Chief Product Officer YouTube. • Amazon: wedlug szacunkow McKinsey, rekomendacje produktowe generuja okolo 35% przychodow giganta e-commerce.
Za kazda z tych liczb stoi matematyka. Konkretnie: algebra liniowa, macierze i iloczyny skalarne.
--- Collaborative filtering — madrosc tlumu zamknieta w rownaniu
Wyobraz sobie, ze prowadzisz pizzerie. Masz 1000 klientow i 50 rodzajow pizzy. Nie kazdy klient probowal kazdej pizzy — wiekszosc zjadla moze 5–10 rodzajow i wystawila im oceny (od 1 do 5 gwiazdek).
Teraz pytanie: co polecic klientowi, ktory jeszcze nie probowal pizzy capricciosa?
Odpowiedz brzmi: sprawdz, co o capricciosa mysla klienci, ktorzy maja *podobny gust* do niego. Jesli ludzie, ktorzy tak jak on kochaja margherite i hawajska, daja capricciosa 5 gwiazdek — prawdopodobnie jemu tez zasmakuje.
To jest collaborative filtering (filtrowanie kolaboratywne) — technika rekomendacji, ktora nie analizuje *cech* produktu (jakie skladniki ma pizza), ale *zachowania uzytkownikow* (kto co lubi). Nie potrzebuje wiedziec, ze capricciosa ma szynke i pieczarki. Wystarczy, ze wie, jak ocenili ja ludzie o podobnych gustach.
Brzmi prosto? W pizzerii z 1000 klientow i 50 pizzami — tak. Ale Netflix ma ponad 200 milionow subskrybentow i tysiace tytulow. Spotify — 751 milionow uzytkownikow i 100 milionow utworow. To sa macierze o miliardach komorek. I tu wchodzi algebra liniowa.
--- Macierz ocen: ogromna tabela pelna pustych miejsc
Wyobrazmy sobie prosta tabele. Wiersze to uzytkownicy, kolumny to filmy, a wartosci to oceny (1–5):
Znaki zapytania to filmy, ktorych uzytkownik jeszcze nie ocenil. W prawdziwym systemie Netflix czy Spotify ponad 99% macierzy to puste miejsca — bo zaden czlowiek nie obejrzal wszystkich filmow ani nie przesluchal wszystkich piosenek.
Problem rekomendacji to w gruncie rzeczy problem uzupelniania brakujacych wartosci w gigantycznej, prawie pustej macierzy.
I tu na scene wchodzi faktoryzacja macierzy.
--- Faktoryzacja macierzy: rozkladamy gusta na czynniki
Kluczowa idea jest taka: zamiast przechowywac te ogromna macierz ocen (uzytkownicy × filmy), rozkladamy ja na iloczyn dwoch mniejszych macierzy.
Mowiac obrazowo:
Macierz ocen ≈ Macierz uzytkownikow × Macierz filmow
Co to oznacza w praktyce? Kazdy uzytkownik zostaje opisany krotkim wektorem liczb (np. 50 wymiarow), a kazdy film — analogicznym wektorem o tych samych wymiarach. Te wymiary to tzw. czynniki ukryte (latent factors) — nie maja nazw, ale algorytm „odkrywa" je sam na podstawie danych.
Dla uproszczenia wyobrazmy sobie, ze mamy tylko 2 wymiary: • Wymiar 1: „akcja vs. dramat" (wysoka wartosc = wolisz akcje) • Wymiar 2: „Hollywood vs. kino autorskie" (wysoka wartosc = wolisz Hollywood)
Wtedy: • Anna = [0.9, 0.3] → lubi akcje, preferuje kino autorskie • Matrix = [0.95, 0.7] → film akcji, Hollywood
Zeby przewidziec, jak Anna oceni Matrix, obliczamy iloczyn skalarny ich wektorow:
0.9 × 0.95 + 0.3 × 0.7 = 0.855 + 0.21 = 1.065
Po przeskalowaniu do skali 1–5 daje to wysoka ocene — i algorytm rekomenduje Annie Matrix. Matematycznie to mnozenie wektorow. W praktyce to decyzja, co widzisz na ekranie po odpaleniu aplikacji.
--- Netflix Prize: milion dolarow za 10% lepsza matematyke
To nie jest teoria. W 2006 roku Netflix oglosil konkurs Netflix Prize z nagroda 1 miliona dolarow za algorytm, ktory poprawi rekomendacje o co najmniej 10% (mierzone bledem RMSE — Root Mean Squared Error).
Fakty: • Zbior danych: 100 480 507 ocen od 480 189 uzytkownikow na 17 770 filmow • Start: 2 pazdziernika 2006 • Final: 21 wrzesnia 2009 — wygrywa zespol BellKor's Pragmatic Chaos z wynikiem o 10,06% lepszym niz dotychczasowy system Cinematch • Zwycieskie rozwiazanie laczylo ponad 100 modeli: faktoryzacje macierzy (SVD), metody sasiedztwa (neighborhood-based) i korekty czasowe
Kluczowa innowacja konkursu bylo podejscie FunkSVD — uproszczona wersja rozkladu SVD (Singular Value Decomposition), zoptymalizowana za pomoca stochastycznego spadku gradientowego (SGD). To wlasnie ta technika zrewolucjonizowala branze.
Co ciekawe, Netflix nigdy w pelni nie wdrozyl zwycieskiego rozwiazania — bylo zbyt skomplikowane inzynieryjnie. Ale idee z konkursu — SGD do optymalizacji faktoryzacji, obsluga rzadkich danych, metody ensemble — staly sie fundamentem nowoczesnych systemow rekomendacji na calym swiecie.
--- Jak to dziala w Spotify? Playlista zamiast gwiazdek
Spotify nie ma systemu ocen 1–5. Zamiast tego algorytm analizuje zachowania: • co sluchasz, • co dodajesz do playlist, • co pomijasz (skip), • co zapisujesz (save), • jak dlugo sluchasz danego utworu.
Tutaj collaborative filtering dziala nieco inaczej: dwa utwory sa „podobne", jesli uzytkownicy umieszczaja je na tych samych playlistach. Spotify trenuje model na probce okolo 700 milionow playlist tworzonych przez uzytkownikow — to jest „macierz" relacji miedzy utworami.
Ale Spotify idzie dalej niz sam collaborative filtering. System rekomendacji laczy trzy filary:
1. Collaborative filtering — kto slucha tego co Ty → co jeszcze slucha 2. NLP (Natural Language Processing) — analiza tekstow o muzyce (recenzje, blogi, opisy) 3. Analiza audio — algorytm slucha samej muzyki i wykrywa cechy: tempo, tonacja, „energia", instrumentacja
W 2025-2026 doszly do tego Semantic IDs — kompaktowe identyfikatory, ktore pomagaja modelom AI rozumiec relacje miedzy utworem a historia sluchania uzytkownika. Spotify deklaruje, ze trafnosc rekomendacji wzrosla z 78% do 82%.
--- 2026: transformery wchodza do gry
Algorytmy rekomendacji nie stoja w miejscu. W 2026 roku obserwujemy przelom: modele transformerowe (ta sama architektura, ktora napedza ChatGPT) wchodza do systemow rekomendacji.
Najnowsze osiagniecia: • Badacze przeskalowali transformerowe systemy rekomendacji do 1 miliarda parametrow — i to dziala. Na duzej platformie muzycznej model zwiekszyl laczny czas sluchania o +2,26% i prawdopodobienstwo polubienia utworu o +6,37%. To najwieksza poprawa jakosci rekomendacji w historii tej platformy. • Nowe architektury jak MBT4R (MetaBERTTransformer4Rec) przewyzszaja wczesniejsze modele dzieki meta-learningowi — algorytm uczy sie dynamicznie adaptowac do roznych wzorcow zachowan uzytkownikow. • Firmy takie jak Meta rozwijaja modele MixFormer i Zenith, skalujace rekomendacje na miliardy uzytkownikow w czasie rzeczywistym.
Kluczowe odkrycie: autoregresyjne uczenie na historiach uzytkownikow naturalnie rozklada sie na dwa podzadania — predykcje feedbacku i predykcje nastepnego elementu. Ta dekompozycja skaluje sie efektywnie wraz ze wzrostem modelu — od milionow do miliarda parametrow.
Algorytm rekomendacji 2026 to juz nie prosta macierz. To system, ktory jednoczesnie: • analizuje Twoja historie (collaborative filtering), • rozumie kontekst (transformery), • slucha/oglada tresci (analiza multimodalna), • i uczy sie na biezaco, jak zmieniaja sie Twoje gusta.
--- Dlaczego to jest wazne (nie tylko dla nerda)
Algorytmy rekomendacji to prawdopodobnie najczesciej uzywana matematyka na swiecie — dotykaja miliardow ludzi codziennie. I maja realne konsekwencje:
Ekonomiczne: • Netflix oszczedza miliard dolarow rocznie na retencji • Amazon generuje 35% przychodow z rekomendacji • Spotify utrzymuje uzytkownikow dzieki Discover Weekly, ktory trafia w gust z ponad 80% trafnoscia
Spoleczne: • YouTube rekomenduje 70% ogladanych tresci — to znaczy, ze algorytm ma wiekszy wplyw na to, co ogladasz, niz Twoje swiadome wybory • Banki informacyjne (filter bubbles) i radykalizacja to realne ryzyka systemow, ktore optymalizuja pod engagement
Edukacyjne: • Za kazdym „polecane dla Ciebie" stoi: algebra liniowa (macierze, wektory), rachunek rozniczkowy (optymalizacja gradientowa), statystyka (regularyzacja, walidacja krzyzowa) i informatyka (algorytmy na wielkich zbiorach danych) • To nie jest abstrakcyjna matematyka ze szkolnej tablicy. To matematyka, ktora zarabia miliardy i ksztaltuje kulture.
--- Podsumowanie: macierz × wektor = Twoj wieczor
Nastepnym razem, gdy Netflix podsunie Ci idealny film, Spotify odkryje nowego artyste w Twoim guscie, a Amazon trafnie zaproponuje produkt — wiedz, ze za kulisami pracuje algebra liniowa. Macierze, wektory, iloczyny skalarne — te same narzedzia, ktore wygladaja abstrakcyjnie na lekcji matematyki, decyduja o tym, co widzisz, slyszysz i kupujesz.
W Dniu Matematyki warto o tym pamietac: matematyka nie jest oderwana od zycia. Ona je ksztaltuje — cicho, niewidocznie i z precyzja, o jakiej zaden ludzki kurator tresci nawet nie marzy.
---
Zrodla: Netflix Prize (Wikipedia), Springer 2024, Music Tomorrow 2025, Chartlex 2026, Quartz, McKinsey/Firney, Google for Developers, arXiv 2025, Nature Scientific Reports 2025, Meta Engineering 2026.