Polish Knowledge Benchmark

Ocena modeli językowych na pytaniach wielokrotnego wyboru (ABCD) z wiedzy o Polsce · Accuracy = % poprawnych odpowiedzi

🎯 Format & Wyniki

Pytania wielokrotnego wyboru (A/B/C/D) o wiedzy z zakresu Polski.
Wynik w tabelach to % poprawnych odpowiedzi.
Przyciski Poziomu Trudności filtrują wszystkie widoki jednocześnie.

🏗️ Źródła & Generowanie

Dane przygotowane przez społeczność Speakleash — Wikipedia, wiedza regionalna, własne zbiory z naciskiem na różnorodność domenową.
Pytania wygenerowane syntetycznie przez DeepSeek 3.2.
Kontekstowe pytania zostały odfiltrowane dedykowanym klasyfikatorem BERT (usunięto pytania wymagające znajomości tekstu źródłowego).

⚖️ Ocena Trudności

Poziom trudności pytań i zestawów odpowiedzi oceniony przez Qwen3.5-397B-A17B-FP8 w skali 1–5.

📦 Wersja benchmarku: 1.0 Benchmark zrealizowany dzięki udostępnionej mocy obliczeniowej przez ACK Cyfronet AGH w ramach grantu PLG/2024/016951

🔍 Przykładowe pytania — analiza modeli

Kliknij pytanie, by rozwinąć pełną treść z opcjami. Komórki: ✓ = poprawna, ✗ = błędna. Lista automatycznie dopasowuje się do wybranego u góry Poziomu Trudności.

🇵🇱 Polish Knowledge Benchmark