quality/near-duplicate-content

Af content-framework-redaktionen · Opdateret
Indholdskvalitet · scope: site · severity: error

No two pages have near-identical main content. Reglen quality/near-duplicate-content kører i site-scope med severity 'error' og indgår i indholdskvalitet-domænet sammen med 8 andre kontrakter i frameworket.

Hvorfor near-duplicate-content findes

Near-duplicate pages (template text with only a few tokens swapped) are the classic doorway-page pattern and the second way pSEO sites die. Measured as Jaccard similarity over 8-word shingles of the main content; pages above 0.85 are flagged. Gold standard: each page's unique data makes up enough of the content that no pair crosses the threshold.

Sådan håndhæves near-duplicate-content

Reglen near-duplicate-content evalueres på hele sitets fakta-indeks på én gang, fordi kravet kun giver mening på tværs af sider — den enkelte side kan se perfekt ud, mens mønsteret er problemet. Fejler en side, får agenten en finding, hvor fix-instruktionen for near-duplicate-content er formuleret som en konkret arbejdsordre med filnavne og målbare krav — aldrig et vagt råd. Severity 'error' betyder at et brud på near-duplicate-content fejler hele verifikationen med exit-kode 1, så hverken CI eller en agent kan skibe sitet før fundet er rettet.

Domænet: indholdskvalitet

Quality-domænet er pSEO-sitets livsforsikring mod Googles scaled content abuse-politik: tyndt indhold, genbrugte sætninger, dubletter og template-artefakter. Reglerne måler det, kvalitetsbedømmere kigger efter, og fejler builds før mønstrene når at skade hele sitets klassifikation. Netop derfor hører near-duplicate-content hjemme her: kravet kan afgøres maskinelt, og dermed kan det håndhæves i stedet for blot at blive anbefalet.

Test og fixtures

Som alle kontrakter i frameworket har quality/near-duplicate-content en mutant-test, der beviser at reglen fejler, når kravet brydes — en regel uden en fejlende test er ikke en regel. Golden-fixturet beviser omvendt, at en fuldt compliant side består near-duplicate-content sammen med de øvrige 85 regler, og denne demoside er selv underlagt hele kontrakten.

Relaterede regler

Tilbage til oversigten over alle 86 regler.