SharePoint Power Hour-afsnit, afsnit 102: Datavisning af webdele

Min WordPress-side, ikke så meget stort indhold. Nyligt stødt på problem med høj CPU-båndbredde. Inden for få sekunder bliver det 100%, og serveren bliver nede. Efter en kæmpe analyse fandt jeg ud af, at deres indekserede status i Google Search Console var omkring 2.664.023. Og URL-parametrene, hvor URL'er overvåges over 24.981.662 for individuel parameter. Det er sindssygt. Brugt filtreringsmulighed. Efter finde ud af problemet noindex disse indstillinger fra Yoast-plugin, Rediger parametrene. Men ingen ændring i indeksstatus. Det stiger dag for dag. Så det vil jeg no-index disse parametre permanent fra Google Search Console og ønsker også at slette det. Hvordan kan jeg gøre det gennem .htaccess-filen? Det vil helt sikkert reducere det samlede indekserede antal fra Google Search Console.

Her er de indekserede URL-parametre fra Google Search Console:

  • Er disse URL-parametre vigtige for funktionen af ​​dit websted? Eller vil du bare kassere dem?
  • Nej, det er ikke vigtigt. Er de filtrerede parametre, der forårsager brugen af ​​høj båndbredde. hvis jeg sletter dem, reduceres indekseret status eller ej? Jeg er virkelig bekymret ... hvad skal jeg faktisk gøre .....

Det ser ud til, at du sandsynligvis skulle blokere disse URL'er (med URL-parametre) i din robots.txt fil for at forhindre søgemaskine-bots (dvs. Googlebot) i at gennemgå disse webadresser i første omgang. For eksempel for at blokere alle webadresser med forespørgselsstrenge:

User-agent: * Disallow: /*? 

Inden for Google Search Console (tidligere Webmasterværktøjer) kan du også eksplicit fortælle Google, hvordan de skal håndtere hver URL-parameter. Under gennemgang> URL-parametre. For eksempel din filter_display parameter kan defineres som:

  • Ændrer denne parameter sideindholdet set af brugeren?
    "Ja: Ændrer, omarrangerer eller indsnævrer sideindholdet"
  • Hvordan påvirker denne parameter sideindholdet?
    "Indsnævrer"
  • Hvilke webadresser med denne parameter skal Googlebot gennemgå?
    "Ingen webadresser" (eller måske "Lad Googlebot beslutte", om du stoler på Google, givet de tidligere muligheder)

Hvordan kan jeg gøre det via .htaccess-filen?

Du nævnte i kommentarer, at disse URL-parametre er "ikke vigtige". De ser dog ud til at give nogle brugerfunktioner (f.eks. Filtrering, sortering, ...)? I hvilket tilfælde vil du sandsynligvis ikke bruge det .htaccess. Ved brug af .htaccess Du kan kanonisere URL'en og omdirigere URL'erne med disse URL-parametre. Dette fjerner disse URL-parametre fuldstændigt fra dit websted - hvilket endda kan bryde dit websteds funktionalitet?


OPDATERING: Dit robots.txt fil (kopieret fra kommentarer):

User-agent: * Disallow: /*? User-agent: * Disallow: / User-agent: Googlebot Disallow: User-agent: * Allow: /wp-content/uploads/ Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ Disallow: /images/ Disallow: /wp-content/ Disallow: /index.php Disallow: /wp-login.php 

Dette fungerer ikke som beregnet. Du har modstridende grupper. dvs. Tre grupper, der alle matcher User-agent: *. Bots behandler kun en blok af regler. Blokken, der matcher, er den, der matcher den "mest specifikke" User-agent. Det User-agent: * blok matcher alle bots, der ikke matchede nogen anden blok. Fra disse regler crawler Googlebot simpelthen alt (ubegrænset), inklusive alle dine URL-parametre - hvis dette forårsager problemer for din server (som du foreslår), er dette ikke det, du vil have. Og ud fra disse regler vil jeg "gætte", at alle andre bots vil matche den første User-agent: *

(Men selvom du vedtog forskellige ræsonnementer og antog, at flere blokke kunne behandles, ville det ikke give mening ...?)

Afhængigt af dine krav skal dette skrives som:

User-agent: * Disallow: / User-agent: Googlebot Allow: /wp-content/uploads/ Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ Disallow: /images/ Disallow: /wp-content/ Disallow: /index.php Disallow: /wp-login.php Disallow: /*? 

Jeg antager, at hvis dette er et WordPress-websted, vil du ikke engang Googlebot skal gennemgå overalt?

Fra disse regler forhindres alle andre (gode) bots i at gennemgå dit websted.

  • Tak for dit svar. Nu er hovedproblemet at reducere den indekserede URL. Min blog side ikke meget stor. Men google indeks status viser 264.473 ingen af ​​indeks. Det stiger dag for dag. Også server-CPU-brugen bliver højere, hele tiden større end 80%, og serveren er ikke nået. Mens analysen findes her support.google.com/webmasters/answer/76401?hl=da, udstedes overskydende url-parametre for det overdrevne indeks. Så tænkte, hvis jeg sletter disse parametre, kan indeksnummeret falde. Så hvad kan være løsningen for at minimere indeksnummeret og stoppe det .... Hjælp venligst ...
  • Implementere robots.txt metode som nævnt ovenfor (og indstil URL-parametrene i GSC) - der skal reducere gennemsøgningshastigheden og forhindre stigningen i indeksstatus. Bekræft, at dette fungerer OK i Google Search Console (og test nogle webadresser). Det kan dog tage en dag for Google at hente robots.txt fil. Imidlertid forhindrer de ovennævnte metoder kravle (og dermed indeksering af ny URL'er), som ser ud til at være dit største problem). De reducerer ikke nødvendigvis antallet af allerede indekserede webadresser.
  • Tak skal du have. Jeg indstiller parametrene i GSC, men indstil parameter påvirker pag-indhold indstillet som "Sorter". Efter to uger finder jeg ingen ændringer i GSC, men hovedpinen øges stadig, og serverens CPU-brug forbliver også høj hele tiden. Så hvis jeg bruger ovenstående 2 linjer i robots.txt, hvad er fordelen / ændringerne?
  • Som nævnt ovenfor, disse to linjer i robots.txt forhindre webadresser med forespørgselsstrenge i at blive gennemgået af Google (og andre godt bots). Hvis de ikke gennemgås, er der ingen CPU-brug. Selvom dette ikke nødvendigvis forhindrer URL'er i at blive indekseret (især hvis de allerede er indekseret), reducerer det bestemt dramatisk chancerne for, at URL'erne indekseres og returneres i SERP'erne.
  • Tak for din kommentar. Jeg tilføjede dette på denne måde i robots.txt-filen User-agent: * Disallow: /*? User-agent: * Disallow: / User-agent: Googlebot Disallow: User-agent: * Allow: /wp-content/uploads/ Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /junk/ Disallow: /images/ Disallow: /wp-content/ Disallow: /index.php Disallow: /wp-login.php håber, det vil reducere CPU-brugen og forhindre, at URL-adressen indekseres. Kontroller, om robots.txt-filen er okay eller ej ...

arbejdet for dig: Charles Robertson | Ønsker du at kontakte os?