I haven’t done any extensive testing, but I was running a replace command where <span>(^<]+)</span>
was to be replaced with \1
. In other words, HTML “span” tags surrounding plain text should be removed.
After running this command, I noticed various places in the text where uppercase letters had been replaced with lowercase, while at other places lowercase letters had been replaced with uppercase.
For example, before:
<p><span>Her kan du lese om hvordan Hamar, Skien, Drammen og Ringerike jobber med arkitektur og estetikk lokalt og hvordan Svelvik, som har gitt innspill til medvirkning, bruker dette virkemiddelet i sin kommune. Plan-og bygningsloven er ikke nok for å fremme kvalitet. Det kreves god kompetanse i kommunen og det må gis rom for idé og virkemiddelutvikling. </span></p>
And after:
<p>Her kaN du lese om hvordan hamar, skien, drammeN og ringerIke jobber med arkitektur og estetikk lokalt og hvordan svelviK, som har gitt innspill til medvirkning, bruker dette virkemiddelet i sin kommune. plan-oG bygningsloven er ikke nok for å fremme kvalitet. det krEves god kompetanse i kommunen og det må gis rom for idé og virkemiddelutvikling. </p>
Come to think of it, it looks like all uppercasing has been moved 6 characters, exactly the width of the removed string “”. As expected, a work-around is to change the replace string with 6 spaces followed by “\1”: \1
.
The result then becomes:
<p> Her kan du lese om hvordan Hamar, Skien, Drammen og Ringerike jobber med arkitektur og estetikk lokalt og hvordan Svelvik, som har gitt innspill til medvirkning, bruker dette virkemiddelet i sin kommune. Plan-og bygningsloven er ikke nok for å fremme kvalitet. Det kreves god kompetanse i kommunen og det må gis rom for idé og virkemiddelutvikling. </p>