Створення сайтів - студія веб-дизайну WebStudio2U Контактні дані веб-студії WebStudio2U RSS стрічка веб-студії WebStudio2U Мапа сайту Авторизація

Унікальність тексту

Унікальність тексту: способи перевірки Унікальність тексту завжди перевіряється пошуковими системами при аналізі сайтів, що індексуються. І якщо пошукова система виявляє, що значна частина тексту або ж увесь текст дубльовані з інших ресурсів, то високих позицій сайту у рейтингу годі й сподіватися. А як саме відбувається перевірка унікальності тексту?

При перевірці унікальності тексту пошуковими системами враховуються так звані закони Зіпфа. Джордж Кінгслі Зіпф - професор-лінгвіст із Гарварда - в 1949 році виявив емпіричні закономірності частоти вживання слів природної мови в якому-небудь тексті.

Відповідно до першого закону Зіпфа, добуток імовірності виявлення слова в тексті на його ранг частоти - величина постійна (константа). Ранг частоти найбільш часто вживаного слова приймається як одиниця.

Другий закон Зіпфа говорить, що для всіх текстів форма кривої залежності частоти й кількості слів, що входять у текст із цією частотою, однакова.

На основі цих законів пошукові системи всі слова, що зустрічаються в тексті сторінки, що перевіряється, розбивають на деякі групи. Так, найбільш часто в текстах зустрічаються короткі слова: вигуки, прийменники, сполучники. Однак ці слова не мають значеннєвого навантаження, а тому пошукові системи їх не враховують при ранжируванні. Такі слова називаються шумовими або стоп-словами.

Частина слів, які мають важливе значення для кожного конкретного сайту, називають ключовими словами - їх пошукові системи при ранжируванні враховують. Третя група слів - це випадкові слова. Вони мають значення, але не важливі для конкретного сайту. Ці слова при ранжируванні не враховуються.

Таким чином, при перевірці унікальності тексту закони Зіпфа дозволяють ураховувати тільки слова, що несуть значеннєве навантаження, і не враховувати розділові знаки, сполучники, прийменники, вигуки. Очищення тексту від цих «зайвих» слів і знаків називається канонізацією тексту.

Унікальність тексту перевіряється пошуковими системами на основі складних алгоритмів. Один з таких алгоритмів - це алгоритм шинглів. З англійської шингл (shingle) - це лусочка. Перед виконанням перевірки унікальності тесту за алгоритмом шинглів текст повинен бути канонізований.

Текст, що перевіряється, розбивається на невеликі «лусочки» - ланцюжки з певної кількості слів (кількість слів називається довжиною шингла). Друге слово першого шингла є першим словом для другого, друге слово другого - першим для третього й т.д. Завдяки такому принципу побудови ланцюжків жодне слово не залишиться неперевіреним.

Для кожного шингла розраховується контрольна сума (сигнатура) - унікальне число, що ставиться у відповідність деякій ділянці тексту, у даному випадку шингла. Розрахунок контрольної суми відбувається по одному із заздалегідь відомих алгоритмів.

У двох різних шматочків тексту не може бути однакової контрольної суми - у цьому й полягає суть алгоритму шинглів. З безлічі контрольних сум усього тексту (їхнє число дорівнює кількості слів у тексті за винятком довжини шингла, зменшеної на одиницю) вибираються тільки ті, які відповідають певному критерію, наприклад, діляться на 10 або 25.

Контрольні суми двох тестів, що перевіряються на унікальність, звіряються між собою. Знайдені збіги означають неунікальність тексту. Чим більше збігів, тим вище ймовірність, що тексти є копіями. Очевидно, що при такому способі перевірки унікальності тексту точність результатів зростає при зменшенні довжини шинглів.

Перевірка унікальності тексту за алгоритмом шинглів дозволяє знаходити не тільки повні копії документів, але й майже-дублікати, тобто лише злегка змінені тексти. Це робить алгоритм шинглів дуже популярним і на його основі створюються різні онлайн- і десктоп-додатки для перевірки унікальності тексту.

Однак істотним недоліком алгоритму шинглів є складність виділення із загального тексту фразеологізмів, популярних цитат, тобто дуже широко використовуваних словосполучень. При наявності в текстах, що перевіряються, збігів за такими словосполученнями, алгоритм покаже низький ступінь унікальності.

У своїй роботі фахівці веб-студії досягають дуже високої унікальності тексту (від 95%), що відповідає стандартам якості пошукових систем. Тому, замовляючи послуги копірайтінгу у студії веб-дизайну WebStudio2U Ви можете бути впевнені, що Ви одержуєте унікальні, грамотно оптимізовані для web тексти, які стануть ефективним інструментом Вашого бізнесу в Інтернет.

Теги:
унікальність тексту, перевірка унікальності тексту, алгоритм шинглів