
Могут ли LSI-ключевые слова положительно повлиять на вашу стратегию SEO? Вот основанный на фактах обзор скрытого семантического индексирования и почему это не важно для SEO.
Существует много заявлений о скрытом семантическом индексировании (LSI) и «ключевых словах LSI» для SEO.
Лабораторный pH-метр edge hi 2020 – это новаторский дизайн, который является кульминацией концепции компании Hanna Instruments, ее дизайнерских возможностей, комплексного производства и мирового класса R&D (Research and Development).
Некоторые даже говорят, что Google полагается на «ключевые слова LSI» для понимания веб-страниц.
Это скрытое семантическое индексирование
Скрытое семантическое индексирование (также называемое скрытым семантическим анализом) – это метод анализа набора документов для обнаружения статистических совпадений слов, которые встречаются вместе, что затем дает представление о тематике этих слов и документов.
Две проблемы (среди нескольких), которые намеревается решить LSI, – это проблемы синонимии и многозначности.
Синонимия – это указание на то, сколько слов может описать одно и то же.
Человек, ищущий «рецепты оладий», приравнивается к поиску «рецептов блинов», потому что оладьи и блины – синонимы.
Многозначность относится к словам и фразам, которые имеют более одного значения. Слово ягуар может означать животное, автомобиль или команду по американскому футболу.
LSI может статистически предсказать, какое значение слова следует использовать, путем статистического анализа слов, которые вместе с ним встречаются в тексте.
Если слово «ягуар» сопровождается в документе словом «Джексонвилл», статистически вероятно, что слово «ягуар» относится к команде по американскому футболу.
Понимая, как слова встречаются вместе, компьютер может лучше ответить на запрос, верно сопоставив правильные ключевые слова с поисковым запросом.
Патент на LSI был подан 15 сентября 1988 года. Это старая технология, появившаяся за много лет до того, как появился интернет.
Технология LSI не нова и не является передовой.
Важно понимать, что в 1988 году LSI продвигала технологии простого сопоставления текста.
LSI предшествовала Интернету и была создана в то время, когда компьютеры Apple выглядели так:

LSI была создана, когда популярный бизнес-компьютер (IBM AS / 400) выглядел так:

LSI – это технология, уходящая корнями в прошлое.
Как и компьютеры 1988 года, современные достижения в области информационного поиска претерпели значительные изменения за последние 30 с лишним лет.
LSI не подходит для Интернета
Основным недостатком использования скрытого семантического индексирования для всей сети является то, что вычисления, сделанные для создания статистического анализа, должны пересчитываться каждый раз, когда новая веб-страница публикуется и индексируется.
Этот недостаток упоминается в исследовательской статье 2003 г. (не принадлежащей Google) об использовании LSI для обнаружения спама в электронной почте (Использование скрытого семантического индексирования для фильтрации спама в PDF).
В исследовательской статье отмечается:
«Одна проблема с LSI заключается в том, что он не поддерживает специальное добавление новых документов после создания семантического набора. Любое обновление любого значения ячейки изменит коэффициент в каждом другом векторе слова, так как SVD использует все линейные отношения в заданной размерности для создания векторов, которые будут предсказывать каждый образец текста, в котором встречается слово… »
Я спросил Билла Славски о непригодности LSI для поиска информации из поисковых систем, и он согласился, сказав:
«LSI – это более старый подход к индексации, разработанный для небольших статических баз данных. Есть сходство с новыми технологиями, такими как использование векторов слов или word2Vec.
Одним из ограничений LSI является то, что при добавлении нового контента в корпус требуется индексация всего корпуса, что делает его малоэффективным для быстро меняющегося корпуса, такого как Интернет».
Есть ли статья для исследования ключевых слов Google LSI?
Некоторые в поисковом сообществе считают, что Google использует «ключевые слова LSI» в своем алгоритме поиска, как будто LSI по-прежнему является передовой технологией.
Чтобы доказать это, некоторые ссылаются на исследовательский документ 2016 года под названием «Улучшение семантической тематической кластеризации для поисковых запросов с помощью совместной встречаемости слов и совместной кластеризации Bigraph» (PDF).
Эта исследовательская работа не является примером скрытого семантического индексирования. Это совершенно другая технология.
Фактически, эта исследовательская работа настолько не связана с LSI (он же скрытый семантический анализ), что в ней цитируется исследовательская работа LSI 1999 г. ([5] T. Hofmann. Вероятностное скрытое семантическое индексирование.… 1999) как часть объяснения того, почему LSI является бесполезен для проблемы, которую пытаются решить авторы.
Вот что там написано:
«Скрытое распределение Дирихле (LDA) и вероятностный скрытый семантический анализ (PLSA) – широко используемые методы для выявления скрытых тем в текстовых данных. … Эти модели изучают скрытые темы, неявно используя шаблоны совместной встречаемости слов на уровне документа.
Однако короткие тексты, такие как поисковые запросы, твиты или мгновенные сообщения, страдают от разреженности данных, что создает проблемы для традиционных методов тематического моделирования».
Было бы ошибкой использовать вышеуказанное исследование в качестве доказательства того, что Google использует LSI в качестве важного фактора ранжирования. Статья не о LSI и даже не об анализе веб-страниц.
Это интересная исследовательская статья от 2016 года о коротких поисковых запросах с интеллектуальным анализом данных, чтобы понять, что они означают.
Помимо этого исследования, мы знаем, что Google использует технологии BERT и нейронного сопоставления для понимания поисковых запросов в реальном мире.
Использует ли Google ключевые слова LSI?
В поисковом маркетинге есть два вида достоверных и авторитетных данных:
- Фактические идеи, основанные на публичных документах, таких как исследовательские работы и патенты.
- Идеи SEO, основанные на том, что рассказали гуглеры.
Все остальное – просто мнение.
Важно понимать разницу.
Джон Мюллер из Google откровенно опровергает концепцию ключевых слов LSI.
Известный эксперт по поисковым патентам Билл Славски также открыто высказывался о понятиях скрытого семантического индексирования и SEO.
Заявления Билла о LSI основаны на глубоком знании алгоритмов Google, которыми он поделился в статьях, основанных на фактах (например, здесь и здесь).
Билл Славски опубликовал в Твиттере свое обоснованное мнение о скрытом семантическом индексировании

Почему Google ассоциируется со скрытым семантическим анализом?
Несмотря на отсутствие каких-либо доказательств в отношении патентов и исследовательских работ, что LSI / LSA являются важными факторами, связанными с ранжированием, Google по-прежнему ассоциируется со скрытым семантическим индексированием.
Одна из причин этого – приобретение Google в 2003 году компании Applied Semantics.
Прикладная семантика создала технологию под названием Circa. Circa – это алгоритм семантического анализа, который использовался в AdSense, а также в Google AdWords.
Согласно пресс-релизу Google:
«Applied Semantics – признанный новатор в семантической обработке текста и онлайн-рекламе», – сказал Сергей Брин, соучредитель Google и президент по технологиям. «Это приобретение позволит Google создавать новые технологии, которые сделают онлайн-рекламу более полезной для пользователей, издателей и рекламодателей.
Продукты Applied Semantics основаны на запатентованной технологии CIRCA, которая понимает, организует и извлекает знания с веб-сайтов и информационных хранилищ таким образом, чтобы имитировать человеческое мышление и обеспечивать более эффективный поиск информации. Ключевым приложением технологии CIRCA является продукт AdSense от Applied Semantics, который позволяет веб-издателям понимать ключевые темы на веб-страницах для предоставления высокорелевантной и целевой рекламы ».
Семантический анализ и SEO
Фраза «семантический анализ» была модным словом в начале 2000-х, возможно, частично благодаря технологии семантического поиска Ask Jeeves.
Покупка Google Applied Semantics ускорила тенденцию ассоциировать Google со скрытым семантическим индексированием, несмотря на отсутствие достоверных доказательств.
Таким образом, к 2005 году сообщество поискового маркетинга делало необоснованные заявления, такие как:
«В течение нескольких месяцев я замечал изменения в рейтинге веб-сайтов в Google, и было ясно, что что-то изменилось в их алгоритме.
Одним из наиболее важных изменений является вероятность того, что Google теперь уделяет больше внимания скрытому семантическому индексированию (LSI).
Это не должно вызывать удивления, учитывая, что Google приобрела Applied Semantics в апреле 2003 года и, как сообщается, обслуживает свои объявления AdSense с использованием скрытого семантического индексирования».
Миф SEO о том, что Google использует ключевые слова LSI, вполне возможно, возник из-за популярности таких фраз, как «семантический анализ», «семантическое индексирование» и «семантический поиск», которые стали модными SEO-моделями, получившими жизнь благодаря технологии семантического поиска Ask Jeeves и приобретению Google аналитической компании Applied Semantics.
Факты о скрытом семантическом индексировании
LSI – это очень старый метод понимания того, о чем документ.
Он был запатентован в 1988 году, задолго до того, как появился Интернет в том виде, каким мы его знаем.
Природа LSI делает его непригодным для использования во всем Интернете с целью поиска информации.
Нет исследовательских работ, которые явно показывают, что скрытое семантическое индексирование является важной особенностью поискового ранжирования Google.
Факты, представленные в этой статье, показывают, что так было с начала 2000-х годов.
Слухи об использовании Google LSI и LSA появились в 2003 году после того, как Google приобрела Applied Semantics, компанию, которая производила продукт контекстной рекламы AdSense.
Тем не менее гуглеры неоднократно подтверждали, что Google не использует такую вещь, как ключевые слова LSI.
Позвольте мне сказать это еще раз громче для тех, кто находится сзади: не существует такой вещи, как ключевые слова LSI.
Принимая во внимание подавляющее количество доказательств, разумно утверждать, что концепция ключевых слов LSI действительно является ложной.
Факты также указывают на то, что LSI не является важной частью алгоритмов ранжирования Google.
В свете последних достижений в области искусственного интеллекта, обработки естественного языка и BERT идея о том, что Google будет широко использовать LSI в качестве функции ранжирования, буквально невероятна и нелепа. [via searchenginejournal]