Как стать автором

Поисковые технологии *

От AltaVista до Яндекса

СтатьиПостыНовостиАвторыКомпании

turchan 22 мар в 19:21

Deep research: «ChatGPT vs Perplexity»

Простой

4 мин

5.6K

Управление продуктом*Исследования и прогнозы в IT*Управление проектами*Интерфейсы*Поисковые технологии*

Обзор

Recovery Mode

OpenAI часто упрекают в недостаточном внимании к продуктовой составляющей. Критикуют, что компания никак не может перестроиться с роли исследовательской лаборатории на полноценную коммерческую структуру.

В то же время Perplexity активно делает акцент именно на продукте. Их CEO в одном из недавних интервью заявил, что ключевое конкурентное преимущество компании заключается именно в тщательной работе над продуктовой частью.

Решил провести небольшой эксперимент и сравнить два похожих инструмента — Deep Research от OpenAI и аналогичную функцию у Perplexity.

Deep Research очень рекомендую для проведения "кабинетных" исследований, я уже сэкономил пару десятков часов работы, подписка себя с лихвой окупила.

На первый взгляд оба продаутка предлагают глубокое погружение в тему с подбором максимально релевантных источников. Но при детальном изучении становится видны различия в подходе.

Читать далее

0

Capitan_grach 15 мар в 19:50

Сбор данных из DHT (как работают агрегаторы)

Простой

3 мин

4.1K

Интернет-маркетинг*Хранилища данных*Открытые данные*Информационная безопасность*Поисковые технологии*

Туториал

После моей прошлой статьи прилетело много фидбэка.Я не эксперт в области торрентов, но благодаря комментариям узнал несколько интересных нюансов. Это вдохновило меня на продолжение предыдущей стати и создания мини-аналога IKnowWhatYouDownload (как оказалось, его можно сделать буквально за пару часов).

Начнем с базы

Разберемся, как работает IKnowWhatYouDownload (и подобные агрегаторы).
Вот что говорят его создатели:
Торрент-файлы попадают в нашу базу данных несколькими способами. Во-первых, мы собираем новинки с популярных торрент-сайтов (как зарубежных, так и российских). Во-вторых, у нас есть компоненты, которые постоянно мониторят DHT-сеть. Если кто-то ищет или анонсирует infohash, мы также добавляем его в базу.

Данные по одному торрент-файлу собираются раз в несколько часов. Чем дольше вы находитесь на раздаче, тем выше вероятность попасть в нашу базу. Данные на сайте обновляются с задержкой в сутки.

Обычно мы решаем другие задачи — отслеживать небольшое количество торрент файлов, получая по ним как можно больше данных.

Как вы понимаете, на сайте идеология другая — получить по большому количеству торрент-файлов как можно больше данных, поэтому применяемые методы могут быть неточными. Да, кроме того, на сайте не отображаются данные старше 4х недель.

Что такое DHT?

DHT (Distributed Hash Table) — это технология, которая используется в торрент-сетях для децентрализованного поиска участников раздачи (пиров) без необходимости подключения к центральному трекеру. Вместо того чтобы полагаться на сервер, DHT позволяет каждому участнику сети хранить и обмениваться информацией о пирах напрямую.

Читать далее

+5

Capitan_grach 12 мар в 18:37

Как использование торрентов демаскирует тебя в сети?

Простой

2 мин

30K

Поисковые технологии*Информационная безопасность*Интернет-маркетинг*Хранилища данных*Открытые данные*

Кейс

Пользовались ли вы когда-нибудь торрентами? Если да, то у меня для вас плохие новости.

Когда пользователь скачивает или раздаёт файл через торрент, его IP-адрес становится видимым для других участников сети.

Сервис IKnowWhatYouDownload собирает эту информацию, систематизирует и предоставляет возможность поиска по IP-адресу.

Чтобы узнать, какие файлы связаны с конкретным IP, достаточно ввести адрес в поисковую строку на сайте. Сервис покажет список торрентов, которые были загружены или разданы с этого IP. Также можно увидеть дату и время активности.

Пример результата:

Читать далее

+4

Alekseeva_TA 10 мар в 10:59

Как найти упоминания бренда в СМИ: мой топ-5 бесплатных инструментов мониторинга

Простой

4 мин

2.9K

Блог компании РостелекомПоисковые технологии*Поисковая оптимизация*Интернет-маркетинг*Социальные сети и сообщества

Мнение

✏️ Технотекст 7

Всем привет! Меня зовут Татьяна, я работаю пресс-секретарем в региональном филиале «Ростелекома». В сфере пиара тружусь более 15 лет и все эти годы уделяю особое внимание мониторингу инфополя. Отслеживание упоминаний бренда в СМИ – важная часть работы компании с репутацией. Умение оперативно анализировать публикации позволяет не только поддерживать имидж компании, но и своевременно реагировать на любые изменения в восприятии бренда.

Здесь я поделюсь простыми бесплатными инструментами для мониторинга, которые ежедневно юзаю сама. Возможно, этот материал будет полезен начинающим пиарщикам, а также специалистам-универсалам, которые отвечают в компании за все сразу :-)

Читать далее

+14

Capitan_grach 8 мар в 16:49

Методы поиска скрытой информации в Telegram

Простой

1 мин

21K

Поисковые технологии*

Кейс

Последнее время я ломал голову над вопросом: «как искать Telegram‑каналы, где публикуют информацию об информационной безопасности?»
В Twitter, например, всё просто: купил подписку — и получаешь доступ к куче данных, которые легко парсить. В Telegram же официальных способов для такого поиска нет.

Но я был уверен, что «хитрушки» существуют. И сегодня я их нашёл! Всё оказалось до безобразия просто.

Есть ресурсы, которые используют множество ботов. Эти боты добавляются во все возможные Telegram‑каналы и сохраняют всё, что там публикуется. Потом на этих ресурсах можно искать по ключевым словам и находить каналы, где упоминается нужная вам информация.

Долгое время я находил только платные сервисы, доступ к которым стоил космических денег — около 50к в месяц. Но сегодня я нашел ДВА КРУТЫХ БЕСПЛАТНЫХ РЕСУРСА, которые дают просто фантастические результаты.

Например, при поиске по фразе «CVE-2025», эти сервисы выдают список каналов, где публикуют информацию об уязвимостях. Причём это могут быть как крупные каналы (которые легко найти через обычный поиск), так и каналы с 20 подписчиками (которые без таких инструментов обнаружить почти невозможно).

Ссылки на ресурсы:

1️⃣ tgdev.io/tme/
2️⃣ https://cse.google.com/cse?q=+&cx=006368593537057042503:efxu7xprihg (Telegago)

Пример результата:

Читать далее

-7

Sravni_Tech 6 мар в 17:15

Postgres как поисковый движок

12 мин

10K

Блог компании СравниPostgreSQL*Поисковые технологии*

Перевод

Поиск — это сложно. Важная часть многих приложений, которую нелегко реализовать правильно. Особенно в случае с RAG-пайплайнами, где на качество поиска завязан весь процесс.

Хотя семантический поиск в моде, старый добрый лексический поиск по-прежнему остается базой. Семантические методы могут улучшить результаты, но эффективнее всего они работают, когда добавляются к прочному фундаменту текстового поиска.

Эрик Закариассон, разработчик и автор блога Anyblockers, рассмотрел в своей статье, как использовать Postgres для создания надёжной поисковой системы. В рамках задачи автор объединил три техники:

1. Полнотекстовый поиск с tsvector

2. Семантический поиск с pgvector

3. Нечёткое сопоставление с pg_trgm

4. Бонус: BM25

Возможно, это не оптимальный подход для любой ситуации, но отличная альтернатива созданию отдельного поискового сервиса; отправная точка, которую можно реализовать и масштабировать в рамках существующей базы данных Postgres.

Читать далее

+57

kirillzx 5 мар в 11:13

Related Works в научной статье и диссертации. Зачем и как искать материалы

Простой

9 мин

3.2K

Учебный процесс в ITПоисковые технологии*Лайфхаки для гиковИскусственный интеллект

Обзор

В этой статье моей целью было дать краткий обзор интернет-ресурсов, которые могут помочь вам в поиске научных публикаций и их анализе. Перед обзором самих методов я также кратко излагаю, зачем нужен раздел Related Works и в чем его особенность в научных публикациях и диссертациях.

Читать далее

+7

jesusian 3 мар в 14:16

Positional Bias: Что это такое и как с ним жить? Учимся правильно предсказывать CTR

Средний

5 мин

486

Data Engineering*Машинное обучение*Поисковые технологии*

Кейс

Из песочницы

Поговорим про такого зверя, как positional bias. Разберёмся на примере задачи по ml system design — предсказание вероятности клика по товару в поисковой выдаче.
Рассмотрим основные подходы к решению: дисконтирование таргета, добавление «позиции» как фичи и другие подходы, используемые в рекомендательных системах и поисковых алгоритмах.

Читать далее

+3

Capitan_grach 1 мар в 14:37

Посты из соц. сетей на карте или как развеять фейки в пару кликов

Простой

2 мин

1.8K

Поисковые технологии*

Кейс

Каждый день на нас обрушивается поток информации из множества источников, и часто она бывает противоречивой. Возникает вопрос: кому верить?

«Никому!» — ответят многие и будут правы. Но бывают ситуации, когда информацию нужно проверить, и приходится искать способы как это сделать.

🛠 Сегодня я расскажу об одном инструменте, который в некоторых случаях может стать вашим надёжным помощником.

Читать далее

-1

Bright_Translate 21 фев в 16:01

Покупая домен, не забудьте проверить его на «порчу»

Средний

5 мин

15K

Блог компании RUVDS.comАдминистрирование доменных имен*Поисковая оптимизация*Поисковые технологии*

Обзор

Перевод

В середине 2022 года я купил новый домен — musicbox.fun.

Мне он был нужен для хобби-проекта — интерактивного онлайн-проигрывателя музыки, который я разместил на musicboxfun.com. Новое имя домена было короче и звучало интереснее. Тогда я счёл, что мне буквально повезло его заполучить.

Но, увы, musicbox.fun имел свою историю — до меня этот домен использовался для размещения пиратских копий музыки.

Читать дальше →

+60

Capitan_grach 15 фев в 12:37

grep.app — мощный инструмент для поиска по коду и тексту

Простой

3 мин

4.7K

Информационная безопасность*Поисковые технологии*

Кейс

В современном мире разработки программного обеспечения и работы с большими объемами текстовых данных поиск нужной информации становится критически важной задачей. Разработчики, аналитики и технические писатели часто сталкиваются с необходимостью быстро находить фрагменты кода, строки конфигурации или упоминания определенных терминов в огромных репозиториях. В таких случаях на помощь приходят специализированные инструменты. Об одном из таких инструментов и пойдет речь в данной статье.

Что такое grep.app?

+9

Nikitamce 6 фев в 10:16

Что такое Kagi Search и что Он умеет?

Простой

4 мин

3.3K

Поисковая оптимизация*Поисковые технологии*

Из песочницы

Перевод

Сектор поисковых систем - это рынок с довольно жесткой конкуренцией. Мы уже видели, как еще одна поисковая система противостоит Google с помощью DuckDuckGo, и растет список поисковых систем, которые могут найти контент, недоступный Google.

Так чем же отличается Kagi? Прежде всего, это полностью премиальная модель с ежемесячной и ежегодной оплатой. Это означает, что поисковая система может выполнять свое обещание быть свободной от рекламы и осуществлять нулевое отслеживание пользователей.

Читать далее

+2

vsradkevich 4 фев в 20:40

Об OpenAI Deep Research

Средний

28 мин

6.8K

Искусственный интеллектМашинное обучение*Поисковые технологии*Исследования и прогнозы в IT*Data Mining*

Обзор

Всем привет! Меня зовут Владимир, я разработчик ИИ с 8-летним стажем (до этого много backend-frontend, веб-разработки и всего такого), увлеченный наукой и технологиями (в первую очередь наукой омоложения, физикой, автоматизацией -- в прочем как и Вы).

В своей карьере мне довелось пережить эволюцию поисковых инструментов: от эпохи простых поисковиков, через взрыв популярности форумов и Stack Overflow, до появления современных AI-ассистентов. И каждый новый виток этой эволюции менял наш подход к поиску и анализу информации.

Теперь же на горизонте замаячило нечто действительно революционное — автономные ИИ-агенты для проведения исследований. Сегодня я расскажу об одном из самых обсуждаемых таких инструментов — OpenAI Deep Research. Этот специальный режим ChatGPT обещает вывести поиск информации на новую глубину.

Давайте разберемся, что он из себя представляет, чем отличается от привычных нам инструментов, и как его можно применить с максимальной пользой...

Читать далее

+6

Xcom-shop 31 янв в 09:57

Что такое DeepSeek и на что способна китайская нейросеть, из-за которой OpenAI снизил цену на ChatGPT

9 мин

134K

Блог компании Группа компаний X-ComИскусственный интеллектПоисковые технологии*

Стандартный сценарий выхода новой нейросети обычно включает в себя громкие заявления, масштабную рекламную кампанию и последующее разочарование пользователей. Так было с Apple Intelligence, Galaxy AI и даже Google Gemini. Но китайская DeepSeek нарушила привычный ход вещей. Этот чат-бот удивил всех не столько своими возможностями, сколько впечатляющей доступностью. Именно он показал, что эффективно работающая нейросеть может быть доступной. В результате западные IT-гиганты внезапно столкнулись с серьезным конкурентом, который одним фактом своего выхода уже устроил на американском фондовом рынке “Черный понедельник”. Если вы еще не изучили DeepSeek самостоятельно, под катом подробный разбор практики работы с новинкой.

Читать далее

+21

aliffka_93 28 янв в 11:00

Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран

11 мин

11K

Блог компании ЯндексГеоинформационные сервисы*Машинное обучение*Алгоритмы*Поисковые технологии*

Давным‑давно, когда мир ML состоял из бустингов, линейных моделей и статистических подходов, перед нашей командой API Яндекс Карт стояла задача сделать качественный Геокодер. Это алгоритм, который конвертирует текстовые запросы пользователей в поисковой строке карт в координаты и обратно. Он нужен, когда люди вводят адреса с ошибками, опечатками или народными наименованиями, например «Мяснитская 8». Геокодер должен понять, что имелось в виду «улица Мясницкая, дом 8/2», и вернуть на карте отметку с точной локацией и координатами.

Разработанный для России Геокодер отлично справлялся, но мы хотели найти способ быстро адаптировать это решение к адресным системам других стран. Технологические ограничения не позволяли быстро адаптировать решение, поскольку для каждой страны требовалась разработка собственных правил геокодирования, которые бы учитывали различия и языковые особенности. Однако появление и развитие алгоритмов deep learning открыло новые горизонты: методы active learning, аугментации данных и contrastive learning позволяют значительно улучшить итоговое качество геокодирования и учитывать нюансы различных адресных систем.

В этой статье мы рассмотрим основные этапы и методы построения нового Геокодера, который быстро масштабируется на адресные системы разных стран. Расскажем, что у него под капотом, как именно использовались механизмы deep learning при его создании, с какими проблемами мы столкнулись и как научили его понимать адреса с ошибками и опечатками.

Читать далее

+37

ASReka 27 янв в 12:58

GPT начал убивать поиск Google и Яндекса

Простой

5 мин

58K

Искусственный интеллектПоисковые технологии*Контент и копирайтинг*Исследования и прогнозы в IT*Будущее здесь

Кейс

Извиняюсь за наглое название. Но если поиск Google потерял активного пользователя в моем лице, а Яндекс-поиск - в лице моей жены, то значит процесс пошел))) Логично?

А если серьезно, то я оказался настолько впечатлен резким снижением затрат времени на поиск информации при использовании ChatGPT, что захотелось спросить что думают по этому поводу Хабровчане.

Смотрите: я действительно стал использовать поиск через ChatGPT чаще чем просто через Гугл-поиск. Не думаю, что я такой уникальный, просто преимущества оказались очевидны (о недостатках - ниже).

То есть когда народ распробует массово, это может сказаться на поисковых системах.

Как именно? Что вы об этом думаете?

Значит это аукнется и на SEO?

Как? А об этом что думаете?

На чем еще это может сказаться?

Дальше для иллюстрации просто расскажу свои микро-истории по добыче информации в ChatGPT с включенной функцией поиска в интернете. Речь о ярлычке со стилизованным земным шаром, расположенным в поле ввода запроса на https://chatgpt.com/

Читать далее

+30

VAE 24 янв в 09:21

НМ и НТ. Углеродные нанотрубки. Часть VII

Средний

14 мин

1K

НанотехнологииНакопителиНаучно-популярноеПоисковые технологии*Профессиональная литература*

В этой части «Наноматериалов и …» рассматриваются УНТ на фоне глобальных вызовов тех, что названы в долгосрочном прогнозе научно-технологического развития РФ до 2030.
– Повышение экологических требований к производству
– Глобальный дефицит энергоресурсов и сырья для производства новых материалов
– Угроза негативного воздействия нанопродуктов на здоровье и безопасность человека
– Распространение новых загрязняющих веществ (в том числе наночастиц) в окружающей среде. Угроза неконтролируемого распространения продуктов, производимых с использованием нанотехнологий

В статье, как и в предшествующих статьях этого цикла, рассматривается многообразие структур и основ устройства, свойств, синтеза, классификация, и области применения углеродных нанотрубок (УНТ) (англ. carbon nanotube сокр., CNT; SWNT; MWNT) открывающих возможности создания материалов и устройств с новыми замечательными свойствами.

Читать далее

+4

ManticoreSearch 17 янв в 09:49

Переиндексация в Manticore Search с использованием mysqldump

3 мин

515

GitHub*MySQL*Open source*Поисковые технологии*Хранилища данных*

Кейс

Перевод

Эта статья написана Мариусом Матилионисом, старшим разработчиком и экспертом по Manticore Search в компании Ivinco. Ivinco специализируется на предоставлении передовых решений для поиска, оптимизации баз данных, управлении инцидентами и настройке систем мониторинга, помогая бизнесам достигать более быстрых, эффективных и масштабируемых операций.

Читать далее

+6

Zapunidi 8 янв в 17:03

Обнаружение устройств через UPnP / SSDP

Средний

26 мин

14K

Open source*Поисковые технологии*Программирование микроконтроллеров*Сетевые технологии*

Обзор

Что больше всего бесит при первом запуске устройств с управлением по Ethernet? Необходимость его искать в сети с использованием зоопарка из подходов. Тут используются программы автопоиска (например Winbox для MikroTik), дефолтные IP адреса (все эти 192.168.1.1, 192.168.100.1, 192.168.2.1 - кто во что горазд). Иногда надо со смартфона показывать QR коды в камеру устройства или передавать настройки тональными сигналами в микрофон. Мы задались целью найти стандарт для поиска устройств в сети и внедрить его в свои устройства на основе микроконтроллеров и/или одноплатных компьютеров. Это статья о стандартах, их особенностях, преодолённых трудностях и об открытом коде, который мы написали для себя и считаем лучшей в мире открытой реализацией SSDP сервера и клиента.

Читать далее

+55

ManticoreSearch 30 дек 2024 в 14:28

Поиск изображений по тексту с Manticore Search

Средний

6 мин

2.5K

Поисковые технологии*Open source*MySQL*GitHub*

Обзор

Перевод

Кратко: Узнайте, как Manticore Search даёт возможность искать изображения по текстовому описанию, совмещая обработку естественного языка и поиск по векторным представлениям. Мы рассмотрим разные пути — от классических методов до современных решений на базе векторного поиска. А если хотите увидеть всё в реальном времени, загляните в наше демо.

Читать далее

+4

2

3 4 ...

	
		OSZAR »