Как стать автором
Обновить
12.35

Поисковые технологии *

От AltaVista до Яндекса

Сначала показывать
Порог рейтинга
Уровень сложности

Deep research: «ChatGPT vs Perplexity»

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров5.6K

OpenAI часто упрекают в недостаточном внимании к продуктовой составляющей. Критикуют, что компания никак не может перестроиться с роли исследовательской лаборатории на полноценную коммерческую структуру.

В то же время Perplexity активно делает акцент именно на продукте. Их CEO в одном из недавних интервью заявил, что ключевое конкурентное преимущество компании заключается именно в тщательной работе над продуктовой частью.

Решил провести небольшой эксперимент и сравнить два похожих инструмента — Deep Research от OpenAI и аналогичную функцию у Perplexity.

Deep Research очень рекомендую для проведения "кабинетных" исследований, я уже сэкономил пару десятков часов работы, подписка себя с лихвой окупила.

На первый взгляд оба продаутка предлагают глубокое погружение в тему с подбором максимально релевантных источников. Но при детальном изучении становится видны различия в подходе.

Читать далее

Сбор данных из DHT (как работают агрегаторы)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.1K

После моей прошлой статьи прилетело много фидбэка.Я не эксперт в области торрентов, но благодаря комментариям узнал несколько интересных нюансов. Это вдохновило меня на продолжение предыдущей стати и создания мини-аналога IKnowWhatYouDownload (как оказалось, его можно сделать буквально за пару часов).

Начнем с базы

Разберемся, как работает IKnowWhatYouDownload (и подобные агрегаторы).
Вот что говорят его создатели:
Торрент-файлы попадают в нашу базу данных несколькими способами. Во-первых, мы собираем новинки с популярных торрент-сайтов (как зарубежных, так и российских). Во-вторых, у нас есть компоненты, которые постоянно мониторят DHT-сеть. Если кто-то ищет или анонсирует infohash, мы также добавляем его в базу.

Данные по одному торрент-файлу собираются раз в несколько часов. Чем дольше вы находитесь на раздаче, тем выше вероятность попасть в нашу базу. Данные на сайте обновляются с задержкой в сутки.

Обычно мы решаем другие задачи — отслеживать небольшое количество торрент файлов, получая по ним как можно больше данных.

Как вы понимаете, на сайте идеология другая — получить по большому количеству торрент-файлов как можно больше данных, поэтому применяемые методы могут быть неточными. Да, кроме того, на сайте не отображаются данные старше 4х недель.

Что такое DHT?

DHT (Distributed Hash Table) — это технология, которая используется в торрент-сетях для децентрализованного поиска участников раздачи (пиров) без необходимости подключения к центральному трекеру. Вместо того чтобы полагаться на сервер, DHT позволяет каждому участнику сети хранить и обмениваться информацией о пирах напрямую.

Читать далее

Как использование торрентов демаскирует тебя в сети?

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров30K

Пользовались ли вы когда-нибудь торрентами? Если да, то у меня для вас плохие новости.

Когда пользователь скачивает или раздаёт файл через торрент, его IP-адрес становится видимым для других участников сети.

Сервис IKnowWhatYouDownload собирает эту информацию, систематизирует и предоставляет возможность поиска по IP-адресу.

Чтобы узнать, какие файлы связаны с конкретным IP, достаточно ввести адрес в поисковую строку на сайте. Сервис покажет список торрентов, которые были загружены или разданы с этого IP. Также можно увидеть дату и время активности.

Пример результата:

Читать далее

Как найти упоминания бренда в СМИ: мой топ-5 бесплатных инструментов мониторинга

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.9K

Всем привет! Меня зовут Татьяна, я работаю пресс-секретарем в региональном филиале «Ростелекома». В сфере пиара тружусь более 15 лет и все эти годы уделяю особое внимание мониторингу инфополя. Отслеживание упоминаний бренда в СМИ – важная часть работы компании с репутацией. Умение оперативно анализировать публикации позволяет не только поддерживать имидж компании, но и своевременно реагировать на любые изменения в восприятии бренда.

Здесь я поделюсь простыми бесплатными инструментами для мониторинга, которые ежедневно юзаю сама. Возможно, этот материал будет полезен начинающим пиарщикам, а также специалистам-универсалам, которые отвечают в компании за все сразу :-)

Читать далее

Методы поиска скрытой информации в Telegram

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров21K

Последнее время я ломал голову над вопросом: «как искать Telegram‑каналы, где публикуют информацию об информационной безопасности?»
В Twitter, например, всё просто: купил подписку — и получаешь доступ к куче данных, которые легко парсить. В Telegram же официальных способов для такого поиска нет.

Но я был уверен, что «хитрушки» существуют. И сегодня я их нашёл! Всё оказалось до безобразия просто.

Есть ресурсы, которые используют множество ботов. Эти боты добавляются во все возможные Telegram‑каналы и сохраняют всё, что там публикуется. Потом на этих ресурсах можно искать по ключевым словам и находить каналы, где упоминается нужная вам информация.

Долгое время я находил только платные сервисы, доступ к которым стоил космических денег — около 50к в месяц. Но сегодня я нашел ДВА КРУТЫХ БЕСПЛАТНЫХ РЕСУРСА, которые дают просто фантастические результаты.

Например, при поиске по фразе «CVE-2025», эти сервисы выдают список каналов, где публикуют информацию об уязвимостях. Причём это могут быть как крупные каналы (которые легко найти через обычный поиск), так и каналы с 20 подписчиками (которые без таких инструментов обнаружить почти невозможно).

Ссылки на ресурсы:

1️⃣ tgdev.io/tme/
2️⃣ https://cse.google.com/cse?q=+&cx=006368593537057042503:efxu7xprihg (Telegago)

Пример результата:

Читать далее

Postgres как поисковый движок

Время на прочтение12 мин
Количество просмотров10K

Поиск — это сложно. Важная часть многих приложений, которую нелегко реализовать правильно. Особенно в случае с RAG-пайплайнами, где на качество поиска завязан весь процесс.

Хотя семантический поиск в моде, старый добрый лексический поиск по-прежнему остается базой. Семантические методы могут улучшить результаты, но эффективнее всего они работают, когда добавляются к прочному фундаменту текстового поиска.

Эрик Закариассон, разработчик и автор блога Anyblockers, рассмотрел в своей статье, как использовать Postgres для создания надёжной поисковой системы. В рамках задачи автор объединил три техники:

1. Полнотекстовый поиск с tsvector

2. Семантический поиск с pgvector

3. Нечёткое сопоставление с pg_trgm

4. Бонус: BM25

Возможно, это не оптимальный подход для любой ситуации, но отличная альтернатива созданию отдельного поискового сервиса; отправная точка, которую можно реализовать и масштабировать в рамках существующей базы данных Postgres.

Читать далее

Related Works в научной статье и диссертации. Зачем и как искать материалы

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.2K

В этой статье моей целью было дать краткий обзор интернет-ресурсов, которые могут помочь вам в поиске научных публикаций и их анализе. Перед обзором самих методов я также кратко излагаю, зачем нужен раздел Related Works и в чем его особенность в научных публикациях и диссертациях.

Читать далее

Positional Bias: Что это такое и как с ним жить? Учимся правильно предсказывать CTR

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров486

Поговорим про такого зверя, как positional bias. Разберёмся на примере задачи по ml system design — предсказание вероятности клика по товару в поисковой выдаче.
Рассмотрим основные подходы к решению: дисконтирование таргета, добавление «позиции» как фичи и другие подходы, используемые в рекомендательных системах и поисковых алгоритмах.

Читать далее

Посты из соц. сетей на карте или как развеять фейки в пару кликов

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.8K

Каждый день на нас обрушивается поток информации из множества источников, и часто она бывает противоречивой. Возникает вопрос: кому верить?

«Никому!» — ответят многие и будут правы. Но бывают ситуации, когда информацию нужно проверить, и приходится искать способы как это сделать.

🛠 Сегодня я расскажу об одном инструменте, который в некоторых случаях может стать вашим надёжным помощником.

Читать далее

Покупая домен, не забудьте проверить его на «порчу»

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров15K

В середине 2022 года я купил новый домен — musicbox.fun.

Мне он был нужен для хобби-проекта — интерактивного онлайн-проигрывателя музыки, который я разместил на musicboxfun.com. Новое имя домена было короче и звучало интереснее. Тогда я счёл, что мне буквально повезло его заполучить.

Но, увы, musicbox.fun имел свою историю — до меня этот домен использовался для размещения пиратских копий музыки.
Читать дальше →

grep.app — мощный инструмент для поиска по коду и тексту

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров4.7K

В современном мире разработки программного обеспечения и работы с большими объемами текстовых данных поиск нужной информации становится критически важной задачей. Разработчики, аналитики и технические писатели часто сталкиваются с необходимостью быстро находить фрагменты кода, строки конфигурации или упоминания определенных терминов в огромных репозиториях. В таких случаях на помощь приходят специализированные инструменты. Об одном из таких инструментов и пойдет речь в данной статье.

Что такое grep.app?

Что такое Kagi Search и что Он умеет?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.3K

Сектор поисковых систем - это рынок с довольно жесткой конкуренцией. Мы уже видели, как еще одна поисковая система противостоит Google с помощью DuckDuckGo, и растет список поисковых систем, которые могут найти контент, недоступный Google.

Так чем же отличается Kagi? Прежде всего, это полностью премиальная модель с ежемесячной и ежегодной оплатой. Это означает, что поисковая система может выполнять свое обещание быть свободной от рекламы и осуществлять нулевое отслеживание пользователей.

Читать далее

Об OpenAI Deep Research

Уровень сложностиСредний
Время на прочтение28 мин
Количество просмотров6.8K

Всем привет! Меня зовут Владимир, я разработчик ИИ с 8-летним стажем (до этого много backend-frontend, веб-разработки и всего такого), увлеченный наукой и технологиями (в первую очередь наукой омоложения, физикой, автоматизацией -- в прочем как и Вы).

В своей карьере мне довелось пережить эволюцию поисковых инструментов: от эпохи простых поисковиков, через взрыв популярности форумов и Stack Overflow, до появления современных AI-ассистентов. И каждый новый виток этой эволюции менял наш подход к поиску и анализу информации.

Теперь же на горизонте замаячило нечто действительно революционное — автономные ИИ-агенты для проведения исследований. Сегодня я расскажу об одном из самых обсуждаемых таких инструментов — OpenAI Deep Research. Этот специальный режим ChatGPT обещает вывести поиск информации на новую глубину.

Давайте разберемся, что он из себя представляет, чем отличается от привычных нам инструментов, и как его можно применить с максимальной пользой...

Читать далее

Ближайшие события

Что такое DeepSeek и на что способна китайская нейросеть, из-за которой OpenAI снизил цену на ChatGPT

Время на прочтение9 мин
Количество просмотров134K

Стандартный сценарий выхода новой нейросети обычно включает в себя громкие заявления, масштабную рекламную кампанию и последующее разочарование пользователей. Так было с Apple Intelligence, Galaxy AI и даже Google Gemini. Но китайская DeepSeek нарушила привычный ход вещей. Этот чат-бот удивил всех не столько своими возможностями, сколько впечатляющей доступностью. Именно он показал, что эффективно работающая нейросеть может быть доступной. В результате западные IT-гиганты внезапно столкнулись с серьезным конкурентом, который одним фактом своего выхода уже устроил на американском фондовом рынке “Черный понедельник”. Если вы еще не изучили DeepSeek самостоятельно, под катом подробный разбор практики работы с новинкой.

Читать далее

Как с помощью deep learning мы построили Геокодер, масштабируемый для разных стран

Время на прочтение11 мин
Количество просмотров11K

Давным‑давно, когда мир ML состоял из бустингов, линейных моделей и статистических подходов, перед нашей командой API Яндекс Карт стояла задача сделать качественный Геокодер. Это алгоритм, который конвертирует текстовые запросы пользователей в поисковой строке карт в координаты и обратно. Он нужен, когда люди вводят адреса с ошибками, опечатками или народными наименованиями, например «Мяснитская 8». Геокодер должен понять, что имелось в виду «улица Мясницкая, дом 8/2», и вернуть на карте отметку с точной локацией и координатами.

Разработанный для России Геокодер отлично справлялся, но мы хотели найти способ быстро адаптировать это решение к адресным системам других стран. Технологические ограничения не позволяли быстро адаптировать решение, поскольку для каждой страны требовалась разработка собственных правил геокодирования, которые бы учитывали различия и языковые особенности. Однако появление и развитие алгоритмов deep learning открыло новые горизонты: методы active learning, аугментации данных и contrastive learning позволяют значительно улучшить итоговое качество геокодирования и учитывать нюансы различных адресных систем.

В этой статье мы рассмотрим основные этапы и методы построения нового Геокодера, который быстро масштабируется на адресные системы разных стран. Расскажем, что у него под капотом, как именно использовались механизмы deep learning при его создании, с какими проблемами мы столкнулись и как научили его понимать адреса с ошибками и опечатками.

Читать далее

GPT начал убивать поиск Google и Яндекса

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров58K

Извиняюсь за наглое название. Но если поиск Google потерял активного пользователя в моем лице, а Яндекс-поиск - в лице моей жены, то значит процесс пошел))) Логично?

А если серьезно, то я оказался настолько впечатлен резким снижением затрат времени на поиск информации при использовании ChatGPT, что захотелось спросить что думают по этому поводу Хабровчане.

Смотрите: я действительно стал использовать поиск через ChatGPT чаще чем просто через Гугл-поиск. Не думаю, что я такой уникальный, просто преимущества оказались очевидны (о недостатках - ниже).

То есть когда народ распробует массово, это может сказаться на поисковых системах.

Как именно? Что вы об этом думаете?

Значит это аукнется и на SEO?

Как? А об этом что думаете?

На чем еще это может сказаться?

Дальше для иллюстрации просто расскажу свои микро-истории по добыче информации в ChatGPT с включенной функцией поиска в интернете. Речь о ярлычке со стилизованным земным шаром, расположенным в поле ввода запроса на https://chatgpt.com/   

Читать далее

НМ и НТ. Углеродные нанотрубки. Часть VII

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1K

В этой части «Наноматериалов и …» рассматриваются УНТ на фоне глобальных вызовов тех, что названы в долгосрочном прогнозе научно-технологического развития РФ до 2030.
– Повышение экологических требований к производству
– Глобальный дефицит энергоресурсов и сырья для производства новых материалов
– Угроза негативного воздействия нанопродуктов на здоровье и безопасность человека
– Распространение новых загрязняющих веществ (в том числе наночастиц) в окружающей среде. Угроза неконтролируемого распространения продуктов, производимых с использованием нанотехнологий

В статье, как и в предшествующих статьях этого цикла, рассматривается многообразие структур и основ устройства, свойств, синтеза, классификация, и области применения углеродных нанотрубок (УНТ) (англ. carbon nanotube сокр., CNT; SWNT; MWNT) открывающих возможности создания материалов и устройств с новыми замечательными свойствами.

Читать далее

Переиндексация в Manticore Search с использованием mysqldump

Время на прочтение3 мин
Количество просмотров515

Эта статья написана Мариусом Матилионисом, старшим разработчиком и экспертом по Manticore Search в компании Ivinco. Ivinco специализируется на предоставлении передовых решений для поиска, оптимизации баз данных, управлении инцидентами и настройке систем мониторинга, помогая бизнесам достигать более быстрых, эффективных и масштабируемых операций.

Читать далее

Обнаружение устройств через UPnP / SSDP

Уровень сложностиСредний
Время на прочтение26 мин
Количество просмотров14K

Что больше всего бесит при первом запуске устройств с управлением по Ethernet? Необходимость его искать в сети с использованием зоопарка из подходов. Тут используются программы автопоиска (например Winbox для MikroTik), дефолтные IP адреса (все эти 192.168.1.1, 192.168.100.1, 192.168.2.1 - кто во что горазд). Иногда надо со смартфона показывать QR коды в камеру устройства или передавать настройки тональными сигналами в микрофон. Мы задались целью найти стандарт для поиска устройств в сети и внедрить его в свои устройства на основе микроконтроллеров и/или одноплатных компьютеров. Это статья о стандартах, их особенностях, преодолённых трудностях и об открытом коде, который мы написали для себя и считаем лучшей в мире открытой реализацией SSDP сервера и клиента.

Читать далее

Поиск изображений по тексту с Manticore Search

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров2.5K

Кратко: Узнайте, как Manticore Search даёт возможность искать изображения по текстовому описанию, совмещая обработку естественного языка и поиск по векторным представлениям. Мы рассмотрим разные пути — от классических методов до современных решений на базе векторного поиска. А если хотите увидеть всё в реальном времени, загляните в наше демо.

Читать далее
OSZAR »