-- Leo's gemini proxy

-- Connecting to iter.tw:1965...

-- Connected

-- Sending request

-- Meta line: 20 text/gemini;lang=zh-Hant-TW

SearchMySite 搜尋引擎


https://searchmysite.net/ [1]


看來是個站長[2]一人自做的專案,只處理由使用者送過來的網站,不主動往外爬的樣子。


依其說明 ( https://searchmysite.net/pages/about/ [3] )


> Indexes only user-submitted sites with a moderation layer on top, for a community-based approach to content curation, rather than indexing the entire internet with all of its spam, "search engine optimisation" and "click-bait" content.


站長在收到新網站時會進行人工審核,以避免有太多亂七八糟的東西混進來。


確實,如果不主動往外爬的話,也就不會爬到任何內容農場​或是 SEO 做得很好但內容全是促銷廣告而無任何品質可言的網站了。但也有個大前提:使用者送交給這個搜尋引擎來處理的網站,基本上都必須夠優質才行​。


再說,有一些 BSP 的 SEO 做得仍然沒有比內容農場網站來得更好。變成,世界上有很多人努力地在寫優質文章,但其網站卻永遠無法成為搜尋結果中的榜首。


搜尋引擎畢竟仍是一個垃圾進垃圾出的系統。而垃圾問題,必須要從源頭開始處理才會有長遠的效果。


把 [自己的 blog] 送過去後,約在兩天內進了其索引。順便就稍微試了一下中文搜尋[4]。漢字處理似乎是 unigram 而非 bigram。


從搜尋的結果排行似猜測,給分方式單純只是關鍵字匹配越多就越高分而已。整體效果似乎還算可以。但顯然是因為其索引很小,所以不管搜什麼字串,出現的搜尋結果都是差強人意的。


稍微翻了一下其程式碼 [5],搜尋引擎部分是使用 apache solr,似乎值得自架一個來玩看看。


或許​,只要自架這種搜尋引擎的人夠多,各自讓其使用者群為搜尋引擎系統的過濾器,這種搜尋引擎就可以成為讓優質內容真正浮出來的一種催化劑了吧。



1: https://searchmysite.net/

2: https://michael-lewis.com/

3: https://searchmysite.net/pages/about/

4: https://searchmysite.net/search/?q=%E6%90%9C%E5%B0%8B%E5%BC%95%E6%93%8E

5: https://github.com/searchmysite/searchmysite.net

自己的 blog

-- Response ended

-- Page fetched on Mon May 20 18:22:17 2024