数字互联网时代,搜索引擎已成为天然的流量入口。
在电商网站购物,我们会通过两种渠道锁定产品,一种是通过搜索引擎或筛选器,快速定位到目标商品;另一种是系统推荐,根据客户喜好、浏览足迹、用户购买率等推荐大家可能感兴趣的商品。
前一种使用场景是目标商品明确,可通过文字、语音、扫码等方式快速搜索到;后一种则是用户没有明确的购物需求,像逛街一样,漫无目的得浏览着商品。这时推荐系统,越懂得用户,越能激发用户的购买欲。
今天星欧平台电商小编就来看一下几大主流电商的搜索引擎系统。
先来说说,电商系统为什么需要搜索引擎?
电商系统的商品数量『庞大』,搜索页的pv高。某宝2013年有7亿线上商品, List的pv 7亿+相当与每秒有 8000个请求
电商的搜索引擎并没有爬虫系统,因为所有的数据都是结构化的,一般都是Mysql或者 Oracle 的数据库,所以不用像百度一样用「爬虫」去不断去别的网站找内容。
电商搜索引擎的过滤功能,其实比搜索功能要常用,甚至大于搜索本身。什么是过滤功能?一般我们网站买东西的时候,搜了一个关健词,比如运动鞋,然后所有相关品牌或者其他分类的选择就会呈现在我们面前。对百度而言,搜什么词就是什么词,如果是新闻的话,可能在时间上会有一个过滤的选项。
电商搜索引擎支持各种维度的排序,包括支持人气、销量、信用、价格、发货地等属性的排序,且对数据的实时性要求非常高。电商搜索对数据的实时性要求主要体现在价格和库存两个方面。
电商搜索引擎的效果不仅要考虑买家(信息消费方,结果多样性),还得考虑卖家(信息提供方,爆光率)。
电商搜索引擎另一个特点就是不能丢品,比如我们在淘宝、天猫开了个店铺,然后好不容易搞了一次活动,但是却搜不到了,这是无法忍受的。除此之外,电商搜索引擎与推荐系统和广告系统是相互融合的。
保证高可用,容灾、异常保护、降级(降级:qps维度、在clustermap上来做,正常来说,我们有20列,如果系统负载高的话查询只分部到10列,这样就高了1倍的qps) 异常保护:latency 、在searcher上来做,如果系统负载较高的话,searcher上会直接丢弃一些耗时的query
综上所述,电商系统中搜索引擎的必要性显而易见。
电商平台的搜索引擎方式:
星欧平台电商小编查看了淘宝、京东、亚马逊和当当的主页,发现此类电商平台的搜索引擎大同小异,都提供两种搜索方式,一是利用搜索框直接进行文字搜索,二是根据商品的类目进行搜索。
搜索框的主流查询词(Query)还是文字为主,这是因为搜索引擎抓取和索引的绝大部分内容也是以文字方式组织的,淘宝和京东的Query扩展到了图片,可以上传图片搜同款,更加精确到具体商品。
另外,我们看到搜索框的下方有热搜词,这种设置有两种目的:一是减少用户的输入操作;二是营销需要,产生广告效应,可推介。
搜索框中也加入了类目联合搜索,淘宝网是商品来源的大类筛选,而亚马逊和当当具体到了个性化类目,可以和类目关键词完全匹配,联合关键词和类目双重搜索。
在搜索框输入关键字时,系统会匹配一个query list,或者一些分类建议,方便用户向检索系统提供给准确的query以及分类范围,减少用户进行重复搜索的次数。
除了Query检索,用户按照商品类目搜索的频率也很高。说到类目,就要涉及到类目属性体系。一般来说,类目体系分前端类目体系和后端类目体系。
电商搜索引擎的Query搜索和类目搜索往往伴随着过滤功能。
一般在网站买东西时,搜了一个关健词,例如“毛巾”,之后所有相关品牌、材质等分类的选择就会呈现在我们面前,可以根据必要的条件缩小搜索范围。
过滤的方式包含:分类过滤、标签过滤、价格区间过滤、地域过滤、库存过滤、是否自营等。另外电商搜索引擎支持各种维度的排序,包含销量、信用、价格等属性的排序,支持更广纬度的搜索。
在过滤页面,依然有搜索框,滚屏查看商品时,搜索区会浮于页面之上,比较了淘宝、京东、当当、苏宁易购和亚马逊,大家对搜索框和类目的位置有没有觉得熟悉呢?对,你想到了,那就是“F型”布局和“热力图“。
根据用户浏览网页的可预测行为,让用户在几秒钟内,快速锁定搜索引擎,可见搜索引擎在电商平台上是如何重要了!
电商平台的搜索引擎为什么会大同小异呢?
此处只说UI,那是因为用户习惯用他们的经验来感受新的东西,当访问一个新网站时,他们会凭经验去浏览一些习惯的地方,那些地方都是他们之前在其他大多数网站上经常浏览的,遵循用户的这种习惯,所以相近的平台越来越趋同化。毕竟,我们不需要重复造轮子嘛。
关于电商系统搜索引擎后台的架构设计
搜索功能可通过简单的关键字搜索,后端给出一个非准确的搜索结果集,用户通过筛选条件再进一步过滤,从而得到用户最终想要的结果集。
电商搜索引擎的架构因为电商搜索引跟一般的搜索引擎区别很大,所以在架构的设计上也独具特色。
首先,搜索引擎的实现方式有很多种,有谷歌、百度、搜狗这种非常大的公司,也有京东、淘宝、当当这样的电商搜索引擎,很多中小型的电商可能更喜欢用一个开源的搜索引擎。
01、页面布局
一般搜索页的组成包括:
商品搜索词入口:用户可以输入关键字进行全文搜索
前台类目树(有些平台是前台后台公用统一的类目):类目分类
搜索引擎由三部分组成:商品属性筛选、个性筛选、商品列表组成。
广告推荐:有商品、店铺、文章推荐。
02、搜索引擎系统架构
该系统真正接受用户请求并响应的系统。为了用户体验的需要,首先增加Query Processor服务,负责查询意图分析提升搜索的准确性。随着访问量的增长,接着增加缓存模块,提升请求处理性能。接着随着数据量(商品量)的增长,将CMS服务从检索服务中独立出去,成为Detail服务。数据量的进一步增长,对数据进行类似数据库分库分表的分片操作。这时候,在线检索服务由多个分片的searcher列组成。自然而然,需要一个merger服务,将多个分片的结果进行合并。
03、索引系统
该系统是搜索技术的核心,在进入这个系统之前,搜索信息仍然是以商品维度进行存储的。索引系统负责生成一种以关键字维度进行存储的信息,一般称之为倒排索引。系统对于全量和增量的处理是一致的,唯一的区别在于待处理数据量的差异。一般情况下,全量数据索引由于数据量庞大,采用hadoop进行;实时数据量小,采用单机进行索引生产。
电商搜索引擎系统,与网页搜索引擎不同,作为线上交易平台,会更偏向于用交易数据和互动数据作为排名考量指标。如下单付款量、发货速度、响应速度、好评率、店铺收藏量、退货率等,那么这些指标会不会变?一定会变,与搜索引擎一样,电商平台也需要打击作弊行为,不断寻找更适合的体现优质商铺的方式,让良币驱逐劣币,才能营造一个健康的购物生态。