在Sharepoint中搜索日期元标记

时间:2020-03-06 15:04:01  来源:igfitidea点击:

我目前正在从Sharepoint寻找索引ASP网站的索引,我需要复制用户熟悉的旧"高级搜索"架构。为了做到这一点,我需要索引网页中的一些元标记。这很容易做到,对于文本字段,我也可以在搜索中使用它们。但是对于日期元标记,例如"过期"或者"已发布",我遇到了一些问题。问题基本上是将元标记作为"文本"进行爬网,但是我需要Sharepoint才能将它们解析为日期时间。我在TechNet上看到一些帖子要求相同,但没有答案。

1:https://forums.microsoft.com/TechNet/ShowPost.aspx?PostID = 2614064&SiteID = 17 TechNet

解决方案

搜索中内置的Web搜寻器是基本的,我们将无法轻松扩展它以包含元标记。据称,我们可以编写自己的协议处理程序,并在其自己的内容源中爬网ASP页面。据称是可行的。我认为没有人真正编写自己的协议处理程序。

我们将对SharePoint搜寻器提供的内容感到失望,这就是为什么官方论坛上也没有答案的原因-真正的答案是"不能轻易做到,抱歉。"

通过编写自定义Web服务(基于ASMX或者基于WCF的服务),该服务本身可以对ASP页面的元标记进行爬网,从而可以破解某些内容。从那里,我们可以将Web服务结果拖入可搜索的BDC中,然后在搜索结果/ BDC数据中可以具有指向原始页面的链接。我知道这就像一个Rube Goldberg设备,但是当我说这比弄清楚如何编写协议处理程序要容易时,请相信我。

我们没有做错任何事情,这就是产品的工作方式。要补充前面所说的内容,自定义并不容易。

解决此问题的正确方法是为HTML创建自定义协议处理程序。这是一个实现一些接口的自定义COM对象。 MOSS 2007 SDK具有协议处理程序参考。

完成此操作后,我们创建了一个ini文件,因此我们可以定义希望将META字段爬网的类型为(字符串,整数,日期时间)。然后,当我们添加自定义属性时,所有内容都会被正确解析。然后,我们可以像平常一样使用自定义属性。