|
发表于 2003-4-9 17:33:40
|
显示全部楼层
哈哈,这只是我的一个想法。不过实现起来应该很简单。
比如用perl写一个网络爬虫。自动获取html文档,并根据html文档的连接继续获取下一个html文档。这样就可以获取大量的文本。
如果想简单快速的话,干脆把大唐双龙传或金庸全集下载下来。
找个全文检索系统,比如Oracle的InterMedia。剩下的就根据fcitx的词库树分析吧。
我感觉如果想作的彻底,最好能增加一个上传、下载词频、词库的功能。fictx为大家服务,大家也帮助完善fcitx。 |
|