python查重不分词

答：基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法！

答：jieba是分词计数，你在word中搜索是不分词匹配。
对于【...开发展示功能..】，jieba不会匹配到【发展】而word搜索会匹配：
jieba得到的是'开发','展示','功能'三个词。
答：测下下面的代码看显示多少
words = jieba.lcut(txt)
#把你后面的代码全部暂时注释
from collections import Counter
ct = Counter(words)
print(ct['发展'])

答：可以对第二个list的元素进行遍历，检查是否出现在第二个list当中，如果使用表理解，可以使用一行代码完成任务。
list1 = [1,2,3,4,5]
list2 = [4,5,6,7,8]
print [l for l in list1 if l in list2]
# [4,5]
如果每一个列表中均没有重复的元素，那么还有另外一种更好的办法。首先把两个list转换成set，然后对两个set取交集，即可得到两个list的重复元素。
set1 = set(list1)
set2 = set(list2)
print set1 & set 2
# {4,5}
答：def finddupl(lst):
    """找出 lst 中有重复的项
        (与重复次数无关，且与重复位置无关)
    """
    exists, dupl = set(), set()
    for item in lst:
        if item in exists:
            dupl.add(temp)
        else:
            exists.add(temp)
    return dupl
答：l = [1,1,2,2,2,3,3,3,3,5,6,4,6,4,5,5,5]
d = {}
for x in set(l):
d[x] = l.count(x)
print d

答：NLTK 的 word_tokenize 就能很方便的实现。
之前打算用C++ 写，后来朋友建议用python,代码简洁得多，果然py强大~难怪国外好多大学CS第一门编程课改成python了，呵呵！

猜你喜欢