5083-Bigram 分词

wwolf 发布于2019-08-16 18:01 / 542人阅读

摘要：前言的分词给出第一个词和第二个词，考虑在某些文本中可能以形式出现的情况，其中紧随出现，紧随出现。对于每种这样的情况，将第三个词添加到答案中，并返回答案。

前言

Weekly Contest 140的 Bigram 分词：

给出第一个词 first 和第二个词 second，考虑在某些文本 text 中可能以 "first second third" 形式出现的情况，其中 second 紧随 first 出现，third 紧随 second 出现。

对于每种这样的情况，将第三个词 "third" 添加到答案中，并返回答案。

示例1：

输入：text = "alice is a good girl she is a good student", first = "a", second = "good"
输出：["girl","student"]

示例2：

输入：text = "we will we will rock you", first = "we", second = "will"
输出：["we","rock"]

提示：

1 <= text.length <= 1000

text 由一些用空格分隔的单词组成，每个单词都由小写英文字母组成

1 <= first.length, second.length <= 10

first 和 second 由小写英文字母组成

解题思路

本题需要注意以下两点：

first second third三个单词是要连续出现的，例如

输入：text = "alice is a good girl she is a really good student", first = "a", second = "good"
输出：["girl"]

first second third三个单词中的third可能是下一次循环的first，例如示例2

实现代码

    /**
     * 5083. Bigram 分词
     * @param text
     * @param first
     * @param second
     * @return
     */
    public String[] findOcurrences(String text, String first, String second) {
        // 按空格分割单词
        String[] words = text.split(" ");
        List list = new ArrayList<>();
        // 匹配第一个单词的索引
        int firstIndex = -1;
        // 匹配第二个单词的索引
        int secondIndex = -1;
        for (int i = 0; i < words.length; i++) {
            String word = words[i];
            if (firstIndex >= 0 && secondIndex > 0) { // 判断前两个单词是否已经匹配
                firstIndex = -1; // 重置索引
                secondIndex = -1; // 重置索引
                list.add(word);
            }
            // 判断是否为第二个单词，判断条件为
            // 1. 当前单词与第二个单词相同
            // 2. 第一个单词已经匹配
            // 3. 第二个单词紧跟着第一个单词之后出现（secondIndex = firstIndex+1）
            // 此处先判断第二个单词是为了处理第三个单词为第一个单词的情况
            if (word.equals(second) && firstIndex >= 0 && firstIndex == i - 1) {
                secondIndex = i;
                continue; // 匹配则中断当前循环
            } else {
                // 第一个单词已经匹配，但是第二个单词不匹配，重置第一个单词的匹配结果
                if (firstIndex >= 0) {
                    firstIndex = -1;
                }
            }
            // 判断是否为第一个单词
            // 1. 第一个单词未匹配
            // 2. 当前单词与第一个单词相同
            if (firstIndex < 0 && word.equals(first)) {
                firstIndex = i;
                continue; // 匹配则中断当前循环
            }
        }
        String[] result = new String[list.size()];
        return list.toArray(result);
    }

GPU云服务器云服务器文本分词分词概述分词技术分词算法

文章版权归作者所有，未经允许请勿转载,若此文章存在违规行为，您可以联系管理员删除。

转载请注明本文地址：https://www.ucloud.cn/yun/74893.html

推荐十款java开源中文分词组件

摘要：最初，它是以开源项目为应用主体的，结合词典分词和文法分析算法的中文分词组件。填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词开源组件。中文分词追求分词的高效率和用户良好体验。 1：Elasticsearch的开源中文分词器 IK Analysis(Star:2471) IK中文分词器在Elasticsearch上的使用。原生IK中文分词是从文件系统中读取...

masturbator 2019-08-15 10:37 评论0 收藏0
分词，难在哪里？科普+解决方案！

摘要：分词的算法中文分词有难度，不过也有成熟的解决方案。例如通过人民日报训练的分词系统，在网络玄幻小说上，分词的效果就不会好。三的优点是开源的，号称是中，最好的中文分词组件。 showImg(https://segmentfault.com/img/remote/1460000016359704?w=1350&h=900); 题图：by Lucas Davies 一、前言分词，我想是大多数...

Steven 2019-07-30 17:48 评论0 收藏0