我有2个Kafka主题从不同来源流式传输完全相同的内容,因此我可以在其中一个源失败的情况下获得高可用性.
我正在尝试使用Kafka Streams 0.10.1.0将2个主题合并为1个输出主题,这样我就不会错过任何有关失败的消息,并且当所有源都启动时没有重复.

当使用KStream的leftJoin方法时,其中一个主题可以没有问题(次要主题),但是当主要主题发生故障时,不会向输出主题发送任何内容.这似乎是因为,根据Kafka Streams developer guide,

KStream-KStream leftJoin is always driven by records arriving from the primary stream

因此,如果没有来自主流的记录,它将不会使用辅助流中的记录,即使它们存在.主流重新联机后,输出将恢复正常.

我也尝试使用outerJoin(添加重复记录),然后转换为KTable和groupByKey以消除重复,

KStream mergedStream = stream1.outerJoin(stream2,(streamVal1,streamVal2) -> (streamVal1 == null) ? streamVal2 : streamVal1,JoinWindows.of(2000L))

mergedStream.groupByKey()
            .reduce((value1,value2) -> value1,TimeWindows.of(2000L),stateStore))
            .toStream((key,value) -> value)
            .to(outputStream)

但我偶尔也会重复一遍.我也使用commit.interval.ms = 200来让KTable经常发送到输出流.

处理此合并以获得多个相同输入主题的一次输出的最佳方法是什么?

解决方法

使用任何类型的连接都无法解决您的问题,因为您总是会丢失结果(内部连接以防一些流停止)或“重复”时返回null(左连接或外连接以防两个流都是线上).有关Kafka Streams中的连接语义的详细信息,请参阅 https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Streams+Join+Semantics.

因此,我建议使用处理器API,您可以使用KStream process(),transform()或transformValues()与DSL混合搭配.有关详细信息,请参见How to filter keys and value with a Processor using Kafka Stream DSL.

您还可以向处理器(How to add a custom StateStore to the Kafka Streams DSL processor?)添加自定义存储,以使重复过滤容错.

java – 合并多个相同的Kafka Streams主题的更多相关文章

  1. 如何将Android App用作Kafka的“制作客户”?

    使用Android应用作为ApacheKafka的“制作客户端”是否可行/是否有意义?

  2. java发送kafka事务消息的实现方法

    本文主要介绍了java发送kafka事务消息的实现方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

  3. Java Kafka实现延迟队列的示例代码

    kafka作为一个使用广泛的消息队列,很多人都不会陌生。本文将利用Kafka实现延迟队列,文中的示例代码讲解详细,感兴趣的小伙伴可以尝试一下

  4. 使用jmx exporter采集kafka指标示例详解

    这篇文章主要为大家介绍了使用jmx exporter采集kafka指标示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  5. KOA+egg.js集成kafka消息队列的示例

    这篇文章主要介绍了KOA+egg.js集成kafka消息队列的示例,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  6. Kafka消费客户端协调器GroupCoordinator详解

    这篇文章主要为大家介绍了Kafka消费客户端协调器GroupCoordinator使用示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

  7. Springboot微服务项目整合Kafka实现文章上下架功能

    这篇文章主要介绍了Springboot微服务项目整合Kafka实现文章上下架功能,包括Kafka消息发送快速入门及相关功能引入,本文通过示例代码给大家介绍的非常详细,需要的朋友可以参考下

  8. springboot集成kafka消费手动启动停止操作

    这篇文章主要介绍了springboot集成kafka消费手动启动停止操作,本文给大家介绍项目场景及解决分析,结合实例代码给大家介绍的非常详细,需要的朋友可以参考下

  9. kafka调试中遇到Connection to node -1 could not be established. Broker may not be available.

    这篇文章主要介绍了kafka调试中遇到Connection to node -1 could not be established. Broker may not be available的解决方法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

  10. SpringBoot整合Kafka工具类的详细代码

    Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据,这篇文章主要介绍了SpringBoot整合Kafka工具类的代码详解,需要的朋友可以参考下

随机推荐

  1. java – 合并多个相同的Kafka Streams主题

    )添加自定义存储,以使重复过滤容错.

  2. java – 我在哪里可以找到kafka的maven存储库?

    我想尝试kafka0.8.但是我在哪里可以找到kafkamaven存储库.我应该添加哪些额外的存储库URL?我找到了一些博客但它不起作用.我正在寻找合适的maven依赖.或者我应该从git中检出它并部署在我们的内部神器中?

  3. java – 为kafka主题配置ACL

    我有一个不安全的kafka实例,有2个代理,一切运行正常,直到我决定为主题配置ACL,在ACL配置后,我的消费者停止从Kafka轮询数据,并且在获取具有相关ID的元数据时我不断收到警告错误,我的代理属性看起来像下面:-我的客户端配置如下所示:–我用下面的命令来配置ACL在我启动消费者后完成所有上述配置后,它停止接收消息.有人可以指出我在误解的地方.提前致谢.解决方法我们成功使用ACL,但没有使用P

  4. java – kafka如何平衡分区加载?

    我在kafka遇到了负载均衡的问题.所以,我创建了一个包含10个分区的主题并创建了2个消费者.这10个分区被划分并分配给这些消费者,并且工作正常.有时第一个消费者工作,有时第二.但是,在某一时刻,我们可能面临一种情况,例如第二个消费者收到消息并且需要时间来处理此消息.那么,我的问题是kafka将如何决定将消息存储在哪个分区中?

  5. java – Kafka Connect实现错误

    我在这里运行教程:http://kafka.apache.org/documentation.html#introduction当我进入“步骤7:使用KafkaConnect导入/导出数据”并尝试启动两个连接器时,我收到以下错误:这是教程的一部分:Next,we’llstarttwoconnectorsrunninginstandalonemode,whichmeanstheyruninasing

  6. java – Storm-Kafka多个出口,如何共享负载?

    提前感谢你的时间.更新响应答案:现在在卡夫卡使用多分区(即5)以下是使用的代码:builder.setspout;在每个分区上用800MB数据进行淹水测试,花费22秒完成阅读.再次使用parallelism_hint=1的代码即builder.setspout;现在需要更多23秒!可以看到,这里的经纪人可以使用hosts.add添加,而且在新的KafkaConfig.StaticHosts代码片段中将partion号指定为4.如何提及卡夫卡喷嘴的并行提示?我是新来的风暴和java!!!!

  7. java Kafka生产者错误

    我做了kafkajava生产者.但控制台说错误.kafka服务器在aws上.和制作人在我的Mac上.然而kara服务器是可以访问的.当我从制作人发送消息时,kafka服务器显示“已接受的连接…”

  8. java – Kafka – 使用高级消费者的延迟队列实现

    如果是,我将消费两次相同的消息>问题等待很长时间没有提交偏移量,例如延迟时间是24小时,将从迭代器获取下一个,睡眠24小时,进程和提交(ZK会话超时?)>ZK会话如何在没有提交新的偏移量的情况下保持活动?

  9. java – 如何以健壮的方式处理kafka发布失败

    我正在使用Kafka,我们有一个用例来构建一个容错系统,甚至连一条消息都不会错过.所以这就是问题所在:如果由于任何原因(ZooKeeperdown,Kafkabroker等)向Kafka发布失败,我们如何能够有效地处理这些消息并在事情再次恢复后重播它们.正如我所说的那样,即使单个消息失败也无法承受.另一个用例是我们还需要在任何给定时间点知道有多少消息由于任何原因而无法发布到Kafka,例如计数器功

  10. java – Kafka快速入门:我需要哪些依赖项?

    接下来我该怎么办?我需要其他依赖项吗?解决方法问题是kafkabetawasbuiltinawaythatpomgeneratedwithajarisn’tvalidandmavencouldnotrecognizeitandparseproperly,从而获取传递依赖.我们已经设法通过在我们的pom定义中从该pom中获取所有依赖项来缓解此问题.我们正在等待kafka的下一个beta版本,其中将解决问题.完整依赖列表如下.请注意,您必须相应地更改scala版本依赖关系到kafka工件的后缀.至于Maybe

返回
顶部