Engineering

  • Published on
    Việc tối ưu bộ nhớ cho Database rất quan trọng đối với 1 Data Engineer, sau đây mình sẽ chia sẻ những cách mà Fossil đã sử dụng để tối ưu bộ nhớ cho ElasticSearch
  • Published on
    Apache Spark được chọn làm công nghệ cho Batch layer bởi khả năng xử lý một lượng lớn data cùng một lúc. Ở thiết kế ban đầu, team data chọn sử dụng Apache Spark trên AWS EMR do có sẵn và triển khai nhanh chóng. Dần dần, AWS EMR bộc lộ một số điểm hạn chế trên môi trường Production. Trong bài viết này, mình sẽ nói về tại sao và làm thế nào team Data chuyển từ Spark trên AWS EMR sang Kubernetes.