일래 스틱 서치 | [ Elasticsearch ] 엘라스틱 서치 가볍게 살펴보는 개념 :) 76 개의 가장 정확한 답변

당신은 주제를 찾고 있습니까 “일래 스틱 서치 – [ Elasticsearch ] 엘라스틱 서치 가볍게 살펴보는 개념 🙂“? 다음 카테고리의 웹사이트 https://you.maxfit.vn 에서 귀하의 모든 질문에 답변해 드립니다: https://you.maxfit.vn/blog/. 바로 아래에서 답을 찾을 수 있습니다. 작성자 개발하는남자 이(가) 작성한 기사에는 조회수 15,653회 및 좋아요 142개 개의 좋아요가 있습니다.

일래 스틱 서치 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

아래 동영상 보기

d여기에서 [ Elasticsearch ] 엘라스틱 서치 가볍게 살펴보는 개념 🙂 – 일래 스틱 서치 주제에 대한 세부정보를 참조하세요

다음편은 몽고디비 데이터를 엘라스틱 서치에 자동으로 주입 싱크를 맞춰 주는 monstache 설정 법을 알아보도록 하겠습니다 .
영상이 도움되셨으면 좋아요 버튼 눌러주시고 🙂
앞으로 공부영상이 기대되시면 구독버튼 부탁드리겠습니다.

일래 스틱 서치 주제에 대한 자세한 내용은 여기를 참조하세요.

일래스틱서치 – 위키백과, 우리 모두의 백과사전

일래스틱서치(Elasticsearch)는 루씬 기반의 검색 엔진이다. HTTP 웹 인터페이스와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 전문 검색 엔진을 …

+ 여기를 클릭

Source: ko.wikipedia.org

Date Published: 10/9/2022

Elasticsearch란? | Elastic

Elasticsearch는 텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 무료 검색 및 분석 엔진으로 분산형과 개방형을 특징으로 합니다.

+ 여기에 보기

Source: www.elastic.co

Date Published: 3/21/2021

일래스틱서치 – 해시넷 위키

일래스틱서치(Elastic Search)는 아파치(Apache) 루신(Lucene) 기반의 검색엔진이다. 일래스틱서치는 모든 종류의 문서를 검색하는데 사용할 수 있다.

+ 여기를 클릭

Source: wiki.hash.kr

Date Published: 1/30/2021

[Elasticsearch] Elasticsearch 핵심 개념 설명

일래스틱서치는 도큐먼트 지향 저장소로, JSON도큐먼트는 일래스틱서치에서 일급 객체로 취급한다. 이러한 JSON 도큐먼트는 다양한 타입과 인덱스로 …

+ 여기를 클릭

Source: gintrie.tistory.com

Date Published: 1/30/2021

[IT정보] 엘라스틱서치(Elasticsearch) 개념 – 블로그

일래스틱서치 (Elasticsearch)는 루씬 기반의 검색 엔진 이다. HTTP 웹 인터페이스와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 전문 …

+ 여기에 표시

Source: blog.naver.com

Date Published: 10/26/2022

입문 1장 Elastic Stack -기초 – 하늘을 나는 꿈과 코딩

엘라스틱서치 데이터에서 강력한 통찰력을 얻는데 도움을 주는 엘라스틱 스팩의 시각화도구. <5>보안. 일래스틱 스택을 운영환경에서 사용할 수 …

+ 자세한 내용은 여기를 클릭하십시오

Source: kazaana2009.tistory.com

Date Published: 11/26/2022

Elasticsearch? Kibana? Logstash? – Elastic Stack

일래스틱서치(Elasticsearch)는 루씬 기반의 검색 엔진이다. HTTP 웹 인터페이스와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 전문 …

+ 여기에 자세히 보기

Source: jiseok-woo.tistory.com

Date Published: 1/12/2022

일래스틱서치(Elasticsearch) – 생산성 앱 활용 팁

일래스틱서치(Elasticsearch). 설치: https://www.elastic.co/start. 로컬 웹브라우저에서 상태 확인: http://localhost:9200/. 서비스 상태 확인 명령(우분투에 …

+ 여기를 클릭

Source: wikidocs.net

Date Published: 2/12/2022

일래스틱 스택 6 입문(오픈소스 프로그래밍)(원서/번역서

일래스틱서치, 로그스태시, 키바나, 엑스팩 활용 가이드 | ☆ 이 책에서 다루는 내용 ☆ | 일래스틱 스택은 대용량 데이터 분산 검색 및 분석, 로그 수집 및 변환, …

+ 여기를 클릭

Source: www.kyobobook.co.kr

Date Published: 1/17/2022

주제와 관련된 이미지 일래 스틱 서치

주제와 관련된 더 많은 사진을 참조하십시오 [ Elasticsearch ] 엘라스틱 서치 가볍게 살펴보는 개념 🙂. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

주제에 대한 기사 평가 일래 스틱 서치

Author: 개발하는남자
Views: 조회수 15,653회
Likes: 좋아요 142개
Date Published: 2020. 4. 15.
Video Url link: https://www.youtube.com/watch?v=MWItWo67F14

위키백과, 우리 모두의 백과사전

베를린 버즈워즈 2010에서 일래스틱서치에 관해 이야기하고 있는 Shay Banon.

일래스틱서치(Elasticsearch)는 루씬 기반의 검색 엔진이다. HTTP 웹 인터페이스와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 전문 검색 엔진을 제공한다. 일래스틱서치는 자바로 개발되어 있으며 아파치 라이선스 조항에 의거하여 오픈 소스로 출시되어 있다. 공식 클라이언트들은 자바, 닷넷(C#), PHP, 파이썬, 그루비 등 수많은 언어로 이용이 가능하다.[2] 일래스틱서치는 가장 대중적인 엔터프라이즈 검색 엔진으로 그 뒤를 루씬 기반의 Apache Solr가 잇는다.[3]
일래스틱서치는 로그스태시(Logstash)라는 이름의 데이터 수집 및 로그 파싱 엔진, 그리고 키바나(Kibana)라는 이름의 분석 및 시각화 플랫폼과 함께 개발되어 있다. 이 3개의 제품들은 연동 솔루션으로 사용할 목적으로 설계되어 있으며 이를 “일래스틱 스택”(Elastic Stack, 과거 이름: ELK 스택)으로 부른다.

역사 [ 편집 ]
버전 원래 출시일 마지막 버전 출시일 유지 보수 상태[4] 오래된 버전, 지원 중단: 0.4 2010-02-08 0.4.0 2010-02-08 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.5 2010-03-05[5] 0.5.1 2010-03-09 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.6 2010-04-09[6] 0.6.0 2010-04-09 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.7 2010-05-14[7] 0.7.1 2010-05-17[8] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.8 2010-05-27[9] 0.8.0 2010-05-27 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.9 2010-07-26[10] 0.9.0 2010-07-26 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.10 2010-08-27[11] 0.10.0 2010-08-27 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.11 2010-09-29[12] 0.11.0 2010-09-29 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.12 2010-10-18[13] 0.12.1 2010-10-27 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.13 2010-11-18[14] 0.13.1 2010-12-03 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.14 2010-12-27[15] 0.14.4 2011-01-31 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.15 2011-02-18[16] 0.15.2 2011-03-07 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.16 2011-04-23[17] 0.16.5 2011-07-26 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.17 2011-07-19[18] 0.17.10 2011-11-16 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.18 2011-10-26[19] 0.18.7 2012-01-10[20] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.19 2012-03-01[21] 0.19.12 2012-12-04[22] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.20 2012-12-07[23] 0.20.6 2013-03-25[24] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 0.90 2013-04-29[25] 0.90.13 2014-03-25[26] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 1.0 2014-02-12[27] 1.0.3 2014-04-16[28] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 1.1 2014-03-25[26] 1.1.2 2014-05-22[29] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 1.2 2014-05-22[29] 1.2.4 2014-08-13[30] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 1.3 2014-07-23[31] 1.3.9 2015-02-19[32] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 1.4 2014-11-05[33] 1.4.5 2015-04-27[34] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 1.5 2015-03-23[35] 1.5.2 2015-04-27[34] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 1.6 2015-06-09[36] 1.6.2 2015-07-29[37] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 1.7 2015-07-16[38] 1.7.5 2016-02-02[39] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 2.0 2015-10-28[40] 2.0.2 2015-12-17[41] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 2.1 2015-11-24[42] 2.1.2 2016-02-02[39] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 2.2 2016-02-02[39] 2.2.2 2016-03-30[43] 더 이상 지원하지 않음 오래된 버전, 지원 중단: 2.3 2016-03-30[43] 2.3.5 2016-08-03[44] 더 이상 지원하지 않음 오래된 버전, 지원 중: 2.4 2016-08-31[45] 2.4.6 2017-07-27[46] 현재 지원하고 있음 오래된 버전, 지원 중: 5.0 2016-10-26[47] 5.0.2 2016-11-29[48] 현재 지원하고 있음 오래된 버전, 지원 중: 5.1 2016-12-08[49] 5.1.2 2017-01-12[50] 현재 지원하고 있음 오래된 버전, 지원 중: 5.2 2017-01-31[51] 5.2.2 2017-02-28[52] 현재 지원하고 있음 오래된 버전, 지원 중: 5.3 2017-03-28[53] 5.3.3 2017-06-01[54] 현재 지원하고 있음 오래된 버전, 지원 중: 5.4 2017-05-04[55] 5.4.3 2017-06-27[56] 현재 지원하고 있음 오래된 버전, 지원 중: 5.5 2017-07-06[57] 5.5.3 2017-07-06[58] 현재 지원하고 있음 오래된 버전, 지원 중: 5.6 2017-09-11[59] 5.6.8 2018-02-20[60] 현재 지원하고 있음 오래된 버전, 지원 중: 6.0 2017-11-14[61] 6.0.1 2017-12-06[62] 현재 지원하고 있음 오래된 버전, 지원 중: 6.1 2017-12-12[63] 6.1.3 2018-01-16[64] 현재 지원하고 있음 현재 안정화 버전: 6.2 2018-02-06[65] 6.2.2 2018-02-20[1] 최신 범례: 오래된 버전 오래된 버전, 지원 중 최신 버전 최신 미리보기 버전 배포 예정

개요 [ 편집 ]
일래스틱서치는 모든 종류의 문서를 검색하는데 사용할 수 있다. 가변 검색 및 실시간에 가까운 검색을 제공하며 멀티테넌시를 지원한다.[2] 일래스틱서치는 분산 방식이므로 인덱스를 여러 샤드로 나눌 수 있으며 각 샤드는 0개 이상의 복제물(replica)을 가지고 있을 수 있다. 각 노드는 하나 이상의 샤드를 관리하며 작업을 올바른 샤드로 할당시켜 주는 조율자 역할을 한다. 리밸런싱 및 라우팅은 자동으로 수행된다.[2] 연관 데이터는 종종 동일한 인덱스에 저장되며 이는 하나 이상의 프라이머리 샤드와 0개 이상의 복제물(replica) 샤드로 이루어진다. 인덱스가 만들어지면 프라이머리 샤드의 수는 변경할 수 없다.[66]
일래스틱서치는 루씬을 사용하며 JSON과 자바 API를 통해 모든 기능을 최대한 활용한다. 다면(facetting) 및 침투(precolating)을 지원하므로[67] 새로운 문서들이 등록된 쿼리와 일치할 경우 통보하는데 유용할 수 있다.

그 밖의 기능으로 “게이트웨이”가 있으며 장기간의 인덱스 지속성을 관리한다.[68] 이를테면 인덱스는 서버 충돌 시에 게이트웨이로부터 복구할 수 있다. 일래스틱서치는 실시간 GET 요청을 지원하므로 NoSQL 데이터스토어의 역할에 적합하지만[69] 분산 트랜잭션 면에서는 부족하다.[70]
사용자 [ 편집 ]
일래스틱의 사용처로는 대표적으로 다음과 같다.[71]:

각주 [ 편집 ]

Elasticsearch란?

Elasticsearch는 빠릅니다. Elasticsearch는 Lucene을 기반으로 구축되기 때문에, 풀텍스트 검색에 뛰어납니다. Elasticsearch는 또한 거의 실시간 검색 플랫폼입니다. 이것은 문서가 색인될 때부터 검색 가능해질 때까지의 대기 시간이 아주 짧다는 뜻입니다. 이 대기 시간은 보통 1초입니다. 결과적으로, Elasticsearch는 보안 분석, 인프라 모니터링 같은 시간이 중요한 사용 사례에 이상적입니다.

Elasticsearch는 본질상 분산적입니다. Elasticsearch에 저장된 문서는 샤드라고 하는 여러 다른 컨테이너에 걸쳐 분산되며, 이 샤드는 복제되어 하드웨어 장애 시에 중복되는 데이터 사본을 제공합니다. Elasticsearch의 분산적인 특징은 수백 개(심지어 수천 개)의 서버까지 확장하고 페타바이트의 데이터를 처리할 수 있게 해줍니다.

Elasticsearch는 광범위한 기능 세트와 함께 제공됩니다. 속도, 확장성, 복원력뿐 아니라, Elasticsearch에는 데이터 롤업, 인덱스 수명 주기 관리 등과 같이 데이터를 훨씬 더 효율적으로 저장하고 검색할 수 있게 해주는 강력한 기본 기능이 다수 탑재되어 있습니다.

Elastic Stack은 데이터 수집, 시각화, 보고를 간소화합니다. Beats와 Logstash의 통합은 Elasticsearch로 색인하기 전에 데이터를 훨씬 더 쉽게 처리할 수 있게 해줍니다. Kibana는 Elasticsearch 데이터의 실시간 시각화를 제공하며, UI를 통해 애플리케이션 성능 모니터링(APM), 로그, 인프라 메트릭 데이터에 신속하게 접근할 수 있습니다.

[Elasticsearch] Elasticsearch 핵심 개념 설명

일래스틱서치는 도큐먼트 지향 저장소로, JSON도큐먼트는 일래스틱서치에서 일급 객체로 취급한다.

이러한 JSON 도큐먼트는 다양한 타입과 인덱스로 구성된다.

인덱스 : 도큐먼트들의 모음

도큐먼트 : 필드들의 모음

필드 : 데이터를 key-value 형태로 저장한 것

기본적으로 Elasticsearch는 모든 필드에 있는 모든 데이터들을 색인한다.

각 색인된 필드들은 최적화된 전용 데이터 구조가 있다.

예를 들면, 텍스트 필드는 반전된 인덱스에 저장되고, 숫자 및 지리 필드는 BKD 트리에 저장

필드별 데이터 구조를 사용하여 검색 결과를 모으고 반환하는 기능은 Elasticsearch를 매우 빠르게 만듬

Elasticsearch에는 스키마가 없어도 됩니다. 즉, 도큐먼트에서 발생할 수 있는 각기 다른 필드를 처리하는 방법을 명시적으로 지정하지 않고도 도큐먼트를 색인화 할 수 있다.

Dynamic 매핑이 가능하면, Elasticsearch는 자동으로 새로운 필드를 찾고 인덱스에 추가한다. 이러한 기본 행위는 인덱스와 데이터 탐색을 쉽게 한다.

도큐먼트를 인덱싱하기 시작하고 Elasticsearch는 booleans, floating point와 정수값, 날짜 그리고 문자열을 적절한 Elasticsearch의 데이터 타입으로 매핑한다.

다이나믹 매핑을 조정하기 위해 규칙을 설정하여 어떻게 필드가 저장되거나 인덱스될지 전체적으로 조정가능하다.

키워드

인덱스 ( Index )

Elasticsearch에서 단일 타입의 도큐먼트를 저장하고 관리하는 컨테이너다.

인덱스는 아래 그림과 같이 여러 개의 단일 타입 도큐먼트를 가질 수 있다. ( 6.0 이전 버전 )

6.0 이후 버전은 하나의 인덱스에 단 하나의 타입만 가질 수 있도록 변경

도큐먼트 ( Document )

JSON 도큐먼트는 엘라스틱서치에서 일급 객체로 취급된다. 다중 필드로 구성된 도큐먼트는 엘라스틱서치에서 저장된 정보의 기본 단위다.

예 > 단일 제품, 단일 고객, 단일 주문 항목을 표헌하는 도큐먼트가 있을 수 있다.

각 필드와 필드 값은 도큐먼트에서 키와 값 쌍으로 확인 할 수 있다. ( 키는 필드 이름, 값을 필드 값이다. )

필드 이름은 RDB에서 열 이름과 유사하다. 필드 값은 주어진 행에 대한 열이 가진 값, 즉 테이블에서 주어진 셀 값으로 볼 수 있다.

엘라스틱서치에서 도큐먼트는 사용자가 정의한 필드 외에도 다음과 같이 내부적으로 메타 필드를 갖고 있다.

_id : 데이터 베이스 테이블의 기본키처럼 인덱스 내 도큐먼트의 고유 식별자다. 자동 생성되거나 사용자가 정의할 수 있다.

_type : 도큐먼트의 타입을 포함한다.

_index : 도큐먼트의 인덱스 이름을 포함한다.

클러스터 ( Cluster )

클러스터는 단일 혹은 다중 인덱스를 호스팅하며 검색, 색인, 집계와 같은 연산을 제공한다.

클러스터는 하나 이상의 노드로 구성된다. 모든 엘라스틱서치 노드는 항상 클러스터의 부분 집합이다.

단일 노드 클러스터라 하더라도 해당 노드는 클러스터의 일부라고 볼 수 있다.

기본적으로 모든 엘라스틱서치 노드는 elasticsearch라는 이름의 클러스터에 참여하려고 한다.

config/elaticsearch.yml 파일에서 cluster.name 속성을 변경하지 않고 같은 네트워크에서 여러 노드를 시작하면 클러스터가 자동으로 구성된다.

노드 ( Node )

엘라스틱 서치는 분산 시스템이다. 네트워크에 위치한 각 시스템에서 실행되고, 다른 프로세스와 통신하는 다중 프로세스로 구성된다.

엘라스틱서치 노드는 대형 클러스터 노드의 부분 집합이 될 수 있는 단일 서버를 말한다.

노드는 엘라스틱 서치에서 지원하는 색인, 검색 및 기타 연산 작업을 수행한다.

샤드 ( Shard ) 및 복제본 ( Replica )

샤드

샤드는 클러스터에서 인덱스를 분배하고 단일 인덱스의 도큐먼트를 여러 노드로 분할하는데 유용하다.

단일 노드에 저장할 수 있는 데이터양에는 제한이 있으며, 그 한계는 노드의 저장소, 메모리, 처리 용량에 따라 결정된다.

따라서 샤드를 활용하면 클러스터에서 단일 인덱스 데이터를 분할해 클러스터의 저장소와 메모리, 처리 용량에 적절히 활용할 수 있다.

샤드에 위치한 데이터를 분할하는 과정을 샤딩(sharding)이라고 한다. 샤딩은 엘라스틱서치에 내장된 고유 기능이며, 다음과 같이 확장 및 병렬화 기능을 담당한다.

클러스터에 위치한 여러 노드의 저장소 활용을 돕는다.

클러스터에 위치한 여러 노드의 처리 능력 활용을 돕는다.

기본적으로 모든 인덱스는 엘라스틱서치에서 5개의 샤드를 갖도록 구성된다. 인덱스 생성 시점에 인덱스의 데이터를 나눌 샤드 갯수를 지정할 수 있다. 인덱스를 생성하고 나면 샤드 갯수는 변경할 수 없다.

다음 그림은 3개의 노드로 구성된 클러스터에서 5개의 샤드를 가진 인덱스가 어떻게 분산되는지 보여준다.

그림에서 샤드 이름은 P1에서 P5로 지정됐으며, 각 샤드는 인덱스에 저장된 전체 데이터에서 약 1/5을 포함한다.

인덱스에 쿼리를 수행하면 엘라스틱서치는 모든 요청을 보낸 후, 결과를 통합한다. 이제 클러스터에서 노드1에 장애가 발생한다고 가정해본다.

이런 경우, 노드1에 위치한 샤드 P1과 P2에 저장된 데이터 조각이 손실된다.

엘라스틱서치와 같은 분산 시스템에서는 하드웨어 장애 상황에서도 문제없이 실행돼야 한다.

엘라스틱서치에서는 replica shard 또는 replica라고 부르는 복제본 Replica로 문제를 해결한다.

복제본

인덱스의 각 샤드는 0개 이상의 복제본을 가질 수 있다.

따라서 복제본은 데이터의 높은 가용성을 제공하기 위한 원본 샤드의 추가 사본을 의미한다.

예를 들어, 각 샤드가 하나의 복제본을 가진다고 가정하면, 다음 그림의 각 샤드별로 복제본을 하나씩 가진 주 샤드 (primary shard) 5개를 나타낸다.

주 샤드는 녹색, 복제본은 노란색으로 표시된다. 노드1에 장애가 발생하더라도 노드2와 노드3이 사용할 수 있는 모든 샤드를 가지고 있다. 복제본은 해당 주 샤드에 장애가 발생하면 주 샤드로 승격될 수 있다.

복제본은 고가용성 및 장애조치 기능 외에도 쿼리 작업을 수행할 수 있다.

즉, 검색, 쿼리, 집계와 같은 읽기 연산은 복제본에서 실행될 수 있다. 엘라스틱서치는 쿼리 실행을 샤드 또는 복제본이 위치한 클러스터 노드 전반에 걸쳐 정직하게 분배한다.

매핑 ( Mapping ) 및 타입

엘라스틱서치는 스키마가 존재하지 않는다. 즉, 필드와 필드 타입 없이도 얼마든지 도큐먼트를 저장할 수 있다.

하지만 실제 운영 환경에서 사용하는 데이터는 스키마가 존재하고 체계화된 구조를 갖는다.

특정 타입의 모든 도큐먼트는 항상 공통 필드 집합이 있다.

실제로 인덱스 타입은 공통 필드를 기반으로 생성해야 한다. 일반적으로 인덱스에서 하나의 타입을 가진 도큐먼트는 몇 가지 공통 필드를 공유한다.

반명 RDB는 엄격한 구조를 요구한다. RDB에서는 테이블 생성 시점에 각 열 이름과 타입을 지정하는 등 테이블 구조를 정의해야 한다.

실행 중에는 새로운 이름을 갖거나 다른 데이터 타입을 가진 열을 레코드로 저장할 수 없다.

따라서 엘라스틱서치에서 지원하는 데이터 타입을 이해하는 것이 중요하다.

역색인 ( Inverted Index )

역색인은 엘라스틱서치와 전문 텍스트 검색을 지원하는 시스템에서 핵심 데이터 구조다.

역색인은 책의 끝에 나오는 색인 목록과 유사하다. 도큐먼트에 나타난 용어를 도큐먼트에 매핑하는 방식으로 사용한다. 예를 들면, 다음 문자열에서 역색인을 만들 수 있다.

엘라스틱서치는 색인된 3개의 도큐먼트에 대해 다음과 같이 데이터 구조를 생성하며, 이를 역색인이라고 부른다.

다음 사항에 유의해야 한다.

용어는 도큐먼트에서 구두점을 제거하고 소문자로 치환한 후 분리된 글자를 나타낸다.

용어는 알파벳순으로 정렬된다.

빈도 열은 전체 도큐먼트에 용어가 얼마나 많이 나타났는지 알려준다.

세 번째 열은 용어가 속한 도큐먼트를 나타낸다.

용어가 위치한 정확한 도큐먼트의 오프셋을 포함할 수 있다.

도큐먼트에서 용어를 검색할 때, 검색하는 용어가 도큐먼트에서 표시되는 속도는 엄청나게 빠르다.

검색이 빠른 이유는 인덱스에서 용어가 정렬돼 있기 때문이다. 사용자가 특정 용어를 검색하면 정렬된 용어에서 해당하는 열만 찾으면 된다.

마찬가지로 수백만 개의 단어를 검색하는 상황을 생각해보자. 역색인을 이용하면 last sunday처럼 두 단어를 검색하는 상황을 생각해 보자.

역색인을 이용하면 last와 sunday가 포함된 도큐먼트를 개별적으로 검색할 수 있다. 도큐먼트에 2개의 용어가 모두 포함된다면 하나의 용어만 포함하는 도큐먼트보다 더 적합하다고 판단할 수 있다.

역색인은 검색을 빠르게 수행하기 위한 기본 요소다. 마찬가지로 인덱스에 용어가 몇 번이나 나타났는지도 손쉽게 조회할 수 있다.

이는 간단한 개수 집계 기능이다. 마찬가지로 엘라스틱서치는 여기에서 설명한 가장 기본적인 역색인 외에도 여러 혁신적인 기능을 적용해 검색과 분석에 대한 요구 사항을 지원한다.

기본적으로 엘라스틱서치는 도큐먼트의 모든 필드에 역색인을 작성하고, 필드가 나타난 엘라스틱서치 도큐먼트를 가리키도록 만단다.

하늘을 나는 꿈과 코딩 :: 입문 1장 Elastic Stack -기초

*엘라시틱 스택* 내부 구조

<1>엘라스틱서치:

1.실시간 분산 검색 및 분석엔진으로 수평적으로 확장이 가능하며 엘라스틱스택의 핵심이다.(검색+분석)

2.엘라스틱서치의 쿼리는 sql쿼리와 다르다

-sql은 where이나 like처럼 데이터가 일치 해야하는 부분을 찾음

-엘라스틱서치는 불규칙한 구조를 가진 어떤 것이라도 검색 함

3.집계기능을 지원한다.

*스키마리스(스키마가없는 데이터 구조)

엘라스틱서치 DB index database type table document row field column mapping schema

<2>로그스태시

로그,매트릭또는 다른형식의 이벤트 데이터를 한곳에 모으는데 사용한다. 데이터를 선택한 저장소에 보내기전 여러방법으로 가공이 가능하며 파이프라인에서 데이터 수집 및 변환 처리를 담당한다.또한 원하는 출력장소로 데이터를 변환해 전송한다.(입력,필터,출력)

한줄요약: 로그스태시는 확장할 수 있고 실시간 데이터 파이프아인을 구축하는데 유용한 범용 데이터 흐름엔진이다.

<3>비트

<4>키바나

엘라스틱서치 데이터에서 강력한 통찰력을 얻는데 도움을 주는 엘라스틱 스팩의 시각화도구.

<5>보안

일래스틱 스택을 운영환경에서 사용할 수 있도록 필수 기능인(보안.모니터링,알림,보고서,그래프)기능을 지원한다.

-엘라스틱 스택에 사용사례

1.로그 및 보안분석

2.제품검색

3.메트릭 분석

4.웹 검색 및 웹사이트 검색.

*일래스틱서치를 다운로드하고 설치 및 실행 했는데 이를 일랙스틱 서치 단일노드 혹은 단일노드 일래스틱서치 클러스터라고 부른다.

-document 내부 매타필드

_id: DB의 테이블 기본키처럼 타입내 document의 고유 식별자다.

자동생성되거나 사용자가 정의할 수 있다,

_type: document의 타입을 포함한다.

_index : document의 인덱스 이름을 포함한다.

-데이터타입

1.String< -text: 설명이나 길이가 긴 텍스트 값을 포함한 필드에서 전 문 텍스트 검색을 할 때 유용하다. -keyword: 문자열 필드 분석이 가능한 데이터 타입이다. 해당 타입을 가진 필드는 정렬,필터링,집계 기능을 지원한다. 2.Numeric(숫자)< -byte,short,inger,long : 각각 8bit,16bit,32bit,64bit 정밀도를 가지는 정수 값. -float,double -falf_float:16bit를 표현하는 부동 소수점수. -scaled_float:길고 고정된 비율을 기반으로 한 부동 소수점 수 3.DATE< -타임스템프를 저장할 수 있는 데이터 타입. 4.Boolean< -논리 데이터 타입 5.Binary(이진)< -base64인코딩을 수행한 후, 임의의 이진값을 저장할 수 있 는 데이터 타입. 6.Range(범의)< -Integer_range, float_range,long_range,double_range, date_range :정수 ,실수 등 다양한 범위를 정의하는 데이터 타입. 7.배열 데이터 타입 8.객체 데이터 타입< - JSON 도큐먼트 안에 내부 객체가 위치할 수 있다. 9.중첩 데이터 타입< -내부 객체의 배열을 지원하는데 유용. 각내부 객체는 독립적으로 퀴리할 수 있어야한다. 10.지리 데이터 타입 11.지형 데이터 타입 12.IP 데이터 타입

Elasticsearch? Kibana? Logstash? – Elastic Stack

반응형

작년에 회사 프로젝트를 진행하면서 Elasticsearch를 처음 접했다.

외부 협력사에 개발 의뢰를 했었는데 협력사에서 mysql과 함께 elasticsearch를 사용했다.

프로젝트가 대용량의 이기종 로그들을 한데 수집하는 내용이었는데, 검색 속도가 빠르다며 elasticsearch를 사용했었다.

프로젝트를 진행면서 협력사가 하도 그지같이 개발해오고 뭐 다 안된다고 궁시렁궁시렁대길래…

너무 답답한 나머지 elasitcsearch에 대해 직접 공부해보자며 Elastic Stack에 관심을 갖기 시작했다.

그렇다면 Elasticsearch가 정확히 뭘까?

위키백과에서는 아래와 같이 설명하고 있다.

일래스틱서치(Elasticsearch)는 루씬 기반의 검색 엔진이다. HTTP 웹 인터페이스와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 전문 검색 엔진을 제공한다. 일래스틱서치는 자바로 개발되어 있으며 아파치 라이선스 조항에 의거하여 오픈 소스로 출시되어 있다. 공식 클라이언트들은 자바, 닷넷(C#), PHP, 파이썬, 그루비 등 수많은 언어로 이용이 가능하다. 일래스틱서치는 가장 대중적인 엔터프라이즈 검색 엔진으로 그 뒤를 루씬 기반의 Apache Solr가 잇는다.

일래스틱서치는 로그스태시(Logstash)라는 이름의 데이터 수집 및 로그 파싱 엔진, 그리고 키바나(Kibana)라는 이름의 분석 및 시각화 플랫폼과 함께 개발되어 있다. 이 3개의 제품들은 연동 솔루션으로 사용할 목적으로 설계되어 있으며이를 “일래스틱 스택”(Elastic Stack, 과거 이름: ELK 스택)으로 부른다.

출처 : 위키피디아 – https://ko.wikipedia.org/wiki/일래스틱서치

전문가들은 저 말을 보면 한번에 알아듣겠지?

난 전문가는 아니므로 하나씩 짚어보자…

루씬(Lucene)은 Apache 프로젝트 중 하나로 java로 개발된 검색엔진 관련 라이브러리라고 보면 될 것 같다.

즉, elasticsearch는 일종의 검색엔진이다. 일반적으로 알고 있는 데이터베이스(mysql, oracle 등)와 유사하지만 저장된 데이터를 검색하는데에 특화되어 있다고 볼 수 있겠다.

elasticsearch는 기본적으로 HTTP 기반의 Restful API를 통해 데이터를 관리하며, json 형식으로 데이터를 관리한다.

mysql과 비교해보자면, mysql은 mysql-client를 통해 DB에 접속하고 sql로 데이터를 관리한다.

elasticsearch는 mysql 처럼 별도 클라이언트 없이 HTTP에서 제공하는 GET/POST 등의 method를 이용해 데이터를 관리한다.

이게 무슨 말인지 정확히 와닿지 않는다면.. 뒤편의 예제를 보면 쉽게 이해가 갈테니 참아보자..

elasticsearch는 logstash, kibana 라는 솔루션들과 함께 elastic stack으로 불린다.

이전에는 ELK(elasticsearch logstash kibana) stack으로 불렸었는데 언젠가부터 elastic stack으로 명칭이 바뀌었다.

Elastic Stack Diagram (출처 : elastic blog – https://www.elastic.co/kr/what-is/elk-stack)

logstash는 이름에서 유추 가능하듯이 각종 로그들을 수집하는 솔루션으로 다양한 소스들(syslog, kafka, snmp 등등)로부터 로우 데이터를 받아서 필터를 통해 원하는 데이터만 추출해 elasticsearch에 저장할 수 있도록 해주는 아주 고마운 솔루션이다.

kibana는 elasticsearch에 저장된 데이터들을 시각적으로 보여주는 솔루션인데 그 기능이 어마어마하다. 원하는 종류의 차트들을 만들고 그 차트들을 활용해 dashboard를 구성해 한눈에 보기 쉬운 화면을 설계할 수도 있다. 시각적으로 표현할 수 있는 정말 다양한 기능들을 제공한다. (심지어 머신러닝 기능도 있다.)

이외에 beats라는 솔루션이 있는데, logstash와 유사하게 로그들이나 데이터들을 수집하는 역할을 한다. logstash는 외부에서 들어오는 데이터를 파싱하거나, 직접 DB등에 접속해 데이터를 가져오는 등의 역할을 한다면 beats는 로그나 데이터들을 수집해 logstash나 elasticsearch로 전송해주는 역할을 담당한다. beats도 역시 filebeat, packetbeat, matricbeat, heartbeat 등 다양한 데이터의 수집을 지원하고 있다.

정리해보자면, elastic stack은 위 그림 처럼 beats와 logstash가 데이터 수집 역할을 하고 elasticsearch에 데이터들이 쌓이게 된다. 그리고 elasticsearch에 쌓인 데이터를 kibana를 통해 원하는대로 시각화해 분석/모니터링에 사용할 수 있게 된다.

정말 완벽한 삼박자가 아닌가… 한번 써보면 정말 그 매력에 흠뻑 빠질 수 밖에 없는 elastic stack인 것 같다.

일단 이번 글에서는 이정도로 elastic stack의 느낌만 정리해보고 다음 글에서 elasticsearch에 대해 자세히 정리해봐야겠다.

반응형