분류 전체보기
-
[엘라스틱 서치] 엘라스틱 서치로 이상치 제거하기ElasticSearch 2024. 12. 16. 16:04
엘라스틱 서치에서 이상치를 제거하는 방법에 대해 연구해보겠다.실험에 사용하려는 데이터는 상품 데이터의 "가격"이다.상품은 카테고리 별로 분류되며, 각 카테고리별 평균 구간값을 구해야 한다.여기서 문제는 평균 구간값에는 이상치가 제외된 구간이 필요하다는 점이다.1. 정규분포 독립적인 확률변수들의 평균은 정규분포에 가까워지는 성질이 있기 때문에, 정규분포를 활용한 구간값을 먼저 생각해볼 수 있다.정규분포는 평균과 표준편차가 주어져 있을 때 엔트로피를 최대화하는 분포이다. 정규분포곡선은 좌우 대칭이며 하나의 꼭지를 가진다. 정규분포는 중앙치에 사례 수가 모여있고, 양극단으로 갈수록 X축에 무한히 접근하지만 X축에 닿지는 않는다 Elastic Search에서 정규분포를 구하기 위해서는 먼저 평균과 표준편차를 구..
-
디자인 패턴 - 프로토타입 Prototype Design Pattern에 대한 고찰카테고리 없음 2024. 7. 25. 11:50
요새 회사에서 디자인 패턴 스터디를 하고있다!이론을 실제 코드에 적용시키는건 아직 어렵지만, 최대한 레포에 있는 비슷한 코드를 찾아보며 어찌저찌 공부중이다.(나중에 정리한 자료도 코드 변경해서 블로그에 다시 올려야지!!)내가 맡았던 파트는 아니지만, 디자인패턴-생성패턴 중 프로토타입 패턴을 듣다 문득 의문이 생겼다.다른 생성 패턴들은 코드를 예쁘게, 잘 보이게 만들거나 의존성을 낮추기 위해 쓴다는게 와닿는데.. 애초에 프로토타입도 객체의 필드를 모두 복사하니까 생성 비용(시간/메모리)이 동일한거 아닌가?그럼 프로토 타입은 대체 언제, 왜 쓰는거지? 라는 생각이 스터디 내내 떠나지 않았다.비슷한 의문을 스터디원들도 동일하게 가지고 있어 고민하다 보니 좋은 블로그 글을 읽게 되었다. - 자바스크립트는 왜 프..
-
<에러가 무섭지 않게 되는 책> 독후감카테고리 없음 2024. 7. 10. 10:27
시니어 개발자란 '겪을대로 에러를 다 겪어봤지만 행여나 처음 만나는 에러가 나온다고 해도 어떤 방식으로든 해결할 수 있는 능력'을 가진 사람이라고 생각합니다 - 책 저자 아직 경험도 부족하고 여러모로 부족한 점이 많지만, 에러를 발견하면 일단 당황하고 패닉에 빠지지 않기 위해서 공부를 하기로 했다.익명이니까 솔직하게 고백해보자면, 첫 입사때는 (가끔 지금까지도) 에러가 나왔을때 의도적으로 흐린눈으로 `별거 아니겠지`, `맨날 나오던 그 에러네..` 하고 넘어가는 일이 종종 잦았다. `에러를 고쳐야겠다!!` 에러를 흐린눈 하게 되는 이유 (책에서 발체)1. 영어임2. 너무 길고, 내가 원하는 정보가 어디에 있는지 한눈에 파악이 어려움3. 읽었지만 원인을 파악할 수 없음..
-
윈도우는 맥처럼, 맥은 윈도우처럼.. WinHotKey로 윈도우11 캡처도구 단축키 설정카테고리 없음 2024. 7. 9. 21:52
회사에서는 맥을 쓰고 집에서 혼자 공부할때는 윈도우를 쓰는데, 처음엔 맥에 적응을 못해서 업무를 할때 너무 힘들었다. 맥에서는 `KARABINER`를 설치해 `command`와 `ctrl`키를 바꿔서 사용했는데, 어느정도 맥에 익숙해지고 나니 이젠 윈도우에 `ctrl+shift+s(캡처)`가 없어서 불편한게 아닌가 !! (윈도우10까지는 있었던 것 같은데 11로 오면서 사라진듯) 완전 킹받아그렇지만 진성 윈도우 유저는 절대 포기하지 않는다!! WinHotKey 다운로드 및 설치 방법https://www.softpedia.com/get/System/Launchers-Shutdown-Tools/WinHotKey.shtml1. 위 링크에서 DOWNLOAD NOW를 눌러 파일을 다운받는다.2. 대충 agree..
-
[엘라스틱 서치] Document 관리(수정/삭제/세그먼트)ElasticSearch 2024. 5. 21. 14:53
- update & soft-delete- insert & update 부하- Segment Count, 세그먼트 병합 전략 1. Update & Soft-DeleteElasticSearch에서 데이터를 업데이트하거나 소프트 삭제(soft-delete)하는 방법:UpdateElasticSearch에서 문서를 업데이트할 때는 문서 전체를 재색인(reindex)해야 합니다. 내부적으로는 실제로 문서를 삭제하고 새로운 버전의 문서를 삽입하는 방식으로 동작합니다. 이로 인해 다음과 같은 과정이 발생합니다:새로운 문서 삽입: 업데이트된 내용을 반영한 새로운 문서가 생성됩니다.기존 문서 삭제 표시: 기존 문서는 삭제된 것으로 표시되지만 실제로 삭제되지는 않고, 일정 시간 후에 세그먼트 병합(merge) 과정에서 ..
-
[엘라스틱 서치] AliaseseElasticSearch 2024. 5. 7. 14:33
이 시리즈에서는 엘라스틱서치 가이드(:8.13) 의 Alias 챕터에 대해 다루고 있습니다.https://www.elastic.co/guide/en/elasticsearch/reference/current/aliases.htmlAliases별칭은 데이터 스트림 또는 인덱스 그룹의 보조 이름입니다.(*쉽게 말해, 1~n개를 뭉뚱그려 부르기 위한 별명이라고 생각하면 됨) 대부분의 Elasticsearch API는 데이터 스트림이나 인덱스 이름 대신 별칭을 허용합니다.애플리케이션의 Elasticsearch 요청에 별칭을 사용하면 코드 상에서 특정 인덱스의 이름을 따로 지정하지 않아도 언제든지 인덱스의 변경및 재색인이 가능합니다.Alias types별칭에는 두 가지 유형이 있습니다.data stream alia..
-
[엘라스틱 서치] Search your data - 검색 API (5)ElasticSearch 2024. 5. 7. 11:19
이 시리즈에서는 엘라스틱서치 가이드(:8.13) 의 Search your data 챕터에 대해 다루고 있습니다.https://www.elastic.co/guide/en/elasticsearch/reference/current/index.htmlFilter search results오늘은 검색결과를 필터링 하는 방법에 대해 알아보겠습니다.1. boolean query : hits, 집계 결과 모두에 대해 필터 적용2. post_filter 파라미터 : hits에 대한 결과물에 대해서만 필터를 적용 -> 해당 결과를 집계로 더욱 축소 가능더보기두 기능의 가장 큰 차이는 집계결과에 필터가 영향을 줄 수 있는가? 입니다.bool 쿼리 : 집계 결과에 영향 Opost_filter : 집계 결과에 영향 X. onl..