kk的blog: 2023

2023/12/31

之前在把centos 7升級到 almalinux 8 時一直出現

At least 1645MB more space needed on the / filesystem.

加硬碟再做還是一樣

今天再找了一下

設了一個新的參數

export LEAPP_OVL_SIZE=3500

再執行就成功了

說是xfs的問題

https://access.redhat.com/discussions/6955010

2023/12/29

使用xfs quota 在刪除user後資料還是會殘留在 inode

所以 xfs_quota -x -c report /home

會出現以下的report

#1587 0 102400 107520 00 [--------]

#1588 0 102400 107520 00 [--------]

#1589 0 102400 107520 00 [--------]

#1590 0 102400 107520 00 [--------]

#1591 0 102400 107520 00 [--------]

#1592 0 204800 209920 00 [--------]

#1593 0 102400 107520 00 [--------]

目前找到的解決是只能全部清掉後再把現有的user重新設定 quota

xfs_quota -x -c "off -up" /home

xfs_quota -x -c "remove -upg" /home

重開几或 umount 再 mount /home 後重新設定 quota

https://serverfault.com/questions/917912/how-to-remove-a-project-id-from-xfs-project-quota

2023/12/23

今天自己試出來 graylog reopen indices 的語法

curl -v -X POST -H "Content-Type: application/json" -H "X-Requested-By: XMLHttpRequest" -u user:password http://10.0.0.1:9000/api/system/indexer/indices/graylog_245/reopen

別忘了查完要再close起來

2023/12/22

linux shell 中如果要判斷前一個指令是否執行成功

可以使用 $? 來判斷

在m$ windows中也有一個變數名稱

%ERRORLEVEL%

但是

千萬不要使用在 bat

因為在dos 命令提示字元中都沒問題

但放在bat中就會有不同的結果

2023/12/15

最近在佈署 winget

發現在 win10 LTSC上無法安裝執行

查了半天才發現因為 LTSC 拿掉很多東西

所以如果要執行要再手動補回去

而且補回去的順序不能錯

否則還是會無法安裝及執行

首先是要補回 msstore

https://github.com/lixuy/LTSC-Add-MicrosoftStore/archive/2019.zip

下載後解開

如果不需要付費軟体及 xbox可以把相關的檔案砍了

再以系統管理員執行

Add-Store.cmd

再來是安裝 VC++ v14 及 Microsoft.UI.Xaml

powershell add-appxpackage Microsoft.UI.Xaml.2.7.appx

powershell add-appxpackage Microsoft.VCLibs.x64.14.00.Desktop.appx

最後安裝 winget

powershell add-appxpackage Microsoft.DesktopAppInstaller_8wekyb3d8bbwe.msixbundle

切記一定要照順序

如果因為沒照順序導致無法安裝執行

要先移除 package再重裝

先進 powershell

列出所有 package

get-appxpackage

找出 PackageFullName

get-appxpackage | findstr /i PackageFullName

移除相關的 package

Microsoft.DesktopAppInstaller_1.21.3421.0_x64__8wekyb3d8bbwe

Microsoft.VCLibs.140.00.UWPDesktop_14.0.30704.0_x64__8wekyb3d8bbwe

Microsoft.UI.Xaml.2.7_7.2109.13004.0_x64__8wekyb3d8bbwe

Remove-AppxPackage -Package "

Microsoft.DesktopAppInstaller_1.21.3421.0_x64__8wekyb3d8bbwe"

Remove-AppxPackage -Package "Microsoft.VCLibs.140.00.UWPDesktop_14.0.30704.0_x64__8wekyb3d8bbwe"

Remove-AppxPackage -Package "Microsoft.UI.Xaml.2.7_7.2109.13004.0_x64__8wekyb3d8bbwe"

再重新安裝一次

https://github.com/microsoft/winget-cli

https://github.com/microsoft/winget-cli/issues/1781

https://github.com/kkkgo/LTSC-Add-MicrosoftStore

https://www.jianshu.com/p/39cac920e42f

2023/12/10

今天在玩winget

記錄一下在 win11 碰到的問題

內建有安裝但下

winget search notepad 找不到任何東西

要安裝最新版本

https://github.com/microsoft/winget-cli/releases/

目前最新

https://github.com/microsoft/winget-cli/releases/download/v1.6.3133/Microsoft.DesktopAppInstaller_8wekyb3d8bbwe.msixbundle

下載後打開

powersell

add-appxpackage ./下載檔名才能安裝

直接點二下無法安裝

裝好後無法使用 msstore 資料源

一直出現錯誤

搜尋來源時失敗: msstore

執行命令時，發生意外的錯誤：

0x8a15005e : The server certificate did not match any of the expected values.

winget source reset 也沒用

查了才發現 msstore 憑証有問題有夠無言

下指令bypass msstore 憑証

winget settings --enable BypassCertificatePinningForMicrosoftStore

或加入以下機碼

Windows Registry Editor Version 5.00

[HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microsoft\Windows\AppInstaller]

"EnableBypassCertificatePinningForMicrosoftStore"=dword:00000001

winget install 一直跳出 UAC 畫面

安裝 gsudo 解決

winget install gerardog.gsudo

重開几

gsudo winget upgrade --all

或

sudo winget upgrade --all

安裝時還是會跳出 gsudo 的UAC 不過只會跳一次安裝軟体不會再跳

方便好用的工具

尤其是OS裝完後續安裝軟体

還有更新目前安裝的所有軟体

gsudo winget upgrade --all

如果不想升級某些軟体要先 pin

winget pin add <package> --version

自動接受安裝合約

--accept-package-agreements

2023/12/08

自從pmg升到8版後

偶爾就會出現cpu跟ram過高的問題

然後机器就會卡住無法運作

之前本來已經有寫了一支檢查程式跑在mg裡

如果收不到外面連線的log

就重啟

可是今天的狀況更嚴重

當几後mg沒法執行任何程式了

只能從 host著手

定時檢查 mg的cpu狀態

如果有問題

就從host下指令重開了

163是lxc id

#!/bin/bash

k=`/usr/bin/pvesh get /cluster/resources|grep 163|cut -d '%' -f 1|awk '{print $NF}'|cut -d '.' -f 1`

#echo $k

if [ $k -gt 96 ]; then

echo "cpu $k mg reboot"|/usr/bin/mail -s mg_cpu_high_reboot a@bc.de

/usr/sbin/pct stop 163

sleep 5

/usr/sbin/pct start 163

2023/12/02

最近這几天規定要往上指的 DNS 發生故障

重點是發生故障也不通知下層單位

真是有夠無言的

本來沒有在監控記錄 dns query 的 response time

想說來加一下好了加在 librenms

搞了好久

最後發現不會自動帶入 Remote Host

要在 Parameters 下完整

最終沒問題的設定方式如下圖

2023/11/22

line 傳訊息同時傳圖片

curl -X POST https://notify-api.line.me/api/notify -H 'Authorization: Bearer (your token)' -F 'message=test' -F 'imageFile=@/tmp/1122.jpg'

以上指令的 message無法換行

使用 test\n\ntest test\\ntest 都不行

2023/11/19

proxmox 8 安裝後修正apt source 並更新

#!/bin/bash

sed -i '1s/^/#/' /etc/apt/sources.list.d/ceph.list

sed -i '1s/^/#/' /etc/apt/sources.list.d/pve-enterprise.list

echo "deb http://download.proxmox.com/debian/pve bookworm pve-no-subscription" >> /etc/apt/sources.list

echo "export http_proxy=http://10.1.1.1:3128" > /root/update

echo "apt-get update" >> /root/update

echo "apt-get upgrade -y" >> /root/update

echo "apt-get autoremove -y --purge" >> /root/update

chmod +x /root/update

/root/update

2023/11/15

2023/11/01

今天因為長官的命令有需求要撈graylog的舊資料

目前是設定60天後的index會自動關起來

在之前的版本如果要查舊資料

要先把index open 後再 recalculate 才能查

但今天下指令跟在管理介面打開

在管理介面上出現的畫面不同

下指令的不會出現reopened

而且過沒多久就會自動再變成close

從管理介面操作的就會出現綠色的reopened 而且不用再 recalculate 就能直接查資料了

不過如果要打開很多index 就要一個一個點有點麻煩

不知道有沒有其他指令能做到

2023/10/14

最近nas因為更新發生nfs不能使用的問題

因此暫時把graylog搬到其他台還沒更新的nas上

搬完後發現ES變成red

下指令看一下是那些shards

curl -XGET localhost:9200/_cat/shards|grep UNASSIGNED

index.action 0 r UNASSIGNED

index.do 0 r UNASSIGNED

index.aspx 0 r UNASSIGNED

graylog_159 2 p UNASSIGNED

index.htm 0 r UNASSIGNED

index.py 0 r UNASSIGNED

index.php 0 r UNASSIGNED

index.cgi 0 r UNASSIGNED

index.html 0 r UNASSIGNED

index.cfm 0 r UNASSIGNED

index.pl 0 r UNASSIGNED

index.jsp 0 r UNASSIGNED

index.asp 0 r UNASSIGNED

graylog_159 這個是放資料的直接砍了就損失一天的log

curl -XDELETE 'localhost:9200/graylog_159/'

此時ES已經變 yellow

但其他的shards也不知道砍了會不會有問題

forum上說的是因為沒有第二台可以replication所以會出現 UNASSIGNED

如果覺得礙眼不想看到可以取消 replication

指令如下

curl -X PUT "http://localhost:9200/index_name/_settings" -H 'Content-Type: application/json' -d '{"index":{"number_of_replicas":0}}'

目前就先醬放著吧

再觀察看看

https://community.graylog.org/t/graylog-opensearch-cluster-is-yellow/29678/4

2023/08/14

之前寫過一篇有關如何在librenms加上 service 監控的

在新版本上要修正一下

目前版本

23.7.0-73-gd865e3b37 - Sun Aug 13 2023 22:56:54 GMT+0800

以ubuntu為例子

首先要安裝nagios套件

sudo apt install nagios-plugins

chmod +x /usr/lib/nagios/plugins/*

更改設定檔

vi /opt/librenms/config.php

# nagios-plugins

$config['show_services'] = 1;

$config['nagios_plugins'] = "/usr/lib/nagios/plugins";

vi /etc/cron.d/librenms

*/5 * * * * librenms /opt/librenms/services-wrapper.py 1

設定完成後就會在web介面上多出 service 的選項可以使用

接下來碰到的問題是

如果把service設定到 localhost

是無法正常使用的

要新加一個device

設定為 service_chcek

然後把 snmp 及 ping check都關掉

再把service設定到 service_check 這個device上

才能正常

如果在check service 時有加上參數捉取回應時間

librenms 會自動使用這個值畫出圖

可以由此觀察服務的回應時間看出service有沒有lag的情況

https://www.ichiayi.com/tech/librenms/nagios_agent

2023/08/05

最近把pmg 升到8

關機或重開的時候一直出現

fail to connect bus no such file or directory

查了一下好像是原廠的lxc沒裝dbus

apt install -y dbus

裝完後就沒再出現了

另外原本在7版只給一個cpu運作都正常

可是在8版開机時cpu都會吃到滿然後持續一陣子

目前給二顆運作正常

再觀察看看

2023/07/06

整理一下zap的使用

首先到

https://www.zaproxy.org/download/

選擇下載

Cross Platform Package

OS必須要有 java環境才能執行

在debian 安裝 java指令

apt install default-jre

解壓後執行 zap.sh

會出現UI畫面第一次執行預設會跳出更新畫面要執行更新

更新完成後執行zap的這台几器對外網路要關閉

因為進行scan時預設會往下爬五層

有可能會爬到外面去

因為目前沒辦法一次掃多個網站不管是UI或使用指令

所以如果有多個網站要掃

可以使用命令模式指令如下

./zap.sh -cmd -quickurl http://abc.com.tw -quickout /tmp/81.html

寫個shell來做

一行一個網站

https://aa.bb.com

https://dd.ee.com

寫到 /tmp/site_to_test

#!/bin/bash

while read line

echo "$line"

./zap.sh -cmd -quickurl "$line" -quickout /tmp/`echo $line|cut -d '/' -f 3`.html

done < /tmp/site_to_test

2023/07/05

zap目前還是沒找到能一次掃描多個url的方法

以下是命令列的指令

不呼叫 UI 執行掃描並產生報告並在執行完成後退出

./zap.sh -cmd -quickurl http://abc.com.tw -quickout /tmp/81.html

2023/07/04

最近使用zap auto scan的時候

在全部使用預設值的情況下

不知道為什麼都會去scan外部的網站

看了一下預設的層數是5層也不知道是不是因為這個原因

目前的做法是先把zap這台對外的網路先關掉

再觀察看看

2023/06/12

最近在幫人家改bat檔

碰到二個問題

記一下解法

wmic qfe list >> a.txt

執行以上指令時會同時產生 ascii 和 unicode

完全無法理解為什麼會有這個問題

為了解決可以使用以下二個語法

wmic qfe list | findstr "^" >> a.txt

或

wmic qfe list | find /v "" >> a.txt

再來是如果

echo <abc> >> a.txt

會出現錯誤

必須使用跳脫字元

echo ^<abc^> >> a.txt

再來是換行的問題

要換行可以使用

echo. >> a.txt

如果不想換行可以使用

echo|set /p="abc" >> a.txt

https://stackoverflow.com/questions/44065913/mixed-ascii-and-unicode-output-from-script-how-to-get-command-to-output-all-as

https://stackoverflow.com/questions/44065913/mixed-ascii-and-unicode-output-from-script-how-to-get-command-to-output-all-as#44066587

http://129.226.226.195/post/10641.html

2023/06/05

朋友介紹的好用免費 P2V 軟体

https://www.starwindsoftware.com/starwind-v2v-converter

2023/05/24

/usr/sbin/iptables -A INPUT -p tcp -s 192.168.1.0/24 --dport 22 -j ACCEPT

/usr/sbin/iptables -A INPUT -p tcp -s 0/0 --dport 22 -j DROP

/usr/sbin/iptables -A INPUT -s 127.0.0.1 -j ACCEPT

/usr/sbin/iptables -A INPUT -s 192.168.0.0/16 -j ACCEPT

/usr/sbin/iptables -A INPUT -s 10.0.0.0/8 -j ACCEPT

/usr/sbin/iptables -A INPUT -m state --state ESTABLISHED -j ACCEPT

在DROP前必須加上以上這行封包才能出去

/usr/sbin/iptables -A INPUT -s 0/0 -j DROP

2023/05/05

一直以來都會定時去 graylog 撈資料

會使用到多個 OR 的下法

accept AND ( 192.168.33.238 OR 192.168.34.215 OR 192.168.33.43 OR 192.168.34.142 OR 192.168.54.247 OR 192.168.7.253 OR 192.168.26.237 OR 192.168.26.228 OR 192.168.25.211 OR 192.168.25.206 OR 192.168.25.117 OR 192.168.26.104 OR 192.168.25.183 OR 192.168.31.241 OR 192.168.30.112 OR 192.168.30.80 OR 192.168.29.6 OR 192.168.29.3 OR 192.168.30.60 OR 192.168.30.58 OR 192.168.29.143 OR 192.168.30.57 OR 192.168.29.223 OR 192.168.29.164 OR 192.168.29.84 OR 192.168.30.200 OR 192.168.30.32 OR 192.168.29.29 OR 192.168.29.199 OR 192.168.29.205 OR 192.168.29.210 OR 192.168.29.200 OR 192.168.29.234 OR 192.168.30.220 OR 192.168.30.194 OR 192.168.29.83 OR 192.168.29.4 OR 192.168.30.108 OR 192.168.29.177 OR 192.168.29.107 OR 192.168.29.32 OR 192.168.30.33 OR 192.168.30.173 OR 192.168.30.247 OR 192.168.30.122 OR 192.168.30.55 OR 192.168.29.19 OR 192.168.29.10 OR 192.168.30.123 OR 192.168.30.201 OR 192.168.29.253 OR 192.168.30.85 OR 192.168.29.48 OR 192.168.30.37 OR 192.168.30.66 OR 192.168.9.100 OR 192.168.30.163 OR 192.168.30.114 OR 192.168.30.59 OR 192.168.30.199 OR 192.168.30.227 OR 192.168.30.41 OR 192.168.29.246 OR 192.168.29.161 OR 192.168.74.248 OR 192.168.74.12 OR 192.168.10.111 OR 192.168.10.104 OR 192.168.50.154 OR 192.168.52.1 OR 192.168.52.3 OR 192.168.50.243 OR 192.168.50.220 OR 192.168.50.179 OR 192.168.50.99 OR 192.168.50.138 OR 192.168.50.98 OR 192.168.50.182 OR 192.168.50.206 OR 192.168.50.234 )

但今天使用同樣的語法

出現以下的 error

While retrieving data for this widget, the following error(s) occurred:

OpenSearch exception [type=too_many_nested_clauses, reason=Query contains too many nested clauses; maxClauseCount is set to 1024].

問了bing

要修改 /etc/opensearch/opensearch.yml

加上

indices.query.bool.max_clause_count: 10240

重啟 opensearch 目前正常

2023/05/03

因應centos 7 的EOS

最近把 grafana 轉到 debian

grafana 安裝好後移轉資料

Install used plugin on new server

grafana-cli plugins install grafana-image-renderer

grafana-cli plugins install grafana-clock-panel

grafana-cli plugins install grafana-worldmap-panel

Stop Grafana service on source and destination server

Copy /var/lib/grafana/grafana.db from old to new server

Check /etc/grafana/grafana.ini

以上copy完後要注意檔案擁有者及權限問題

Restart Grafana

Regular connection to the grafana url

Dashboard, datasource, users, psw, team,… are the same

因為之前有在本机開 influxdb

所以移轉

influxd backup /tmp/backup

只備分資料結構不備分資料

influxd restore -metadir /var/lib/influxdb/meta /tmp

本來有開API給遠端撈資料

在9版之後改成 service accounts

所以直接轉換

轉後去後遠端還是撈不到資料本來以為是key的問題

查了log才發現要補一些package

apt install libglib2.0-0

apt install libnss3

apt install libatk1.0-0

apt install libatk-bridge2.0-0

apt install libcups2

apt install libdrm2

apt install libxkbcommon0

apt install libxcomposite1

apt install libxdamage1

apt install libxfixes3

apt install libxrandr2

apt install libgbm1

apt install libpangocairo-1.0-0

apt install libasound2

目前看來是都正常了

https://blog.robodock.net/influxdb-bei-fen-yu-hui-fu/

https://community.grafana.com/t/how-to-move-migrate-grafana-to-a-newer-version-system-on-a-local-container-environment/13822/4

2023/04/21

mobasshtunnel local port forwarding 使用時机如下

有一台僅供內部使用的 proxy 或 server

想要透過 tunnel 使用

架構圖如下

synology在儲存管理員中修改以下二個設定可以再增加一些效能

2023/04/20

graylog時不時就會出現以下的訊息

修改一下 config

預設值是1秒

#gc_warning_threshold = 1s

先改成5秒再觀察看看

新机器進來

把graylog升到5版順便搬進去

原本机器上的設定要移過去

之前都是一個一個做

今天才發現有 content pack 這個功能超方便的可以一次搬好

首先進入舊几上的 content pack

建一個新的 content pack

填寫必要欄位名稱不能使用純數字否則會有問題

往下拉選擇那些要匯出

選完後下一步下一步就會建立一個新的 content pack 叫 test

在 more actions 可以 download

接下來在新机上一樣進到 content pack 就可以upload

上傳後直接install 就可以了

proxmox安裝almalinux 9 時會出現以下的問題無法開几

cpu不能使用預設的kvm64

要改成host才行

2023/04/14

為了因應centos 7 EOS

今天在轉移程式到 almalinux 9 時 mutt 一直無法寄信

mail server 的log如下

Apr 14 10:09:09 mail postfix/smtpd[523701]: connect from unknown[10.0.0.1]

Apr 14 10:09:09 mail postfix/smtpd[523701]: lost connection after STARTTLS from unknown[10.0.0.1]

看來almalinux 9的mutt 預設會使用 STARTTLS

在 .muttrc 加上以下這行

set ssl_force_tls = no

目前寄信正常了

20240308 後記

轉換到新mail server後有些mutt又出現不能寄信的狀況

以下是log

Mar 8 06:13:01 mail postfix/smtpd[27212]: warning: TLS library problem: error:0A000126:SSL routines::unexpected eof while reading:ssl/record/rec_layer_s3.c:320:

Mar 8 06:13:01 mail postfix/smtpd[27212]: lost connection after STARTTLS from unknown[10.0.0.1]

必須在.muttrc再加上 set ssl_starttls = no

包括之前說明的共二行如下

set ssl_force_tls = no

set ssl_starttls = no

目前正常了再觀察看看

2023/04/09

在 proxmox backup server 中使用 api 撈取相關資料

先建立 API token 要記住 token

再設定權限

使用 curl 撈取相關資料範例如下

curl --location --insecure --request GET 'https://10.0.0.1:8007/api2/json/nodes/{localhost}/tasks' --header 'Authorization: PBSAPIToken=root@pam!abc:your_token'|jq

API相關資料路徑可參考以下原廠連結

https://pbs.proxmox.com/docs/api-viewer/index.html

2023/03/02

使用curl 撈取 loki 資料的語法

依需求需要更改之處

job="abc"

查詢的關鍵字 192.168.1.2

查詢的區間

curl -G -s "http://10.0.0.1:3100/loki/api/v1/query_range" --data-urlencode 'query={job="abc"} |~ "192.168.1.2"' --data-urlencode "start=$(date -u +'%Y-%m-%dT%H:%M:%SZ' -d '-8 hour')" --data-urlencode "end=$(date -u +'%Y-%m-%dT%H:%M:%SZ')"

curl -G -s "http://10.0.0.1:3100/loki/api/v1/query_range" --data-urlencode 'query={job="abc"} |~ "192.168.1.2"' --data-urlencode "start=$(date -u +'%Y-%m-%dT%H:%M:%SZ' -d '-7 day')" --data-urlencode "end=$(date -u +'%Y-%m-%dT%H:%M:%SZ')"|jq

2023/02/28

今天早上三點多開始收到ntopng的告警

進主几看了一下 process不見了

重開也沒用

看了一下log

ntopng果然有更新

更新後起不來

接下來看ntopng的log

發現本次更新後必須使用到 libbpf.so.0

Feb 28 08:09:17 W-ntopng-ubuntu-2004 ntopng[3247]: /usr/bin/ntopng: error while loading shared libraries: libbpf.so.0: cannot open shared object file: No such file or directory

Feb 28 08:09:22 W-ntopng-ubuntu-2004 ntopng[3272]: /usr/bin/ntopng: error while loading shared libraries: libbpf.so.0: cannot open shared object file: No such file or directory

Feb 28 08:09:28 W-ntopng-ubuntu-2004 ntopng[3294]: /usr/bin/ntopng: error while loading shared libraries: libbpf.so.0: cannot open shared object file: No such file or directory

apt install libbpf0

目前正常了再觀察看看

2023/02/22

昨天有朋友問我說proxmox的guest開不了几

不知是什麼問題

連進去看了一下

發現一個guest開了好几個HD

而且每個HD都開到2T

而且還做了好几個snapshot

導致實際上guest的HD 膨脹到5T或更大

把空間全部吃滿了

所以無法開几

因為是使用qcow2格式

所以snapshot會長在原來的檔案上

我是覺得奇怪

guest開那麼多個2T的檔案

user不會覺得效能不好嗎

解決的方式就是把舊的snapshot砍一砍

再觀察看看

2023/02/13

今天早上要進ntop管理介面的時候

打完帳號密碼登不進去

進os看了一下HD滿了

然後再看log

出現一堆如下的訊息把HD塞爆了

Feb 13 08:14:29 W-ntopng ntopng[286]: 13/Feb/2023 08:14:29 [SQLiteAlertStore.cpp:151] ERROR: SQL Error: database disk image is malformed

Feb 13 08:14:29 W-ntopng ntopng[286]: INSERT INTO flow_alerts (alert_id, interface_id, tstamp, tstamp_end, severity, ip_version, cli_ip, srv_ip, cli_port, srv_port, vlan_id, is_cli_attacker, is_cli_victim, is_srv_attacker, is_srv_victim, proto, l7_proto, l7_master_proto, l7_cat, cli_name, srv_name, cli_country, srv_country, cli_blacklisted, srv_blacklisted, cli_location, srv_location, cli2srv_bytes, srv2cli_bytes, cli2srv_pkts, srv2cli_pkts, first_seen, community_id, score, flow_risk_bitmap, alerts_map, cli_host_pool_id, srv_host_pool_id, cli_network, srv_network, probe_ip, input_snmp, output_snmp, json, info) VALUES (26, 3, 1676247257, 1676247266, 3, 4, '192.168.40.66', '192.168.0.65', 44983, 80, 0, 0, 0, 0, 0, 6, 7, 0, 5, '', '', '', '', 0, 0, 0, 0, 126, 120, 2, 2, 1676247257, '1:rj5vzKw7WQX8TONTQ++bh3BkBh8=', 10, 70368744177664, X'04000000', 0, 0, 65535, 65535, '0.0.0.0', 0, 0, '{"ntopng.key":12345678,"hash_entry_id":23456789,"alert_generation": {"script_key":"ndpi_unidirectional_traffic","subdir":"flow","flow_risk_info":"{\"46\":\"No client to server traffic\"}"},"proto": {"http": {},"confidence":0}}', '');

google了一下是 sqllite 因為斷電導致有問題

果然

斷一次電事情一堆

看是有recovery sqlite的方法

算了

直接倒回事發前一天晚上的備分好了

倒回後目前正常

再觀察看看

https://blog.csdn.net/wolfking0608/article/details/71076588

2023/02/11

今天下午几房斷電

有一台graylog啟動後

三個 service都有起來

但從管理介面看log全都卡住

過了一個小時還是沒有消化

想說應該是 elasticsearch 有問題了

看了log

[2023-02-11T20:27:56,520][WARN ][o.e.c.r.a.AllocationService] [localhost.localdomain] failing shard [failed shard, shard [graylog_666][2], node[0l7asmrIRFeIxc3FyAB14Q], [P], recovery_source[existing store recovery; bootstrap_history_uuid=false], s[INITIALIZING], a[id=yqeR9a7CSUC4ZIIz-a07Gw], unassigned_info[[reason=ALLOCATION_FAILED], at[2023-02-11T12:27:55.997Z], failed_attempts[4], failed_nodes[[0l7asmrIRFeIxc3FyAB14Q]], delayed=false, details[failed shard on node [0l7asmrIRFeIxc3FyAB14Q]: failed recovery, failure RecoveryFailedException[[graylog_666][2]: Recovery failed on {localhost.localdomain}{0l7asmrIRFeIxc3FyAB14Q}{AHesmcGhQvGWAw7Gxl2V6A}{10.10.0.1}{10.10.01:9300}{dimr}]; nested: IndexShardRecoveryException[failed to recover from gateway]; nested: EngineCreationFailureException[failed to create engine]; nested: NoSuchFileException[/mnt/elasticsearch/nodes/0/indices/soJ39cmwT5-UlEyVIPvfAg/2/index/_x63f.fdt]; ], allocation_status[deciders_throttled]], message [failed recovery], failure [RecoveryFailedException[[graylog_666][2]: Recovery failed on {localhost.localdomain}{0l7asmrIRFeIxc3FyAB14Q}{AHesmcGhQvGWAw7Gxl2V6A}{10.10.0.1}{10.10.0.1:9300}{dimr}]; nested: IndexShardRecoveryException[failed to recover from gateway]; nested: EngineCreationFailureException[failed to create engine]; nested: NoSuchFileException[/mnt/elasticsearch/nodes/0/indices/soJ39cmwT5-UlEyVIPvfAg/2/index/_x63f.fdt]; ], markAsStale [true]]

org.elasticsearch.indices.recovery.RecoveryFailedException: [graylog_666][2]: Recovery failed on {localhost.localdomain}{0l7asmrIRFeIxc3FyAB14Q}{AHesmcGhQvGWAw7Gxl2V6A}{10.10.0.1}{10.10.0.1:9300}{dimr}

果然

手動 rotate active write index

有消化了

再觀察看看

2023/02/08

nftables 雖然是很久的東西了還是記一下

安裝

dnf install nftables

清空所有

nft flush ruleset

設定新table

nft add table inet filter

新增一個chain 並預設規則

nft add chain inet filter INPUT { type filter hook input priority 0 \; counter \; policy accept \; }

在chain加上新規則

nft insert rule inet filter INPUT ip saddr 192.168.12.85 tcp dport 22 drop

列出規則

nft list table inet filter

列出規則顯示 handle 號以利刪除

nft -an list table inet filter

列出所有table的規則

nft -an list ruleset

刪除規則

nft delete rule inet filter INPUT handle 2

nft加的規則 iptables 去看會不完整

但是有作用的

下完 nft flush ruleset 後

再下 nft -an list ruleset 是看不到資料的

但如果再下iptables -L

下完後

再 nft -an list ruleset

就會看到如下的ruleset

table ip filter { # handle 3

chain INPUT { # handle 1

type filter hook input priority 0; policy accept;

}

chain FORWARD { # handle 2

type filter hook forward priority 0; policy accept;

}

chain OUTPUT { # handle 3

type filter hook output priority 0; policy accept;

}

預設所有下的指令重開几就會清掉如果要重開几自動執行

nft list ruleset >> /etc/sysconfig/nftables.conf

或

先匯出成檔案

nft list ruleset > /etc/nftables/nft_policy.nft

然後再 /etc/sysconfig/nftables.conf

include "/etc/nftables/nft_policy.nft"

重開後撈進來

如果確定不再需要 iptables

移除

dnf remove iptables

https://www.cnblogs.com/vincenshen/p/12333904.html

https://www.linuxprobe.com/linux-nftables-iptables.html

2023/02/07

sshpass

範例

sshpass -p passwd ssh root@10.0.0.1 date

2023/02/04

今天在檢查 pbs 時又出現 GC (garbage collection) warning 的log

再去看前一天的備分

是顯示備份完成且沒有錯誤的

不知道為什麼備分完成沒有錯誤但GC時會出現如下的錯誤

2023-02-02T00:00:22+08:00: WARN: warning: unable to access non-existent chunk 4d9f87572f2ff8d9f324aef1263e1ab47181a764aac801918b6dd5567fdfdde9, required by "/mnt/nfs418/ct/112/2023-01-31T16:00:47Z/catalog.pcat1.didx"

2023-02-02T00:00:22+08:00: WARN: warning: unable to access non-existent chunk e82ad3ac9b4b29c55420a44c29029c1a69ebd2cae156994c7e6a4f6a3b44524d, required by "/mnt/nfs418/ct/112/2023-01-31T16:00:47Z/catalog.pcat1.didx"

2023-02-02T00:00:22+08:00: WARN: warning: unable to access non-existent chunk 7eeadcfafebe86f0244ab4b07167644784be8485da119208d91e078efb48a7de, required by "/mnt/nfs418/ct/112/2023-01-31T16:00:47Z/root.pxar.didx"

而且問題來了

再接下來每一次備分都會顯示備分完成無異常

但GC就會一直錯誤

而且一旦GC有錯誤這個備分就無法還原

目前pbs在GC有錯誤時無法主動發mail 告警

所以解決方法就是寫個程式每天檢查GC是否有錯誤

如果有

就要把有錯誤相關的備分砍了

讓接下來的備分能正常

2023/02/03

atftp

sudo apt install atftpd

mkdir /tftp_data

chmod -R 777 /tftp_data

atftpd --daemon --port 69 /tftp_data

訂閱：文章 (Atom)