tabular」の検索結果

24
githubGitHubあり2026-06-09

unstructured — Convert documents to structured data effortlessly. Unstructured is open-source ETL solution for transforming complex documents into clean, structured formats for language models. Visit our website to learn more about our enterprise grade Platform product for production grade workflows, partitioning, enrichments, chunking and embedding.

ドキュメントを構造化するために使えるオープンソースのETLソリューション。

表形式向き自然言語処理大規模言語モデル画像テキスト表形式
用途
ドキュメントの構造化
難易度
Easy
コスト
High
arxivPaper only2026-06-08

BSTabDiff: Block-Subunit Diffusion Priors for High-Dimensional Tabular Data Generation

高次元表形式データでは、数値サンプル(n)が特徴数(m)を上回ることが多いです。つまりこれらのドメインでは、$\mathbb{R}^m$ で直接密度関数を表現することは非実際である。私たちは、BSTabDiff:ブロック

表形式向きコンピュータビジョンセグメンテーション生成表形式
用途
高次元表形式データの生成
難易度
Hard
コスト
High
arxivGitHubあり2026-06-08

TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders

可勉強のターブルの信号に関する表現モデルが、異なるトレーニングパラダイムを持つモデルを評価しやすくする基準であるTRL-Benchを提案している。

表形式向き品質予測/異常検知深層学習軽量化・量子化埋め込みテキスト表形式
用途
可勉強のタブラー信号に対する表現モデルの評価基準を標準化する
難易度
Hard
コスト
High
arxivPaper only2026-06-08

LATTEArena: An Evaluation Framework for LLM-powered Tabular Feature Engineering (Extended Version)

LLMがTABULARデータ分析で機能を自動化できるようにした。しかし、標準化されたプラットフォームの欠如は、比較やコスト的評価を行うのを難しくしている。複雑なメソッドの設計により、各コンポーネントの具体的な貢献をはっき

少数データ向き表形式向き自然言語処理大規模言語モデル分類生成回帰
用途
TABULARデータ分析のLLMパラダイムの比較評価
難易度
Hard
コスト
High
githubGitHubあり2026-06-07

presidio — An open-source framework for detecting, redacting, masking, and anonymizing sensitive data (PII) across text, images, and structured data. Supports NLP, pattern matching, and customizable pipelines.

presidioは、テキスト、画像、構造化データを含む敏感データを検出、削除、マスク、アノニマイズするオープンソースフレームワークです。自然言語処理、パターンマッチング、カスタマイズ可能なパイプラインをサポートします。

表形式向き深層学習Transformer分類検出画像
用途
データのプライバシーを保護する
難易度
Easy
コスト
Low
arxivPaper only2026-06-03

TabSODA: Tabular Diffusion based Imputation with Skip Pattern Detection and Ordinal Awareness

本論文では、欠損値がある表格型データの欠損補完に関して取り組み、欠損値がないセルと同様に動作するSkipパターン検出と順序性意識のあるdiffusionベースの欠損補完アルゴリズムを提案しました。

表形式向きコンピュータビジョンセグメンテーション検出テキスト表形式
用途
表格型データの欠損補完
難易度
Hard
コスト
High